Ищите да обрящете!

17.05.2004 09:25

В истории создания систем поиска информации до последнего времени сложилась вполне устоявшаяся хронология событий. Точкой отсчета обычно называют Ванневара Буша и его гипотетическую машину Memex (Memory Extender), далее переходят к Дагу Энгельбарту, затем к Теду Нельсону и, наконец, к Тиму Бернерсу-Ли.

Именно такой историческая последовательность событий вплоть до последнего времени представлялась многим, пока недавно не удалось найти свидетельства, что эту точку отсчета следует перенести еще на полтора десятка лет назад. Обнаруженные данные свидетельствуют, что еще до Второй мировой войны в Европе предпринимались отдельные и малоизвестные попытки создать механические системы, призванные автоматизировать процедуры работы с источниками информации. В основном эти работы были связаны с именем Эмануэля Гольдберга. Результаты его деятельности исследователи и рассматривают в качестве предпосылок к гипертексту ничуть не в меньшей мере, чем работы Буша.

Статистическая машина Гольдберга стала первой практической реализацией автоматического селектора документов на микрофильмах. Cуществуют документальные доказательства, что машиной Гольдберга заинтересовались ведущие американские производители оптического оборудования. Корпорации Eastman Kodak и IBM не воспроизвели ее непосредственно, но использовали в качестве прототипа.

На первый взгляд, устройство Статистической машины незамысловато. Она обеспечивает чтение специальным образом подготовленной микропленки, на которой хранится массив документов. В отличие от обычных решений того времени в данном случае на пленке хранится два типа записей — собственно микрофильмированный документ и соответствующий этому документу тег - описание, закодированное в виде перфорации на той же пленке. Другими словами, перед нами своего рода предтеча гипертекста, где есть возможность поиска по метке. Выбор документа осуществляется посредством сравнения закодированного запроса с тегами на пленке.

Машина впервые была представлена в трудах VIII Международного фотографического конгресса, состоявшегося в 1931 году в Дрездене. О продуктивности Гольдберга свидетельствует то, что он сам своими главными достижениями, представленными на конгрессе, считал разработку системы оценки чувствительности пленки, которая известна всем под названиями DIN и ASA, а также исследования в области записи звука для кино.

За этими достижениями доклад под названием «Новый метод индексирования в фотографии» и статья в трудах конференции «Проблема поиска информации в фотографии» могли показаться менее существенными, но были замечены и оценены. В том же году статья была переведена и опубликована в Англии.

После войны Гольдберг ушел в тень. Этому способствовало не только преследование со стороны немецких властей, но и довольно странное стремление не предавать огласке его имя в Америке. Сам изобретатель никогда к сделанному в предвоенные годы не возвращался и никаких претензий на авторские права не предъявлял.

Сегодня же специалисты пытаются наладить поиск с использованием обычных двумерных изображений. Так, система поиска изображений Google показывает весьма неплохие результаты, однако при этом сами изображения в процессе поиска не анализируются - он ведется по аннотациям, сопровождающим текст.

Такие поисковые системы имеют один серьезный недостаток: запрос на поиск в интернете нужно сформулировать словами. Вместе с тем, зачастую возникает потребность найти то, что адекватно выразить словами очень трудно. Специалисты начали нащупывать методы решения этой проблемы.

Как сообщает CNN, профессор Purdue University Картик Рамани недавно разработал новую поисковую систему, в которой пользователь может выбрать интересующий его объект из обширного каталога трехмерных изображений, даже не указывая его названия. В каталоге представлены объекты из разных областей - от комплектующих авиационной техники до архитектурных элементов. Пользователю нужно лишь набросать эскиз детали, которую он ищет, и машина сама подберет аналоги.

В своей нынешней ипостаси система предназначена для поиска комплектующих, для которых имеются CAD-изображения. При этом и объекты в базе данных, и введенный пользователем эскиз преобразуются в особый трехмерный формат, в котором изображение выглядит объемным, по аналогии с пиксельным форматом, после чего сравнивается с объектами из базы данных.