"Незабудка" в поиске

В связи с лавинообразным увеличением количества информации, причем в значительной части не систематизированной, проблема специализированного поиска какой-либо конкретной ее части ныне встала в полный рост.

Существующие в настоящий момент поисковые программы (далее - ПП) в той или иной степени обеспечивают технологию поиска информации внутри текста. Однако и процедура такого поиска, и его результаты никак нельзя считать оптимальными. Проблемы возникают уже на стадии формирования запроса, по которому затем производится поиск текста с определенным содержанием. Обычно в ПП запрос формируется в виде ключевого слова или комбинации ключевых слов, связанных логическими операторами. Для поиска одной и той же текстовой информации можно использовать разные ключевые слова, причем процедура их выбора достаточно субъективна (слишком большую роль играет человеческий фактор, хотя бы уровень знаний и интеллекта пользователя, делающего запрос). Однако даже в случае, когда ключевые слова определены адекватно, а запрос состоит только из одного слова, результат поиска может отличаться при обращении к различным ПП, которые используют разные процедуры индексации текста документов (одни индексируют лишь части текста, другие отличаются способом учета грамматических особенностей языка и т.д.). В итоге полученный список найденных документов может быть настолько внушительным, что просмотреть его полностью за разумный промежуток времени практически невозможно, и, следовательно, результат поиска целиком зависит от порядка, в котором ПП расположила найденные документы. Конечно, можно продолжить поиск среди уже найденных документов, используя в качестве запроса другое ключевое слово, результатом чего явится урезание списка найденного до разумного предела, при котором просмотр его не отнимет у пользователя лучшие годы жизни :-).

В общем, на современном этапе развития поисковых систем технология поиска внутри текста является, скорее, индивидуальным искусством, нежели качественно организованным процессом, не говоря уже о том, что излишне зависит от типа используемой ПП.

Одна из главных проблем состоит в том, что правильный выбор достаточного количества ключевых слов, а еще лучше словосочетаний, представляет определенную сложность, особенно при работе с незнакомым материалом. Для решения подобных проблем и создаются специализированные поисковые технологии, как, например, программный комплекс "Незабудка" (www.cplire.ru/win/InformChaosLab/products/products.htm), разработанный специалистами Института радиотехники и электроники Российской академии наук (ИРЭ РАН) и предназначенный для работы с неструктурированными факсимильными электронными копиями бумажных документов (книг, газет, деловой документации и т.п.), другими текстовыми документами.

В чем особенности этой "цветочной" технологии? "Незабудка" проводит полнотекстовую индексацию архивируемых документов; позволяет формулировать запрос для поиска на "естественном языке", используя в качестве запроса фрагмент текста, размер которого не ограничен, - например, страницу документа (функция "Поиск по документу"). Программа самостоятельно определяет ключевые слова и ключевые словосочетания, которые содержатся в запросе (фрагменте текста) и по которым затем ведется поиск. Ключевые слова и словосочетания, таким образом, образуются не в результате прямого вмешательства пользователя, а в процессе полнотекстовой индексации содержания книги или архива документов, формируются внутренним языком программы, и "поиск по тексту" означает поиск по этому специфическому языку. В "Незабудке" реализован поиск по неточному запросу (ассоциативный поиск), т.е. искомый фрагмент текста может быть найден внутри архива, несмотря на некоторое количество различий (ошибок) в тексте этого фрагмента и в тексте запроса для поиска. Список результатов поиска составляется не из найденных документов, а из страниц найденных документов, что позволяет быстро просматривать текстовую информацию. При этом программа расставляет найденные страницы документов (страницы, а не сами документы!) в порядке, который определяется количеством ключевых слов и ключевых словосочетаний, входящих в тексты этих страниц. Технология поиска, используемая в данной ПП, позволяет искать информацию в текстах, написанных на любом языке. В технологии применяются и традиционные варианты поиска информации: "по слову", "по родственным словам", "по группе слов, связанных логическими операторами", "в найденном".

Поисковая технология "Незабудка" не хранит текстовую информацию в исходном виде. В процессе индексации происходит устранение избыточной информации, для чего повторяющиеся фрагменты текстовых документов (слова, фразы) заменяются новыми символами внутреннего языка архива. При этом объем записываемой информации уменьшается в несколько раз. После индексации исходные текстовые документы становятся ненужными, и в архиве хранятся только сжатые в несколько раз тексты. Поиск происходит в сжатых текстах без промежуточной распаковки.

"Незабудка" была разработана в лаборатории "ИнформХаос" ИРЭ РАН, запатентована в США, Канаде и Европе и используется сегодня в нескольких программных продуктах. Особо стоит отметить два из них, речь о которых - ниже.

Программа "Электронная книга" предназначена для издания электронных книг, сборников трудов конференций, симпозиумов и т.п. и последующего распространения их на CD-ROM (очень удобна для издания в электронном виде трудов конференций, где рабочими являются несколько языков, так как поиск может производиться по документам на всех языках). Интерфейс программы реализован в виде графического изображения развернутой книги с группой служебных кнопок по краям обложки. Программа позволяет показывать сразу две страницы книги, листать их, увеличивать размер шрифта для удобства чтения, а при необходимости еще большего увеличения переходить к одностраничному представлению. "Электронная книга" поддерживает форматы TXT, PDF, DOC, RTF, HTML, осуществляя полнотекстовый поиск внутри текстовой части этих документов. Программа также позволяет издавать факсимильные копии книг, сохраняя при этом их оригинальный дизайн, а при желании и все пометки, сделанные на полях. Для издания книг кириллической печати или рукописей, компьютерное распознавание текста которых затруднительно, поиск может быть организован по вспомогательным фрагментам текста, приложенным к каждой странице рукописи. Например, это могут быть комментарии специалиста или соответствующим образом транскрибированный вариант оригинального текста.

Программа "Электронный архив" позволяет создавать архивы (БД) из разноязычных документов форматов TXT, PDF, DOC, RTF, HTML, осуществляя полнотекстовый поиск внутри текстовой части этих документов (имеются локальная и интернет-версии). Локальная версия программы обладает стандартным Windows-интерфейсом. В режиме просмотра и поиска может быть одновременно открыто четыре окна, в которых отражены: страница документа оригинального формата, текстовая часть этой страницы, окно поиска, список документов, содержащихся в архиве, и/или список страниц документов, найденных в процессе поиска. В "Электронном архиве", помимо стандартных возможностей "Незабудки", имеется еще функция анализа запроса поиска, при которой весь текст запроса разбивается на фрагменты, каждый из которых является элементом внутреннего языка программы, т.е. ключевым словосочетанием. Такая функция позволяет по набору ключевых словосочетаний понять, правильно ли выбран текст запроса, и определить, содержится ли необходимая информация в архиве, где производится поиск, еще до того, как процесс поиска будет запущен. Данная функция анализа запроса может быть использована также для сравнения документов и определения плагиата (если в архиве встретятся два одинаковых фрагмента текста, то весь фрагмент станет ключевым словосочетанием и может быть легко обнаружен).

Программный комплекс "Незабудка" реализован как поисковая машина, доступ к которой возможен с использованием стандартных браузеров типа Internet Explorer и Netscape. Для начала работы с комплексом должна быть запущена программа Personal Information Server (для Windows NT - Internet Information Server). Комплекс можно использовать как в локальных базах данных, так и в интернет-ресурсах.

Пробный инсталляционный пакет бета-версии комплекса "Незабудка" можно бесплатно скачать по адресу (www.cplire.ru/win/InformChaosLab/products/download.html) вместе с примерами архивов.

Майлз Vornet,
[email protected]