Делать надо хорошо, плохо само получится. |
Бум поисковых систем в Интернете мы, казалось, пережили немногим менее десяти лет назад. В то время не было компьютерного издания, не публиковавшего обстоятельных инструкций по пользованию Yahoo! и "Рамблером" и не объяснявшего, как правильно писать запрос - "голые сиськи" или "голые & сиськи".
Пришествие второго поколения
С тех пор разработчики поисковых систем, по правде говоря, создали не так уж много нового, да и все то - с нехорошими поглядываниями в сторону Google. Конкуренция же между самими поисковиками уже давно идет не на уровне движков, а на уровне маркетологов и специалистов по юзабилити. Словом, к нынешнему моменту уже явно назрела необходимость появления чего-то нового - такого, чем стал Google в 1998 году. Вопрос, правда, в данном случае ставится скорее не как "что новое", а "как оно работает". Поясню.
Можно сказать, что поисковые системы "первого поколения" (доминирующие и сейчас), действовали по такому принципу: "Пользователь, ты хотел ЭТО - вот оно, скорее всего на первой странице с результатами". То есть ставилась задача максимально переложить всю работу на машину, выдав результат "на блюдечке". Однако по мере роста веба довольно скоро проявился побочный эффект такого подхода: чем больше найдено релевантной информации, тем больше раз пользователю приходится перебирать варианты поисковых фраз, чтобы подобрать оптимальный запрос.
Поисковые системы "второго поколения", которые как раз сейчас пробуют свои силы, действуют принципиально по-другому. Они организовывают взаимодействие с пользователем в процессе поиска. Пользователю нужно, последовательно выбирая варианты, сконструировать наиболее подходящий запрос, а поисковый робот по ходу дела помогает. Конечно, при этом на любом шаге можно убирать уже введенные слова или вписывать свои варианты, "отыгрывать назад" и т. д. Устоявшегося определения для группы таких технологий пока нет, наиболее распространенная - "ассоциативный поиск".
VisualWorld
Именно ассоциативный поиск лежит в основе поисковой системы VisualWorld.ru. После ввода ключевого слова система подбирает слова, которые ассоциируются с уже введенным словом. После этого осуществляется поиск по комбинации слова-ассоциации и уже введенной части запроса, показывая популярность предлагаемых вариантов. То есть производится поиск не точного вхождения слов запроса в страницу, а поиск страниц, максимально точно описывающих то, что написано в запросе. К слову, попутно обычно обнаруживается много всего интересного по теме запроса. Не случайно создатели говорят: "Проект VisualWorld.ru - это система поиска знаний и ответов на вопросы."
В описании поисковика сказано: "Проект VisualWorld.ru - это развитие проекта "Визуальный словарь", представляющий собой поисковую информационную систему, объединяющую систему семантического поиска в Internet и поиск по энциклопедиям c визуализацией ассоциативных связей. Система имеет собственную базу и оригинальные поисковые алгоритмы. Проект VisualWorld.ru развивался при поддержке Санкт-Петербургского института информатики РАН. Владельцем ресурса является компания "Поиск ИТ", занимающаяся разработкой интернет-сервисов."
Испытание словом
Итак, проверяем в действии. Стартовая страница проекта выглядит совсем уж аскетично - проще "Гугла", даже значка копирайта нет, зато есть многое объясняющее слово "Бета". Ладно, вводим для начала предельно простое слово "банан". В левой части страницы выстраивается список кластеров - слов-ассоциаций, внутри каждого из которых содержится еще пара десятков слов-ассоциаций (их число указано в скобках рядом с кластером). Чтобы вы лучше поняли логику поисковика, приведу список кластеров к слову "банан": молоко, виноград, парашют, сорт, кокос, ананас, персик, приговаривать, трах, апельсин. Всего кластеры содержат, как услужливо сообщила система, 366 слов. В середине страницы - динамическая картинка, напоминающая паука: иллюстрация семантических связей между ключевыми словами. Визуализация, конечно, впечатляет. Если прокрутить экран вниз, обнаружится обычный список результатов поиска - как если бы мы искали "банан", скажем, в "Рамблере".
Продолжим. Ладно, молоко банановое бывает, как и парашют типа "банан", а вот при чем тут "приговаривать"? Лезем в кластер. Схема семантических связей становится совсем запутанной, но весьма забавной. Новые кластеры выстраиваются в два столбца, заставляя меня выпучить глаза на "трах, panoptic2005, застенчивый, порномодель, почтовый, невинный, ящик, yandex". А при чем тут банан? В общем, продолжал я это исследование довольно долго, но газетная площадь не позволяет расписывать все красоты подробно. В итоге так ничего и не добился, зато схема семантических связей начала напоминать схему железных дорог СССР. Стало ясно, что поисковику остро не хватает словарного запаса. Ну, это дело наживное... Кстати, по ходу путешествия по ассоциативным кластерам новые слова одно за другим добавляются в строку поиска. Что, собственно, и требовалось.
Что интересно, слово "превед" VisualWorld в тупик не поставило - поисковик обработал его без сучка без задоринки, выдав кучу совершенно правильных ассоциаций. Запрос "модемная связь" выдал два списка кластеров - все с совершенно точными ассоциативными рядами. Интересно, чем же его так "банан" напугал-то? А вот на ту жуть, которая получилась в результате запроса "Компьютерные Вести", лучше посмотрите сами. Газету, кстати, я так и не нашел, а вот нервам пришлось затем давать изрядную передышку.
Выводы
Система VisualWorld ищет не факты присутствия отдельных ключевых слов на веб-страницах, а страницы, максимально точно описывающие то, что содержится в запросе. Ну, по крайней мере, пытается. После ввода первого ключевого слова система начинает предлагать пользователю варианты продолжения запроса, подбирая слова-ассоциации. А вот со словосочетаниями работать пока не умеет: разбивает на отдельные слова, и по каждому дает свой список кластеров.
Кроме помощи в конструировании запросов, для каждой страницы система старается продемонстрировать ее структуру в виде схемы семантических связей между ключевыми словами и выдавать ключевые предложения в качестве аннотации. При этом все пока выглядит довольно неуклюже - словно трехлетний ребенок пытается собрать "Лего", предназначенное для пятилетнего.
Впрочем, представитель VisualWorld.ru Сергей Кулешов настроен оптимистично: "В нашей системе используются не простые слова-ассоциации, а различные уровни понятийной ассоциации, выявляемые на реальных текстах в Интернете. Более правильно понятие ассоциации распространить на семантико-смысловой аспект".
Виктор ДЕМИДОВ
Горячие темы