Поиск в Internet: новые методики

Поиск в Сети - вечная и никогда не теряющая актуальности тема. Здесь всегда можно ожидать полезных новинок, облегчающих жизнь простым пользователям Internet. Мы ежедневно путешествуем по Всемирной паутине в поисках нужной информации на Web-узлах, но, как правило, редко достигаем желаемого результата. В работе над усовершенствованием поисковых машин в последнее время объединяют усилия программисты и маркетологи. Они продолжают биться над проблемой релевантности результатов поиска, и у каждого на данный вопрос есть свой ответ.

DirectHit

Вспомните, как часто вам приходилось задавать вопросы "Где находится Ленинская библиотека?" или "Как пройти к памятнику Александра Сергеевича?" друзьям, коллегам по работе либо просто-напросто первому встречному на незнакомой улице. Поиск информации в Internet напоминает движение по неосвещенной дороге толпы людей, которые по очереди упорно наступают на один и тот же камень преткновения. Каждый пользователь прилежно изучает стандартный набор бесполезных ссылок, полученных на типичный запрос в любом из вышеперечисленных поисковых механизмов, и лишь после просмотра сотни-другой, а иногда и третьей найденных документов издает долгожданное и восторженное: "Эврика!".

DirectHit частично решает эту проблему, предоставляя своим посетителям возможность воспользоваться бесценным опытом своих предшественников. Служба анализирует поведение миллионов людей, ежедневно обращающихся к различным поисковым узлам, и для каждого запроса фиксирует наиболее часто используемые ссылки. Система учитывает также количество времени, проведенное пользователем за изучением содержимого web-страниц, скрывающихся за ссылками. И чем оно больше, тем выше становится значение релевантности, а проще говоря, оценка ресурса.

Не менее полезной и значимой, по сравнению с предыдущими, особенностью поискового механизма DirectHit является также функция Related Searches (Связанный поиск), которая точно и быстро отслеживает связи между различными запросами пользователей. Поэтому, сформулировав запрос, посетитель получает в ответ набор связанных между собой тем, которые он может просмотреть, расширив области и категории своего поиска.

Кроме этого, DirectHit разработала еще одно не менее интересное нововведение: Personalized Search (Индивидуальный поиск). Этот вариант сервиса учитывает различия в интересах разных социальных групп. Пользователь, подписавшись на услуги Personalized Search, сначала заполняет анкету, в которой указывает свой пол, место проживания, род занятий и прочие сведения. После этого система, проанализировав полученную информацию, сможет предложить ему ссылки, заинтересовавшие других людей с похожими анкетными данными. Так, например, для европейца слово "motorsport" ассоциируется с чемпионатом Formula-1, а для жителя США - с серией CART и соревнованиями NASCAR.

Индексная база службы пополняется с помощью робота-индексатора Grabber. При ее обновлении система применяет "избирательную стратегию", согласно которой сайты, получившие наибольшее количество переходов с результатов поиска, просматриваются чаще (раз в неделю), чем все остальные ресурсы (полное обновление происходит раз в месяц). Производительность аппаратного кластера, поддерживающего функционирование робота, позволяет индексировать до 10 миллионов web-сайтов в день, при том минуя повторяющиеся и мертвые ссылки.

Впрочем, DirectHit не пытается "раскрутиться" как самостоятельная служба, а понемногу "продвигает" свои услуги с помощью различных партнеров, которых уже сегодня собралось внушительное количество. Microsoft, Lycos, HotBot, ICQ, AOL и многие другие известные компании уже сегодня используют ее возможности в своих поисковых средствах.

Google

Начало этой, появившейся совсем недавно, поисковой службе с непонятным названием положили студенты Стэндфордского университета: бывший москвич Сергей Брин (Sergey Brin) и Ларри Пэйдж (Larry Page). Название новому поисковому механизму они выбрали неслучайно: слово "Google" является производным от "термина" googol, придуманного племянником известного американского математика Эдварда Каснера (Edward Kasner), и означает число, записываемое как единица со ста нулями. Академичность происхождения определила академичность подхода. Компаньоны взяли на вооружение общеизвестную систему "оценки ценности" статей, принятую в мировом научном сообществе. Рейтинг статьи - производная от общего количества цитат и ссылок на нее в других научных публикациях. Google, в отличие от своих "соплеменников", высчитывает релевантность документа, попавшего в результаты поиска в соответствии с количеством ссылающихся на него других Web-страниц. "Старинные" бумажные принципы оказались действенными и в Internet. Однако Сергей и Ларри на этом не остановились и пошли дальше, создав продуманную и оригинальную методику.

Цитируемость документа Google вычисляет с помощью новейшей системы PageRank, значение которой для любого документа учитывает количество ссылок на него во всех прочих проиндексированных источниках и вычисляется по формуле:

PR(A) = (1-d) + d (PR(T1)/C(T1) +... + PR(Tn)/C(Tn)),

где A - собственно оцениваемый документ, PR(X) - рейтинг документа X, C(X) - общее количество ссылок со страницы X, T1... Tn - документы, ссылающиеся на A, а d - некий фактор случайности, описывающий поведение посетителей. Итак, PR(A) представляет собой вероятность попадания хаотически путешествующего по Web пользователя на страницу A. Величина d, которую изобретатели установили равной 0,85, характеризует вероятность того, что, находясь на странице, участвующей "в оценочной формуле", посетитель неожиданно заскучает и решит взбодриться, перескочив на произвольную страницу в Интернете путем набора URL-адреса прямо в соответствующем поле своего браузера.

Как видно из формулы, "рекомендация" от страницы, имеющей высокую "репутацию", обладает большим весом, что позволяет правильно оценивать значимость непопулярных, но качественных сайтов. В эту схему хорошо вписываются запросы, состоящие всего из одного-двух слов, а в случае нескольких заданных терминов система учитывает и другие факторы. Например, оценка близости искомых слов в документе заключается в выборе из десяти "дискретных" значений, начиная от совпадения фразы целиком и заканчивая анализированием каждого символа введенного запроса, порядок слов которого не имеет для Google никакого значения.

Несколько слов о внешнем виде системы. Титульная страница Google весьма похожа на текстовые (text-only) варианты других поисковых механизмов. В центре - поле ввода запроса и две кнопки. Первая - Google Search - приведет вас к странице, оснащенной информацией о десятке найденных документов, а вторая - "I'm Feeling Lucky" - сразу отправит ваш браузер по наиболее релевантному, по мнению системы, URL-пути. Чуть ниже примостилась скромная ссылка (browse web pages) на недавно организованный Internet-каталог.

Составляя запрос, следует помнить, что Google:

автоматически вставляет между всеми словами запроса оператор AND и не поддерживает оператор OR, а также возвращает только те страницы, которые содержат абсолютно все термины запроса;
позволяет исключить слова-"паразиты" с помощью символа "-", однако не работает с шаблонами ("?", "*" и т. д.);
рассматривает слова, заключенные в двойные парные кавычки, как указание искать только полные совпадения фраз и автоматически удаляет отдельно стоящие цифры и буквы, слова com, http и тому подобные "бессмысленные" термины, но сделает исключение для вас, если обнаружит значок "+" перед ними;
предлагает особый вид услуг - выдачу всех ссылок на заданную страницу (link: <url>).

Впрочем, компания Google не ограничилась только поисковым сервисом и занимается созданием собственного Internet-каталога под названием GoogleDirectory. И в этом случае Брин и Пэйдж пытаются воспользоваться чужим опытом - данные для каталога поставляет организация добровольцев Open Directory Project, работающая под эгидой Netscape. Ее члены уже долгое время коллекционируют наиболее интересные и популярные ресурсы Всемирной Сети. Сегодня GoogleDirectory насчитывает описания более полутора миллионов специально отобранных узлов. Технология PageRank позволила придать старой идее новые качества - сайты каждой категории отсортированы соответственно своему рейтингу цитируемости. Информация, почерпнутая из каталога, всегда дополняет результаты традиционного поиска в Web, так что дважды искать одну и ту же информацию вам не придется.

(Окончание следует)

Виталий ФРИДМАН,
[email protected]

Автор выражает благодарность Сергею Митилино (www.itc.kiev.ua) за помощь в подготовке материала