Я иду искать...

...кто не спрятался, я не виноват.

Вопрос, с которым мы попытаемся сегодня разобраться: какой поисковой машиной пользоваться. Вообще говоря, машин этих много, в том числе и поисковиков общего назначения. Однако очень немногие люди пытались самостоятельно выбрать из всего этого моногообразия. Обычно поисковая машина достается нам, что называется, "в наследство". Друзья посоветовали или там какой-нибудь знакомый просветленный компьютерный гуру, или на компьютерных курсах показывали, и так далее. Между тем достаточно немного статистики и здравого смысла, чтобы определиться, когда и чем имеет смысл пользоваться.

Собственно говоря, какие характеристики могут быть у поисковых машин? Первая и, пожалуй, самая важная - объем индексированных страниц. Ведь чем больше объем, тем больше вероятность найти среди всех этих страниц нужную. С другой стороны, если ищется какая-то достаточно распространенная информация, то вас буквально завалит результатами - как раз в таких случаях и рекомендуется обращаться к каталогам, о чем я писал в прошлый раз. Да, так вот, объем базы - это важно. Но ни одна поисковая машина сейчас не охватывает весь интернет. Собственно говоря, по результатам исследований 99 года, самая большая поисковая машина проиндексировала примерно 16% всех веб-ресурсов. Причем, если экстраполировать данные прошлых лет на нынешний год, то этот процент станет еще меньше. Отсюда следует, что базы разных поисковых машин, скорее всего, перекрываются не целиком, и потому, если результаты, выданные одной (даже самой большой), вас не устраивают, можно попробовать поискать при помощи других. Далее, интернет имеет свойство изменяться со временем. Новые сайты появляются, а старые исчезают. Насколько способны поисковые машины отследить последний момент, характеризует количество "мертвых ссылок", которые они возвращают при запросе.

А теперь немного статистики по крупнейшим поисковикам с сайта www.searchengineshowdown.com.

Машина Индексировано страниц Процентов среди уникальных ссылок Процентов мертвых ссылок
Google 700000000 7% 4.3%
Fast 607000000 27% 2.3%
MSN Search 500000000 4% 1.7%
AltaVista 500000000 18% 13.7%
Northern Light 322000000 8% 5.7%
iWon 500000000 0% --

Обратите внимание: количество индексированных страниц не совпадает с тем, что сообщает поисковая машина. Во-первых, это потому, что результаты взяты в начале года. Во-вторых, здесь учитываются только доступные для поиска страницы с полнотекстовой индексацией. Уникальные ссылки определялись по результатам одинаковых запросов на всех машинах. Процент уникальных ссылок позволяет оценить, насколько перекрываются поисковые базы разных машин. С мертвыми ссылками, думаю, все понятно - машина нашла результат в базе, но в действительности страница по этому адресу либо не существует, либо недоступна.

Итак, первоначальную оценку качества поисковиков мы получили. Но у всех них есть индивидуальные особенности, которые тоже могут повлиять на выбор. Как известно, у раджи с севера есть конь, который летает по воздуху. Что же полезного имеется у этих поисковиков?

Google (www.google.com). Как я уже писал, самый большой на сегодняшний день поисковик. Индексирует PDF-файлы, имеет достаточно развитую структуру запросов. Кэширует все страницы на момент индексации, так что даже если сайт ушел в "мертвую зону", можно посмотреть его содержимое. Поддерживает различные языки (в том числе русский). Имеет развитую систему Advanced Search (то бишь, расширенный поиск). Также имеет собственный каталог (directory.google.com - на основе open directory) и предоставляет доступ и поиск в архивах Usenet (groups.google.com - наследство Deja таки не пропало даром).

Northern Light (www.nlsearch.com). Не самая большая база данных, но зато умеет автоматически рассортировывать результаты поиска по категориям. Получается своего рода динамический каталог - очень удобно пользоваться, поскольку алгоритм сортировки в большинстве случае работает по уму. Еще одна фишка NL - так называемые Special Collections - тексты из более 7000 бумажных публикаций, которых нет в вебе. Правда, доступ к полным текстам платный, но, по крайней мере, можно посмотреть резюме. Мощный Power Search. Русского не понимает.

iWon (www.iwon.com), MSN Search (search.msn.com). И еще куча поисковиков (HotBot, NBCI и почивший ныне GoTo, например) используют базу данных Inktomi. Эти два наиболее удачные, пожалуй. Первый использует еще несколько баз данных, что в сумме дает хороший охват страниц, но возможности расширеного поиска там слабые. MSN Search - это то, что вызывается по нажатию кнопки Search в IE. Помимо большой базы данных, имеет очень мощный Advanced Search. Только вот грузится плохо.

Fast Search (www.alltheweb.com и www.lycos.com). Большая база данных. Неплохо реализован расширенный поиск. Есть отдельные базы данных по MP3 и FTP. Действительно, fast (в смысле, быстрый). Но русского не понимает.

AltaVista (www.altavista.com). Один из самых больших поисковиков. Целых три режима поиска - простой, Adwanced и Power. В двух последних - могучие возможности конфигурации запросов. Понимает русский язык (хотя как-то странно и не всегда). Есть отдельные базы данных по MP3 и графике.

Константин АФАНАСЬЕВ

Версия для печатиВерсия для печати

Номер: 

22 за 2001 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!