...кто не спрятался, я не виноват. |
Вопрос, с которым мы попытаемся сегодня разобраться: какой поисковой машиной пользоваться. Вообще говоря, машин этих много, в том числе и поисковиков общего назначения. Однако очень немногие люди пытались самостоятельно выбрать из всего этого моногообразия. Обычно поисковая машина достается нам, что называется, "в наследство". Друзья посоветовали или там какой-нибудь знакомый просветленный компьютерный гуру, или на компьютерных курсах показывали, и так далее. Между тем достаточно немного статистики и здравого смысла, чтобы определиться, когда и чем имеет смысл пользоваться.
Собственно говоря, какие характеристики могут быть у поисковых машин? Первая и, пожалуй, самая важная - объем индексированных страниц. Ведь чем больше объем, тем больше вероятность найти среди всех этих страниц нужную. С другой стороны, если ищется какая-то достаточно распространенная информация, то вас буквально завалит результатами - как раз в таких случаях и рекомендуется обращаться к каталогам, о чем я писал в прошлый раз. Да, так вот, объем базы - это важно. Но ни одна поисковая машина сейчас не охватывает весь интернет. Собственно говоря, по результатам исследований 99 года, самая большая поисковая машина проиндексировала примерно 16% всех веб-ресурсов. Причем, если экстраполировать данные прошлых лет на нынешний год, то этот процент станет еще меньше. Отсюда следует, что базы разных поисковых машин, скорее всего, перекрываются не целиком, и потому, если результаты, выданные одной (даже самой большой), вас не устраивают, можно попробовать поискать при помощи других. Далее, интернет имеет свойство изменяться со временем. Новые сайты появляются, а старые исчезают. Насколько способны поисковые машины отследить последний момент, характеризует количество "мертвых ссылок", которые они возвращают при запросе.
А теперь немного статистики по крупнейшим поисковикам с сайта www.searchengineshowdown.com.
Машина | Индексировано страниц | Процентов среди уникальных ссылок | Процентов мертвых ссылок |
700000000 | 7% | 4.3% | |
Fast | 607000000 | 27% | 2.3% |
MSN Search | 500000000 | 4% | 1.7% |
AltaVista | 500000000 | 18% | 13.7% |
Northern Light | 322000000 | 8% | 5.7% |
iWon | 500000000 | 0% | -- |
Обратите внимание: количество индексированных страниц не совпадает с тем, что сообщает поисковая машина. Во-первых, это потому, что результаты взяты в начале года. Во-вторых, здесь учитываются только доступные для поиска страницы с полнотекстовой индексацией. Уникальные ссылки определялись по результатам одинаковых запросов на всех машинах. Процент уникальных ссылок позволяет оценить, насколько перекрываются поисковые базы разных машин. С мертвыми ссылками, думаю, все понятно - машина нашла результат в базе, но в действительности страница по этому адресу либо не существует, либо недоступна.
Итак, первоначальную оценку качества поисковиков мы получили. Но у всех них есть индивидуальные особенности, которые тоже могут повлиять на выбор. Как известно, у раджи с севера есть конь, который летает по воздуху. Что же полезного имеется у этих поисковиков?
Google (www.google.com). Как я уже писал, самый большой на сегодняшний день поисковик. Индексирует PDF-файлы, имеет достаточно развитую структуру запросов. Кэширует все страницы на момент индексации, так что даже если сайт ушел в "мертвую зону", можно посмотреть его содержимое. Поддерживает различные языки (в том числе русский). Имеет развитую систему Advanced Search (то бишь, расширенный поиск). Также имеет собственный каталог (directory.google.com - на основе open directory) и предоставляет доступ и поиск в архивах Usenet (groups.google.com - наследство Deja таки не пропало даром).
Northern Light (www.nlsearch.com). Не самая большая база данных, но зато умеет автоматически рассортировывать результаты поиска по категориям. Получается своего рода динамический каталог - очень удобно пользоваться, поскольку алгоритм сортировки в большинстве случае работает по уму. Еще одна фишка NL - так называемые Special Collections - тексты из более 7000 бумажных публикаций, которых нет в вебе. Правда, доступ к полным текстам платный, но, по крайней мере, можно посмотреть резюме. Мощный Power Search. Русского не понимает.
iWon (www.iwon.com), MSN Search (search.msn.com). И еще куча поисковиков (HotBot, NBCI и почивший ныне GoTo, например) используют базу данных Inktomi. Эти два наиболее удачные, пожалуй. Первый использует еще несколько баз данных, что в сумме дает хороший охват страниц, но возможности расширеного поиска там слабые. MSN Search - это то, что вызывается по нажатию кнопки Search в IE. Помимо большой базы данных, имеет очень мощный Advanced Search. Только вот грузится плохо.
Fast Search (www.alltheweb.com и www.lycos.com). Большая база данных. Неплохо реализован расширенный поиск. Есть отдельные базы данных по MP3 и FTP. Действительно, fast (в смысле, быстрый). Но русского не понимает.
AltaVista (www.altavista.com). Один из самых больших поисковиков. Целых три режима поиска - простой, Adwanced и Power. В двух последних - могучие возможности конфигурации запросов. Понимает русский язык (хотя как-то странно и не всегда). Есть отдельные базы данных по MP3 и графике.
Константин АФАНАСЬЕВ
Горячие темы