Как ищет Google

Вводя в форму поиска любой запрос, будь то "бивни мамонта" или "web-дизайн", мы надеемся, что ссылка на документ с нужной информацией окажется самой первой среди результатов поиска. Это, конечно, пока только мечты, но разработчики поисковых систем на сегодняшний день прилагают немало усилий, чтобы приблизить это к реальности. Как говорится, плоха та мечта, которую нельзя сделать явью.

В специальной терминологии существует понятие релевантности ответа. Говоря более развернуто, это степень соответствия найденных документов тому, что в действительности искал пользователь. Чем больше релевантность ответа, тем выше "нужные" документы в списке результатов поиска.

Во многом популярность поисковой системы Google связана с тем, что его создатели (сотрудники Стэндфордского университета - Сергей Брин и Лоуренс Пейдж) путем внедрения ряда новшеств сумели добиться более высокой релевантности ответа, чем у существовавших на то время грандов поиска Аltavista и Inktomi. Как результат - за пять лет поисковик стал всемирно известен, львиная часть поисковых запросов приходится на его долю.

На основе опубликованных разработчиками Google ноу-хау рассмотрим особенности работы данной поисковой системы, не исключено, что по прочтении статьи мы сумеем ответить на поставленный в заголовке вопрос.

PageRank

Документы, полученные в результате поиска, сортируются в зависимости от их "качества". Оценка качества содержания документов в Google имеет название PageRank (PR). Документы, имеющие больший PR, всегда будут находиться на более высоких позициях в результатах поиска. При расчете PR принимаются во внимание количество ссылок с других сайтов на эту страницу и авторитетность (популярность) ссылающихся страниц. Согласно этим правилам, ссылка, например, с gazeta.ru увеличит PR куда более весомо, чем та же ссылка со странички vasya.at.tut.by, на которую заходит один человек в сутки (да и то сам владелец).

В основу принципа расчета PR положена аксиома, что на важную информацию ссылаются чаще, нежели на бесполезную. Рассчитывается PageRank по следующей формуле:

PR = (1-d) + d (PR(T1)/C(T1) + ... + PR(Tn)/C(Tn)),

где d - эмпирически подобранный коэффициент (d=0.85); Т1...Tn - страницы, ссылающиеся на рассматриваемый документ; С(T1)... С(Tn) - общее количество исходящих со страниц Т1...Tn ссылок.

Формула является наглядным подтверждением того, что все гениальное просто. Чтобы разобраться в ней, действительно не требуется иметь семь пядей во лбу.

Помимо представленной математической записи, у создателей Google в арсенале есть немало разработок, благодаря которым пресекаются попытки "накрутить" PR (имеются в виду "web-кольца" и тому подобные ухищрения). Но об этих технологиях мы можем только догадываться, поскольку такая информация не подлежит разглашению.

Описания ссылок и размер шрифта

Google не оставляет без внимания и описания ссылок на проиндексированные документы. Подразумевая, что если уж вы поставили со своего сайта ссылку на другой ресурс, то перед этим его обстоятельно изучили и попытались в тексте ссылки отразить содержание "дружественного" сайта. Решение, позволяющее более адекватно проводить поиск в накопленной базе данных и одновременно стимулирующее повышение юзабилити сайтов. Теперь даже у горе-дизайнеров появилась мотивация отказаться от ссылок со словами "здесь" и "сюда".

Не обделено вниманием и содержимое, заключенное в тегах <title></title>, ему тоже придается большое значение. В идеальном случае ключевые слова сайта должны употребляться в названии страницы.

Кроме всего прочего, Google хранит шрифтовой размер, и смещение каждого слова относительно начала документа. Это означает, что, например, по запросу "рояль", в первую очередь, будут выданы документы, в которых искомое слово выделено более крупным шрифтом или находится ближе к началу документа.

Взаиморасположение слов

В Google учитывается не только близость слова к началу документа, но и взаиморасположение слов из поискового запроса. То есть по фразе "спирт рояль", если целиком фраза нигде не встречается, первым будет выдан документ, в котором слово "спирт" находится от "рояль" на наименьшем расстоянии. Эта технология называется Proximity search (поиск по наиболее близкому расположению слов друг относительно друга).

Схема работы Google

Для того, чтобы было в чем искать, нужно создать базу данных, то есть собрать информацию. Всю "грязную" работу по сбору оной выполняют интернет-роботы, которые, путешествуя по адресам Сети, из базы данных специального URL-сервера скачивают и передают содержимое страниц на сервер хранения документов. Где за дело берется другая программа - индексатор. Она занимается тем, что раскладывает текст документа на составляющие его слова, запоминая при этом их местонахождение, шрифт, определяя, является ли слово названием документа, URL или текстом ссылки. Вся эта информация складывается в набор контейнеров. Затем создается гигантский словарь, в котором каждому слову соответствует набор документов, где это слово встречается.

При осуществлении поиска в словаре будет найдено искомое слово, исходя из этого будет получен набор документов, в которых это слово встречается. Далее на основании PageRank, размера шрифта и множества других особенностей будут распределены порядковые номера документов, и пользователю будет выдан список найденных источников информации.

Добавление страниц в базу

Если интернет-роботу Google встретился URL, которого еще нет в базе данных, то этот адрес будет занесен в базу и в дальнейшем документ будет проиндексирован. Таким образом, система поиска новых документов, при условии, что на них хоть кто-нибудь ссылается, становится самодостаточной.

Владельцы совсем новых ресурсов, на которые еще никто не ссылается, могут зарегистрировать сайт вручную, воспользовавшись специальной формой. Введенные в нее адреса после проверки на корректность также попадут в базу данных.

Рекомендации

Для наилучшего индексирования документов на сайтах поисковых систем приводят множество рекомендаций, для Google основные из них заключаются в следующем:

называть каждую страницу (в теге <title>) уникальным именем, максимально отражающим ее содержимое;
избегать использования одного и того же имени файла для группы документов с передачей после него различных параметров. Речь идет о динамических сайтах, в которых используется, к примеру, PHP. Вот как делать не следует:
index.php?thema=5&site=3;
избегать навигации при помощи форм, флэш-анимации.

Дмитрий БАРДИЯН

Правила поиска на сервере Google

По умолчанию Google находит страницы, содержащие все слова поисковой фразы, то есть между словами автоматически вставлено логическое "и".

Также поисковая система поддерживает операцию логического "или". Например, для поиска документов, содержащих слово "ум", "честь" или "совесть", введите между ними английское OR. Примерно так: "КПСС - ум or честь or совесть".

Google игнорирует часто используемые слова, такие, как "что", "где", www и прочее. Также игнорируются единичные буквы и цифры. Чтобы включить такие слова в поисковую фразу, используется символ "+". К примеру, ответ на вопрос Чернышевского можно получить от поисковика, если ввести запрос так: "Что + делать?".

Также следует иметь в виду, что Google не различает заглавные и строчные буквы в поисковых фразах и не использует символы замещения, такие, как "*".

Версия для печати

Номер:

№45 за 2003 год

Рубрика:

Internet

Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Спасибо большое за статью! Наконец-то поняла как работает Google... В данный момент определяюсь с темой аспирантуры. Очень бы хотелось что-то тоже сделать в этой области науки. Но вот к сожалению не вижу проблемных областей, на которые есть смысл работать. Все закрыто, алгоритмы закрыты и т.д. Думаю, что с высоты Вашего опыта и знания видно гораздо больше, нежели чем мне. Если у Вас есть, что сказать по моей проблеме, я всегда рада Пообщаться!!! Еще раз спасибо за Вашу статью.

#