Эмпирический анализ "безопасного поиска" Google

Начиная с 2000 года, Google предлагает пользователям, которые в этом нуждаются, специальную версию своей поисковой машины с фильтрацией результатов поиска. Как заявляется, технология Google SafeSearch должна исключать из индекса сайты с "порнографией и сексуально оскорбительным контентом". Давно было известно, что эта система работает не совсем корректно, однако раньше никто не знал, насколько именно.

В результате исследования, проведенного специалистами из юридической школы Гарварда, выяснилось, что в данный момент SafeSearch исключает из индекса, по крайней мере, несколько десятков тысяч (!) сайтов, не имеющих никакого отношения к оскорблению нравственности. Среди неправильно заблокированных ресурсов числятся сайты образовательных учреждений, некоммерческих организаций, новостных агентств, а также сайты национальных и местных органов управления! Более того, при поиске на чувствительные, "пограничные", темы, такие, как, например, репродуктивная медицина, Google SafeSearch блокирует результаты поиска весьма выборочно и, на первый взгляд, бессистемно, что заставляет предположить наличие избирательного или "административного" характера фильтрации. По крайней мере, трудно найти хоть какое-нибудь рациональное объяснение для некоторых случаев, когда один из сайтов вовсе не блокируется, а похожий на него "конкурент" подвергается обструкции. Это, в свою очередь, бросает тень на светлый образ компании Google, которая всегда отличалась безупречной репутацией и неподкупностью.

Результаты независимой проверки Google SafeSearch опубликованы на сайте Гарвардского университета (cyber.law.harvard.edu/people/edelman/google-safesearch). Там можно найти множество примеров некорректной работы фильтра. Например, в качестве "порнографических ресурсов" из индекса исключены Национальная ассоциация средних школ США (nmsa.org), официальный сайт израильского премьер-министра (pmo.gov.il), архив федеральных законов на сайте библиотеки Конгресса США (thomas.loc.gov). Это лишь самые вопиющие случаи. В исследовании приводится полный список из 15796 ошибочно заблокированных URL'ов, отсортированных по алфавиту. Хотя там иногда встречается порнография, но абсолютное большинство из них действительно заблокировано некорректно. Чтобы каждый читатель гарвардского исследования мог самостоятельно убедиться в странной работе Google SafeSearch, в тексте исследования содержится форма для проверки наличия фильтрации на любом URL или ключевом слове. Так, при поисковом запросе "Belarus" фильтрационный (во всех смыслах) механизм Google SafeSearch отсеивает из 100 первых результатов поиска четыре абсолютно безобидных сайта: это www.belarus.net (в обычном режиме поиска этот сайт занимает первое место!), www.inyourpocket.com/Belarus/index.shtml (73), www.pinetreeweb.com/rtn-bela.htm (80) и www.bnr.net (93). Сайты, занимающие вторую и третью строчки, в "защищенном" режиме меняются местами. Наблюдаются и другие труднообъяснимые пертурбации в результатах поиска.

Анатолий АЛИЗАР

Версия для печатиВерсия для печати

Номер: 

16 за 2003 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!