Поиск в русском Интернете

Internet есть хранилище цифровой информации, которое с каждым годом непрерывно увеличивается. Не отстает и русскоязычный Интернет: за 1997 год размер "русской" Сети увеличился в 10 раз и по некоторым подсчетам составил 10 Гбайт. И если в англоязычной сети проблема с поиском информации решена наличием мощных поисковых систем, то в у нас все еще можно потратить много часов на поиски требуемой информации.

Поиск информации осложняется также тем, что в "русской" Сети используется несколько типов кодировок: iso, koi8, win, dos, mac. Попытаюсь вкратце объяснить, в чем же суть проблемы.

В Америке посчитали, что для представления набора символов вполне хватит 7 бит из байта (128 позиций) и приняли схему ASCII. В дальнейшем потребовалось расширить таблицу для введения специальных символов, используемых в европейских языках. Таким образом была создана таблица Extended ASCII (Latin-1 или 8859-1). Однако, поскольку русский алфавит отличается от латинского, была создана еще одна таблица, пятая по счету среди дополнительных таблиц - ISO 8859-5. Ее впоследствии практически никто не использовал, поскольку появилась фирма Microsoft с русской версией MS-DOS, для которой потребовалась еще одна кодировка - "альтернативная", CP 866. Впоследствии появилась система Windows, которая дала жизнь еще одной кодировке, CP 1251 (Windows). Также была разработана своя кодировка и для пользователей Macintosh.

Однако созданное ранее программное обеспечение было рассчитано только на 7-битные символы, из-за чего отправленные письма, прошедшие через одну из таких "умных" машин, оказывались безвозвратно покалеченными. На помощь пришла кодировка CP KOI8-R, в которой соответствующие буквы латинского и русского алфавитов смещены относительно друг друга на 128, благодаря чему даже после "перекодировки" смысл сообщения можно понять. Сегодня благодаря усилиям старожилов эта кодировка получила широкое распространение в русском Интернете.

Если вам попалось испорченное письмо, попробуйте воспользоваться программой Mail Reader фирмы "Агама", которая поддерживает более 8 тысяч заранее известных видов искажения текста.

Однако вернемся к нашим поисковикам. Наиболее популярна на сегодня поисковая система Rambler, которая поддерживается компанией "Стек". В состав системы входят несколько частей. Первая часть - поисковая система по серверам России и СНГ, которая содержит миллионы документов с более чем 15 тыс. сайтов. Вторая часть - добровольный рейтинг страниц по посещаемости (Top 100 of Rambler) с учетом их классификации. Система обрабатывает до 1 миллиона хитов в день. Третья часть - информационно-развлекательный проект "Кyлички на Рамблере". Над проектом работают более 100 человек. Сервер имеет более 20 тыс. страниц и более 500 тыс. хитов в день. Также в систему входит бизнес-раздел. Собственно поисковая система состоит из двyх частей: накопитель данных и поисковая программа. Первая часть является роботом, который берет url через прокси-сервер или непосредственно с указанного хоста, индексирует содержание документа и помещает результат в базу данных. Вторая часть - собственно поисковая система, которая поддерживает логические операции в запросах. Пользователь может определить максимальное количество результатов поиска.

В рамках проекта "Рyсский Интернет" фирма "Агама" совместно с фирмой Intel занимается двумя проектами: поисковой системой "Апорт!" и тематическим каталогом "Аy!".

Поисковая система "Апорт!" целиком построена на платформе Wintel. В настоящее время "Апорт!" поддерживает более 1 млн. Web-докyментов и более 10 тыс. Web-yзлов. Отличительная особенность системы - развитые средства морфологического анализа русского и английского языков. Учитываются синтаксическая связь между запросами, род, число, склонение и спряжение заданного слова. Можно использовать логические операторы и скобки. Для поиска словосочетаний используются двойные кавычки, в случае поиска без кавычек будут найдены документы, содержащие любое из введенных слов. "Апорт!" поддерживает 5 кодировок (win, koi8, mac, dos, iso). Применяется также реконструкция недоступного текста. Имеются дополнительные сервисные средства. Система рейтинга "Апорт ТОП-100" и анализ наиболее часто используемых слов-запросов. Система работает на двух серверах с двумя процессорами 200 МГц Pentium Pro. Размер оперативной памяти каждого из серверов 256 Мбайт, жесткие диски по 16 Гбайт.

Еще один проект фирмы "Агама!" разработан совместно с организацией "Роцит" и компанией V6. Это каталог "Аy!", который позволяет проводить поиск с учетом особенностей русского языка. На сегодня в каталог включены более 9 тысяч Web-yзлов, каждый из которых подробно описан. Узлы разделены на 15 категорий. Поиск информации проходит в двух режимах - просмотр и поиск. В первом пользователь, выбрав один из разделов, перемещается вниз по иерархической структуре каталога, во втором режиме поиск осуществляется по ключевым словам. Для создания каталога также были использованы два сервера от фирмы Intel.

Каталог "Созвездие Интернет" содержит коллекцию наиболее интересных и полезных ресурсов Internet. Каждый ресурс снабжен кратким описанием с указанием поддерживаемых языков. Каталог проводит 3 рейтинга: пользовательский рейтинг, который зависит от количества обращений к ресурсу со страниц каталога; рейтинг "1000 STARS", который регистрирует количество посещений ресурса вне зависимости от того, откуда произошел переход; в телекомyникационном рейтинге проводится расчет времени отклика по отношению к зеркалу "Созвездия Интернет".

Поисковый сервер RusNews обеспечивает поиск среди рyссоязычных статей USENET. На сервере находится более 700000 статей из fido7.* и relcom.* , которые обновляются ежечасно. Общий объем статей более 2 Гбайт. Сервер поддерживает мощный язык запросов. Время хранения статьи 5-6 месяцев.

Поисковая система "Следопыт" по умолчанию направляет запрос к шести известным серверам: AltaVista, HotBot, EuroSeek, Excite, Rambler, WebCrawler. Система поддерживает перевод запроса с рyсского на английский и наоборот. Если запрос введен на естественном языке, система удаляет неинформативные слова. Запросы делятся на 3 типа: логические запросы, запросы на естественном языке и смешанные запросы. Логические запросы содержат логические операторы AND (И), OR (ИЛИ), () - объединение слов в логические группы, " " - словосочетания, содержащиеся в документе. Запросы на естественном языке состоят из одной связной фразы, не содержащей логических элементов. Смешанные запросы состоят из нескольких слов или фраз, соединенных операторами.

Поисковая машина Яndex, поддерживается компанией CompTek. Система проводит поиск в русской части Internet, включая домены "su" и "ru". Поддерживается запрос с использованием логических операторов AND, OR, NOT, поддержка скобочных выражений. В системе имеется возможность задания запроса на естественном языке. Также можно регулировать "мягкость" запроса, выбирая параметр в поле "Сколько найти". Есть возможность поиска сходных документов и повторный поиск только в найденных документах.

По материалам Internet подготовил Николай ЛАПУШКО,
kolyn@usa.net

Версия для печатиВерсия для печати

Номер: 

16 за 1998 год

Рубрика: 

Internet
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!