Компания "Яндекс" опубликовала сборник научных работ по программе научных стипендий. Никогда еще в свободном доступе в Сети не было столько ценной информации по поисковым технологиям на русском языке.
Сборник "Интернет-математика 2005" (company.yandex.ru/grant/list.xml) включает 25 работ, в том числе вводную от специалистов "Яндекса". Авторами большинства исследований являются специалисты из российских вузов. Все документы можно скачать в формате PDF.
- Формирование многоязычных словарей и их использование при кросс-языковом поиске информации.
- Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка.
- Интерактивное разрешение лексической и синтаксической неоднозначности в системах автоматической обработки естественного языка.
- Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп).
- Поисковое поведение пользователя "Яндекса" (анализ веблогов).
- Исследование методов трансформации запросов в первом туре "Кубка Яндекса".
- Быстрая классификация JPEG-изображений.
- Распознавание типовых портретных изображений в задаче автоматической классификации.
- Анализ "лабораторной" парадигмы оценки систем поиска.
- Некоторые способы определения географической привязки IP-адресов.
- Исследование эффективности алгоритмов выполнения алгебраических операций к XML-данным в распределенных запросах.
- Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ.
- Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.
- Извлечение значимой информации из web-страниц для задач информационного поиска.
- Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков.
- Структура русскоязычной части глубинного Веба.
- Оптимизация процедуры автоматического пополнения веб-каталога.
- Классификация веб-страниц на основе алгоритмов машинного обучения.
- Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой.
- Experiment on Style-Dependent Document Ranking.
- Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики.
- Формирование выпуска новостей на основе автоматического анализа новостных сообщений.
- Обработка потока новостей на основе больших лингвистических ресурсов.
- Автоматическое реферирование веб-документов с учетом запроса.
Программа стипендий "Яндекса" учреждена с целью стимулировать отечественные исследования в области автоматической обработки веб-данных. Задачи, стоящие перед алгоритмически насыщенными интернет-приложениями - веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама, - требуют адекватных научных исследований. Вместе с тем, объем и уровень отечественных работ в этой области не достаточен, по сравнению с аналогичными мировыми работами. Например, на последних конференциях RCDL-2004 и КИИ-2004 было представлено всего 4 и 5 научных работ, применимых к веб-данным. Это катастрофически мало.
Программа "Яндекса" должна помочь решить проблему. На эти цели в 2004-2005 гг. было выделено 3 млн руб. в качестве грантов для победителей конкурса стипендий. Такая программа будет проводиться ежегодно, а очередной конкурс грантов должен быть объявлен в течение самого ближайшего времени.
Анатолий АЛИЗАР
Горячие темы