"Яндекс" опубликовал научные работы

Компания "Яндекс" опубликовала сборник научных работ по программе научных стипендий. Никогда еще в свободном доступе в Сети не было столько ценной информации по поисковым технологиям на русском языке.

Сборник "Интернет-математика 2005" (company.yandex.ru/grant/list.xml) включает 25 работ, в том числе вводную от специалистов "Яндекса". Авторами большинства исследований являются специалисты из российских вузов. Все документы можно скачать в формате PDF.

  1. Формирование многоязычных словарей и их использование при кросс-языковом поиске информации.
  2. Снятие лексико-семантической омонимии в новостных и газетно-журнальных текстах: поверхностные фильтры и статистическая оценка.
  3. Интерактивное разрешение лексической и синтаксической неоднозначности в системах автоматической обработки естественного языка.
  4. Сравнение эффективности двух методик снятия лексической и морфологической неоднозначности для русского языка (скрытая модель Маркова и синтаксический анализатор именных групп).
  5. Поисковое поведение пользователя "Яндекса" (анализ веблогов).
  6. Исследование методов трансформации запросов в первом туре "Кубка Яндекса".
  7. Быстрая классификация JPEG-изображений.
  8. Распознавание типовых портретных изображений в задаче автоматической классификации.
  9. Анализ "лабораторной" парадигмы оценки систем поиска.
  10. Некоторые способы определения географической привязки IP-адресов.
  11. Исследование эффективности алгоритмов выполнения алгебраических операций к XML-данным в распределенных запросах.
  12. Исследование эффективности применения методов совместного анализа текстов и гиперссылок для поиска тематических сообществ.
  13. Оптимизация расчета ссылочной популярности и учета ее при ранжировании результатов поиска.
  14. Извлечение значимой информации из web-страниц для задач информационного поиска.
  15. Порождение кластеров документов-дубликатов: подход, основанный на поиске частых замкнутых множеств признаков.
  16. Структура русскоязычной части глубинного Веба.
  17. Оптимизация процедуры автоматического пополнения веб-каталога.
  18. Классификация веб-страниц на основе алгоритмов машинного обучения.
  19. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой.
  20. Experiment on Style-Dependent Document Ranking.
  21. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики.
  22. Формирование выпуска новостей на основе автоматического анализа новостных сообщений.
  23. Обработка потока новостей на основе больших лингвистических ресурсов.
  24. Автоматическое реферирование веб-документов с учетом запроса.

Программа стипендий "Яндекса" учреждена с целью стимулировать отечественные исследования в области автоматической обработки веб-данных. Задачи, стоящие перед алгоритмически насыщенными интернет-приложениями - веб-поиск, классификация веб-сайтов, агрегация новостей, фильтрация почтового спама, выбор товаров, контекстная реклама, - требуют адекватных научных исследований. Вместе с тем, объем и уровень отечественных работ в этой области не достаточен, по сравнению с аналогичными мировыми работами. Например, на последних конференциях RCDL-2004 и КИИ-2004 было представлено всего 4 и 5 научных работ, применимых к веб-данным. Это катастрофически мало.

Программа "Яндекса" должна помочь решить проблему. На эти цели в 2004-2005 гг. было выделено 3 млн руб. в качестве грантов для победителей конкурса стипендий. Такая программа будет проводиться ежегодно, а очередной конкурс грантов должен быть объявлен в течение самого ближайшего времени.

Анатолий АЛИЗАР

Версия для печатиВерсия для печати

Номер: 

40 за 2005 год

Рубрика: 

Компьютер и образование
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!