В ряде предыдущих статей я рассказал о разнообразных научных информационных ресурсах (или целых ресурсных системах), создаваемых в интернете крупнейшими зарубежными компаниями и издательствами. Нечто подобное предпринимается и нашими соседями, в России, где, несмотря на всякие трудности и проблемы, наука по праву является одной из наиболее заметных областей деятельности. Знакомство с российскими системами может быть полезно как для тех, кто не прочь ими воспользоваться, так и для тех, кто работает над созданием аналогичных ресурсов у нас.
Наиболее заметными комплексными научными информационными ресурсами Рунета являются ныне системы ИНИОН (библиографические БД по социальным и гуманитарным наукам), ВИНИТИ (реферативные журналы по всем отраслям естественных наук и экономике, в которые ежегодно включается около 1 млн. описаний источников, сопровождаемых подробным рефератом на русском языке), East-View (предоставляет доступ примерно к 50 научным и научно-популярным российским журналам), "Интегрум-техно" (преимущественно полнотекстовые БД, содержит сейчас свыше 90 млн. записей) и некоторые другие. С ними мы и познакомимся.
Основным направлением деятельности информационного агентства "Интегрум-Техно" (www.integrum.ru, www.integrum.com) является обеспечение пользователей полнотекстовой информацией по любой интересующей их проблематике. Среди клиентов компании крупные промышленные предприятия и частные лица, инвестиционные компании и банки, спецслужбы и органы власти, политики и аналитики, СМИ и библиотеки, юридические, консультационные и PR-агентства. Компания также выполняет проекты по внедрению поддерживаемой ею информационно-поисковой системы (ИПС) "Артефакт" в организациях, накопивших большие объемы полнотекстовой информации. Так, например, в числе ее проектов подключение ИПС "Артефакт" к службе архивов информационного агентства ИТАР-ТАСС, использование системы для работы с большими массивами деловой информации Сберегательного банка России, Центрального банка РФ и др. Компания также занимается созданием и поддержкой полнофункциональных web-систем и баз данных.
"Интегрум-Техно" на коммерческой основе предоставляет доступ к интегрированной полнотекстовой онлайновой службе БД, содержащих политическую, коммерческую, юридическую, научную, адресно-справочную информацию, с различной структурой и содержанием. Круглосуточные сбор и автоматическая обработка информации осуществляются из разнородных источников на основе современных компьютерных и сетевых технологий в онлайновом режиме.
Ежемесячно в эксплуатацию вводится до 30 новых БД, ежедневно поступает до 10 тыс. новых документов. Обновление баз данных производится в момент поступления информации от первоисточника. Согласно статистическим данным, предоставленным компанией на ее web-сайте, по состоянию на 14.08.2003 г. информационный ресурс компании составил: 4104 базы данных; 175,74 млн. документов; суммарный объем хранящейся в БД информации - более 650 Гб.
Среди источников "И-Т" ведущие информационные агентства России и мира, центральные и региональные российские, а также зарубежные СМИ, Госкомстат РФ. Агентство располагает базами данных с адресно-справочной и законодательной информацией, данными о персоналиях и т. д.
БД компании делятся на тематические блоки: СМИ: Журналы; СМИ: Зарубежная пресса; СМИ: Интернет-издания; СМИ: Информагентства РФ, СНГ, Балтии и Дальнего Зарубежья; СМИ: Компьютерная пресса; СМИ: Мировые информационные агентства; СМИ: Мониторинг; СМИ: Региональная пресса; СМИ: Теле-Радио Эфир; СМИ: Центральные газеты; Финансовые рынки; Адресно-справочные базы данных; Безопасность бизнеса; Библиотека мировой литературы; Библиотечные фонды; Бизнес-справки/Аналитика; Госкомстат России; Законодательство; Информация официальных учреждений; Персоналии; РОСПАТЕНТ; Фото-Архив.
Ретроспективная глубина БД колеблется с 1945 по 2003 год, все базы обновляются с разной периодичностью: ежедневно, 5 раз в неделю, 3 раза в неделю, еженедельно, 3 раза в месяц, 2 раза в месяц, ежемесячно, раз в 2 месяца, раз в квартал, раз в полгода, ежегодно, периодически, разово.
Работа с системой не требует дополнительного программного обеспечения. К положительным моментам интерфейса можно отнести: высокое быстродействие; возможность выбора языка (русский, английский) и кодировки; наличие отдела статистики поиска; достаточно развитый HELP c примерами. Конечно, имеются и недостатки: отсутствует возможность выбора форматов для предоставления результатов поиска и выгрузки записей в коммуникативном формате, не везде имеются линки на сайты издательств и генерирующих ресурсы организаций.
Многообразие форматов, в которых поступает заносимая в БД информация, и необходимость использования универсальных средств поиска и навигации привели к созданию специализированной информационной системы. Основой технологических решений компании является лингвистическая ИПС "Артефакт", предназначенная для обработки, в первую очередь, документов, написанных на русском языке. Система использует на всех этапах работы лингвистические технологии, базирующиеся на большом грамматическом словаре русского языка, широко пополненном современной лексикой, и лингвистических алгоритмах, предназначенных для обработки любых слов, в том числе отсутствующих в словаре.
Основными единицами информации в ИПС "Артефакт" являются произвольные файлы, в том числе индексируемые, в формате HTML или TXT, которые могут содержать информацию на естественном языке (русском, английском или других европейских языках). Необязательное разделение документа на текстовые поля требует небольших дополнительных затрат на конвертирование и позволяет структурировать документ для того, чтобы иметь возможность ограничить поиск пределами того или иного поля или группы полей. В базах данных, оснащенных ИПС "Артефакт", можно хранить полные тексты документов практически любого размера. При этом все слова, составляющие документ базы данных, учитываются при поиске.
"Артефакт" обладает также возможностями рестарта после сбоев при загрузке БД, выполнения загрузки/дозагрузки/ поиска в пакетном режиме; переключения процессов поиска информации и модификации данных. Например, можно просматривать одну БД и переносить фрагменты найденных документов в другую; вести многобазовый поиск, позволяющий проводить одновременный поиск по совокупности БД.
Видовое и тематическое многообразие представленной в БД информации, наличие полных текстов документов, оперативность обновления БД, доступ к крупнейшим информационным ресурсам России (таким, как БД Роспатента, ИНИОН, ЦНСХБ) позволяет предположить, что информационные ресурсы "И-Т" предназначены для самого широкого круга потребителей - ученых, специалистов, бизнесменов, преподавателей и студентов вузов, представителей исполнительной и законодательной власти.
Заслуживает внимания также ориентация компании на удовлетворение индивидуальных информационных потребностей пользователей и информационное обеспечение четко сформулированных и достаточно универсальных направлений деятельности клиентов-организаций.
Достоинством предлагаемых компанией информационных услуг является то, что они базируются на ИПС, позволяющей поддерживать разнородные БД, обновлять их с высокой скоростью и предоставлять пользователю интегрированный интерфейс. В общем, как бы там ни было, но на сегодня "Интегрум-Техно" - крупнейшая в России коммерческая служба баз данных, и ее опыт весьма показателен.
Майлз Vornet,
vornet@tut.by
Горячие темы