Работа ученого подобна работе старателя: чтобы добыть золото, надо просеять дюны песка. Ученому также приходится проводить многие часы за чтением томов научных журналов и монографий для получения информации об интересующей его проблематике и оценке ее значимости. Это не только затраты времени, это также и прямые финансовые издержки, которые значительно удорожают научные исследования.
Но, возможно, теперь жизнь ученых перестанет быть слишком рутинной благодаря разработке Гарольда Гарнера (Harold Garner) из Юго-западного медицинского центра Техасского университета. Это специальное программное приложение, которое призвано помочь ученым в их исследованиях. По словам самого Гарнера, его разработка уникальна тем, что эмулирует научное мышление в процессе анализа данных. Задача заключалась в том, чтобы научить компьютер "читать" научную литературу и на основе содержания "прочитанного" создавать соответствующие ассоциации между публикациями, которые затем резюмируются и проверяются на релевантность. Пока, правда, продукт, созданный Гарнером, ориентирован на чтение медицинской литературы.
Программа, названная IRIDESCENT, создает сеть связанных объектов в зависимости от их появления в MEDLINE - библиографической базе данных Национальной библиотеки, в разделе, касающемся здравоохранения. В настоящее время в базе данных имеется более 4600 журналов и 12,7 млн. записей за последние 35 лет. Ежегодно добавляются примерно 500000 новых резюме публикаций. Ясно, что работать с таким массивом данных человеку просто не под силу.
Объектами в предложенном алгоритме, по сути дела, являются ключевые слова типа "гены", "лекарства", "болезни" и подобные. IRIDESCENT выявляет статистические отношения между сериями объектов, проверяя, как часто они появляются в публикациях. Это могут быть, например, такие общие темы, как "лекарства, действующие на определенные группы генов". Более того, IRIDESCENT может самостоятельно компилировать разные данные, предлагая что-то вроде "списка гипотез", выявляя "скрытые знания" в массиве данных, и, таким образом, выступать еще и инструментом научных открытий. Кстати, с его помощью уже удалось предсказать возможность использования уже существующих лекарств для лечения сердечных болезней. Если учесть, что обычный путь лекарства от открытия до массового применения занимает примерно 15 лет и стоит около 1 миллиарда долларов, то первые результаты выглядят очень многообещающими.
IRIDESCENT запатентован и стал основой для создания новой компании, названной etexx Biopharmaceuticals (www.etexxbio.com), которая и будет заниматься его продвижением.
Пресс-релиз: www8.utsouthwestern.edu/utsw/cda/dept37389/files/144957.html. Полный текст был опубликован в журнале Bioinformatics (Vol. 20, P. 191-198, 2004).
Сергей САНЬКО