Text Mining Tool: экстрактор текстов

Пользователям, которые часто и много работают с текстовой информацией, часто приходится извлекать тексты из файлов самых различных форматов. В 90% случаев, как показывает практика, приходится иметь дело с файлами форматов .doc, .html и .pdf. Конечно, каждый раз запускать соответствующую программу (а в случае с pdf - еще и мучаться с конвертированием) - удовольствия мало.

Именно для таких пользователей и была создана утилита Text Mining Tool. Это программа для извлечения текста из файлов следующих типов: pdf, doc, rtf, chm и html без использования сторонних программ (Word, Acrobat и т.п.). Извлеченный текст можно сохранить в виде файла или скопировать в буфер для вставки в любой текстовый редактор. Конечно, при таком извлечении любое форматирование текста летит насмарку - пользователю достается "голый" контент.

Удобство использования этой утилиты обеспечено следующими ее особенностями:

  • она полностью бесплатная и совершенно без каких-либо лицензионных ограничений;
  • конвертирует файлы PDF, DOC, RTF, CHM, HTML (все - любых версий) в простой текст;
  • дружелюбный интерфейс с "горячими" клавишами;
  • наличие альтернативной консольной утилиты - minetext;
  • базируется на фреймфорке .NET 2.0.

Интерфейс программы английский, но никаких проблем с извлечением русскоязычных текстов из файлов любого типа не возникает - проверено. Интерфейс не то чтобы прост - абсолютно примитивен. К тому же правая клавиша мыши в управлении вообще никак не задействована. Для большего удобства в программе определены следующие "горячие" клавиши:

Open - F3 или O;

Save - F2 или S;

Clipboard - F5 или C;

Exit - F10 или Escape.

Однако возможности их настройки нет. Впрочем, в программе вообще нет никаких настроек.

Первая версия Text Mining Tool увидела свет в августе 2003 года; сейчас доступна версия 1.1.42. Text Mining Tool работает под управлением ОС Windows 2000/XP/Vista. Дистрибутив программы "весит" довольно много для такого рода ПО - 8,39 Мб. На диске Text Mining Tool 1.1.42 занимает 15,3 Мб. Более того, чтобы начать работать с Text Mining Tool, мне пришлось скачать и установить Microsoft .NET Framework Version 2.0 Redistributable Package объемом 22,4 Мб (дистрибутив). Зато отдельная установка Text Mining Tool не требуется: распаковал zip-архив - и готово, можно работать. Соответственно, не требуется и специальная деинсталляция, если пользователь решит отказаться от использования программы.

Официальный сайт программы - text-mining-tool.com, оттуда же можно ее и скачать.

Резюме: неплохая утилита, временами очень даже востребованная. Простая в использовании и не требует инсталляции, но вызывает удивление достаточно большой (сравнительно, конечно) объем. И хотелось бы, чтобы в следующих версиях появилась возможность извлекать текст из файлов .odt - этот формат используется все более распространенным текстовым редактором Writer, входящим в свободный офисный пакет OpenOffice.

Виктор ДЕМИДОВ

Версия для печатиВерсия для печати

Номер: 

04 за 2008 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!