(Окончание. Начало в №45)
А теперь посмотрим, как все это выглядит на практике. Первым делом загружаем наши фото из цифрового фотоаппарата в ST. Изменяем разрешение. Если страницы не требуют поворота, сразу переходим ко второму инструменту и разрезаем сканы на страницы. Пакетный режим можно запускать, только если вы уверены в том, что все фотографии однотипны.
После окончания процедуры обязательно следует просмотреть сырой материал на наличие неправильной разрезки: там где нужно, двигая мышкой синюю линию резака, исправляем огрехи. Если все нас устраивает - переходим сразу к пункту "Полезная область" и повторяем режим пакетной обработки.
В большинстве случаев программа сама правильно распознает область с текстом. Исключение составляют только слишком темные или пожелтевшие фотографии. Если вам пришлось работать именно с такой "продукцией" - самое время вспомнить материал, опубликованный в "КВ" №9'2009. Там был описан алгоритм создания пакетного обработчика фотографий в Adobe PS. Повторяться не буду, но приведу последовательность операций, опираясь на которую, не составит труда скомпилировать свой обработчик (делать это нужно один раз). Для наших целей последовательность можно и нужно упростить, что никак не скажется на качестве конечной цифровой копии книги:
- Image-Convert to Gray-Scale, переводим фото в режим градаций серого
- Image-Adjustments-Levels, жмем кнопку Auto, тем самым утолщая тонкие линии на фото
- Filter-Other-HighPass (значение Radius = 9.9 пиксела), выделяем резкие контрастные переходы, которыми и являются границы букв, а также чистим мелкий мусор
- Save (значение TIFF LZW Compress), сохраняем картинку
Создаем дроплет (File-Automate-Create Droplet...) и кладем его рядом с папкой, где хранятся изображения, ожидающие обработки. Чтобы выровнять уровни, достаточно папку с изображениями перетянуть на ехе-шник созданного пакетного файла-обработчика. Кстати, если сами вы определить потребность фотографий в "модернизации" не в силах, за вас это сделает ST, просто отказавшись правильно разрезать страницы или определять полезную область. Если такой факт имеет место быть - это сигнал, что без обработки PhotoShop не обойтись. Если все устраивает - переходим к финальной стадии работы с нашим "Портным" (Tailor в переводе с английского означает "портной").
Выбираем инструмент "Вывод" и прогоняем режим пакетной обработки на настройках по умолчанию. Затем проверяем страницы, где требуется - меняем формат вывода с "черно-белый" на "серый" или "цветной/смешанный". Последнее может потребоваться, если в книге присутствуют цветные или серые иллюстрации, которые программа не совсем адекватно преобразовала, тем самым испортив качество. После того, как все операции успешно проведены, в папке Out сохранились обработанные страницы. Вывод осуществляется в формат TIFF. В режиме "Черно-белый" - со сжатием G4Fax; в остальных режимах - со сжатием LZW.
Приступаем к части второй. Так как предварительные сканы были получены с помощью цифрового фотоаппарата, то с высокой долей вероятности можно сказать, что 90% страниц имеют перекос. Для его исправления воспользуемся проверенным инструментом - уже знакомой нам программой BR. Cоздаем новый файл проекта (Ctrl+N) и туда же загружаем файлы, обработанные ST. Выделяем все файлы (комбинацией Ctrl+A). В "Панели реставрации" (Restoration) программы щелкаем по значку "Коррекция геометрии" (Geometric Correction), где активируем все кнопки, кроме той, на которой изображен двухстраничный разворот. Жмем ОК, дожидаемся окончания операции. Теперь меню "Файл" - "Публикация" (File - Publish).
Пришло время остановиться и оглянуться назад, подумать, а есть ли среди фотографий, прошедших обработку, страницы с иллюстрациями. Если таковых нет, то смело в графе "Тип файлов" выбираем "G4-compressed TIFF" и жмем "Сохранить". Если же цветные или серые картинки присутствуют, то компрессия в G4 может их безвозвратно испортить. Поэтому возвращаемся в основное окно программы, проматываем перед глазами список страниц и записываем (или запоминаем) номера страниц, которые нужно сохранять в формате "TIFF LZW-compressed" (для цветных рисунков) или "TIFF LZW-compressed 4bits" (для рисунков в градациях серого). Возвращаемся к меню публикации результатов. В закладке "Страницы" выбираем уже не "Все", а "Номера", где и вводим ранее записанные нами значения. Получается сохранение в два захода. В первый сохраняем цветные/серые иллюстрации (TIFF LZW), во второй - черно-белые (TIFF G4) или наоборот. Кстати, возможность работы со сжатым цветным TIFF-ом появилась только в последних версиях BR.
Теперь дело за малым - сформировать и скомпилировать саму книгу. Процессом компиляции у нас издревле заведовал "монстр" от LizardTech - DocumentExpressEnterprise (далее - DEE), размер которого, в зависимости от ревизии, мог достигать 200 мегабайт. И самое обидное, что скачиваем-то мы, по большому счету, только дополнительные языки распознавания (чешский, немецкий и так далее), которыми не пользуемся. В ранних статьях я подробно описывал процесс добавления OCR-слоя и тогда уже становилось ясно, что с распознаванием лучше всего справляется специально для этого "обученная" утилита - ABBYY FineReader. Видимо, поняли это многие (кроме самих разработчиков) и поэтому из-под пера энтузиаста вышла урезанная версия DEE без дополнительных языков (так называемая Light Edition (dstu2204.narod.ru/djvu_old/DocExpress500_b16_plus.rar или dstu2204.narod.ru/djvu_old/DocExpress50016.rar или dstu2204.narod.ru/djvu_old/Editor6_LE_nt.rar). Обладает она всеми нужными функциями версии полной, прекрасно компилирует и декомплилирует djvu-книги. И размер уменьшился, ни много, ни мало, в сто раз. Скачать 2 мегабайта сегодня по силам даже энтузиастам dial-up Интернета (если таковые еще остались). Работа с утилитой облегченной аналогична работе с полной версией (которая подробно описывалась в "КВ" №38 за 2008 год. Открываем первый файл ("Файл"-"Открыть"), затем щелкаем по эскизу первой страницы и выбираем из контекстного меню "Добавить страницы после..." . Выбираем файл, последний из списка, зажимаем Shift и щелкаем по файлу, идущему в списке вторым (первый у нас уже загружен в программу). Ждем, пока все файлы будут загружены, и выбираем меню "Файл" - "Сохранить как". Сохраняем файл со следующими параметрами: профиль - "нормальный", разрешение - "300 dpi", качество текста - "форсированный".
После завершения кодирования останется самая малость - переименовать файл в соответствии с общепринятыми правилами систематизации. Но об этом немного позже. Хотелось бы упомянуть еще одну утилиту, которая при крошечном размере обладает всеми достоинствами DEE. Называется она Djvu Small (djvu-soft.narod.ru/soft/djvu_small_v0_3_4.rar) и представляет собой программный пакет для группового кодирования-декодирования в/из DjVu, составленный на основе программы DEE 5.0. DjVu Small имеет 3 режима работы, каждый из которых соответствует консольным утилитам для работы с djvu:
- Документ -> DjVu (консольная утилита documenttodjvu)
- Фото -> DjVu (консольная утилита phototodjvu)
- Декодировать DjVu (консольная утилита djvudecode)
Утилита documenttodjvu (и, соответственно, диалоговое окно "Документ -> DjVu") - утилита для пакетного кодирования чёрно-белых, серых и цветных графических файлов в форматах bmp, jpeg, jpg, gif, tiff, tif, pnm, ppm, pgm, pbm. Аналог предыдущей программы, phototodjvu, предназначен для пакетного кодирования серых и цветных графических файлов (в тех же форматах), но с улучшенным качеством.
Ну и последний консольный обработчик, Djvudecode, служит для пакетного декодирования любых DjVu-файлов: одно- и многостраничных; содержащих чёрно-белые, серые и цветные изображения (при декодировании автоматически создаются файлы соответствующей битовой разрядности). В любом из режимов работы пользователь визуально формирует параметры кодирования, которые DjVu Small подаёт затем через командную строку на вход соответствующей консольной утилиты.
Особых премудростей в работе с программой нет, просто открываем графические файлы, выбираем соответствующий режим работы, отмечаем профиль работы (значения аналогичны таковым в DEE) и жмем на кнопочку "Пуск". В результате получаем закодированный в djvu файл. Минимум лишних телодвижений - максимум функциональности. Графическая оболочка позволяет настраивать просто огромное количество различных параметров консольных утилит, но рядовому пользователю разбираться в этом смысла нет, так как описание функциональных особенностей тонкой настройки Djvu Small достойно отдельной статьи.
Напоследок рекомендую назвать созданную вами книгу в соответствии с негласной номенклатурой, придуманной сообществом русскоязычных "книгопечатников" для облегчения систематизации книг в публичных библиотеках. Автоматизирует эту рутинную работу программа Name Creator (djvu-soft.narod.ru/soft/name_creator_v1_0.rar), которая генерирует название в соответствии с принятой системной классификацией djvu-книг. В дальнейшем соответствие единому стандарту облегчает процесс распространения книг через Интернет.
Вот книга и создана. Возможно, на освоение технологии изначально уйдет много времени, но уже вторая-третья книга, при условии наличия достаточных машинных мощностей, будет укладываться в рамки "книжки-пятиминутки". Чтобы не быть голословным, скажу, что на ноутбуке Dell с 2 Gb оперативной памяти, жестким диском SATA2 7200 ppm и процессором Core2Duo P8500 обработка 300 двухсторонних фотографий книги формата B5 и конвертация их в электронную книгу занимает ~ 5 минут. Так что, "Революция уже началась! Присоединяйтесь!".
Сергей БЕСАРАБ aka
stean,
helpfaq@tut.by
Автор выражает благодарность Судниковичу Сергею Федоровичу за предоставленное оборудование и аксессуары.
Горячие темы