Пошаговое руководство по оцифровке книг. Часть 1
Задеть больную тему качественного перевода бумажных изданий в цифровую форму заставляет сама жизнь. В электронных интернет-библиотеках книги появляются довольно новые, но вот качество их обработки оставляет желать лучшего. Страницы не обрезаны, картинки размыты, текстовый (OCR) слой не добавлен и ещё много всяких больших и маленьких огрехов.
Понимаю, бывают случаи, когда необходимо быстро создать электронную копию для собственных нужд, но должно быть совестно выкладывать такой полуфабрикат в Сеть и заставлять людей страдать (ибо чтением назвать процесс просмотра таких "шедевров" язык не поворачивается). Если уж у вас нет сил, чтобы отсканированный "манускрипт" привести в приемлемый вид, - просто заархивируйте сканы и выложите на специализированных форумах. Поверьте, всегда найдутся люди, готовые пожертвовать своим временем для создания электронного варианта книги, за который потом не было бы стыдно перед её читателями.
Итак, возвращаясь к нашим баранам. Основы "DJVU-печатания" были рассмотрены в "Компьютерных вестях" №№5-6 за 2007 год Андреем Ачиновичем. Дабы не переписывать уже имеющуюся информацию, остановимся на некоторых нюансах, связанных, в основном, с качеством создаваемых сканов книг, а также на появившихся нововведениях и улучшениях, с позволения сказать, техпроцесса. Времени после публикации вышеупомянутой статьи прошло довольно много - появились новые версии прежних программ, да и разработаны новые утилиты. Конечно, тема процесса создания книг затёрта уже практически до дыр на различных форумах и в печатных изданиях, но, как ни странно, улучшению качества недавно отсканированных книг это не способствует. Цель статьи - поднять уровень уже существующих "Гуттенбергов" века компьютерного и привлечь новичков к этому важному делу.
Этап первый: сканирование
Здесь особенных премудростей нет - как правило, выставления разрешения 300 dpi для страницы в формате Gray вполне достаточно. Всё остальное зависит только от сканера. Кстати, обложку книги и особо важные иллюстрации я всё-таки рекомендую сканировать в цвете (16- или 24-битном), опять же - для того, чтобы наша цифровая книжка получилась красивая. Кроме того, желательно разворот книги на сканерном стекле особенно не перекашивать и не менять каждый раз его местоположение. Потом будет проще всё лишнее обрезать (не стоит полностью уповать на возможности автоматического разворота и разрезания страниц, имеющихся в пакетах типа ABBYY FineReader).
Сканировать в разрешении больше 300 dpi смысла нет, так как, во-первых, увеличивается износ механики сканера (к примеру, мой старый Mustek 12000 SP+ на 300 dpi сканирует страницу за один проход, а на 600 останавливается четыре раза), а во-вторых, разрешение впоследствии можно исправить вручную, с помощью специализированного ПО (об этом ниже). Сканирование, на мой взгляд, во всей технологии e-book самый нудный процесс, и тенденции к облегчению и упрощению пока не намечается. Всё равно переворачивать страницы приходится вручную. Хотя, к примеру, в некоторых сканерах производства HP возможности пакетного сканирования сводят неудобства до минимума. Настроил один раз качество и разрешение сканируемой картинки - и знай себе переворачивай страницы да не забывай нажимать кнопку "Scan" на крышке сканера. Всё остальное уже сделает автоматика. В результате в выбранную папку будут ложиться готовые сканы.
Что же касается владельцев не столь продвинутой техники, то им придётся пользоваться старым добрым IrfanView с установленным специализированным плагином AutoScan (labun.com/autoscan.zip) от Eugen Labun. Скачиваем данный архив со страницы автора и распаковываем файлы autoscan.vbs и AutoWindowEnabler.exe в директорию с установленным IrfanView. Далее заходим в меню Файл > Получить/Отсканировать, выбираем режим сканирования "Одно изображение" и сканируем и сохраняем образец с нужными нам параметрами. Назвать первый скан лучше всего 001.* (так советует автор). Теперь запускаем распакованный ранее файл autoscan.vbs. Программа покажет заданные ранее параметры и после нажатия на "OK" начнётся автоматическое сканирование через определённые промежутки.
Файлы сохраняются с именами 001.*, 002.*, 003.* и т.д. в ту же директорию, где и первый файл. Файл AutoWindowEnabler.exe предназначен для слежения за окном IrfanView (часто бывает, что во время открытого TWAIN-диалога окно просмотрщика становится неактивным, а то и вовсе исчезает с экрана). Кстати, если вдруг скрипт что-то воспроизводит не так, как бы вам хотелось, или просто нужно изменить настройки - достаточно просто ещё раз произвести тестовый запуск IrfanView, а потом опять запустить макрос. Или же, щелкнув правой кнопкой мыши по файлу autoscan.vbs, выбрать "Изменить" и внести необходимые параметры вручную:
' You can change these settings: StartingIndex = 1 Increment = 1 NumberOfDigits = 3 SkipExistingFiles = True ' True or False DelayBetweenScans = 0 ' Seconds SetScanDPI = False ' Try to set to True only if Your scanner does not preserve scan resolution DPI = 300 ' has no effect if SetScanDPI is False
Как можно догадаться, StartingIndex показывает порядковый номер первого файла (от которого будет вестись счёт), Increment - величину, на которую будет увеличиваться порядковый номер каждой новой сканируемой страницы. NumberOfDigits - число знаков в цифровом индексе файла. DelayBetweenScans - задержку между окончанием одного прохода сканера и началом следующего (выставляется она строго экспериментальным методом и занимает ровно столько времени, сколько вам потребуется, чтобы перевернуть страницу). SetScanDPI - принудительное задание разрешения сканирования (необходимо в случае, если TWAIN-драйвер сканера такой возможности не предоставляет). Может принимать значение либо TRUE, либо FALSE; по умолчанию стоит второе. DPI - значение разрешения сканирования в случае выбора предыдущего параметра "TRUE". Сохраняем исправленный документ (отмечу, что лезть ручками можно только (!) в данную секцию, упаси вас бог экспериментировать с остальными, недоступными разуму рядового пользователя, параметрами - в результате таких необдуманных действий вместо картинки можно получить чёрти что).
Более продвинутым является использование специальной утилиты для потокового сканирования PaperCapture (djvu-soft.narod.ru/recogniform_paper_capture.rar) от компании Recogniform. После скачивания архива и его распаковки первым делом стоит запустить имеющийся .reg файл, дабы в дальнейшем избежать неожиданных действий со стороны программы. Затем просто запускаем PaperCapture.exe. В меню File > Scanner Settings создаём новый профиль с любым названием и активируем радио-кнопку рядом со строкой "This Scanner", где в выпадающем меню выбираем установленные на ПК устройства (если их у вас, конечно, несколько). Окно "Parameter" позволяет настроить параметры, с которыми будет сканироваться каждая новая страница. Я выставил минимальное количество наиболее необходимых:
Auto Rotate=Yes; Auto Deskew=Yes;
чтобы получаемая картинка сначала разворачивалась (для двухстраничного скана), а потом выравнивалась (всё остальное можно качественно оформить на этапе "ретуширования" чернового материала). Жмём ОК и Ctrl+A. Остаётся только наблюдать за процессом сканирования и контролировать качество по отображаемым в окне программы эскизам. Кстати, результат пакетного сканирования можно сохранить не только в графический формат, но сразу и в PDF-файл (это на случай сканирования, к примеру, конспекта лекций).
Для любителей "глубокого копания" могу посоветовать использование пакета FastScan, который вместе с инструкцией по использованию можно скачать с "рапидшары" (rs101cg2.rapidshare.com/files/ 36486343/11054328/FastScan.rar). За основу там берется уже нам знакомый IrfanView, утилита-автоматизатор AutoRecorder 3.3 и программа для точного определения положения курсора Pixie 3.1. Первоначальная настройка ведется с помощью встроенной в Windows утилиты WIA (предназначенной специально для работы с цифровыми фотоаппаратами и сканерами). Доступна работа с ней после установки драйверов на оборудование, в которых имеется поддержка вышеупомянутой программы. Так как у меня в наличии таких драйверов не было, особенно акцентировать внимание на настройке этого комплекса программ и создании скрипта для сканирования я не стал. Скачав вышеупомянутый архив, внутри можно найти очень подробное иллюстрированное руководство по работе с комплексом программ. Так что если предложенные мною способы вас чем-то не устроят - всегда есть возможность пошевелить мозгами и попробовать данный способ (опять же, при условии, что в наличии у вас имеется подходящая модель сканера, а это практически все современные модели).
Применять для сканирования ABBYY FineReader всех версий до 9-й я не советую, ввиду того, что зачастую текст необратимо перекашивается. В 9-й же желательно в меню Options убрать галочку рядом со строкой "Исправлять перекос страниц". Что касается формата, в котором будет сохраняться черновой материал, то лучше всего использовать TIFF, потому что широко популярный JPEG размывает картинки, что в случае копии книги, по-моему, совершенно неприемлемо. Формат TIFF в случае сканов оттенков серого и цветных даёт лучшие результаты со сжатием по механизму LZW (без потери качества), для битовых чёрно-белых лучше всего применять сжатие по механизму CCIT FAX G4 (если вы сразу сканируете материал такой "битности"). Принципиальная их разница для рядового пользователя только в том, что каждый используется для своей определённой глубины цвета.
Итак, все основные нюансы мы обсудили. Сканируем выбранную книгу, а после окончания переходим ко второму этапу: ретушь и облагораживание. Впрочем, об этом уже в следующей части статьи.
Сергей БЕСАРАБ aka
stean,
helpfaq@tut.by