Пошаговое руководство по оцифровке книг. Часть 3
(Окончание. Начало в №34)
Этап третий: кодирование
Это, наверное, один из самых несложных этапов. Всё, что нам нужно - это просто открыть в Document Express Editor1 картинку с первым порядковым номером, а далее, щёлкнув по ней правой кнопкой мыши, выбрать пункт "Добавить страницы после". Выбираем последнюю картинку, зажимаем Shift, выбираем вторую по счёту. Жмём "Открыть". После того, как все страницы добавились в проект, мы вплотную подошли к процессу рождения новой электронной книги. Жмём Файл > Сохранить. В открывшемся диалоговом окне указываем название, снимаем галочку OCR (ниже объясню, зачем), выбираем профиль. На выбор предоставляются следующие: чёрно-белый, нормальный, электронный, рукопись, фотография, рисунок, карта. Для наших целей подойдёт либо вариант "нормальный", либо вариант "чёрно-белый", особенно, если в книге преобладает текст и в дальнейшем планируется отдельная обработка имеющихся рисунков и фотографий.
Закладка "Качество текста". Опытным путём установлено, что при соблюдении вышеописанной методики подготовки материала при выборе режима "агрессивный" размер полученной книги уменьшается практически в три раза, по сравнению с профилем "без потерь", без заметного ухудшения качества и читаемости. Хотя в случае, если бинаризация не была произведена, имеет смысл использовать вариант "без потерь" или "практически без потерь".
И, наконец, выбор разрешения. Диапазон - от 100 до 600 DPI. Вне зависимости от разрешения, с которым производилось сканирование, рекомендую выходное разрешение устанавливать на допустимый максимум (600). Читаемость определённо улучшается, да и размер, как ни странно, оказывается меньше. На этом всё. Сохраняем книгу. По истечению некоторого времени книга будет готова. Теперь самое время поправить испорченные низким количеством отображаемых цветов рисунки (я специально не затронул этот вопрос, когда речь шла о предварительной подготовке). Ищем файлы с картинками, качество которых нам не нравится, и удаляем их (опять же, выбрав пункт "Удалить" в контекстном меню правой кнопки мыши), но при этом желательно запомнить точное местоположение удалённой страницы. Затем берём заранее обрезанный цветной скан (об этом я говорил ещё в самом начале статьи) и вставляем его на место удалённой страницы. И так для всех требуемых случаев. Сохраняем обновлённый документ, но при выборе профиля вместо "чёрно-белый" устанавливаем "фотография". Кстати, так не мешало бы поступать в случае обложки для всех без исключения книг.
Можно, конечно же, эти действия проделать и другим способом, с помощью всё той же программы ScanKromsator, просто во время расстановки резаков, обведя картинку или фотографию выделением и щёлкнув правой кнопкой мыши, выбрать Exclude Region для цветных рисунков или Exclude and Mark as dither region для градаций серого. А можно просто править полученные TIFF-ы в "Фотошопе", вручную вставляя фотографии. Здесь каждый волен выбирать сам, в зависимости от предпочтений.
Кстати, в последних версиях SK (5.81 или 5.91) появилась возможность сохранять цветные иллюстрации в отдельные файлы, которые потом нужно объединять с текстовым чёрно-белым содержимым.
Делается всё это с помощью пункта меню Маrk as picture zone, изображённого в виде стилизованной картинки. Двойной щелчок по выделенной области открывает меню, в котором можно выбрать глубину цвета (по умолчанию используются градации серого) и/или изменить разрешение.
После обработки выделенные сегменты лучше всего объединить с исходными изображениями (если, конечно, вы не планируете их дополнительно редактировать в Photoshop). Делается это в меню Zones > Picture Zone > Merge zones.
Этап четвёртый: OCR
Optical Character Recognition - оптическое распознавание знаков в свете идеологий DjVu, представляет собой вложенный текстовый слой. Вещь эта немаловажная для любой книги, претендующей на звание высококачественной, да и самому удобнее с такой документацией работать, будь то простое копирование в буфер обмена текста или возможность полноценного поиска. Вот здесь то нам и пригодится старый добрый ABBYY FineReader любой версии (желательно не ниже 7). Но участие его косвенно.
А главным героем этого этапа является совершенно бесплатная программа DjvuOCR 2.42 от болгарского программиста Gencho, которая уже работает и с 9-й версией пакета FineReader.
Итак, берём изображения, из которых мы делали нашу книгу (надеюсь, вы их не удалили), и загружаем в FineReader любой версии (не обязательно использовать зарегистрированную версию, программа приемлет и результат обработки Try&Buy), где распознаём все страницы в пакетном режиме. По окончании сохраняем пакет. Теперь запускаем DjvuOCR, в главном окне программы щёлкаем по значку, подписанному как Manual made OCR manager. Здесь же в пункте FineReader Project directory выбираем каталог с проектом, сохранённым выше, в Output OCR text file указываем путь к любому текстовому файлу, расположенному в каталоге проекта. Теперь осталась самая малость - поставить галочку около пункта Burn DjVu file и вслед за этим выбрать созданную ранее книгу, чтобы утилита внедрила туда свежеполученный текстовый подслой. Жмём кнопку Process. Данный способ выбран по той причине, что в нём качество распознавания гораздо лучше, чем у OCR-менеджера, встроенного в Document Express Editor.
Поэтому я и не советовал при сохранении DjVu-книги ставить галочку напротив пункта OCR. Поддержка небольшого количества языков и отвратительное качество распознавания без возможности правки полученного результата - вот характерная черта продукта от LizardTech.
Кстати, помимо своего прямого назначения, утилита DjvuOCR может использоваться и для пакетной декомпиляции книги из DjVu в картинки (tif/jpg/bmp). Это может понадобиться для того, чтобы распознать и сделать на их основе OCR-слой.
Теперь переходим к заключительному этапу нашей эпопеи "борьбы за качество электронных книг".
Этап пятый: оглавление и
гиперссылки
Согласитесь, не особенно удобна навигация по документу, содержащему под тысячу страниц без оглавления. Сделать его можно по-разному. К примеру, в неоднократно уже упомянутом Document Express Editor выбираем на панели инструментов кнопку "Прямоугольная гиперссылка", обводим требуемый участок текста и автоматически выскакивает окно свойств новой гиперссылки, где можно указать и номер страницы, на которую будет нацелен переход. Работа весьма утомительная.
Есть способ попроще. Называется он DjVu Hyperlinks Editor3. Для создания корректного оглавления к документу должен быть обязательно (!) прикреплён текстовый слой (про что говорилось выше, во время разбора программы DjvuOCR). Далее запускаем программу и указываем начальную и конечную страницы диапазона, для которого будет создано оглавление. Делается это напротив строки "Страницы с...". Указываем номера, где "1" - означает первая страница после окончания оглавления. Выбираем тип оглавления ("Содержание" или "Алфавитный указатель").
"Алфавитный указатель 1" - гиперссылка ставится на всю строку.
"Алфавитный указатель 2" - гиперссылка ставится только на номер страницы.
Выбираем стиль оформления содержания (на ваш вкус). Нажимаем кнопку "Добавить" и выбираем DjVu файл . Жмём на кнопку "Создать" и вот теперь-то можно (и даже нужно) книгу свою выкладывать на сайтах вроде nova.cc (ну и периодически почитывать комментарии с благодарностями за прекрасно выполненную работу). Кроме того, если даже сканера у вас нет, можно принести пользу, просто переделывая некачественно созданные книги.
Вознаграждение
В среднем, на создание одной книги (размером в 400-500 страниц) в хорошем качестве уходит полдня. И если сначала это занятие кажется довольно утомительным, то постепенно появляется даже некоторый азарт. И, сделав один раз качественную копию цифровой книги, постепенно появляется желание сделать ещё одну и ещё одну, и ещё.
Плюс ко всему, если свой "шедевр" залить, к примеру, на depositfiles.com, то можно будет зарабатывать копейки за каждое скачивание. Так что польза получается обоюдная: и создателю, и читателям.
* * *
На этом всё. Удачи вам в этом нелёгком деле качественного книгопечатания. Ждём новых книг, хороших и разных.
Сергей БЕСАРАБ aka
stean,
helpfaq@tut.by
Комментарии
"Иных уж нет, а те - далече..." (С)