В этой статье познакомимся с форматом файлов для электронных книг ePub. Этот формат в последнее время де-факто становится официальным стандартом для всех программ и устройств для чтения, создателей и распространителей цифровых книг.
Ещё один формат
Цифровые книги медленно, но верно занимают свою законную долю внимания у читающей публики. Способствует этому процессу развитие Интернета, в котором появляется всё больше книжных сервисов и библиотек. Также развиваются и совершенствуются программы и устройства, называемые в народе "читалки". Любители почитать могут без особых проблем приобрести даже специализированные "ридеры", предназначенные исключительно для чтения.
Соответственно, образовалось некоторое количество цифровых книжных форматов, в которых распространяется содержание электронных книг.
Поначалу таким форматом был обычный plane-text. В дальнейшем большую популярность получил у русскоязычных читателей формат FB2, о котором уже шла речь в "КВ". Про популярность FB2 свидетельствует тот факт, что в него некоторое время назад пробовали конвертировать журнал "Компьютерра". А для сложной полиграфической продукции используются тяжеловесные PDF и Djvu, которые, правда, не на любом устройстве можно прочитать.
И в последнее время популярность приобретает формат Electronic Publication (ePub). Этот формат пытается соединить в себе простоту, с одной стороны, и достаточную гибкость форматирования сложных изданий - с другой.
Electronic Publication - это открытый формат электронных версий книг. Он разработан Международным форумом по цифровым публикациям IDPF.
Интерес к этому формату возрос, когда корпорация Sony, известная своей любовью к собственным проприетарным форматам, решила быть ближе к народу и стала поддерживать ePub в своих фирменных "читалках".
На данный момент книги в формате ePub можно без труда найти на многих популярных книжных сервисах и хранилищах. Сюда входят, например, проект gutenberg.org. Также русскоязычные книги в этом формате можно найти на feedbooks.com или zone4iphone.ru.
Общие сведения
Наиболее близким по назначению к ePub является формат FB2. Оба открытые и оба основаны на XML. Хотя, если быть точным, ePub наиболее близок к офисным форматам ODF и OOXML, о чем расскажем чуть ниже. Но в статье будем сравнивать его с FB2 как с ближайшей альтернативой.
EPub, как и FB2, является перформатируемым форматом, то есть адаптируемым к различным экранам. Это достигается за счёт того, что в XML-форматах логическая структура содержания отделена от внешнего вида этого содержания. В FB2 вообще нет никаких средств визуального форматирования текста, только логическое форматирование. А визуальное форматирование ePub осуществляется через каскадные таблицы стилей CSS, как в привычных страницах в веб-браузере.
Кстати, основное содержание файлов ePub описывается стандартом XHTML 1.0. Поэтому, говоря о возможностях ePub, можно сказать проще: всё, что можно увидеть в веб-браузере, всё это можно сделать и в формате ePub.
Кроме содержания в формате XHTML, книга ePub может содержать формат PDF, а также формат Digital Accessible Information System (DAISY) для людей с плохим зрением.
Важно, что ePub поддерживает правило CSS 2 @font-face, позволяющее использовать встроенные шрифты непосредственно в самой книге.
Отсюда преимущество ePub в отношении форматирования технической, учебной литературы. Если FB2 вполне хватает для беллетристики, то, например, для школьных учебников FB2 не подходит.
И ещё можно отметить, что если FB2 - это неофициальный народный стандарт, то ePub является более титулованным и состоит из трёх стандартов:
- Open eBook Publication Structure Container Format (OCF): определяет структуру дерева каталогов и файлов формата (ZIP-) архива EPUB;
- Open Publication Structure (OPS): определяет общие словари для eBook, особенно в форматах, которые будут использоваться для текста книги (например, XHTML и CSS):
- Open Packaging Format (OPF): описывает обязательные и дополнительные метаданные, порядок чтения и оглавление в ePub.
Внутри ePub
Для лучшего понимания формата поковыряемся внутри этого стандарта. Как мы уже говорили, этот формат по структуре похож на ODT и OOXML, о которых мы также рассказывали на страницах "КВ".
Файл с расширением epub на самом деле является zip-контейнером. Если в этом файле поменять расширение на zip, то содержимое файла можно распаковать и посмотреть, что там внутри.
А внутри файла epub будут находиться файлы метаданных, каталоги и файлы с текстом книги, каталог с изображениями, каталог с таблицами визуального оформления. Обязательными являются каталог с названием META-INF, содержащий файл с именем container.xml, и файл mimetype. Все остальные файлы и каталоги могут иметь свободные названия.
Системы чтения EPUB первым делом ищут файл container.xml, так как в нём содержится ссылка на главный файл метаданных Open Packaging Format. Этот главный текстовой файл метаданных обычно имеет расширение opf. Он определяет местоположение всего содержания книги - от текста до картинок.
Главный файл метаданных - это XML-файл и содержит следующие секции:
- metadata - здесь содержатся общие данные книги: название, автор, уникальный идентификатор, год издания и т. д.;
- manifest - манифест OPF содержит список всех ресурсов файла epub, которые составляют содержание книги. Это список файлов XHTML, которые содержат текст книги, плюс иллюстрации, плюс файлы форматирования CSS;
- spine - переплёт, здесь определяется порядок следования файлов текста;
- guide - секция, где указывается семантическая информация о тех или иных файлах, например, какой из файлов является обложкой книги.
Главный файл содержит в себе ссылку на текстовой файл оглавления с расширением ncx (Navigation Center eXtended). Здесь содержится развёрнутое оглавление электронной книги.
Непосредственно же содержание книги разложено по отдельным папочкам: файлы xhtml в одной папке, файлы форматирования CSS в другой, а картинки - в третьей.
В качестве иллюстраций и картинок ePub поддерживает четыре формата изображений в качестве базовых типов: JPEG, PNG, GIF и векторный формат изображений SVG.
Таким образом, какой можно сделать вывод из всего этого ковыряния в формате? Главный вывод, это то, что создание файлов ePub легко автоматизировать - ведь это XML-данные.
То есть вполне могут быть легко и быстро созданы конверторы для преобразования многих типов документов в ePub. Эти конверторы могут работать прямо в тех же офисных пакетах MS Office или в OpenOffice.org, когда созданный документ можно без проблем сохранить не только в формате ODT, но и в стандарте ePub. Хотя профессиональное создание книг Epub предлагает, конечно же, более трудоёмкую вёрстку в xml-редакторах.
Чтение ePub
Создание книг для обычного читателя - дело вторичное. Главный вопрос - это чем читать. Так как ePub - это в большинстве случаев файлы xhtml, то хорошей смотрелкой таких книг должен быть обычный браузер.
Так оно и есть. Уже имеется расширение для браузера Firefox под названием epubread, при помощи которого электронные книги формата ePub можно читать прямо в обозревателе. Это расширение можно взять по адресу www.epubread.com.
И можно с уверенностью сказать, что для книжек формата ePub, содержание которых оформлено в xhtml, браузерный способ просмотра на ПК является лучшим, так как браузеры предназначены для работы с xhtml.
Но внутри файла стандарта ePub могут быть страницы в PDF-виде. В этом случае нужно упомянуть приложение для ПК Adobe Digital Editions (www.adobe.com/products/digitaleditions). Программа мощная, обеспечивает просмотр, видимо, всех типов ePub, какие только возможны.
Но многих читателей, в первую очередь, интересуют программы для чтения на мобильных неспециализированных устройствах - смартфонах, КПК. Здесь предложу программу, которой сам давно пользуюсь. Это FBReader (www.fbreader.org), свободная программа для чтения электронных книг в различных форматах, не только в ePub. Версии FBReader существуют для многих мобильных устройств, и, что немаловажно, есть версия для смартфонов под управлением Android.
Такой вот джентльменский набор программ для чтения ePub-книг. Однако нужно сказать, что в силу того, что стандарт ePub предполагает сложные по формату тексты, а не только беллетристику, было бы неплохо провести тестирование мобильных "читалок" на умение открывать сложное содержание. Такое тестирование, надеюсь, удастся сделать в ближайшем будущем.
DRM
И в заключение пару слов о защите авторских прав, реализованной через технологию DRM. Формат ePub поддерживает технологии DRM.
Для цифровых книг такой технологией защиты до недавнего времени была Adobe Content Server. Но в последнее время книгами увлеклась компания Apple, у которой своя собственная технология DRM - FirePlay. Поэтому сейчас трудно предсказать, какой метод в отношении защиты авторских прав будет принят за основной в формате ePub. По мне, так лучше бы вобще никакого DRM в этом формате не было.
Михаил АСТАПЧИК