Книги в формате ePub

В этой статье познакомимся с форматом файлов для электронных книг ePub. Этот формат в последнее время де-факто становится официальным стандартом для всех программ и устройств для чтения, создателей и распространителей цифровых книг.


Ещё один формат

Цифровые книги медленно, но верно занимают свою законную долю внимания у читающей публики. Способствует этому процессу развитие Интернета, в котором появляется всё больше книжных сервисов и библиотек. Также развиваются и совершенствуются программы и устройства, называемые в народе "читалки". Любители почитать могут без особых проблем приобрести даже специализированные "ридеры", предназначенные исключительно для чтения.

Соответственно, образовалось некоторое количество цифровых книжных форматов, в которых распространяется содержание электронных книг.

Поначалу таким форматом был обычный plane-text. В дальнейшем большую популярность получил у русскоязычных читателей формат FB2, о котором уже шла речь в "КВ". Про популярность FB2 свидетельствует тот факт, что в него некоторое время назад пробовали конвертировать журнал "Компьютерра". А для сложной полиграфической продукции используются тяжеловесные PDF и Djvu, которые, правда, не на любом устройстве можно прочитать.

И в последнее время популярность приобретает формат Electronic Publication (ePub). Этот формат пытается соединить в себе простоту, с одной стороны, и достаточную гибкость форматирования сложных изданий - с другой.

Electronic Publication - это открытый формат электронных версий книг. Он разработан Международным форумом по цифровым публикациям IDPF.

Интерес к этому формату возрос, когда корпорация Sony, известная своей любовью к собственным проприетарным форматам, решила быть ближе к народу и стала поддерживать ePub в своих фирменных "читалках".

На данный момент книги в формате ePub можно без труда найти на многих популярных книжных сервисах и хранилищах. Сюда входят, например, проект gutenberg.org. Также русскоязычные книги в этом формате можно найти на feedbooks.com или zone4iphone.ru.


Общие сведения

Наиболее близким по назначению к ePub является формат FB2. Оба открытые и оба основаны на XML. Хотя, если быть точным, ePub наиболее близок к офисным форматам ODF и OOXML, о чем расскажем чуть ниже. Но в статье будем сравнивать его с FB2 как с ближайшей альтернативой.

EPub, как и FB2, является перформатируемым форматом, то есть адаптируемым к различным экранам. Это достигается за счёт того, что в XML-форматах логическая структура содержания отделена от внешнего вида этого содержания. В FB2 вообще нет никаких средств визуального форматирования текста, только логическое форматирование. А визуальное форматирование ePub осуществляется через каскадные таблицы стилей CSS, как в привычных страницах в веб-браузере.

Кстати, основное содержание файлов ePub описывается стандартом XHTML 1.0. Поэтому, говоря о возможностях ePub, можно сказать проще: всё, что можно увидеть в веб-браузере, всё это можно сделать и в формате ePub.

Кроме содержания в формате XHTML, книга ePub может содержать формат PDF, а также формат Digital Accessible Information System (DAISY) для людей с плохим зрением.

Важно, что ePub поддерживает правило CSS 2 @font-face, позволяющее использовать встроенные шрифты непосредственно в самой книге.

Отсюда преимущество ePub в отношении форматирования технической, учебной литературы. Если FB2 вполне хватает для беллетристики, то, например, для школьных учебников FB2 не подходит.

И ещё можно отметить, что если FB2 - это неофициальный народный стандарт, то ePub является более титулованным и состоит из трёх стандартов:

  • Open eBook Publication Structure Container Format (OCF): определяет структуру дерева каталогов и файлов формата (ZIP-) архива EPUB;
  • Open Publication Structure (OPS): определяет общие словари для eBook, особенно в форматах, которые будут использоваться для текста книги (например, XHTML и CSS):
  • Open Packaging Format (OPF): описывает обязательные и дополнительные метаданные, порядок чтения и оглавление в ePub.


Внутри ePub

Для лучшего понимания формата поковыряемся внутри этого стандарта. Как мы уже говорили, этот формат по структуре похож на ODT и OOXML, о которых мы также рассказывали на страницах "КВ".

Файл с расширением epub на самом деле является zip-контейнером. Если в этом файле поменять расширение на zip, то содержимое файла можно распаковать и посмотреть, что там внутри.

А внутри файла epub будут находиться файлы метаданных, каталоги и файлы с текстом книги, каталог с изображениями, каталог с таблицами визуального оформления. Обязательными являются каталог с названием META-INF, содержащий файл с именем container.xml, и файл mimetype. Все остальные файлы и каталоги могут иметь свободные названия.

Системы чтения EPUB первым делом ищут файл container.xml, так как в нём содержится ссылка на главный файл метаданных Open Packaging Format. Этот главный текстовой файл метаданных обычно имеет расширение opf. Он определяет местоположение всего содержания книги - от текста до картинок.

Главный файл метаданных - это XML-файл и содержит следующие секции:

  • metadata - здесь содержатся общие данные книги: название, автор, уникальный идентификатор, год издания и т. д.;
  • manifest - манифест OPF содержит список всех ресурсов файла epub, которые составляют содержание книги. Это список файлов XHTML, которые содержат текст книги, плюс иллюстрации, плюс файлы форматирования CSS;
  • spine - переплёт, здесь определяется порядок следования файлов текста;
  • guide - секция, где указывается семантическая информация о тех или иных файлах, например, какой из файлов является обложкой книги.

Главный файл содержит в себе ссылку на текстовой файл оглавления с расширением ncx (Navigation Center eXtended). Здесь содержится развёрнутое оглавление электронной книги.

Непосредственно же содержание книги разложено по отдельным папочкам: файлы xhtml в одной папке, файлы форматирования CSS в другой, а картинки - в третьей.

В качестве иллюстраций и картинок ePub поддерживает четыре формата изображений в качестве базовых типов: JPEG, PNG, GIF и векторный формат изображений SVG.

Таким образом, какой можно сделать вывод из всего этого ковыряния в формате? Главный вывод, это то, что создание файлов ePub легко автоматизировать - ведь это XML-данные.

То есть вполне могут быть легко и быстро созданы конверторы для преобразования многих типов документов в ePub. Эти конверторы могут работать прямо в тех же офисных пакетах MS Office или в OpenOffice.org, когда созданный документ можно без проблем сохранить не только в формате ODT, но и в стандарте ePub. Хотя профессиональное создание книг Epub предлагает, конечно же, более трудоёмкую вёрстку в xml-редакторах.


Чтение ePub

Создание книг для обычного читателя - дело вторичное. Главный вопрос - это чем читать. Так как ePub - это в большинстве случаев файлы xhtml, то хорошей смотрелкой таких книг должен быть обычный браузер.

Так оно и есть. Уже имеется расширение для браузера Firefox под названием epubread, при помощи которого электронные книги формата ePub можно читать прямо в обозревателе. Это расширение можно взять по адресу www.epubread.com.

И можно с уверенностью сказать, что для книжек формата ePub, содержание которых оформлено в xhtml, браузерный способ просмотра на ПК является лучшим, так как браузеры предназначены для работы с xhtml.

Но внутри файла стандарта ePub могут быть страницы в PDF-виде. В этом случае нужно упомянуть приложение для ПК Adobe Digital Editions (www.adobe.com/products/digitaleditions). Программа мощная, обеспечивает просмотр, видимо, всех типов ePub, какие только возможны.

Но многих читателей, в первую очередь, интересуют программы для чтения на мобильных неспециализированных устройствах - смартфонах, КПК. Здесь предложу программу, которой сам давно пользуюсь. Это FBReader (www.fbreader.org), свободная программа для чтения электронных книг в различных форматах, не только в ePub. Версии FBReader существуют для многих мобильных устройств, и, что немаловажно, есть версия для смартфонов под управлением Android.

Такой вот джентльменский набор программ для чтения ePub-книг. Однако нужно сказать, что в силу того, что стандарт ePub предполагает сложные по формату тексты, а не только беллетристику, было бы неплохо провести тестирование мобильных "читалок" на умение открывать сложное содержание. Такое тестирование, надеюсь, удастся сделать в ближайшем будущем.


DRM

И в заключение пару слов о защите авторских прав, реализованной через технологию DRM. Формат ePub поддерживает технологии DRM.

Для цифровых книг такой технологией защиты до недавнего времени была Adobe Content Server. Но в последнее время книгами увлеклась компания Apple, у которой своя собственная технология DRM - FirePlay. Поэтому сейчас трудно предсказать, какой метод в отношении защиты авторских прав будет принят за основной в формате ePub. По мне, так лучше бы вобще никакого DRM в этом формате не было.

Михаил АСТАПЧИК

Версия для печатиВерсия для печати

Номер: 

35 за 2010 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!