Часть 1
Давайте-ка попробуем посмотреть, какими программами можно воспользоваться для работы с документами, имеющими формат PDF. Разобравшись, что это за зверь такой (см. врезку), приступим непосредственно к рассмотрению утилит.
Преобразование в PDF...
Как же вообще создаются такие файлы? На мой взгляд, самый удобный способ - это воспользоваться услугами программы FinePrint pdfFactory Pro. Программа "видна" в системе как виртуальный принтер. Поэтому создавать документ можно в любом редакторе или приложении (Word, Internet Explorer, Photoshop и т.д.), где есть пункт "Печать", после чего достаточно отправить его на печать. Вместо ожидаемого в таком случае шуршания и попискивания принтера появляется окно pdfFactory, в котором красуется макет PDF-документа. На закладках программы можно указать различные параметры преобразования документа: например, настроить вид URL, установить пароль на созданный файл, без которого нельзя будет просмотреть, распечатать или скопировать часть документа. Внимательный читатель заметит, что "КВ" уже писали о pdfFactory - так что при желании можно поподробнее прочитать о ней в статьях Сергея Санько "PDF - это совсем просто!" (№22/2002) и "Еще раз о PDF" (№45/2002).
Кстати говоря, FinePrint pdfFactory Pro создали те же ребята, которые подарили миру еще одну "удобняшку" - FinePrint. Напомню, эта радость для принтера поможет напечатать буклеты или вместить несколько страниц на одном листе бумаги.
Для тех, кому лень самостоятельно заниматься переводом документов в PDF, на сайте фирмы Adobe имеется специальный сервис (https://createpdf.adobe.com/?v=w-4-0-6-1.0.0-ENU), предоставляющий онлайновые услуги по конвертированию документов, присланных по электронной почте. Правда, "сильные стороны" такого счастья не слишком очевидны: во-первых, сперва там стоит пройти процедуру регистрации (что уже само по себе неприятно), куда-то пересылать документы (вспоминается фраза "Секреты были ваши, а станут наши"), да и потом, оказывается, что подобным образом можно бесплатно создать всего 5 файлов... Нет уж, увольте. Лучше мучить pdfFactory.
...и обратно: PDF в HTML
Как создавать PDF, мы, надеюсь, разобрались. Но вот обратная задача (преобразование PDF-формата в HTML) - поистине больная тема, традиционно вызывающая много вопросов. Как такое можно сделать, часто спрашивают на компьютерных форумах, "ходят" за ответом на поисковики, ищут софт на архивах и warez-сайтах... А вся суета-то чего ради? Просто сам формат PDF, несмотря на все свои преимущества безболезненного распространения хранимой в нем информации, вряд ли можно назвать дружелюбным для end-пользователя: после конвертирования объем файла, как правило, увеличивается в несколько раз! Кроме того, есть и существенный недостаток: PDF (о, ужас!) нельзя редактировать - как говорится, из песни слов не выкинешь. Поэтому многие компьютерщики, заполучив книгу или мануал в таком формате, стараются преобразовать его во что-нибудь "человеческое", например, в HTML (пусть даже и не один) файлы. И вот здесь возможно несколько вариантов.
Первый из них - самый простой. Прямо на виду в окне Reader'а "висит" кнопка "Text Select Tool", с помощью которой можно выделить кусок текста, скопировать его в буфер обмена, а затем вставить в текстовый редактор. Есть небольшая тонкость: если на исходной странице расположено несколько колонок, то в Word перекочует не одна, а все. Но из Word'а уже нет проблем взять то, что нужно.
Если требуется выделить не отдельный кусочек, а весь текст, то здесь лучше воспользоваться софтиной PDF2HTML. Она разбивает один PDF-файл на множество HTML- или BMP-файлов (по количеству страниц). При этом можно указать диапазон страниц для обработки (например, с 5-й по 125-ю), а также качество "выдираемых" картинок. При работе с PDF2HTML в некоторых местах были замечены глюки с кириллическими шрифтами, да и получаемые HTML-файлы имели такой размер, словно страничку лепили в старом-добром Word. Однако, в целом, программа работает вполне сносно, и лучшего средства для подобной конвертации я не знаю.
Создатели PDF2HTML выпускают еще одну утилиту - PDF2TXT. Как следует из названия, из PDF-файла выжимается только текст - это также полезно в ряде случаев. Плюсы такого подхода: малый размер получаемого текстового файла, высокая скорость работы. Минусы: в получаемом тексте встречается огромное количество лишних пробелов между словами, а местами их просто не хватает - так что без дополнительного редактирования никак не обойтись.
Описанные выше фокусы получатся не всегда, а только в том случае, когда PDF-файл не был защищен от копирования. Но вот что делать, если такая защита уже имеется? От нее ведь никуда не денешься... А что если рассматривать открытый в Adobe Acrobat Reader файл как изображение? Тогда сразу находится решение - лучшая программа всех времен и народов для распознавания ABBYY FineReader 6.0 Professional:). Да-да! Она правильно выделит со страницы как текст, так и графику, причем сохраняя начальное форматирование. Как видите, выход всегда есть, просто он иногда бывает там, где и вход:).
В следующем номере продолжим осмотр шедевров софтиностроения и узнаем, как можно защитить паролем существующий PDF-файл, как "восстановить забытый пароль", просмотреть служебную информацию таких файлов и сделать кое-что еще интересное... До следующей недели!
Павел БАДЯЛИК,
fpmi@tut.by
Программы, упомянутые в обзоре,
можно скачать вот откуда:
pdfFactory Pro [1.8 Mb], shareware, www.fineprint.com/release/FppPro164.exe
PDF2HTML [855 Kb], shareware, www.verypdf.com/pdf2htm/pdf2htm.exe
PDF2TXT [535 Kb], shareware, www.verypdf.com/pdf2txt/pdf2txt_setup.exe
ABBYY FineReader 6.0 Professional [35.8 Mb], shareware, fr5.abbyy.com/FR60/FR6PTRus.exe
Формат PDF (полностью - "Portable Document
Format") был предложен компаний Adobe
Systems в 1993 году. Одно из его основных
преимуществ - универсальность. PDF
сохраняет первоначальный вид
документа со всеми шрифтами,
цветами, изображениями и
оформлением, что позволяет без
проблем распространять такие
документы через интернет и
открывать их на любой компьютерной
платформе с помощью бесплатной
программы Acrobat Reader. При просмотре
можно изменять масштаб изображения
в весьма широких пределах без
заметного ухудшения качества, что
обусловлено векторной природой
используемого алгоритма сжатия.
Все это и явилось причиной такой популярности PDF - формат стал стандартом "де-факто" для хранения и распространения различных описаний, руководств и тому подобных текстовых документов, включающих в себя большое количество графических изображений.
Комментарии
здесь качаем GhostScript
http://www.cs.wisc.edu/~ghost/
здесь GSView и RedMon
http://www.ghostgum.com.au/
Все устанавливаем, настраиваем RedMon(в помощи посмотреть как настроить PDF Writer) и получаем в системе принтер при печати на который будет создаваться PDF файл.
Кто знает в чем дело. Если файл запаролирован, то нет никакого сообщения.