Все, что нужно для работы с PDF

Часть 1

Давайте-ка попробуем посмотреть, какими программами можно воспользоваться для работы с документами, имеющими формат PDF. Разобравшись, что это за зверь такой (см. врезку), приступим непосредственно к рассмотрению утилит.


Преобразование в PDF...

Как же вообще создаются такие файлы? На мой взгляд, самый удобный способ - это воспользоваться услугами программы FinePrint pdfFactory Pro. Программа "видна" в системе как виртуальный принтер. Поэтому создавать документ можно в любом редакторе или приложении (Word, Internet Explorer, Photoshop и т.д.), где есть пункт "Печать", после чего достаточно отправить его на печать. Вместо ожидаемого в таком случае шуршания и попискивания принтера появляется окно pdfFactory, в котором красуется макет PDF-документа. На закладках программы можно указать различные параметры преобразования документа: например, настроить вид URL, установить пароль на созданный файл, без которого нельзя будет просмотреть, распечатать или скопировать часть документа. Внимательный читатель заметит, что "КВ" уже писали о pdfFactory - так что при желании можно поподробнее прочитать о ней в статьях Сергея Санько "PDF - это совсем просто!" (№22/2002) и "Еще раз о PDF" (№45/2002).

Кстати говоря, FinePrint pdfFactory Pro создали те же ребята, которые подарили миру еще одну "удобняшку" - FinePrint. Напомню, эта радость для принтера поможет напечатать буклеты или вместить несколько страниц на одном листе бумаги.

Для тех, кому лень самостоятельно заниматься переводом документов в PDF, на сайте фирмы Adobe имеется специальный сервис (https://createpdf.adobe.com/?v=w-4-0-6-1.0.0-ENU), предоставляющий онлайновые услуги по конвертированию документов, присланных по электронной почте. Правда, "сильные стороны" такого счастья не слишком очевидны: во-первых, сперва там стоит пройти процедуру регистрации (что уже само по себе неприятно), куда-то пересылать документы (вспоминается фраза "Секреты были ваши, а станут наши"), да и потом, оказывается, что подобным образом можно бесплатно создать всего 5 файлов... Нет уж, увольте. Лучше мучить pdfFactory.


...и обратно: PDF в HTML

Как создавать PDF, мы, надеюсь, разобрались. Но вот обратная задача (преобразование PDF-формата в HTML) - поистине больная тема, традиционно вызывающая много вопросов. Как такое можно сделать, часто спрашивают на компьютерных форумах, "ходят" за ответом на поисковики, ищут софт на архивах и warez-сайтах... А вся суета-то чего ради? Просто сам формат PDF, несмотря на все свои преимущества безболезненного распространения хранимой в нем информации, вряд ли можно назвать дружелюбным для end-пользователя: после конвертирования объем файла, как правило, увеличивается в несколько раз! Кроме того, есть и существенный недостаток: PDF (о, ужас!) нельзя редактировать - как говорится, из песни слов не выкинешь. Поэтому многие компьютерщики, заполучив книгу или мануал в таком формате, стараются преобразовать его во что-нибудь "человеческое", например, в HTML (пусть даже и не один) файлы. И вот здесь возможно несколько вариантов.

Первый из них - самый простой. Прямо на виду в окне Reader'а "висит" кнопка "Text Select Tool", с помощью которой можно выделить кусок текста, скопировать его в буфер обмена, а затем вставить в текстовый редактор. Есть небольшая тонкость: если на исходной странице расположено несколько колонок, то в Word перекочует не одна, а все. Но из Word'а уже нет проблем взять то, что нужно.

Если требуется выделить не отдельный кусочек, а весь текст, то здесь лучше воспользоваться софтиной PDF2HTML. Она разбивает один PDF-файл на множество HTML- или BMP-файлов (по количеству страниц). При этом можно указать диапазон страниц для обработки (например, с 5-й по 125-ю), а также качество "выдираемых" картинок. При работе с PDF2HTML в некоторых местах были замечены глюки с кириллическими шрифтами, да и получаемые HTML-файлы имели такой размер, словно страничку лепили в старом-добром Word. Однако, в целом, программа работает вполне сносно, и лучшего средства для подобной конвертации я не знаю.

Создатели PDF2HTML выпускают еще одну утилиту - PDF2TXT. Как следует из названия, из PDF-файла выжимается только текст - это также полезно в ряде случаев. Плюсы такого подхода: малый размер получаемого текстового файла, высокая скорость работы. Минусы: в получаемом тексте встречается огромное количество лишних пробелов между словами, а местами их просто не хватает - так что без дополнительного редактирования никак не обойтись.

Описанные выше фокусы получатся не всегда, а только в том случае, когда PDF-файл не был защищен от копирования. Но вот что делать, если такая защита уже имеется? От нее ведь никуда не денешься... А что если рассматривать открытый в Adobe Acrobat Reader файл как изображение? Тогда сразу находится решение - лучшая программа всех времен и народов для распознавания ABBYY FineReader 6.0 Professional:). Да-да! Она правильно выделит со страницы как текст, так и графику, причем сохраняя начальное форматирование. Как видите, выход всегда есть, просто он иногда бывает там, где и вход:).

В следующем номере продолжим осмотр шедевров софтиностроения и узнаем, как можно защитить паролем существующий PDF-файл, как "восстановить забытый пароль", просмотреть служебную информацию таких файлов и сделать кое-что еще интересное... До следующей недели!

Павел БАДЯЛИК,
fpmi@tut.by


Программы, упомянутые в обзоре, можно скачать вот откуда:

pdfFactory Pro [1.8 Mb], shareware, www.fineprint.com/release/FppPro164.exe

PDF2HTML [855 Kb], shareware, www.verypdf.com/pdf2htm/pdf2htm.exe

PDF2TXT [535 Kb], shareware, www.verypdf.com/pdf2txt/pdf2txt_setup.exe

ABBYY FineReader 6.0 Professional [35.8 Mb], shareware, fr5.abbyy.com/FR60/FR6PTRus.exe


Формат PDF (полностью - "Portable Document Format") был предложен компаний Adobe Systems в 1993 году. Одно из его основных преимуществ - универсальность. PDF сохраняет первоначальный вид документа со всеми шрифтами, цветами, изображениями и оформлением, что позволяет без проблем распространять такие документы через интернет и открывать их на любой компьютерной платформе с помощью бесплатной программы Acrobat Reader. При просмотре можно изменять масштаб изображения в весьма широких пределах без заметного ухудшения качества, что обусловлено векторной природой используемого алгоритма сжатия.

Все это и явилось причиной такой популярности PDF - формат стал стандартом "де-факто" для хранения и распространения различных описаний, руководств и тому подобных текстовых документов, включающих в себя большое количество графических изображений.

Версия для печатиВерсия для печати

Номер: 

33 за 2003 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

Аватар пользователя Инкогнито
давно искал способ перевести pdf в текст. спасибо за статейку...
Аватар пользователя Инкогнито
Есть бесплатная программа позволяющая перегнать любой документ в PDF.

здесь качаем GhostScript

http://www.cs.wisc.edu/~ghost/

здесь GSView и RedMon

http://www.ghostgum.com.au/

Все устанавливаем, настраиваем RedMon(в помощи посмотреть как настроить PDF Writer) и получаем в системе принтер при печати на который будет создаваться PDF файл.

Аватар пользователя Дайнеко Игорь
С благодарность читал статью, т.к. хочу конвертировать PDF, присылаемый Velcom-ом. Но скачанный мной конвертор PDF-TXT почему-то молча "не понимает" этот файл.

Кто знает в чем дело. Если файл запаролирован, то нет никакого сообщения.

Аватар пользователя Хунвейбин
Open office #1 сам умеет создавать PDF... И платить не надо. Ни разу.