Основные особенности наиболее часто употребляемых форматов файлов.

Раздел форума: 

Аватар пользователя admin

Автор темы: 

Trader
ВСЕМ ПРИВЕТ! Помогите, пожалуйста, раскрыть следующую тему:

Основные особенности наиболее часто употребляемых текстовых форматов ASII, RTF, DOC, HTML и др. Особенности гафических форматов. Растровые (BMP, PCX, TIFF, GIF, jpg (jpeg). Dtrnjhyst (WMF, Posscript и др.

Аватар пользователя Tr
НУ...
Аватар пользователя суслик
Ну и...

Особенно после ASII & Posscript :)

RTFM, граждане, RTFM!

Аватар пользователя Викинг
asCii и posTscript
Аватар пользователя Викинг
суслик: точно
Аватар пользователя Tr
Это што? особенности такие :) ? или юмор?
Аватар пользователя Tr
Нужна самая простенькая инфа, Для чего применяются, какой принцип действия, отличия от других и т.д., т.е. ОСОБЕННОСТИ. Plz, помогите.
Аватар пользователя Ынг
Ладно, давайте поможем человеку. Слабо?

Текстовый файл - совокупность букв, знаков и специальных символов, представляемых файловой системой как единое целое. Как следует из названия, основное назначение текстовых файлов - хранение информации в виде текста. В таких файлах может храниться самая различная информация - собственно тексты, командные файлы и даже базы данных! Очень многие программисты по старинке хранят тексты своих программ в таких файлах - программы на C/C++, Visual Basic, Delphi, Pascal, Perl, Java представляют собой обычный текст.

Однако, не следует думать, что содержимое данных файлов будет понятно любому. Обычный текст сможет прочесть каждый; для чтения C/C++ требуется небольшая предварительная подготовка; тем не менее, любой человек, посетивший месячные курсы программирования, начинает понимать и писать C++ файлы без малейшего труда. Хорошо написанная программа на языке Perl обычно непонятна никому, даже ее автору.

По принципу действия текстовые файлы разделяются на информационные и командные. Информационные содержат текст, предназначенный для просмотра либо для использования в других программах. Командные (так называемые скрипты) состоят из набора инструкций, выполняемых операционной системой в установленном порядке. Данное разделение очень условно - текст любой программы может рассматриваться как командный файл - только для преобразования его в последовательность действий используются специальные программы - компиляторы и интерпретаторы.

Ограничения на имя файла определяются только операционной системой. В некоторых (MS-DOS и др.) длина имени файла ограничена 8-ю символами; имя не может включать в себя русские буквы и некоторые другие символы. Допустимая длина в более поздних системах (Windows 95/98, NT, 2000, XP) гораздо больше (до 255 символов), при этом файл может быть назван по-русски. Наиболее часто используемые расширения - .TXT (обычный текст), .BAT, .CMD (командные файлы), .C, .CPP, .H, .HPP (C и C++ файлы), .PAS (языки программирования Pascal, Delphi), .PL (язык Perl), .VBS, .BAS (Бейсик), .JS (Java-script), .CSV (база данных, где все значения в строках таблицы разделены запятыми). Допускаются текстовые файлы вообще без расширений (как пример - файл MAKEFILE, содержащий инструкции по компиляции для многих компиляторов C++).

Основным преимуществом является их почти полная переносимость - файл, набранный в OS Unix, может быть без труда прочитан в OS Windows, DOS, etc, что сделало тексты фактически стандартом для почтовых приложений (конечно, здесь есть свои сложности, которые грамотные пользователи вполне могут преодолеть). Текстовые файлы являются очень прогрессивной формой хранения данных - достаточно сказать, что все страницы в интернете представляют собой специально отформатированные тексты (так называемый HTML). Даже Microsoft Corporation использует тексты для представления данных в формате XML, и этот факт у многих вызывает опасения, что эта корпорация внесет свои изменения в столь популярный текстовый формат, что сделает тексты, набранные в OS Windows, полностью несовместимыми с текстами, используемыми в других операционных системах. В качестве примера можно рассмотреть ситуацию с переводом строки, где Microsoft использует 2 символа (с кодами 13 и 10), когда все остальные используют только один - и эта проблема тянется с 1980 года. Основной же проблемой текстовых файлов является их полная незащищенность - любой, кто имеет доступ к данному файлу, может прочесть его содержимое. Поэтому доступ к таким файлам должен регулироваться на уровне операционной системой.

Извини, на остальные форматы просто нет времени. Может, другие помогут?

Аватар пользователя суслик
2Ынг: О чем речь? Обязательно помогут :)

Просто забавно такие вопросы читать...

Ежели у человека есть выход в сеть, то доки (документы, а не доктора) тут есть.

Взять хоть тут:

http://halyava.ru/document/ind_form.htm

или тут:

http://cast1.narod.ru/formats.html

А вообще-то, зачем в сети искалки?

Аватар пользователя Trader
Чпасибо. Будем искать дальше.
Аватар пользователя Ынг
Забавно их не только читать, но и ответы писать. Забавно выйдет, если этот текст к кому-нибудь в реферат пойдет - чушь полная. Принцип действия тектового файла - до такого еще додуматься надо :))
Аватар пользователя Trader
Ну так напишите что нибудь толковое.
Аватар пользователя Некрозоопедофил
Не, ну дебил полный. Вот такие вроде него новости на компьюленте пишут. Прочитал сегодня, чуть со смеху не помер: КМОП (комплиментный металлооксидный полупроводник)
Аватар пользователя Связист

Всем ещё раз привет!!! Вот что я раздобыл по теме. Здесь много чего не хватает и (я думаю) есть ошибки. Кому не лень добавьте и исправьте или укажите ссылки где можно добыть ещё инфы на эту тему.

Итак,

Основные особенности наиболее часто употребляемых текстовых форматов ASCII, RTF, DOC, HTML и др. Особенности графических форматов. Растровые (BMP, PCX, TIFF, GIF, JPEG). Векторные (WMF, Posscript и др.).

Файл – это:

одна программа;

один текст;

одна картинка –

короче говоря, любой набор любых данных одного типа, который хранится на диске отдельно от прочих. У него, само собой, есть название (имя). Безымянных файлов не бывает.

Имя файла состоит обычно из двух частей – собственно имени и расширения. Имя и расширение отделяются друг от друга точкой. В старых операционных системах (MS-DOS) их длинна была ограничена: на имя отводилось от 1-го до 8-ми символов и расширение могло быть длинной до 3-ёх символов. Начиная с ОС Windows`95 это ограничение снято: в новой системе имена могут быть до 255 символов длиной, включать пробелы и точки.

Расширение сразу же показывает, с чем вы имеете дело - с программой, текстом или картинкой.

Программа – это может быть игрушка, текстовый редактор или сложный системный комплекс – имеет обычно расширение exe или com.

Остальные расширения тоже принято понимать вполне определённым образом:

· txt, doc, rtf, wp, wri – текстовые файлы (документы). Расширение doc, rtf – дает своим документам программа MS Word, wp – WordPerfect, wri – MS Write.

· html (он же htm) – Интернет-страница.

· bak – предпоследняя версия текста (резервная копия).

· tif, pcx, bmp, pic, gif, jpg, cdr – файлы картинок.

· arj, zip, rar – особым образом сжатые (сархивированные) файлы. Так поступают с редко используемыми программами и текстами, чтобы они занимали меньше места на диске.

· hlp – файлы помощи, подсказок к разным программам (от английского help, ”помощь”).

· drv, sys, dll, ocx и ряд других – служебные программы и программы-драйверы, - библиотеки, с помощью которых компьютер обучается работать с разными мониторами, принтерами и другой периферией.

· fon, ttf, fnt,sfp, sfl, xfr – шрифты для разных программ.

· bas, c, pas, asm - содержат текст программ на языках Бейсик, Си, Паскаль, Ассемблер.

Существует ещё множество расширений. Остановимся отдельно на некоторых видах.

Формат ASCII

Этот текстовый формат представляет собой обыкновенный файл с набором символов в кодировке ASCII. Здесь можно употреблять любые символы вводимые с клавиатуры. В таком формате текстового файла может располагаться только текст и специальные графические символы, с помощью которых можно составить элементарные таблицы и нарисовать простенькие рисунки.

Текст можно набрать с любого ДОСовского редактора (Work&Word, Лексикон). Также в Формате ASCII сохраняют свои файлы некоторые языки программирования, например, Бейсик, Паскаль.

Формат Rich Text (RTF), Document (DOC)

Данные форматы были определены фирмой Microsoft как стандартные форматы для обмена текстовыми документами. RTF и DOC поддерживаются многими продуктами фирмы Microsoft. Так, например, начиная с версии 2.0, RTF введен в Windows в качестве Clipboard-формата, благодаря чему возможен обмен данными между различными прикладными программами Windows. Кроме того, RT-формат поддерживается программами WORD для Macintosh, начиная с версии 3.X, и WORD для PC, начиная с версии 4. X.

В RTF для обмена документами используются только представимые символами коды из ASCII-, MAC- и PC-символьного набора. Кроме текста, файл в DOC и RT-формате в читаемой форме содержит команды управления. Здесь и начинаются основные различия этих форматов. В RTF используется базовая, стандартная система команд, что и осуществляет поддержку этого формата различными программами.

В DOC`ах используется более расширенная система команд. С каждой новой версией этого формата, команды совершенствуются, удаляются старые недостатки. Здесь есть и плюсы, и минусы. Плюсы заключаются в том, что наш документ (непосредственно сам файл) получается более структурированным. Следует отметить, что это позволяет сократить размер места занимаемый файлом на диске. Минусы: старшие версии файлов не всегда корректно читаются предыдущими версиями редакторов, это надо учитывать и, по возможности, заранее преобразовывать документ в нужный формат. Это осуществляется с помощью встроенного в редактор преобразователя форматов – компилятора.

Формат HTML

Это ещё один формат используемый для хранения текстовой информациии, но употребляется он для иных целей, отличных от целей предыдуших форматов. По простому этот формат ещё называется Web-страница.

Каждая Web-страничка представляет собой обычный текстовый файл, специальным образом размещённый. Если посмотреть на его структуру (через любой HEX-редактор), то будет видно, что она похожа на структуру программы составленной на языке программирования. Разработчик ставит метки, поясняя браузеру, где тут заголовок, где простой текст, где ссылка, а где картинка. Картинка, конечно, не вставляется в текст, она лежит в отдельном файле, а в тексте лишь указано, как этот файл называется, где его взять и куда на экране поместить. Всё это называется языком гипертекстовой разметки – HTML (Hyper Text Markup Language). Так вот, всемирная паутина World Wide Web состоит сплошь из гипертекстов! Практически на каждой из миллиардов Web-страничек есть ссылки на другие. Просто тыкая мышкой по ссылкам, можно преспокойно путешествовать по сети, попадая в места, расположенные за тысячи километров от вашего компьютера.

Графичекие форматы

Предназначены для хранения графической информации. Делятся на два главных типа – растровые (или битмэповые) и векторные.

Векторные форматы (WMF, Posscript и др.)

Над векторными можно проделывать очень сложные трансформации, формы рисунка, сжатия и растяжения, любые изменения размера, преобразования контуров, в них возможны повороты любого элемента рисунка на любые углы без искажения формы и, наоборот, искажения любых видов: превращение квадратного рисунка в круглый, цилиндрический, криволинейный – в какой угодно. В них очень хорошо именно рисовать, сочетать изображения с разного рода надписями, произвольным образом размещёнными (по дугам или иным кривым, под любыми углами). Но для обработки фотоизображений они непригодны. Используют их при изготовлении всез видов эмблем и товарных знаков, при вёрстке любой сложности.

Растровые форматы BMP, PCX, TIFF, GIF, JPEG

Битмэповый формат (от bitmap – битовая карта) рисует изображенние по точкам, т. е. для каждой точки картинки отдельно задан её цвет. Это и есть особенность растровых форматов.

Растровый формат используют для хранения обрабатываемых сканированных изображений – картины, рисунки, фотографии, введённые в компьютер изображения, сделанные электронным фотоаппаратом. В битмэповских редакторах основной упор делается на ретуширование сканированных изображений, преобразование цветов и оттенков, контраста, яркости, четкости, на разного рода размывки и затуманивания, игры со светотенью. Но с формой объектов они работают хуже, и файлы битмэп-форматов заметно больше, чем векторные, если в них не употребляется процедура сжатия.

BMP (аппаратно-независимый битовый образ). Основным отличием файлов этого формата является то, что в них используется кодировка цветов с одной битовой плоскостью.

PCX. Начинаются с заголовка длиной 128 байт. Оставшаяся часть файла с изображением состоит из закодированных графических данных. При кодировании используется простой алгоритм, основанный на методе длинных серий. Если в файле запоминается несколько цветовых слоев, каждая строка изображения запоминается по цветовым слоям.

TIFF (TIF). Используется для высококачественной обработки изображений. В этом формате не используется процедура сжатия информации, для того чтобы не вносить значительные искажения при обработке рисунка.

GIF - это стандарт фирмы CompuServe для определения растровых цветных изображений. Этот формат позволяет высвечивать на различном оборудовании графические высококачественные изображения с большим разрешением и подразумевает механизм обмена и высвечивания изображений. Формат изображений был разработан для поддержки настоящей и будущей технологии обраб

Аватар пользователя Trader
Оказывается и искать далеко не надо :)))))

http://kv.by/index1998082001.htm

http://kv.by/index2001083001.htm

http://kv.by/index2001253001.htm

http://kv.by/index2001363001.htm

Аватар пользователя Alexander
Здравствуйте!

Я получил очень важный для меня документ в формате doc. Но при открытии, Word выдаёт ошибку о неправильном расположении файла. Я подозреваю, что эта проблема из-за шрифта или кодировки(т.к. открывая через WordPad получается нечитаемая ерунда вперемешку с читаемыми фамилиями написанными на английском языке).Пожалуйста! Если кто-нибудь может помочь... Мой e-mail: alexander_s_v@mailandnews.com

Аватар пользователя суслик
2Alexander: Вот это серьезно... Кроме шуток.

Что тут можно посоветовать?.. посмотреть доковский файл как текст. Иногда действительно помогает. Меняем кодировочку... Да! Уникодную не забываем! Как правило теряем особенности такие как: картинки, формулы, etc. Но это пережить можно. Имхо.

А околесица - по вине мелкософтников - на кой, спрашивается, предмет менять форматы файлов встоль ими любимом офисе? А тем хуже - использовать енти форматы для сетевого обмена :[ Неужто html настолько сложен? Фу!

Короче: см параграф 1. При внимательном рассмотрении из доковского файла прочитать можно и так... Кстати, xUSSR пользователь может быть и во Франции (приложение к лицензионному соглашению на оболочку FAR :)

Аватар пользователя Эдуард
Иногда подобное возникает из-за имеющихся в структуре файла ошибок. Кстати, это может быть и обычный текстовый файл. Следует посмотреть его в различных кодировках.

Если он в формате Wordа то можно попробовать открыть его Sun'овским Open Offisom. Меня это пару раз выручало.

Аватар пользователя Ынг
Alexander,

А имя файла, случаем, не содержит неанглийские буквы? Если так - попробуй его переименовать во что-либо более читаемое с точки зрения ворда и открыть снова. Хотя вряд ли...

Аватар пользователя суслик
Возможен, впрочем, вариант. Забавный. Сколько раз пользователи приставали с подобным вопросом. Особенно, что с дискетки не читается... Заглянешь - а там... (драматическая пауза) filename.doc.lnk (гомерический хохот)

Вот, что бывает при слишком усердном пользовании "проводника" и игнорировании других файл-менеджеров.

Аватар пользователя ksi
Народ, помогите! Нужно из БД Access выкачать информацию и сохранить в формате RTF. Word не подходит, надо обойтись без него, напрямую, т.е. в обход его объетной модели. Может кто что знает, может использовали кто объектную модель RTF? Буду признательна!!!!