Основы цифрового видео

(Продолжение. Начало в №26)

Сейчас мы полностью уходим от аналога, индустрией пересматриваются устаревшие стандарты, осуществляется полный переход "в цифру". И это не является чем-то новым, скорее, для XXI века, обыденным. Инструменты производства и технологии быстро дешевеют, со стороны пользователей значительно увеличился спрос на ПО монтажа, и рынок этого софта начал развиваться более стремительно. Причем, скорее всего, все произойдет как и в звуке: программное обеспечение станет доминирующим элементом в области записи, обработки, монтажа и выпуска финальных продуктов.

В рамках этого и следующего материалов мы обсудим ряд интересных вопросов, которые введут нас в мир современных цифровых стандартов семейства MPEG.


Интересная случайность

Ваш покорный слуга, наверное, в предыдущей статье этой серии несколько утомил вас историей, за что извиняюсь, но та информация была полезной, по крайней мере, вы поняли, почему видеосигнал подразумевает вывод изображения по строкам и кто это придумал. Хотя, если бы экран в телевизоре Нипкова поместили горизонтально относительно вращающегося диска, то во всем современном видео и ТВ изображение выводилось бы по столбцам.

А сейчас стоит рассказать об очень интересной случайности, которая во многом предопределила развитие современных цифровых технологий, но имеет явное отношение к черно-белым телевизорам, которые в момент внедрения цветного ТВ стояли у разработчиков как кость в горле :).

Не думаю, что стоит говорить банальности о том, что парк черно-белых телеприемников был очень велик, поэтому, давая людям цвет, изобретатели должны были думать о совместимости со старым арсеналом. Кстати, это защитило нас и от множества неразумных шагов, например, реализации систем с последовательной передачей цветов, которые можно считать вредными для зрения, особенно в рамках технологического уровня того времени.

Когда же были изобретены люминофоры, способные излучать свет в красном, зеленом и синем спектрах, и сама технология формирования трехцветного изображения, стало возможным говорить о применении цветного сигнала, где цвета подаются не последовательно, а вкупе, в виде трех отдельных элементов. Сначала, как стандартное решение, виделось RGB, но, опять же, помешал рынок черно-белых телевизоров! Не встраивать же в них дополнительные устройства для суммирования трех сигналов? Эдакий апгрейд на полмира. Что делать?

В рамках стандартов NTSC, PAL и SECAM вместо обычного RGB было решено применить следующую схему, где общий компонентный сигнал включает в себя не три одноцветных, а три специально созданных составляющих:

Y - яркостный, по существу, являющийся R+G+B;

Cb - цветоразностный (синий, b-Y);

Cr - цветоразностный (красный, r-Y).

В четвертом, цветоразностном (зеленом, g-Y), отпадает необходимость, поскольку его можно быстро воссоздать (вычислить) в приемном устройстве, используя три поступающих.

Сигнал Y передается в той же полосе частот, что и обычный черно-белый сигнал (по существу, он им и является), его и воспроизводят обычные черно-белые телевизоры, а остальные два предназначены для цветных телеприемников. Потом выяснилось, что Y для формирования изображения, его четкости является доминирующим, а цветоразностные такой четкости не требуют, и могут занимать гораздо более узкую полосу частот. И пошло, и поехало...

Такому разбиению вы можете найти и еще одно более современное объяснение: у человека в органах зрения палочек в 20 раз больше, чем колбочек, соответственно, он больше чувствителен к изменениям яркости, нежели цвета. И это объяснение вы найдете в описании такого популярного ныне стандарта, как...


JPEG

Группа экспертов Joint Photographic Expert Group (JPEG) была создана в 1986 году, и ее основной задачей были исследования в области компьютерного представления статических изображений.

Если вы рассмотрите структуру обычного графического BMP-файла, то обнаружите, что в нем описана некая матрица, включающая определенное количество элементов по вертикали и горизонтали, а по существу, цветовых точек, каждая из которых описана определенным числом, выраженным в виде 8-16-24 и т.д.-разрядного значения. Этому значению соответствует определенный цвет, не более того. Программисты вам расскажут, что все легко преобразуется в то же RGB-представление, а также в любое другое, что можно наблюдать в ряде графических пакетов. Естественно, BPM - это не единственный стандарт, есть множество других, но в данном случае стал вопрос: а можно ли сэкономить ресурсы на хранении изображений. Сжатие BPM без потерь в качестве (lossless-компрессия) тогда позволяло уменьшать объемы в 2 раза, не более. Это не являлось удобным.

И в данном случае мы остановимся на экспертной группе JPEG, которая работала над тем, чтобы получить сжатый вариант BPM без существенных потерь в качестве, но с большим коэффициентом. Естественно, подразумевалось, что потери все-таки будут (lossy-компрессия), но все это должно не сильно сказываться на качестве картинки. Разработанный стандарт утвержден как ISO/IEC 10918-1, а для простоты назван JPEG, по имени создателя.

Суть технологии состоит в том, что любое изображение разбивается на небольшие, но оптимальные для вычислений "квадратики" размером 16х16 точек, соответственно, получается матрица из маленьких изображений, каждое из которых обрабатывается по отдельности. Далее производится переход (!) к представлению в YCbCr. Зачем? В данном случае, тот вариант объяснения, что мы яркость воспринимаем лучше, чем цвета, более применим. Теперь вспомним о том, как стали поступать с цветоразностными сигналами в телевидении? Правильно, уменьшать их диапазон.

При кодировании в JPEG из этих небольших изображений 16х16 удаляются четные столбцы и строки, но не для яркостного, а только для двух цветоразностных составляющих сигнала. В русскоязычном варианте вы можете встретить такое понятие, как "прореживание". Потери получаются не так сильно заметными для глаза, но объем информации значительно уменьшается. Потом эти макроблоки разбиваются на меньшие 8х8 и в таком виде поступают на следующие этапы обработки - DCT (дискретное косинусное преобразование), последовательное считывание в зигзагообразном порядке квантованных значений матрицы DCT, энтропийное сжатие (кодирование длин серий и код Хаффмена). Кто хочет, может более подробно узнать о структуре стандарта в его описаниях.

То есть, как вы понимаете, в самой природе кодирования в JPEG нет вообще ничего близкого, что связано с технологиями аналогового (оцифрованного аналогового) телевидения и видео, кроме как представление цветов через YCbCr. Ведь речь идет о статических изображениях и об обработке их отдельных блоков.

Тем не менее, в этом варианте мы уже можем говорить о возможности выводить видео уже по сжатым кадрам. В принципе, эта идея не заставила себя ждать и реализовалась в стандарте Motion JPEG (MJPEG), а также во множестве вариантов для конференц-связи.


MPEG

MPEG - это не просто группа экспертов кодирования видеоизображения Moving Picture Coding Experts Group. Само название является, как бы это сказать, упрощенным, ведь подразделение, о котором идет речь, скрывается под другой аббревиатурой - ISO/IEC JTC1 SC29 WG11 (если читать с конца, то это одиннадцатая рабочая группа (WG11) двадцать девятого подкомитета (SC29) Объединенного технического комитета №1 (JTC1), созданного Международной организацией стандартизации (ISO) и Международной электротехнической комиссией (IEC)).

Данное подразделение было создано в 1988 году, и основной его целью являлась разработка новых информационных стандартов. Изначально оно было маленьким и включало около 25 человек, но потом разрослось до мировых масштабов. Буквально через четыре года после своего основания группа опубликовала, а на следующий год и утвердила стандарт ISO/IEC 11172 - Information Technology - Coding of Moving Pictures and Associated Audio for Digital Storage media at up to about 1,5 Mbit/s (Кодирование изображения и звука при скоростях цифрового потока компрессированных данных до 1,5 Мбит/с).

Он получил название в дальнейшем как MPEG-1, потому как ISO/IEC 11172 звучит так же, как и ISO/IEC JTC1 SC29 WG11:).


MPEG-1

MPEG-1 по структурному принципу очень схож с JPEG и даже основывается на этом стандарте, но с одной лишь разницей: используется множество специфических надстроек. То есть, например, для реализации короткого видеофрагмента нам может понадобиться только один полноценный кадр, сжатый в JPEG, а все остальное можно достраивать, регистрируя только небольшие изменения относительно исходного. Чтобы это понять, откройте любой видеоредактор и посмотрите: насколько сильно отличается конкретно взятый кадр от предыдущего и последующего? Различий мало.

Причем делать сравнение, опираясь на JPEG как исходный формат, можно и по тем же макроблокам 16х16, учитывая возможность поиска схожих (если речь идет о смещении) и так далее. То есть можно брать только исходный кадр, а потом в нем изменять лишь некоторые элементы, что очень удобно.

Поэтому разработчики стандарта поступили весьма хитрым образом, разбив всю структуру на чередующиеся кадры трех типов:

  • I (Intra) - опорные кадры, изображения в которых хранятся в полном объеме;
  • P (Predicted) - "предсказываемые", в них содержится информация только об изменениях в структуре изображения, по сравнению с предыдущими им кадрами типа I или P;
  • B (Bi-directional Interpolated) - "двухсторонней интерполяции", сохраняющие только самую существенную часть информации об отличиях от предыдущего и последующего изображений, другими словами, являющиеся переходными от предыдущего к последующему.

Таким образом, суммарная последовательность, именуемая GOP (Group of Pictures - группа изображений), имеет только один I-кадр и описывается общим числом кадров в группе и интервалом между P-кадрами. Например, для VideoCD применима схема 15/3, что подразумевает последовательность: IBBPBBPBBPBBPBB.

Теперь сравним: согласно Motion JPEG, на реализацию такого же понадобились бы все пятнадцать I-кадров (15 полноценных JPEG-файлов), а в MPEG-1 получаем примерно то же, но требующее в четыре раза меньшего объема.

Отличие MPEG-1 от Motion JPEG состоит и в том, что в MPEG-1 предусмотрено и сжатие звукового потока, что подразумевало отдельные технологии, получившие названия Layer I, Layer II и Layer III (известный MP3), наиболее популярные из которых основаны на психоакустическом принципе удаления ненужных элементов. Об этом много написано, так что тут останавливаться не будем. Отметим лишь одно: звук при кодировании в Layer I, Layer II и Layer III преобразуется в кадры, являющиеся, по сути, сжатыми мгновенными спектрами сигнала.

В общем и целом, хотя на то время уже разрабатывалось множество других цифровых видеостандартов, MPEG-1 был поддержан множеством организаций, включая некоторых вещателей, производителей техники и оборудования. Многие приписывают успех всего этого предприятия руководителю подразделения Леонардо Черильоне, который является не только хорошим инженером, но и отличным политиком. И, действительно, очень многое зависело от поведения на рынке, ведь была реальная конкуренция. Чарильоне сделал ставку на два кажущихся разносторонними направления:

  • Альянсы с крупнейшими мировыми компаниями.
  • Создание независимых стандартов.

Похоже на банальность, но... работает. Как это выглядит на деле, вы можете увидеть, хотя бы посмотрев на распространение MP3 стандарта в музыке :). Альянсы - есть, независимый стандарт - присутствует. Кстати, MP3 победил даже Microsoft'овский wma на их же поле :).

Что касается самого MPEG-1, он не был панацеей в глобальном смысле, имел достаточно узкие ограничения по качеству, потому как изначально разрабатывался для обеспечения уровня VHS, с точки зрения видео не совсем подходил для вещания.

Посему разработчики направили свои усилия на разработку нового стандарта... Основная группа вокруг ISO/IEC 13818 (а это и есть MPEG-2) была сформирована в 1992-93 гг. О нем и поговорим в следующем материале.

Кристофер,
[email protected]

Версия для печатиВерсия для печати

Номер: 

29 за 2007 год

Рубрика: 

Multimedia
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Комментарии

Страницы

Аватар пользователя Серж
"Хотя, если бы экран в телевизоре Нипкова поместили горизонтально относительно вращающегося диска, то во всем современном видео и ТВ изображение выводилось бы по столбцам."

А вот если бы автор ещё и иллюстрацию в гифке сообразил, раз он такой видеогений, так цены бы ему не было!

Потому что в нашем воображении этот диск и экран к нему могут располагаться в совсем уже неожиданных, ага, местах по отношению друг к другу.

Ок?

Аватар пользователя Эдуард
"...Сам диск был рассчитан на 30 строк, а фотоэлементов использовалось 40. Отсюда и так привычная нам геометрия экрана 4:3..."

Можно, конечно, сказать и так, но вообще-то, это "золотое сечение". Размеры картин, фотографий, соотношение сторон кадра, соответственно и формат монитора и экрана.

Аватар пользователя Кристофер
2 Серж:

ну, и что тут непонятного? На иллюстрации в следующей части показан схематично телевизор Нипкова с вращающимся диском. Экран расположен сверху. Пробегающие отверстия формируют строки. Сместите экран по часовой стрелке на 90 градусов по линии хода диска, и эти же отверстия будут формировать столбцы.

Аватар пользователя Zeo
"...Сам диск был рассчитан на 30 строк, а фотоэлементов использовалось 40. Отсюда и так привычная нам геометрия экрана 4:3..."

Нет. Не отсюда.

Вспомним формат кадра немого кино.

Т.е. оттуда.

А почему там был выбран такой формат ?

Вопрос посложнее.Надо литературу поднять...

Аватар пользователя Эдуард
>>Вопрос посложнее.Надо литературу поднять...

24x36 размер кадра. "Золотое сечение".

Аватар пользователя Эдуард
ГЫ, тогда еще народ имел классическое образование и даже знал латынь, и ведал, что есть классическое понятие в драматургии... Единство места и времени действия....
Аватар пользователя Кристофер
М-да, тут еще и "золотое сечение" впендюрили:))) Ну-ну, дальше что?
Аватар пользователя Эдуард
>>М-да, тут еще и "золотое сечение" впендюрили:))) Ну-ну, дальше что?

Вообще-то в эпоху возникновения фотографии, она считалась художественным изображением.

Аватар пользователя Logicby
Кристофер > Ну-ну, дальше что?

"Золотая спираль"

Аватар пользователя Кристофер
Нет, я думаю... телекинез и левитация...

Страницы