Почему информация сжимается?
Для того, чтобы стало возможно объяснить суть механизма сжатия информации, очевидно, что вначале нужно определить, что сжимается. Однако до сих пор исследования в этом направлении внешне напоминали собой поиски со свечкой в темных пещерах неизвестно чего. Не удивительно, что лучше всего при таких поисках эта свечка освещала саму себя (!), и ее роль, как это и положено в науке, выполняла математика. Обилие математических выкладок в учебниках по теории информации1 , являясь, с одной стороны, несомненным благом с точки зрения научных подходов к решению проблем, с другой стороны, как бы повисают в воздухе, не имея надежной точки опоры в виде четкого определения главного предмета исследований - информации. Отсюда возникает довольно курьезная ситуация - сами по себе ценные результаты исследований зачастую не находят, по сути, никакого вразумительного объяснения с позиций науки. Вот пример, как излагается сейчас теоретическая возможность сжатия информации.
Если дана некоторая запись (последовательность символов), содержащая информационное сообщение, то количество информации H, устраняющего неопределенность p для двоичного кода этой записи, можно представить как функцию
H=-p•log2p-(1-p)•log2(1-p)
которая, по сути, есть то же самое (только с обратным знаком), что и формула вычисления энтропии - степени неопределенности (хаотичности) состояния термодинамических систем. Это открытие Клода Шеннона, видимо, производит настолько ошеломляющее впечатление на ученых, что они до сих пор воспринимают его как научно обоснованное, хотя и очевидно, что оно стало возможным, в основном, благодаря прирожденной интуиции великого ученого, получившей блестящее подтверждение на практике. Тем не менее, наглядное представление функции Шеннона позволяет усмотреть в ней иное, более естественное и простое содержание, чем это представлялось до сих пор.
Стержневое понятие "бит" выводится как максимальное значение функции H(p) при p=0,5, и такое количество информации принимается за единицу измерения. Иными словами, бит - это количество информации, содержащееся в сообщении о том, какое именно из двух равновероятных событий имело место. Если же рассматривать случаи, когда эти события не являются равновероятными, то информационное содержание одного двоичного символа становится меньше одного бита и может уменьшаться до нуля.
Такая интерпретация представленной на графике функции идет от самого Шеннона и сохранилась до сих пор. Отсюда можно получить необходимые предпосылки, реализующие методами математики механизмы сжатия информации. Если, к примеру, сообщение состоит из символов кодировки ANSI (OS Windows), то очевидно, что вероятность попадания в запись для разных символов различна, следовательно, этот код для текстовых сообщений всегда избыточен. Отсюда легко объясняется, почему текстовые записи сжимаются примерно в 4 раза: основной набор символов для данного языка (латиница, кириллица) - примерно половина всех символов, в свою очередь, половина из этой половины - наиболее часто применяемые символы. Другими словами, применение данного кода делает сообщение избыточным, и можно перекодировать его таким образом, чтобы оно умещалось в меньшую длину записи. Казалось бы, кого этим сегодня удивишь? Вот именно - сегодня! А ведь результаты эти были получены в те времена, когда даже слово "компьютер" было неизвестно.
В приведенном примере больше всего поражает явное несоответствие математической точности полученных результатов и логической последовательности их обоснования. В этой логике под количеством информации подразумевается нечто само собой разумеющееся (например, для бинарного кода - необходимое количество ответов "да" или нет", чтобы угадать правильный ответ или уменьшить неопределенность ответа до нуля), при этом игры в угадывание почему-то воспринимаются как объекты, обладающие фундаментальными свойствами информации, а сама информация нигде и никогда не выходит за рамки чисто интуитивного понятия. Такое построение науки делает ее довольно тяжеловесной и малопонятной.
Однако, если исходить из более естественных предпосылок, что информация - это особый тип разнообразия ("КВ" №№41, 43-44, 2000 г.), а бит - это всего лишь неделимый, т.е. самый простой элемент любого разнообразия (а вовсе не единица измерения количества информации!), то те же самые результаты получают куда более простое обоснование, не требующее сложных и запутанных игр в математику.
Поскольку любое сообщение представимо в двоичном коде, то его всегда можно интерпретировать как число. Но если при этом рассматривать его не как количество, а как способ представления любого разнообразия вообще, то нетрудно догадаться, что и самое малое (все разряды нули), и самое большое (все разряды единицы) значение этого числа будут соответствовать нулевому количеству разнообразия - именно это и демонстрирует функция Шеннона. Чем ближе к центральной точке возможных комбинаций чисел (p=0,5), тем большей становится "хаотичность" распределения разных битов в записи сообщения. Однако при этом возрастает не количество содержащейся в сообщении информации (ее там может не быть вообще), а количество разнообразия в коде этого сообщения, определяемое аналогично понятию "энтропия".
Таким образом, пелена таинственности, покрывающая механизм сжатия информации, может быть легко сброшена, если выясняется главная его суть - уменьшение длины кода за счет увеличения его разнообразия. Но тогда и функция Шеннона может потерять свое монопольное положение в науке, при всей ее простоте, значимости и наглядности, поскольку теперь, при более глубоком понимании сущности информации, могут быть обнаружены и другие методы ее сжатия.
Попутно заметим, что малопонятный (и даже пугающий мрачными предсказаниями) термин "энтропия" также получает более простое содержание, если его интерпретировать как критерий равновесного состояния всех элементов системы, к которому она стремится в соответствии с естественными законами. Вот такой пустячок под занавес, наводящий на очевидное подозрение - не слишком ли много на этом пути удачных совпадений?
Юрий КРАСКОВ,
c_city2000@mail.ru
Все права на публикацию принадлежат автору
1 Аветисян Р.Д., Аветисян Д.О. Теоретические основы информатики.
Горячие темы