Что такое данные?
Для того, чтобы какая-либо информация стала доступной, она должна обрести форму источника информации ("КВ" №24, 2000 г.), что, в свою очередь, означает наличие определенной структуры или модели, которая, как один из полюсов системы ("КВ" №2), может существовать только вместе с другим полюсом - данными, т.е. элементами или частями, из которых состоит любая информация. И действительно, весь имеющийся опыт свидетельствует о том, что данные могут появляться только тогда, когда уже созданы структурные образования (ячейки) для их размещения. Таким образом, определив полюсы системы, относящейся к любому источнику информации, как модель и данные, можно не только избавиться от путаницы в базовых понятиях, но и от чрезмерно избыточного разнообразия существующих сейчас форм представления информации.
Однако для того, чтобы сделать хотя бы первый шаг в этом направлении, нужно не только констатировать факт обязательного наличия в любом источнике информации модели и данных, но и объяснить его. Такое объяснение становится возможным только исходя из общего определения понятия информации как особого типа разнообразия ("КВ" №43, 44, 2000 г.). Поскольку любое разнообразие в конечном итоге сводится к последовательности бинарных элементов (битов), то становится очевидно, что из простейших битовых комбинаций (да - нет, 0 - 1 и т.п.) невозможно извлечь более сложного содержания, не разбивая эту последовательность на отрезки, большие чем 2 бита. Так, по необходимости появляется более сложный элемент - байт, состоящий из 8 бит.
Почему именно из 8 бит, а не из 7 или, скажем, 10? Ответ на этот вопрос исключительно важен, хотя и совсем не сложен. Длина отрезка, который становится фактическим элементом для любой символьной записи, определяется предельным числом возможных комбинаций, в данном случае оно составляет 28 = 256, и оптимальность этого числа очевидна. Если исходить из фактического набора символов печатной машинки (92), то из ближайших значений 27 = 128 очевидно мало даже для одного (напр. латинского) алфавита, учитывая, что часть символов должна быть отнесена к управляющим, а часть - к форматообразующим и специальным (линии, стрелки и т.д.), но и 29 = 512 очевидно слишком расточительно. С другой стороны, само число 8 - это целая степень числа 2, т.е. 8 = 23, что означает довольно редкий случай сочетания оптимальности с точки зрения ресурсов памяти и большой удачи - с точки зрения возможностей использования математических ресурсов.
Вывод, который следует из этих простых рассуждений, далеко не прост и очевиден, а скорее, малозаметен и парадоксален: никакая информация не может быть построена из битов и даже байтов, но в то же время, складываясь из других составных частей - данных, она, в конечном итоге, всегда будет состоять из этих самых битов и байтов. Только на такой основе можно объяснить тот факт (который почему-то игнорируется в школьных учебниках информатики), что в текстовых источниках ресурсы памяти на хранение 1 символа информации всегда (!) будут превышать (пусть даже очень незначительно) 1 байт. Читатель, конечно же, может возразить, что это и так очевидно, поскольку текстовые записи, кроме символов самого текста, содержат также управляющие символы и дополнительную информацию о форматах, шрифтах и т.п. Однако в действительности это только заслоняет, а вовсе не объясняет истинную причину такого явления.
Так происходит потому, что информация (как и любое другое явление или предмет) формируется по законам систем ("КВ" №№ 25-27, 2000 г.), т.е. на основе взаимодействия двух полюсов, которые должны соответствовать общему определению понятия информации. Это означает, что любая конкретная комбинация элементов (например, символов) с заранее известным содержанием (например, слов или их сочетаний) должна к чему-то относиться (т.е. быть к чему-либо привязана), иначе эта комбинация не может иметь достаточно однозначную или даже вообще какую-либо интерпретацию. Результатом такого соотношения или привязки как раз и является то, что принято называть данными. Следовательно, данные - это такие составные части информации, которые должны определяться в рамках модели (заранее известной структуры) конкретного источника информации. Самый простой пример такого источника - это база данных, где структурные единицы, а именно поля, их наименования и параметры (длина, тип данных и т.п.) - должны относиться к модели, а конкретное содержание этих полей в виде списков - к данным.
Теперь, когда контуры структуры, относящейся к источникам информации, начинают понемногу проясняться, то становятся и более заметными эффекты, присущие вообще для любых систем. Так, например, можно отметить весьма интересный феномен полюсов системы, которые могут проявлять себя только на фоне друг друга, т.е. самостоятельно каждый из них не смог бы существовать вообще. В данном случае определение понятия "данные" преломляется через призму понятия "модель", однако представить себе какую-либо модель без данных оказывается совершенно невозможно, поскольку средством для описания любой модели являются те же данные, только отнесенные к другому типу. Но если это так, то сложившиеся представления о данных как о простых элементах или составных частях информации должны быть уже в ближайшее время кардинально пересмотрены, поскольку разработка детальной структуры, позволяющей осуществить переход в конечном итоге к универсальному программируемому источнику информации ("КВ" №23, 2000 г.), становится возможной только если данные рассматривать не как элементарные, а как сложные объекты, составляющие предмет специального и глубокого изучения.
По всей видимости, это вовсе не случайно, что процессы развития такой наукоемкой отрасли общественного производства, как компьютерные технологии, очень напоминают этапы развития самой науки. В течение многих веков такие элементы вещества, как атомы, считались наиболее простыми и неделимыми образованиями, из которых состоят все материальные объекты. Только что завершившийся XX век напрочь перевернул эти представления, что привело к таким преобразованиям в науке, от которых она, похоже, еще и до сих пор никак не может прийти в себя. Вполне возможно, что уже в начале XXI века будут кардинальным образом пересмотрены уже сложившиеся представления о компьютерных технологиях, и начало этому пересмотру будет положено именно с того, что уже и сейчас достаточно очевидно. "Простые" элементы информации - данные - образуются вовсе не из битов и байтов!
Юрий КРАСКОВ,
c_city2000@mail.ru
Все права на публикацию принадлежат автору
Горячие темы