Наступят ли другие времена?

Актуальность данных

Информация - это слишком ценный ресурс, чтобы не обращать на него внимания и не стремиться накапливать его как можно в больших количествах. Однако при этом быстро обнаруживается, что чем больше становится коллекция, тем меньше в ней доля действительно ценной информации. Так происходит не только потому, что доступные источники информации в совокупности, как правило, чрезмерно избыточны, и ради экономии времени их приходится копировать целиком, но и вследствие того, что часть информации с течением времени просто теряет свою актуальность. Вполне очевидно, что бессистемное накопление информации в конечном счете приведет к тому, что нужные сведения проще будет найти в другом месте, чем в собственной коллекции.

С другой стороны, следует отметить, что действительно трудные проблемы возникают не с большими объемами и относительно малыми количествами данных, характерными для графической, аудио- и видеоинформации, а с большими количествами данных и относительно малыми объемами текстовой информации. Из этого следует, что тексты более целесообразно собирать и хранить в виде динамически изменяемых источников информации, и, в частности, не на одноразовых, а на перезаписываемых CD-матрицах. В этом случае появляется возможность применять средства, позволяющие эффективно избавляться не только от избыточной, но и устаревшей информации. Однако традиционные компьютерные технологии пока еще не обладают подобными средствами, и потребителям информационных ресурсов не остается ничего, кроме безнадежных попыток копаться в десятках тысяч файлов, чтобы придать своей коллекции хотя бы видимость какого-то порядка.

Не мудрено, что в такой ситуации у разработчиков возникает стремление как-то ее поправить. Но оно еще не может выйти за рамки маниловских мечтаний, поскольку одни только благие намерения не позволяют не то чтобы предложить что-то конкретное, но даже хотя бы выяснить, с какого боку подходить к решению этой проблемы. И все же попробуем представить себе некоего молодого человека, одержимого желанием заниматься именно такими проблемами, которые непосильны для большинства других. На первый взгляд, его цель выглядит вполне буднично - разработать программные средства, позволяющие оценивать и сортировать данные по их актуальности. Однако, если задача ставится не применительно к конкретной разработке, а в общем виде, то прежде всего необходимо определить, что же это такое - актуальность информации?

Понятно, что при исследовании этой проблемы, без выяснения вопроса "что такое информация?", какого-либо продвижения вперед просто не предвидится. Но если наш исследователь не из робкого десятка, то его не остановит даже то, что общепринятого ответа и на этот вопрос пока также не существует, хотя в этой части он может не только самостоятельно сформировать для себя собственное мнение, но и взять за основу уже имеющиеся разработки ("КВ" №43, 44/2000). Далее, к немалому своему удивлению, он обнаружит, что актуальность информации имеет к определению понятия "информация" такое же отношение, как, скажем, свойства товаров к свойствам складов, где они хранятся. Тем не менее, поставленная цель может заметно приблизиться после того, как выяснится, что актуальность информации оказывается связанной, с одной стороны, с ее жизненным циклом и полезностью ("КВ" №48/2000), а с другой, с формой ее существования - данными как структурными элементами систем, называемых источниками информации, в которых актуальность является одним из ресурсов управления ("КВ" №49).

Таким образом, данные, мало что значащие в отдельности, в совокупности становятся как раз тем, что и принято называть информацией. Однако непосредственные оценки актуальности информации становятся возможными только на уровне данных, следовательно, общее решение проблемы становится возможным в рамках создания универсального программируемого источника информации ("КВ" №№6, 8). В этом случае можно исходить из достаточно очевидной предпосылки, что актуальность данных - это отношение их полезности к заданному промежутку времени их жизненного цикла. В свою очередь, полезность каждой конкретной позиции данных может быть установлена через количество обращений к ней конечных потребителей информации.

Точная формулировка понятия "актуальность данных" позволяет не только реализовать его в виде технических параметров, но и избежать путаницы в терминологии, когда, например, под актуализацией данных понимается приведение одних данных в соответствие с другими, т.е. фактически речь идет о поддержке их целостности ("КВ" №23). В то же время становится более осязаемой взаимосвязь между различными компонентами управления данными. Например, потенциальная актуальность данных может быть значительно выше фактической вследствие их малой доступности. Однако задача определения фактической актуальности данных - явно не из простых. Вот как, например, может выглядеть только "верхушка айсберга", относящаяся к ее решению:

Актуальность данных

  1. Внешние ресурсы
    1. Временные
    2. Частотные
    3. Потребительские
  2. Ресурсы источника
    1. Разновидность информации
    2. Расположение позиций
    3. Относительные показатели

Все ресурсы, необходимые для определения актуальности данных, различаются по двум признакам. Внешние ресурсы - это информация, не имеющая прямого отношения к содержанию данных и вносимая в каждую позицию извне. С другой стороны, ресурсы источника - это информация, которая определяется из назначения, структуры и расположения данных в конкретном источнике.

Как только в источнике появляется новая позиция данных, то в ней сразу же фиксируется и первый временной ресурс - дата и время создания. По мере того, как изменяется возраст позиции, появляются и другие ресурсы: даты изменений и актуализации; частотность - количество обращений (для чтения) в заданный период времени; отношение к данным потребителя, выявляемое специальными средствами. Очевидно, что не может существовать единого способа определения (расчета) актуальности для любой позиции данных, поскольку он зависит как от ее принадлежности к различного рода информационным ресурсам (реквизиты поиска, промежуточные уровни, конечные данные), так и от ее связей с другими позициями (уровень иерархии, приоритет, ссылки и т.п.). Для количественных оценок и показателей актуальности могут применяться как абсолютные, так и относительные (сравнительные) значения или динамика их изменений.

Так выглядит краткий экскурс в существо проблемы, позволяющий получить лишь первичные представления о тех трудностях, которые нужно преодолеть, чтобы только приступить (!) к ее решению. А ведь после того, как технические решения уже будут разложены по полочкам, предстоит еще реализовать их в конкретных разработках и придать им статус конечных продуктов. Если подобное кому-либо иногда все же удается, то именно тогда и наступают для нас всех другие времена.

Юрий КРАСКОВ,
c_city2000@mail.ru

Все права на публикацию принадлежат автору

Версия для печатиВерсия для печати

Номер: 

51 за 2001 год

Рубрика: 

Новые технологии
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!