Актуальность данных
Информация - это слишком ценный ресурс, чтобы не обращать на него внимания и не стремиться накапливать его как можно в больших количествах. Однако при этом быстро обнаруживается, что чем больше становится коллекция, тем меньше в ней доля действительно ценной информации. Так происходит не только потому, что доступные источники информации в совокупности, как правило, чрезмерно избыточны, и ради экономии времени их приходится копировать целиком, но и вследствие того, что часть информации с течением времени просто теряет свою актуальность. Вполне очевидно, что бессистемное накопление информации в конечном счете приведет к тому, что нужные сведения проще будет найти в другом месте, чем в собственной коллекции.
С другой стороны, следует отметить, что действительно трудные проблемы возникают не с большими объемами и относительно малыми количествами данных, характерными для графической, аудио- и видеоинформации, а с большими количествами данных и относительно малыми объемами текстовой информации. Из этого следует, что тексты более целесообразно собирать и хранить в виде динамически изменяемых источников информации, и, в частности, не на одноразовых, а на перезаписываемых CD-матрицах. В этом случае появляется возможность применять средства, позволяющие эффективно избавляться не только от избыточной, но и устаревшей информации. Однако традиционные компьютерные технологии пока еще не обладают подобными средствами, и потребителям информационных ресурсов не остается ничего, кроме безнадежных попыток копаться в десятках тысяч файлов, чтобы придать своей коллекции хотя бы видимость какого-то порядка.
Не мудрено, что в такой ситуации у разработчиков возникает стремление как-то ее поправить. Но оно еще не может выйти за рамки маниловских мечтаний, поскольку одни только благие намерения не позволяют не то чтобы предложить что-то конкретное, но даже хотя бы выяснить, с какого боку подходить к решению этой проблемы. И все же попробуем представить себе некоего молодого человека, одержимого желанием заниматься именно такими проблемами, которые непосильны для большинства других. На первый взгляд, его цель выглядит вполне буднично - разработать программные средства, позволяющие оценивать и сортировать данные по их актуальности. Однако, если задача ставится не применительно к конкретной разработке, а в общем виде, то прежде всего необходимо определить, что же это такое - актуальность информации?
Понятно, что при исследовании этой проблемы, без выяснения вопроса "что такое информация?", какого-либо продвижения вперед просто не предвидится. Но если наш исследователь не из робкого десятка, то его не остановит даже то, что общепринятого ответа и на этот вопрос пока также не существует, хотя в этой части он может не только самостоятельно сформировать для себя собственное мнение, но и взять за основу уже имеющиеся разработки ("КВ" №43, 44/2000). Далее, к немалому своему удивлению, он обнаружит, что актуальность информации имеет к определению понятия "информация" такое же отношение, как, скажем, свойства товаров к свойствам складов, где они хранятся. Тем не менее, поставленная цель может заметно приблизиться после того, как выяснится, что актуальность информации оказывается связанной, с одной стороны, с ее жизненным циклом и полезностью ("КВ" №48/2000), а с другой, с формой ее существования - данными как структурными элементами систем, называемых источниками информации, в которых актуальность является одним из ресурсов управления ("КВ" №49).
Таким образом, данные, мало что значащие в отдельности, в совокупности становятся как раз тем, что и принято называть информацией. Однако непосредственные оценки актуальности информации становятся возможными только на уровне данных, следовательно, общее решение проблемы становится возможным в рамках создания универсального программируемого источника информации ("КВ" №№6, 8). В этом случае можно исходить из достаточно очевидной предпосылки, что актуальность данных - это отношение их полезности к заданному промежутку времени их жизненного цикла. В свою очередь, полезность каждой конкретной позиции данных может быть установлена через количество обращений к ней конечных потребителей информации.
Точная формулировка понятия "актуальность данных" позволяет не только реализовать его в виде технических параметров, но и избежать путаницы в терминологии, когда, например, под актуализацией данных понимается приведение одних данных в соответствие с другими, т.е. фактически речь идет о поддержке их целостности ("КВ" №23). В то же время становится более осязаемой взаимосвязь между различными компонентами управления данными. Например, потенциальная актуальность данных может быть значительно выше фактической вследствие их малой доступности. Однако задача определения фактической актуальности данных - явно не из простых. Вот как, например, может выглядеть только "верхушка айсберга", относящаяся к ее решению:
Актуальность данных
- Внешние ресурсы
- Временные
- Частотные
- Потребительские
- Ресурсы источника
- Разновидность информации
- Расположение позиций
- Относительные показатели
Все ресурсы, необходимые для определения актуальности данных, различаются по двум признакам. Внешние ресурсы - это информация, не имеющая прямого отношения к содержанию данных и вносимая в каждую позицию извне. С другой стороны, ресурсы источника - это информация, которая определяется из назначения, структуры и расположения данных в конкретном источнике.
Как только в источнике появляется новая позиция данных, то в ней сразу же фиксируется и первый временной ресурс - дата и время создания. По мере того, как изменяется возраст позиции, появляются и другие ресурсы: даты изменений и актуализации; частотность - количество обращений (для чтения) в заданный период времени; отношение к данным потребителя, выявляемое специальными средствами. Очевидно, что не может существовать единого способа определения (расчета) актуальности для любой позиции данных, поскольку он зависит как от ее принадлежности к различного рода информационным ресурсам (реквизиты поиска, промежуточные уровни, конечные данные), так и от ее связей с другими позициями (уровень иерархии, приоритет, ссылки и т.п.). Для количественных оценок и показателей актуальности могут применяться как абсолютные, так и относительные (сравнительные) значения или динамика их изменений.
Так выглядит краткий экскурс в существо проблемы, позволяющий получить лишь первичные представления о тех трудностях, которые нужно преодолеть, чтобы только приступить (!) к ее решению. А ведь после того, как технические решения уже будут разложены по полочкам, предстоит еще реализовать их в конкретных разработках и придать им статус конечных продуктов. Если подобное кому-либо иногда все же удается, то именно тогда и наступают для нас всех другие времена.
Юрий КРАСКОВ,
c_city2000@mail.ru
Все права на публикацию принадлежат автору
Горячие темы