Организация резервного копирования данных предприятия


1. Немного теории

Резервное копирование данных (backup) - это процесс сохранения избыточных копий файлов и каталогов, находящихся на локальных дисках, на сменные носители, обычно магнитные ленты. Избыточные копии могут использоваться для восстановления в случае, если оригинальные файлы потеряны или повреждены. Резервное копирование чаще всего планируется на ежедневной основе. При этом любые новые файлы или файлы, измененные с момента последнего копирования, оказываются на лентах, так что они будут доступны для восстановления на диск.

Одним из видов резервного копирования является архивирование данных (archive) - процесс получения "слепка" файлов и каталогов в том виде, в котором они располагаются на первичном носителе (обычно жестком диске) на момент архивирования. Образ "слепка" обычно сохраняется на сменном носителе, чаще всего на лентах или оптических дисках. Когда он полностью переписан на сменный носитель, соответствующие файлы могут быть удалены для освобождения места на дисках.

Архивирование обычно выполняется над данными, ассоциированными с конкретным проектом, а не с системой в целом. В отличие от резервного копирования (backup), пользователи обычно сами инициируют процесс архивирования данных по мере необходимости.

Поскольку применение общей для всей сети предприятия политики архивирования не представляется целесообразным, то рассмотрение этого подвида резервного копирования выходит за рамки данной статьи, и в дальнейшем речь будет идти только о резервном копировании (backup).

Основной задачей резервного копирования является обеспечение непрерывности работы современного предприятия. Важность регулярного проведения резервного копирования в значительной мере объясняется зависимостью предприятий, организаций и отдельных людей от информации, хранимой и обрабатываемой компьютерами. Так, потери организаций, работающих с банковскими счетами клиентов, от одного часа простоя, вызванного временным сбоем в работе оборудования, исчисляются миллионами долларов. Потери же, вызванные полной утратой коммерческой информации, исчислению не поддаются - в большинстве случаев это приводит к закрытию предприятия.

Ежедневное (а лучше и два раза в день) проведение резервного копирования хоть и является наилучшим выходом с точки зрения безопасности данных, но резервные копии достаточно быстро уменьшают доступное свободное место на дисках. Поэтому, кроме полного резервного копирования, применяется инкрементальное и дифференциальное копирование. Использование этих методов позволяет существенно сэкономить место на ленте.

Инкрементальный метод представляет собой поэтапный способ записи информации. Например, в воскресенье ночью делается полная копия всей необходимой информации. В понедельник вечером делается копия только той информации, которая изменилась с воскресенья. Во вторник - только та информация, которая изменилась с понедельника, и т.д. до следующей полной копии. По истечении заданного оператором времени (обычно недели) цикл повторяется снова и начинается с полной копии файловой системы или каталогов. Данный метод копирования является самым быстрым и ведет к минимальному расходу магнитной ленты. Однако, восстановление информации при инкрементальном копировании - самое длительное: чтобы восстановить информацию на вечер пятницы, необходимо сначала восстановить полную (воскресную) копию, а затем последовательно со всех следующих. Тем не менее, это самый популярный метод резервного копирования у системных администраторов, поскольку восстановление информации - процедура достаточно редкая в нормально работающей системе. Однако, если все же информацию необходимо восстановить, приходится ждать несколько часов, что далеко не всегда приемлемо.

При дифференциальном методе первая запись на ленту также является полной копией. На последующих этапах копируются только файлы, которые изменились со времени проведения полного копирования (т.е. и в понедельник, и во вторник, и во все остальные дни будут копироваться все файлы, измененные с воскресенья). Т.е. размер копий будет увеличиваться каждый день до следующей полной копии. По времени этот метод занимает больше времени, чем при инкрементальном копировании, однако для восстановления данных достаточно всего двух копий - последней полной и последней дифференциальной копии.

Одной из самых сложных задач, решаемых при инкрементальном и дифференциальном копировании - это выбор критерия для проверки факта изменения файла. К сожалению, ни один из известных критериев не может полностью гарантировать это условие.

Самым распространенным способом установления факта изменения файла является использование атрибута Archive (архивный). При создании или модифицировании файла данный атрибут автоматически выставляется прикладными программами. При резервном копировании этот атрибут убирается. Поэтому теоретически система резервного копирования может таким образом определить, что файл еще не копировался на ленту. Ряд прикладных программ принудительно убирают этот атрибут при работе с файлами. Таким образом, система резервного копирования будет считать, что у файла есть копия на ленте, хотя это и не так. Это ведет к опасности того, что файлы окажутся вообще без резервных копий. Кроме того, здесь возможна и иная неприятная ситуация. Если файл восстановлен с резервной копии, то он получает атрибут Archive, хотя его копия на ленте уже существует. Вдобавок, ряд прикладных программ при обращении к файлам выставляют этот атрибут, даже если файл не модифицировался.

Существуют и другие методы - проверка времени последнего изменения файла, его размера и др., которые тоже не обеспечивают должной достоверности. Современные программы резервного копирования используют всевозможные комбинации этих методов для установления факта изменения файла.


2. Аппаратные средства резервного копирования

Как известно, типовые устройства хранения информации - жесткие диски - не обеспечивают должного уровня безопасности хранимой информации. Для длительного хранения данных применяют устройства с последовательным доступом к информации - накопители на магнитных лентах (стримеры). К сожалению, несмотря на существенное превосходство над жесткими дисками в области надежности, ленточные системы имеют ряд недостатков в эксплуатации. Несмотря на существенный технологический прогресс в этой области, скорость чтения/записи, а также скорость позиционирования (поиска нужной информации) по-прежнему остается крайне неудовлетворительной. При значительных объемах сохраняемой информации подобная ситуация порождает ряд проблем, таких, как значительное время копирования информации, а, следовательно, и высокая загруженность пропускных каналов локальных сетей и, что самое главное, значительное время восстановления информации.

Наиболее важный показатель системы резервного копирования данных - это максимально допустимое время простоя системы из-за сбоя работы первичных носителей информации (в общем случае это время равно времени восстановления резервной копии системы). Это время определяется стоимостью одного часа простоя данной информационной системы. Реальное же время простоя определяется, в первую очередь, объемом восстанавливаемой информации, а также характеристиками устройства резервного копирования/восстановления данных. В зависимости от масштаба предприятия возможно применение одного из следующих решений:


Единичный ленточный привод

Для небольших (до 20 компьютеров) офисов наиболее подходящим будет применение одного ленточного привода. Такие устройства характеризуются относительно небольшими скоростными и емкостными характеристиками (вместительность одного картриджа от 40 до 160 Гб, в зависимости от длины ленты и степени сжатия информации при копировании) и невысокой стоимостью. Скорость чтения/записи таких устройств находится в пределах 6-12 Мб/с. Недостатком таких устройств является необходимость вручную заменять картриджи по мере их заполнения.


Ленточные библиотеки

Для средних предприятий (до 100 компьютеров в сети) существуют автоматические ленточные библиотеки, способные вмещать до 10 картриджей одновременно. Такая библиотека самостоятельно выбирает необходимый картридж и вставляет его в ленточный привод для дальнейшей работы. Чтение/запись информации производится только с одного картриджа одновременно со скоростью от 21 до 43 Гб/час. Общая емкость загруженной библиотеки составляет до 1.6 Тб данных.

Такие устройства могут быть встроены в серверный шкаф, являются полностью автономными и не требуют внимания со стороны администратора.

В ленточные библиотеки более высокого уровня имеется возможность установить сразу несколько приводов для обеспечения необходимой скорости чтения/записи информации. Например, в ленточную библиотеку Scalar100 могут быть установлены 8 ленточных приводов для обеспечения теоретической скорости чтения/записи информации до 560 Мб/с с общей емкостью хранимой информации до 28.8 Тб. На практике скорость чтения/записи таких систем ограничивается только пропускной способностью существующих каналов связи.


Виртуальные ленточные библиотеки

К наиболее распределенным системам (от 250 компьютеров) или при больших объемах информации, подлежащей резервному копированию (от 1 Тб/сутки), предъявляются повышенные требования к надежности хранения информации. Поэтому применение более доступной схемы сохранения информации Диск-Лента (D2T - Disk To Tape) нецелесообразно. В таких системах используется схема D2D2T (Disk To Disk To Tape). Такая схема представляет собой гибрид ленточных устройств и жестких дисков, объединяющий в себе достоинства обеих технологий. Физически такие системы представляют собой дисковый массив, напрямую подключенный к собственной ленточной системе. И массив жестких дисков, и ленточная система объединены в одном корпусе и соединяются между собой быстродействующими каналами связи (например, SCSI). Таким образом, взаимодействие между частями устройства никак не влияет на работу всей сети в целом, оставляя каналы связи и вычислительные ресурсы корпоративных сетей свободными.

В этой системе процесс резервного копирования происходит следующим образом - информация, подлежащая резервному копированию, передается с устройств своего непосредственного хранения на дисковую часть гибридной системы хранения, что происходит достаточно быстро, а, следовательно, меньше загружает каналы передачи данных. Полученная информация сначала буферизируется, что дает возможность ее быстрого восстановления, а потом переписывается на ленты, не загружая внешние системы и обеспечивая должный уровень надежности хранения информации. Несмотря на то, что запись на ленты производится достаточно долго, сохраненная резервная копия уже доступна остальным устройствам, поскольку она уже сохранена на жестких дисках. Эти подробности функционирования системы скрыты от пользователей и процессов внешней системы. Для них гибридная система представляет собой еще один виртуальный сетевой или дисковый ресурс, к которому можно обращаться по имени, записывать и считывать информацию и т.д. Поэтому такие гибридные системы получили название виртуальных ленточных библиотек. Часто используемая информация кэшируется на жестких дисках для обеспечения быстрого доступа, а резервные копии хранятся на лентах.

Компания Fujitsu Siemens Computers, лидер европейского рынка компьютерных технологий, разработала виртуальную ленточную систему CentricStor - отказоустойчивое решение для защиты от аварий типа "диск-лента" с интегрированными функциями управления жизненным циклом информации. Эта система является платформонезависимой и способна консолидировать уже имеющиеся ленточные системы и системы хранения данных, уже имеющиеся в данной сети. Многие клиенты, которые уже используют систему CentricStor для защиты данных и консолидации вторичных (Nearline) хранилищ данных, полностью удовлетворены их работой. В Германии, например, в их числе Kraftfahrt-Bundesamt (Федеральная транспортная организация), администрация Кельна. Эти системы используются не только в Европе: группа школ Orange County Public School System в Орландо, штат Флорида, одна из 20 крупнейших школьных систем в стране, стала первым пользователем CentricStor в США. Кроме того, эта система уже используется в Японии и Юго-Восточной Азии.

Система CentricStor может содержать от 32 до 512 виртуальных и 2 до 32 реальных ленточных дисков, обеспечивая долговременное хранение до 25 Тб данных и кэширование до 22 Тб часто используемой информации, и является лучшим решением для систем долговременного хранения информации с повышенными требованиями к производительности и надежности хранения информации.


3. Программные средства резервного копирования

Для выполнения резервного копирования одного пользователя достаточно стандартных утилит, таких, как ntbackup в Windows или tar в Unix-системах. Они используют вышеописанные методы резервного копирования и определения факта изменения файлов, но их применение в масштабах всего предприятия не представляется целесообразным.

Программный продукт резервного копирования масштаба предприятия должен обеспечивать скоординированную работу всех элементов сети - рабочих станций, серверов и устройств резервного копирования - для обеспечения наименьшей загрузки устройств и каналов связи. Для этого применяют следующую организацию программного комплекса: сервер системы, консоль управления (в общем случае устанавливается не на сервере), агенты резервного копирования (программы-клиенты, устанавливаемые на рабочих станциях). Кроме того, такой продукт должен обеспечивать возможность работы с клиентами под управлением различных операционных систем. И, наконец, такие программы должны обеспечивать доступ к файлам пользователей и баз данных, даже если эти файлы открыты и используются системой.

Очевидно, что для успешной работы всего комплекса резервного копирования необходима слаженная работа как программных, так и аппаратных средств. Поэтому для систем резервного копирования масштаба предприятия стандартные средства резервного копирования не применяются.

Одним из наиболее распространенных программных комплексов для резервного копирования является BrightStor ARCserve производства компании Computer Associates. Этот комплекс ориентирован на работу в разнородной многоплатформенной среде, работает со всеми видами устройств резервного копирования, может быть интегрирован с антивирусным программным обеспечением и обеспечивает максимально быструю работу системы при минимальной загрузке процессоров как на сервере, так и на клиентах.

Каким бы тривиальным ни казался процесс резервного копирования, каждая организация, независимо от размеров своей компьютерной сети, будь то сеть небольшого офиса или распределенная сеть масштаба предприятия, нуждается в обеспечении непрерывности своей работы и сохранности своих данных. Поэтому каждое предприятие сможет найти подходящее для себя решение, а значит, сделать свой бизнес по-настоящему стабильным и прибыльным.

Михаил ЧУПРИНСКИЙ,
специалист ИП ИТЦ-М,
Mikhail.Chuprynski@itc.by,
тел. 216-10-13

Версия для печатиВерсия для печати

Номер: 

29 за 2005 год

Рубрика: 

Hardware
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!