ВКР на тему проектирования хранилища данных для информационной системы ООО ПрофИТ (1208336), страница 2
Текст из файла (страница 2)
– сложно или невозможно предугадать требуемый объём дискового пространства при развертывании компьютерной системы. Как следствие возникают проблемы расширения дисковых ёмкостей – довольно сложно получить в сервере ёмкости порядков терабайт, особенно если система уже работает на существующих дисках небольшой ёмкости – как минимум, требуется остановка системы и неэффективные финансовые вложения;
– неэффективная утилизация ресурсов – порой не угадать, в каком сервере данные будут расти быстрее. В сервере электронной почты может быть свободен критически малый объём дискового пространства, в то время как другое подразделение будет использовать всего лишь 20% объёма недешёвой дисковой подсистемы;
– низкая степень конфиденциальности распределённых данных – невозможно проконтролировать и ограничить доступ в соответствии с политикой безопасности предприятия. Это касается как доступа к данным по существующим для этого каналам (локальная сеть), так и физического доступа к носителям – к примеру, не исключены хищения жёстких дисков, их разрушение (с целью затруднить бизнес организации). Неквалифицированные действия пользователей и обслуживающего персонала могут нанести ещё больший вред [5];
– управление распределенными потоками информации – любые действия, которые направлены на изменения данных в каждом филиале, содержащем часть распределённых данных, создает определённые проблемы, начиная от сложности синхронизации различных баз данных, версий файлов разработчиков и заканчивая ненужным дублированием информации [14];
– низкий экономический эффект внедрения «классических» решений – по мере роста информационной сети, больших объёмов данных и всё более распределённой структуры предприятия финансовые вложения оказываются не столь эффективны и зачастую не могут решить возникающих проблем;
– высокие затраты используемых ресурсов для поддержания работоспособности всей информационной системы предприятия – начиная от необходимости содержать большой штат квалифицированного персонала и заканчивая многочисленными недешёвыми аппаратными решениями, которые призваны решить проблему объёмов и скоростей доступа к информации вкупе с надёжностью хранения и защитой от сбоев.
1.3 RAID массивы в системах хранения данных
Изначально жесткие диски находились внутри системных блоков компьютеров и серверов. Со стремительным ростом объемов информации подобное размещение накопителей стало неудобным и не безопасным. Наиболее простым решением этой проблемы является – технология RAID.
Проблемы связанные с повышением безопасности хранимой информации и в то же время увеличением производительности систем хранения данных является давним вопросом для разработчиков компьютерной периферии. Относительно повышения надежности хранения все понятно: информация — это товар, и нередко очень ценный. Для защиты от потери данных придумано немало способов, наиболее известный и надежный из которых — это резервное копирование информации [48].
Повышение производительности дисковой подсистемы считается весьма сложной задачей. С ростом мощностей текущих линеек процессоров возникает существенный дисбаланс между процессорными потребностями и возможностями жестких дисков.
Система RAID – это избыточный массив независимых дисков (Redundant Arrays of Independent Discs), задачей которых выступает увеличение производительности и отказоустойчивости систем хранения данных. При этом отказоустойчивость обеспечивается избыточностью, то есть определенная часть емкости дискового пространства выделяется в служебных целях, становясь недоступной для пользователя.
Повышение производительности дисковой подсистемы достигается единовременной работой нескольких дисков, и чем больше дисков в массиве (до определенного предела), тем больше производительность.
Совместную работу дисков в массиве можно организовать с использованием либо параллельного, либо независимого доступа.
В случае применения параллельного доступа дисковое пространство разбивается на блоки (полоски) для записи данных. И также разбивается на блоки информация, которую подлежит записать на диск. При записи отдельные блоки записываются на различные диски, причем запись нескольких блоков на различные диски происходит одновременно, что и приводит к увеличению производительности в операциях записи. Нужная информация также считывается отдельными блоками одновременно с нескольких дисков, что также способствует росту производительности пропорционально количеству дисков в массиве.
Следует отметить, что модель с параллельным доступом реализуется только при условии, что размер запроса на запись данных больше размера самого блока. В противном случае реализовать параллельную запись нескольких блоков просто невозможно. Представим ситуацию, когда размер отдельного блока составляет 8 Кбайт, а размер запроса на запись данных — 64 Кбайт. В этом случае исходная информация нарезается на восемь блоков по 8 Кбайт каждый. Если имеется массив из четырех дисков, то одновременно можно записать четыре блока, или 32 Кбайт, за один раз. Очевидно, что в рассмотренном примере скорость записи и скорость считывания окажется в четыре раза выше, чем при использовании одного диска. Однако такая ситуация является идеальной, поскольку далеко не всегда размер запроса кратен размеру блока и количеству дисков в массиве.
Если же размер записываемых данных меньше размера блока, то реализуется принципиально иная модель доступа — независимый доступ. Более того, эта модель может быть реализована и в том случае, когда размер записываемых данных больше размера одного блока. При независимом доступе все данные отдельного запроса записываются на отдельный диск, то есть ситуация идентична работе с одним диском. Преимущество модели с параллельным доступом в том, что при одновременном поступлении нескольких запросов на запись (чтение) все они будут выполняться независимо, на отдельных дисках. Подобная ситуация типична, например, в серверах.
В соответствии с различными типами доступа существуют и различные типы RAID-массивов, которые принято характеризовать уровнями RAID. Кроме типа доступа, уровни RAID различаются способом размещения и формирования избыточной информации. Избыточная информация может либо размещаться на специально выделенном диске, либо перемешиваться между всеми дисками. Способов формирования этой информации несколько больше. Простейший из них — это полное дублирование (100-процентная избыточность), или зеркалирование. Кроме того, используются коды с коррекцией ошибок, а также вычисление четности.
1.4 Типы систем хранилищ данных и их особенности
После знакомства с системами хранения данных, принципами их построения, предоставляемыми ими возможностями можно рассмотреть типы систем хранения и топологии их подключения в единую работающую инфраструктуру.
Устройства DAS (Direct Attached Storage) – системы хранения, подключаемые напрямую к серверу. Сюда относятся как самые простые SCSI-системы, подключаемые к SCSI/RAID-контроллеру сервера, так и устройства FibreChannel, подключенные прямо к серверу, хотя и предназначены они для сетей SAN. Схема устройства представлена на рисунке 1.1.
Рисунок 1.1 – Схема устройства DAS
В этой схеме один из серверов имеет доступ к данным, хранящимся на СХД. Клиенты получают доступ к данным, обращаясь к этому серверу через сеть. То есть сервер имеет блочный доступ к данным на СХД, а уже клиенты пользуются файловым доступом.
Минусы такой топологии очевидны:
– низкая надежность – при проблемах сети или аварии сервера данные становятся недоступны всем сразу;
– высокая задержка, обусловленная обработкой всех запросов одним сервером и использующимся транспортом (чаще всего – IP);
– высокая загрузка сети, часто определяющая пределы масштабируемости путём добавления клиентов;
– плохая управляемость – вся ёмкость доступна одному серверу, что снижает гибкость распределения данных;
– низкая утилизация ресурсов – трудно предсказать требуемые объёмы данных, у одних устройств DAS в организации может быть избыток ёмкости (дисков), у других её может не хватать – перераспределение часто невозможно или трудоёмко.
Устройства NAS (Network Attached Storage) – устройства хранения, подключённые напрямую в сеть. В отличие от других систем NAS обеспечивает файловый доступ к данным и никак иначе. NAS-устройства (рисунок 1.2). представляют из себя комбинацию системы хранения данных и сервера, к которому она подключена.
Рисунок 1.2 – Схема устройства NAS
Все минусы такой схемы аналогичны DAS-топологии, за некоторым исключением. Из добавившихся минусов можно отметить возросшую, и часто значительно, стоимость.
NAS-устройства могут быть, начиная от простейших, с одним портом ethernet и двумя жёсткими дисками в RAID1, позволяющими доступ к файлам по лишь одному протоколу CIFS (Common Internet File System) до огромных систем в которых могут быть установлены сотни жёстких дисков, а файловый доступ обеспечивается десятком специализированных серверов внутри NAS-системы. Число внешних Ethernet-портов может достигать многих десятков, а ёмкость хранимых данных – несколько сотен терабайт. Такие модели по надёжности и производительности могут далеко обходить многие средние устройства SAN. Что интересно, NAS-устройства могут быть частью SAN-сети и не иметь собственных накопителей, а лишь предоставлять файловый доступ к данным, находящимся на блочных устройствах хранения. В таком случае NAS берёт на себя функцию мощного специализированного сервера, а SAN – устройства хранения данных, то есть мы получаем топологию DAS, скомпонованную из NAS- и SAN-компонентов.
NAS-устройства очень хороши в гетерогенной среде, где необходим быстрый файловый доступ к данным для многих клиентов одновременно. Также обеспечивается отличная надёжность хранения и гибкость управления системой вкупе с простотой обслуживания. На надёжности особо останавливаться не будем – этот аспект СХД рассмотрен выше. Что касается гетерогенной среды, доступ к файлам в рамках единой NAS-системы может быть получен по протоколам TCP/IP, CIFS, NFS, FTP, TFTP и другим, включая возможность работы NAS, как iSCSI-target, что обеспечивает функционирование с различным ОС, установленными на хостах. Что касается лёгкости обслуживания и гибкости управления, то эти возможности обеспечиваются специализированной ОС, которую трудно вывести из строя и не нужно обслуживать, а также простотой разграничения прав доступа к файлам.
Устройства для подключения в SAN (Storage Area Network) – устройства для подключения в сеть хранения данных. Сеть хранения данных (SAN) не стоит путать с локальной сетью – это различные сети. Чаще всего SAN основывается на стеке протоколов FibreChannel и в простейшем случае состоит из СХД, коммутаторов и серверов, объединённых оптическими каналами связи. На рисунке 1.3 можно увидеть высоконадёжную инфраструктуру, в которой серверы включены одновременно в локальную сеть (справа) и в сеть хранения данных (слева):
Рисунок 1.3 – Схема устройства SAN
SAN является высокоскоростной сетью передачи данных, предназначенной для подключения серверов к устройствам хранения данных. Разнообразные топологии SAN замещают традиционные шинные соединения «сервер — устройства хранения» и предоставляют по сравнению с ними большую гибкость, производительность и надежность. В основе концепции SAN лежит возможность соединения любого из серверов с любым устройством хранения данных, работающим по протоколу Fibre Channel [29].
HBA (host bus adapter) – платы адаптера, устанавливаемые в компьютер и служащие для подключения накопителей, интегрируются в серверы и осуществляют их взаимодействие с SAN по протоколу Fibre Channel.
Совместное использование систем хранения как правило упрощает администрирование и добавляет изрядную гибкость, поскольку кабели и дисковые массивы не нужно физически транспортировать и пере коммутировать от одного сервера к другому.
К ресурсам хранения данных относятся дисковые массивы, ленточные накопители и библиотеки с интерфейсом Fibre Channel. Многие свои возможности ресурсы хранения реализуют только, будучи включенными в SAN. Так дисковые массивы высшего класса могут осуществлять репликацию данных между масcивами по сетям Fibre Channel.
Хочется отметить, что устройства, которые возможно подключить в SAN, не ограничены только дисковыми СХД – это могут быть дисковые библиотеки, ленточные библиотеки (стримеры), устройства для хранения данных на оптических дисках (CD/DVD и прочие) и многие другие.
Из минусов SAN можно отметить лишь высокую стоимость её компонент, плюсами же является:
– высокая надёжность доступа к данным, находящимся на внешних системах хранения;
– централизованное хранение данных (надёжность, безопасность);
– удобное централизованное управление коммутацией и данными;
– перенос интенсивного трафика ввода-вывода в отдельную сеть, разгружая LAN;
– масштабируемость и гибкость логической структуры SAN;
– географически размеры SAN, в отличие от классических DAS, практически не ограничены;
– возможность оперативно распределять ресурсы между серверами;
– возможность строить отказоустойчивые кластерные решения без дополнительных затрат на базе имеющейся SAN;
– простая схема резервного копирования – все данные находятся в одном месте;
В заключение можно сказать, что NAS и SAN-решения в данный момент являются довольно популярными решениями. Число производителей и разнообразие продуктов увеличивается, техническая грамотность потребителей растёт. Сейчас уже почти в каждой вычислительной среде появляются те или иные системы хранения данных.
2 Проектирование хранилища данных в системе ООО «ПрофИТ»
2.1 Сведения о предприятии и проекте
Компания «ПрофИТ» специализируется на предоставлении услуг по IT-аутсорсингу, аутстаффингу, созданию и продвижению сайтов, комплексному монтажу компьютерных сетей, проектированию и построению СКС. Кроме того, компания занимается продажей программного обеспечения, аппаратуры, расходных материалов и комплектующих структурированных кабельных систем, систем IP-телефонии и различного оборудования для видеонаблюдения.
















