Хомоненко А.Д., Цыганков В.М., Мальцев М.Г. - Базы данных. Учебник для высших учебных заведений (6-е изд.) - 2009 (1084484), страница 53
Текст из файла (страница 53)
Примером последовательного обра-9. Дополнительные вопросы применения баз данных255щения к дисковой памяти является операция сканирования (последовательного просмотра) или частичного сканирования индексов (отсортированных)перед обращением к записям индексированной БД.Без хорошего знания приложения, стратегии индексации, принятой администратором базы данных, а также механизмов поиска и хранения С У Б Дв общем случае невозможно точно сказать какие преимущественно выполняются операции ввода/вывода. Поэтому обычно предполагают, что доминирует операция произвольного доступа к диску.
Эта операция вызываетбольшую нагрузку на дисковую систему ввода/вывода, нежели последовательный доступ.При подборе дисковых накопителей, кроме размера общей емкости дисковой памяти, следует помнить о достаточной пропускной способности дисковой подсистемы. Почти всегда лучшие характеристики производительностидостигаются при мен ьшей емкости диска, даже когда больший диск имеет превосходные характеристики по всем параметрам.На производительность дисковой подсистемы ввода/вывода большое влияние оказывает количество и вид используемых системных шин.
Различныешины поддерживают работу разного количества дисков. Так, на одной шинеFast SCSI-2 (10 Мб/с) можно сконфигурировать небольшое число дисков( 3 - 5 ) , а на шине Fast-and-Wide SCSI (20 М б / с ) - до 8 - 1 0 дисков.Помимо характеристик емкости МД и пропускной способности шин, напроизводительность подсистемы ввода/вывода большое влияние оказываетуровень загруженности этих компонентов.
Практика показывает, что в случае пиковых нагрузок степень загруженности шины должна поддерживатьсяна уровне 40%, а степень загрузки дисков — на уровне 60%.МногопроцессорныесистемыобработкибазданныхОдним из путей повышения производительности и живучести систем обработки информации в базах данных является применение вычислительныхсистем с улучшенной архитектурой. Для этого проводят исследования и разработку новых методов и алгоритмов по следующим направлениям:• хранение и обработка информации в оперативной памяти компьютера;•выполнение запросов в многопроцессорных и многомашинных вычислительных системах с различными архитектурами;• эффективная реализация типовых операций в БД (сортировка, поиск,реорганизация, пакетная загрузка/выгрузка и пр.);• восстановление данных в случае отказа узлов вычислительной системы и т.
д.Одними из основных параметров систем, использующих БД, являютсяобъемные (максимальный объем данных и возможность их распределенногохранения) и временные (время выполнения отдельной операции, транзакции,или всей работы). Значения этих параметров существенно зависят от мощности и организации вычислительной среды функционирования СУБД.256Часть 2. Проектирование и использование БДФирмы, разрабатывающие СУБД, для улучшения названных характеристик использовали следующие варианты аппаратных средств:1. Традиционные однопроцессорные ЭВМ повышенной производительности.2. Специализированные процессоры баз данных - машины баз данных.3.
Вычислительные системы на базе многопроцессорных структур.Несмотря на широкое распространение систем первого типа, в настоящеевремя лучшие результаты показывают системы третьего типа. Примерамипараллельных систем баз данных являются Teradata, Tandem, Gamma, Bubbaи Arbre. Рассмотрим более подробно многопроцессорные вычислительныесистемы, предварительно дав определение эффективности.Под эффективностью будем понимать свойство, характеризующее качество реализации системой поставленных перед ней целей функционирования и применения.Эффективной может оказаться несложная информационная система, реализованная на основе специализированной вычислительной системы с невысокими характеристиками быстродействия и емкости оперативной ивнешней памяти. С другой стороны, есть много новых задач, требующих следующего:• высокой производительности вычислительной системы;• значительного объема БД в сотни мегабайтов и терабайтов;• решения в реальном масштабе времени;• одновременной обработки разнородных подзадач (массовый ввод и модификация данных, поддержка принятия решения, пакетная обработка);• одновременного обслуживания большого числа запросов.Анализ перечисленных требований показывает, что обеспечить их, ограничившись универсальной однопроцессорной вычислительной системой илиспециализированным средством с аппаратной реализацией часто выполняемых операций, весьма (ложно.
Примером уникальной вычислительной системы, которая в некоторой степени могла бы удовлетворить предъявляемымтребованиям, можно считать суперкомпьютер баз данных (Super DatabaseComputer - SDC) токийского университета. В нем используется комбинированный аппаратно-программный подход к решению проблемы производительности. Основное обрабатывающее устройство из одного или нескольких процессоров с совместно используемой памятью дополняется специализированным устройством сортировки и дисковой подсистемой.Более перспективными с точки зрения удовлетворения перечисленнымвыше требованиям оказываются многопроцессорные вычислительных системы.Определилось два основных архитектурных направления многопроцессорных систем: сильносвязанные и слабосвязанные вычислительные системы.К сильно связанным вычислительным системам, или системам с разделением ресурсов, относятся следующие:9.
Дополнительные вопросы применения баз данных257• системы с совместно используемой (разделяемой) памятью (рис. 9.1а), вкоторых процессоры имеют доступ к общей оперативной памяти и ко всемдискам (IBM/370, Digital VAX, Sequent Symmetry);• системы с совместно используемыми дисками (рис. 9.16), в которых каждый процессор имеет свою основную память и обеспечивается прямымдоступом ко всем дискам (IBM Sysplex и первоначальная версия DigitalVAXcluster);• системы с массовым параллелизмом - системы с сотнями и тысячами процессоров, произвольным образом объединяемых друг с другом (рис. 9.1 в).а)Процессорыб)Процессорыв)ПроцессорыО— оСоединительная сетьОПОПОПОбщая ОПОПСоединительная сеть0 Внешняя памятьВнешняя памятьВнешняя памятьРис. 9.1. Сильносвязанные вычислительные системыСлабосвязанныемногопроцессорные вычислительные системы, или системы без совместного использования ресурсов, представляют собой совокупность компьютеров, объединенных в единую систему быстродействующейсредой передачи информации (рис.
9.2). Процессоры поддерживают связьдруг с другом путем передачи сообщений. Примерами слабосвязанных многопроцессорных систем являются: система Teradata, которая может иметь свыше 1000 процессоров и тысячи дисков, и система Gamma, работающая на Inteli P S C / 2 Hypercube с 32 узлами, каждый из которых имеет собственный диск.Для названных задач из указанных классов параллельных систем предпочтительными чаще оказываются слабосвязанные системы.Во-первых, в системах с разделением ресурсов требуется сложная операционная система (использующая часть ресурсов), отслеживающая и разрешающая конфликты из-за обращения к совместно используемым ресурсам.Кроме того, в них при добавлении нового процессора замедляется работа9 За*. 541258Часть 2. Проектирование и использование БДостальных процессоров.
В однопроцессорных системах основной причиной снижения производительности для многозадачного и многопользовательского режимов работ с базами данных являются операции загрузки и выгрузки кэш-памяти.Во-вторых, системы с массовым параллелизмом, по-видимому, ожидает большое будущее, нов настоящее время они не имеют массового применения из-за высокой стоимости компонентовкомпьютеров и сложной организации вычислительного процесса.Основным достоинством слабосвязанных выВнешняя памятьчислительных систем является легкость наращивания числа процессоров до сотен или даже тысячбез существенных помех в их работе.
В системах сРис. 9.2. Слабосвязаннаявычислительная системаразделением памяти максимальное число процессоров пока составляет 32. Системы без совместного и с п о л ь з о в а н и я р е с у р с о в п о з в о л я ю т д о с т и ч ь почти л и н е й н о г оускорения и расширяемости при обслуживании сложных реляционных запросов и транзакций.Еще одним достоинством слабосвязанных вычислительных систем является высокая надежность и простота управления процессом обработки информации.
Кроме того, подсистемы связи в них не должны иметь высокую производительность, как в системах с совместным использованием ресурсов.Достичь высоких временных показателей обработки данных в слабосвязанных вычислительных системах удается благодаря использованию реляционной модели. Реляционный запрос хорошо подходит к параллельномувыполнению: из операторов над отношениями можно составить параллельный граф потоков данных.Основными методами распараллеливанияобработки данных являются: конвейеризация и разнесение обработки. Конвейеризация состоит в выделении стадий выполнения операций над данными базы и распределении отдельных стадий по обрабатывающим узлам вычислительной системы.
Разнесенный параллелизм возможен в случаях, когда допускается разделение (разнесение) источников данных и независимая их обработка.В параллельных реляционных С У Б Д используются оба вида распараллеливания (часто одновременно), причем существенно больший эффект можетдать второй из них.Факторами, ограничивающими использование конвейеризации, я в л я ются: незначительное число этапов подавляющего числа реляционныхоператоров, а также эффект «перекоса», состоящий в различной трудоемкости этапов выполняемых операций. Выигрыш от разделения данных также9.
Дополнительные вопросы применения баз данных259может быть различным - в зависимости от правильности выбора используемых алгоритмов и методов (кольцевое разделение, с хэшированием, наоснове диапазона значений, на основе частоты обращения к кортежами т. д.).В реализации параллельных систем баз данных имеются следующие нерешенные проблемы:• обеспечение высоких временных характеристик при смешанной нагрузке;•оптимизация параллельных запросов;• выбор оптимальных методов физического проектирования баз данных(разделение данных, выбор индексов для таблиц и т. д.);• разработка методов и средств реорганизации данных в режиме on-line;• исследование алгоритмов конвейеризации и т.