Автореферат (Модели процессов согласования реплик в базах данных NoSQL)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Модели процессов согласования реплик в базах данных NoSQL". PDF-файл из архива "Модели процессов согласования реплик в базах данных NoSQL", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫАктуальность. В последние несколько десятилетний в области обработки данных доминировали реляционные СУБД. В таких системах данныехранятся в виде таблиц, они также предполагают наличие схемы базы данных. Но при создании больших систем (Big Data) с использованием реляционных СУБД разработчики стали испытывать значительные затруднения: 1)осложнилась процедура агрегирования данных, т.к. это требует чтения записей из большого числа связанных таблиц (возникла проблема потери соответствия), 2) возникло противоречие между необходимостью хранения больших объемов неструктурированных данных и необходимостью их как-тоструктурировать посредством разработки схемы базы данных, 3) для хранения больших объемов информации необходимо покупать дорогие специализированные аппаратно-программные комплексы параллельных систем базданных (Teradata, Sun Oracle Database Machine и др.), 4) при наличии большого числа узлов возникает проблема обеспечения требуемой отказоустойчивости системы.Как попытка решить накопившиеся проблемы реляционных баз данныхпоявились альтернативные средства хранения и обработки данных, получившие название «базы данных NoSQL».
Пионерами в этой области выступилидве компании: Google и Amazon. В БД NoSQL для обеспечения высокой отказоустойчивости используется многократная репликация (копирование) записей. Но базы данных NoSQL обладают недостатком: в этих системах неподдерживается режим ведения транзакций и блокировок, поэтому возникаетпроблема согласования реплик. В диссертации под согласованием репликпонимается 1) согласование реплик какой-либо записи после обновления одной из этих реплик (распространение обновлений), 2) согласование версийреплики (сведение нескольких версий записи к одной записи), 3) согласование (восстановление) реплик после устранения сбоя в узле.Важными показателями согласования реплик в системах баз данныхNoSQL являются вероятность чтения устаревшей записи за время распространения обновлений по узлам системы, время ожидания начала чтения записи из обновленного кворума серверов, число версий записи в базе данныхNoSQL и время их обработки, вероятность отказа в доступе к записи БД и др.Эти характеристики необходимо оценивать на этапе проектирования системы, т.к.
это позволяет избежать ручного подбора значений требуемых параметров для большого числа типов записей БД на этапе наладки системы инеобходимости натурного моделирования экстремальной нагрузки на систему.Так как технология разработки информационных систем на основе базданных NoSQL является достаточно новой, математические модели, необходимые для оценки показателей согласования реплик, либо отсутствуют, либоявляются неадекватными.3Поэтому разработка адекватных математических моделей и программных средств, позволяющих на этапе проектирования систем NoSQL оценивать показатели согласования реплик и выбирать требуемые параметры, является актуальной задачей.Цель работы.
Целью работы является разработка математических моделей и программных средств оценки показателей согласования реплик в базах данных NoSQL на этапе проектирования информационных систем.В работе решаются следующие задачи:разработка аналитических и имитационных моделей процессов согласования реплик в базах данных NoSQL;разработка инструментального средства анализа показателей согласования реплик на этапе проектирования информационной системы;применение разработанного инструментального средства для анализапоказателей согласования и выбора параметров репликации на этапе проектирования информационной системы.Объект исследования.
Объектом исследования являются распределенные базы данных NoSQL.Предмет исследования. Предметом исследования являются процессысогласования реплик в распределенных базах данных NoSQL.Научная новизна (положения, выносимые на защиту). В работе получены следующие новые научные результаты:1. Разработаны аналитические модели процессов согласования реплик вконечном счете, позволяющие рассчитать вероятность чтения устаревшей записи из базы данных NoSQL для режимов синхронного и асинхронного обновления записи.2.
Предложена аналитическая модель процесса строгого согласованияреплик, которая позволяет оценить характеристики случайного времени ожидания начала чтения записи из обновленного кворума серверов.3. Разработана имитационная модель процесса ведения версий записи,позволяющая получить характеристики случайного числа версий записи вбазе данных NoSQL и времени их обработки.4.
Предложена модифицированная модель «ремонтника», позволяющаяоценить влияние числа реплик записи базы данных и режимов их восстановления на вероятность отказа в доступе к этой записи.Методы исследования. Исследования проводились на базе комплексного системного анализа с использованием методов теории массового обслуживания, теории вероятностей и математической статистики, имитационного моделирования, численного дифференцирования.Практическая ценность. Для оценки адекватности разработанных моделей реализованы натурные эксперименты в облачной среде DigitalOceanна кластере до 24 виртуальных узлов с использованием базы данных NoSQLRiak.
Средняя относительная погрешность модели согласования реплик в ко4нечном счете составила 7.86%, модели строгого согласования реплик –7.42%, модели ведения версий записи – 4%.Для практического использования полученных теоретических результатов разработано инструментальное средство анализа баз данных NoSQL(АПСОР), позволяющее оценивать показатели согласованности реплик, ведения версий записи, отказов и восстановления доступа к записи БД на этапепроектирования информационной системы.Внедрение результатов исследований. Разработанные модели и инструментальное средство были использованы на стадии проектирования информационной системы «Надзор за заболеваемостью - NoSQL».
Системаобеспечивает сбор данных о заболеваниях и связанных с ними лабораторныхисследованиях, обработку этих данных и предоставление полученных результатов аналитикам. С учетом специфики предметной области выполненопроектирование структуры аналитического компонента системы. В соответствии с предъявленными требованиями согласованности реплик было проведено исследование с помощью инструментального средства и определеныпараметры репликации для сегментов базы данных Riak: N=5, W=R=3 длястрого согласованных сегментов и N=5, W=R=1 для сегментов, согласованных в конечном счете. Данные параметры обеспечивают заданные ограничения на показатели согласования реплик и отказов в доступе к записям БДRiak: вероятность отказа в доступе к записи - не более 10-12, вероятность доступа к рассогласованным данным - не более 0,1, задержка начала чтения - неболее 2 мс.Публикации по теме.
По материалам работы опубликовано 15 печатных работ, из них 9 – в журналах, рекомендованных ВАК.Апробация результатов. Материалы работы были изложены авторомна следующих конференциях: XXIX Международная научно-практическаяконференция «Естественные и математические науки в современном мире»(Новосибирск, 2015); XXXIV-XXXV Международная научно-практическаяконференция «Научная дискуссия: вопросы технических наук» (Москва,2015); XVII Международная научно-практическая конференция «Новоеслово в науке и практике: гипотезы и апробация результатов исследований»(Новосибирск, 2015); XLV Международная научно-практическая конференция «Инновации в науке» (Новосибирск, 2015).Область исследования из паспорта специальности 05.13.17. «1. Исследование, в том числе с помощью средств вычислительной техники, информационных процессов,…»; «2.
Исследование информационных структур,разработка и анализ моделей информационных процессов и структур»; «3.…Разработка и исследование моделей данных и новых принципов их проектирования»; «12. Разработка математических, логических, семиотических илингвистических моделей и методов взаимодействия информационных процессов, …».Объем работы. Диссертационная работа содержит 157 страниц, 53 рисунка и 20 таблиц, список литературы из 101 наименования.5СОДЕРЖАНИЕ РАБОТЫВо введении обосновывается актуальность проблемы, формулируютсяцели и задачи исследований, приводится перечень основных результатов,выносимых на защиту, и излагается краткое содержание глав диссертации.В первой главе «Анализ существующих методов оценки показателейкачества согласования реплик в базах данных NoSQL» рассмотрены преимущества и недостатки реляционных баз данных и хранилищ NoSQL; приведена классификация баз данных NoSQL; проанализированы функции NoSQL,связанные с согласованием реплик; выполнен анализ существующих моделейи методов оценки показателей качества функционирования баз данныхNoSQL.Показано, что базы данных NoSQL имеют следующие преимущества:1) они хорошо поддерживают горизонтальную масштабируемость (тысячиузлов); 2) данные хранятся в виде записей <ключ, значение>, разные записимогут иметь разные схемы; 3) в поле «значение» можно сохранить агрегат,т.е.