Автореферат (1149730), страница 2
Текст из файла (страница 2)
Возможности контролируемого приближенного выпол-нения запросов в системах анализа данных проработаны нами для сценариевобщего вида. В контексте приближенного выполнения запросов возникает рядновых задач оптимизации, которые были решены в этой работе.Расширенная модель стоимости операций, предложенная в работе, формализует связь между количеством вычислительных ресурсов и качеством результата приближенных вычислений и лежит в основе последующей оптимизации запросов, допускающих приближенное выполнение.В работе поставлена и решена задача распределения ограниченного количества вычислительных ресурсов между операциями в плане приближенноговыполнения сложного сценария анализа данных.Разработано решение специфической бикритериальной задачи оптимизациизапросов, допускающих приближенное выполнение, основанное на компактномпредставлении зависимости оптимального плана от ограничений на исполнение.В рамках исследования разработана архитектура системы, которая реали5зует исполнение сложных сценариев анализа данных при ограничениях на вычислительные ресурсы, отличительной чертой которой является ее расширяемость: алгоритмы и модели не привязаны к конкретным парадигмам анализаданных и специфическим неоднородным распределенным архитектурам.Теоретическая и практическая значимость работы.
Теоретическоюценность для дальнейших исследований представляют обзор и классификацияметодов и систем оптимизации и приближенного выполнения сценариев анализа данных, алгоритм распределения ресурсов на основе точного теоретическогорешения задачи и подход к бикритериальной оптимизации запросов, допускающих приближенное исполнение.Разработанная теоретическая модель и предложенная архитектура системыоптимизации и приближенного выполнения запросов может быть использованадля расширения систем анализа данных возможностью контролируемого учетаограничений на вычислительные ресурсы и качество результата.
Это позволяетреагировать на потребность аналитиков в своевременном получении результатаи в работе в реальном времени.Разработанные теоретические модели, алгоритмы и экспериментальная среда могут быть использованы для прототипирования прикладных систем анализа больших данных в различных предметных областях, например, при финансовом мониторинге, социологическом и экономическом анализе.Достоверность и обоснованность результатов работы подтверждаетсяиспользованием строгого математического аппарата, доказательствами лемм,подтверждением теоретических положений вычислительными экспериментами.Апробация работы.
Материалы работы докладывались и обсуждалисьна всероссийских и международных конференциях:∙15-ая Восточно-европейская конференция "Advances in Databases andInformation Systems"(20-23 сентября 2011 г., Вена, Австрия)∙Семинар аспирантов в рамках 16-й Восточно-европейской конференции"Advances in Databases and Information Systems"(17-20 сентября 2012 г.,Познань, Польша)∙16-ая Восточно-европейская конференция "Advances in Databases andInformation Systems"(17-20 сентября 2012 г., Познань, Польша)∙10-ыйКоллоквиумColloquiumonмолодыхDatabasesandисследователейInformation"SpringSystems"(30-31Researchersмая2014г., Великий Новгород, Россия)∙19-ая Восточно-европейская конференция "Advances in Databases andInformation Systems"(9-11 сентября 2015 г., Пуатье, Франция)Полученные результаты прошли апробацию на научном семинаре «Проблемы современных информационно-вычислительных систем» под руководствомд.
ф.-м. н., проф. В. А. Васенина (25 ноября 2014 года), на семинаре Москов6ской Секции ACM SIGMOD (26 февраля 2015 года), а также неоднократно насеминарах группы исследования методов организации информации и кафедрыинформационно-аналитических систем в Санкт-Петербургском Государственном Университете.Публикации. Все результаты диссертации опубликованы в 9 научных ра-ботах [1-8,10] и одном переводе [9]. Из них: 1 публикация [1] представлена вжурнале, входящем в утвержденный приказом Минобрнауки России от 25 июля2014 г.
№793 перечень рецензируемых научных журналов, в которых должныбыть опубликованы основные научные результаты диссертаций на соисканиеученой степени кандидата наук; 3 статьи [2,3,9] есть в индексах Web of Scienceи 8 работ [2-9] опубликованы в рецензируемых зарубежных изданиях, включенных в индекс Scopus.Все исследования, результаты которых изложены в диссертационной работе, проведены лично автором в процессе научной деятельности. Из совместныхпубликаций в результаты диссертационной работы включен лишь тот материал, который непосредственно принадлежит автору.В статьях [2,3] А.С. Ярыгиной принадлежит анализ литературы, доказательство лемм, идея и реализация алгоритма, проведение вычислительных экспериментов. В статье [4] А.С. Ярыгиной принадлежит сведение общей задачиоптимизации к бикритериальной и параметрической, разработка алгоритма,проведение вычислительных экспериментов.
В работе [5] Ярыгиной принадлежит детальная проработка архитектуры системы анализа данных. Б.А. Новикову в работах [2,3,4,5,7] принадлежат общие постановки задач и обоснованиеих актуальности, формальная модель качества. А.С. Ярыгиной в статье [6] принадлежит проработка алгебраических свойств операций и соотношений междуними; Б.А. Новикову принадлежит концептуальная модель исполнителя декларативных сценариев; Н.С. Васильевой обоснование актуальности задачи вконтексте анализа больших данных. В работе [7] А.С. Ярыгиной принадлежитразработка расширенных моделей стоимости и качества для ряда операций;О.А. Долматовой принадлежит реализация моделей и проведение экспериментальной оценки.
А.С. Ярыгиной в статье [10] принадлежит общая постановказадачи оптимизации запросов; Б.А. Новикову принадлежит позиционированиезадачи в контексте методов исследования операций. В статье [8] А.С. Ярыгиной принадлежит сравнительный анализ методов синтеза и нормализации,реализация алгоритмов, проведение вычислительных экспериментов; Б.А. Новикову принадлежит общая постановка задачи и обоснование ее актуальности,алгебраическая систематизация методов синтеза; Н.С. Васильевой принадлежит реализация методов вычисления оценок подобия изображений.Структура и объем диссертации. Диссертационная работа состоит извведения, 5 глав, заключения и списка литературы.
Общий объем диссертации- 149 страниц. Список литературы содержит 100 названий. Рисунки и таблицынумеруются по главам.7Содержание работыВо введении сформулированы цель работы и задачи, решенные в рамках диссертационного исследования; обосновываются актуальность темы и научнаяновизна полученных результатов.В первой главе проведен анализ работ исследовательского сообщества,посвященных точному выполнению и оптимизации декларативных запросов втрадиционных системах баз данных. Особое внимание в этой главе уделено существующим подходам к работе с нечеткими запросами, а также методам приближенного выполнения сценариев анализа данных.
Построена классификацияподходов к оптимизации и приближенному выполнению нечетких запросов наоснове сопоставления с методами, разработанными для точных декларативныхзапросов. Завершает главу обсуждение современных систем анализа большихданных на основе распределенных и приближенных вычислений. Проведенныйанализ подходов позволил выделить основные направления дальнейшего развития методов оптимизации и приближенного выполнения сложных запросовк разнородным и распределенным источникам информации.В главе 2 определена теоретическая модель оптимизации и контролируемого приближенного выполнения нечетких запросов: понятия качества и вычислительных ресурсов, модель стоимости и качества операций.
Также уточненызадачи оптимизации запросов в контексте их приближенного выполнения, ипоставлена математическая задача распределения ресурсов.В работе рассматривается алгебраический слой, который функционируетмежду пользовательским интерфейсом и вычислителями в послойной архитектуре системы анализа данных; введена алгебра на основе понятия нечеткихмножеств, которая позволяет единообразно соединять в одном аналитическомсценарии разные виды обработки разнородных данных.Центральным понятием модели является Q-множество, представляющее результат выполнения абстрактного нечеткого запроса.
Q-множество это тройка{(, , ) ∈ Q}, в которой ∈ - запрос, - базовое множество объектов, : → [0, 1] - функция оценки объектов из множества по запросу .Над множеством Q можно определить -арные алгебраические операции,составляющие пространство O, как : × Q → Q, где множество параметров операции. Операции, определенные над множеством Q-множеств, могут составлять алгебры различной выразительной силы.
В работе предложеннабор основных операций, являющихся расширением реляционных, например,теоретико-множественные операции, соединение и агрегирование, учитывающие оценки объектов в Q-множествах. Предложенная алгебра может быть расширена новыми алгебраическими операциями и обогащена с помощью реализации новых функций, используемых для конфигурации родовых операций алгебры.Множество выражений алгебры над переменнымиобозначим черезE( ).Выражение алгебры, в котором нет переменных, называется определенным, и8множество определенных выражений алгебрыражения ∈ E ()обозначает множествоE строится рекурсивно.
Для вывсех его подвыражений, а ∈ ()обозначает корневую операцию выражения, содержащегося в этом множестве.В алгебре может выполняться ряд алгебраических тождеств, аналогичныхалгебраическим тождествам реляционной алгебры. Замена выражения тождественным называется трансформацией.















