Диссертация (1149731), страница 2
Текст из файла (страница 2)
. . . . . . 1265.3.2.35.4Исполнение . . . . . . . . . . . . . . . . . . . . . . 126Расширение системы . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.4.1Трансформации . . . . . . . . . . . . . . . . . . . . . . . . . 1275.4.2Модели стоимости . . . . . . . . . . . . . . . . . . . .
. . . 12865.55.4.3Модели качества . . . . . . . . . . . . . . . . . . . . . . . . 1285.4.4Операции . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.4.4.1Библиотека операций . . . . . . . . . . . . . . . . 1305.4.4.2Операции первичной выборки5.4.4.3Унарные операции . . . . . . . . . . . . . . . . . . 1325.4.4.4Бинарные операции . . . . . . . .
. . . . . . . . . 133. . . . . . . . . . . 131Основные результаты . . . . . . . . . . . . . . . . . . . . . . . . . 135Заключение136Библиография1387ВведениеАктуальность темы исследованияПроблема эффективного анализа больших объемов данных в реальномвремени остается актуальной на протяжении десятилетий.
Около 10 лет назад Gray указывал [1] на то, что объемы хранимых данных значительно превышают возможности их обработки. В последующие годы эта проблема сталазначительно острее. С одной стороны, в дополнение к быстрому росту объемовнакопленной относительно статической информации, в частности, в Интернет,стремительно возрастают объемы доступной динамической информации, например, в социальных сетях, и потоков данных, генерируемых разнообразными сенсорами.
С другой стороны, возможности обработки данных развиваютсямедленнее: это относится как к техническим возможностям оборудования и алгоритмам анализа данных, так и к средствам спецификации и программнойреализации необходимых вычислений.В документе [2] детально проработано понятие больших данных (big data)и показана практическая значимость их анализа в различных предметных областях. Многие исследования в области анализа данных концентрируются вокругэтого понятия, которое со временем вобрало в себя более широкий спектр значений. Когда говорят о больших данных, как правило, имеют ввиду не толькобольшие объемы данных, но и их разнообразие и качество, а также необходимость их своевременной обработки.
В качестве примеров систем анализа больших данных можно привести описанные в [3–6].Разнообразие больших данных связано с множеством типов данных, одновременно задействованных в сложном аналитическом сценарии. Информационные ресурсы, различающиеся по типу хранимых данных, таких как структурированные и слабо-структурированные, и характеру доступа к ним, например,файлы, потоки и реляционные СУБД, могут быть использованы в одном про-8цессе обработки данных. Системы анализа данных могут быть неоднородны сточки зрения модели, динамики, надежности и типа данных, а также по типу запросов на их извлечение и анализ. Необходимость одновременного анализа данных, извлеченных из разнородных источников, появляется в различныхприложениях и прикладных областях, в том числе при расширенном поиске,персонализации и аналитической обработке.Высокоуровневые декларативные языки являются эффективным инструментом описания таких сложных аналитических сценариев, поскольку они позволяют скрыть сложность работы в неоднородной среде и организации параллельных вычислений.
Системы, интегрирующие в себе разные подходы к анализу данных, как правило, используют промежуточные алгебраические языки,которые в дополнение к базовой выразительности традиционных декларативных языков запросов: фильтрации, теоретико-множественных операций и операций соединения - включают в себя их нечеткие расширения и специализированные операции для определенных классов задач: например, средства анализаестественных языков или изображений [7–13].Скорость генерации и накопления данных, например в социальных сетях иразнообразными сенсорами, ведет к стремительному увеличению объемов анализируемых данных.
Это приводит к необходимости решения вопросов, связанных со скоростью анализа, так как во многом именно рост объемов данныхприводит к увеличению времени их обработки.Необходимость увеличения скорости анализа данных, диктуемая реальностью предметных областей, подразумевает не только увеличение вычислительных мощностей, но и проработку на других уровнях. Возможный подход крешению этой проблемы анализа больших объемов данных также основан наиспользовании декларативных языков запросов. Подобные языки используютсяв традиционных системах баз данных на протяжении десятилетий. Они обеспечивают не только возможности высокоуровневой спецификации требуемыхвычислений, но и высокую эффективность их выполнения, так как открывают широкие возможности для автоматического выбора наиболее эффективныхалгоритмов массовой обработки данных.Любой сложный аналитический сценарий, например на основе нечеткоймодели данных, как правило, оказывается ресурсоемким. Ожидается, что декларативный подход к исполнению таких сценариев анализа данных из раз-9нородных информационных ресурсов, позволяющий оптимизировать запрос наалгебраическом уровне, способен решить эту проблему.
В работах [7–9] обсуждается вопрос оптимизации запросов, специфицированных в терминах расширенных декларативных языков.При решении задачи современного анализа данных возникает необходимость в приближенном выполнении запросов, поскольку все чаще точные вычисления невозможны или бессмысленны. Растущий спрос на обработку больших объемов данных за ограниченное время, а также современные методыанализа данных на основе подобия вызывают необходимость в приближенныхвычислениях. Например, описанные в [14, 15] системы поддерживают приближенное параллельное выполнение запросов в реальном времени, предоставляяпользователю статистические гарантии качества неточного результата.Значительная часть элементов традиционной архитектуры выполнения декларативных запросов, включая компиляцию в промежуточный алгебраический язык, оптимизацию и интерпретацию алгебраического выражения, требует пересмотра в контексте новых моделей данных, классов систем хранения идоступа, и вычислительных архитектур.Таким образом, современные проблемы анализа больших данных требуют создания методов и средств, обеспечивающих реализацию систем, которыепозволят единообразно формулировать запросы к разнородным данным и описывать их обработку; реализуют эффективное выполнение сложных сценариеванализа данных на основе их оптимизации; и будут поддерживать приближенное выполнение запросов в реальном времени, то есть будут обеспечивать предсказуемое и контролируемое время ответа на запрос.Цель работыЦелью исследования являлась разработка методов оптимизации для приближенного выполнения сценариев нечеткого анализа данных.Основные задачи работыДля достижения цели были поставлены и решены следующие задачи:10∙ Разработать систему понятий и теоретическую модель оптимизации и контролируемого приближенного выполнения нечетких запросов;∙ Разработать методы решения задачи распределения ограниченного количества вычислительных ресурсов среди операций в плане приближенноговыполнения запроса;∙ Предложить методы решения задачи многокритериальной оптимизациизапросов, допускающих приближенное выполнение, ориентированные наспецифические ограничения на количество вычислительных ресурсов икачество ответа.Положения, выносимые на защитуПоложения, выносимые на защиту:∙ Предложена система понятий, составляющих теоретическую модель, формализующую оптимизацию и контролируемое приближенное выполнениедекларативных запросов, на основе модели стоимости и качества операций;∙ Разработана математическая модель распределения ресурсов среди операций в плане выполнения запроса и решена задача выбора оптимальногораспределения;∙ Разработан приближенный алгоритм распределения ограниченного количества вычислительных ресурсов среди операций в плане выполнения запроса на основе моделей качества;∙ Разработаны алгоритмы бикритериальной оптимизации запросов, ориентированные на специфические в контексте приближенного выполнения,ограничения на количество вычислительных ресурсов и качество ответа.Методология и методы исследованияОбъектом исследования являлась совокупность моделей, методов, инструментов оптимизации и приближенного выполнения сценариев анализа данных.11Предметом исследования являлись задачи распределения ресурсов и бикритериальной оптимизации запросов, допускающих контролируемое приближенноевыполнение.















