Диссертация (1149731), страница 2

Файл №1149731 Диссертация (Методы и средства эффективного выполнения сценариев аналитической обработки данных на основе оптимизации и приближенных вычислений) 2 страницаДиссертация (1149731) страница 22019-06-292019-06-29СтудИзба

Методы и средства эффективного выполнения сценариев аналитической обработки данных на основе оптимизации и приближенных вычислений

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

. . . . . . 1265.3.2.35.4Исполнение . . . . . . . . . . . . . . . . . . . . . . 126Расширение системы . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.4.1Трансформации . . . . . . . . . . . . . . . . . . . . . . . . . 1275.4.2Модели стоимости . . . . . . . . . . . . . . . . . . . .

. . . 12865.55.4.3Модели качества . . . . . . . . . . . . . . . . . . . . . . . . 1285.4.4Операции . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1305.4.4.1Библиотека операций . . . . . . . . . . . . . . . . 1305.4.4.2Операции первичной выборки5.4.4.3Унарные операции . . . . . . . . . . . . . . . . . . 1325.4.4.4Бинарные операции . . . . . . . .

. . . . . . . . . 133. . . . . . . . . . . 131Основные результаты . . . . . . . . . . . . . . . . . . . . . . . . . 135Заключение136Библиография1387ВведениеАктуальность темы исследованияПроблема эффективного анализа больших объемов данных в реальномвремени остается актуальной на протяжении десятилетий.

Около 10 лет назад Gray указывал [1] на то, что объемы хранимых данных значительно превышают возможности их обработки. В последующие годы эта проблема сталазначительно острее. С одной стороны, в дополнение к быстрому росту объемовнакопленной относительно статической информации, в частности, в Интернет,стремительно возрастают объемы доступной динамической информации, например, в социальных сетях, и потоков данных, генерируемых разнообразными сенсорами.

С другой стороны, возможности обработки данных развиваютсямедленнее: это относится как к техническим возможностям оборудования и алгоритмам анализа данных, так и к средствам спецификации и программнойреализации необходимых вычислений.В документе [2] детально проработано понятие больших данных (big data)и показана практическая значимость их анализа в различных предметных областях. Многие исследования в области анализа данных концентрируются вокругэтого понятия, которое со временем вобрало в себя более широкий спектр значений. Когда говорят о больших данных, как правило, имеют ввиду не толькобольшие объемы данных, но и их разнообразие и качество, а также необходимость их своевременной обработки.

В качестве примеров систем анализа больших данных можно привести описанные в [3–6].Разнообразие больших данных связано с множеством типов данных, одновременно задействованных в сложном аналитическом сценарии. Информационные ресурсы, различающиеся по типу хранимых данных, таких как структурированные и слабо-структурированные, и характеру доступа к ним, например,файлы, потоки и реляционные СУБД, могут быть использованы в одном про-8цессе обработки данных. Системы анализа данных могут быть неоднородны сточки зрения модели, динамики, надежности и типа данных, а также по типу запросов на их извлечение и анализ. Необходимость одновременного анализа данных, извлеченных из разнородных источников, появляется в различныхприложениях и прикладных областях, в том числе при расширенном поиске,персонализации и аналитической обработке.Высокоуровневые декларативные языки являются эффективным инструментом описания таких сложных аналитических сценариев, поскольку они позволяют скрыть сложность работы в неоднородной среде и организации параллельных вычислений.

Системы, интегрирующие в себе разные подходы к анализу данных, как правило, используют промежуточные алгебраические языки,которые в дополнение к базовой выразительности традиционных декларативных языков запросов: фильтрации, теоретико-множественных операций и операций соединения - включают в себя их нечеткие расширения и специализированные операции для определенных классов задач: например, средства анализаестественных языков или изображений [7–13].Скорость генерации и накопления данных, например в социальных сетях иразнообразными сенсорами, ведет к стремительному увеличению объемов анализируемых данных.

Это приводит к необходимости решения вопросов, связанных со скоростью анализа, так как во многом именно рост объемов данныхприводит к увеличению времени их обработки.Необходимость увеличения скорости анализа данных, диктуемая реальностью предметных областей, подразумевает не только увеличение вычислительных мощностей, но и проработку на других уровнях. Возможный подход крешению этой проблемы анализа больших объемов данных также основан наиспользовании декларативных языков запросов. Подобные языки используютсяв традиционных системах баз данных на протяжении десятилетий. Они обеспечивают не только возможности высокоуровневой спецификации требуемыхвычислений, но и высокую эффективность их выполнения, так как открывают широкие возможности для автоматического выбора наиболее эффективныхалгоритмов массовой обработки данных.Любой сложный аналитический сценарий, например на основе нечеткоймодели данных, как правило, оказывается ресурсоемким. Ожидается, что декларативный подход к исполнению таких сценариев анализа данных из раз-9нородных информационных ресурсов, позволяющий оптимизировать запрос наалгебраическом уровне, способен решить эту проблему.

В работах [7–9] обсуждается вопрос оптимизации запросов, специфицированных в терминах расширенных декларативных языков.При решении задачи современного анализа данных возникает необходимость в приближенном выполнении запросов, поскольку все чаще точные вычисления невозможны или бессмысленны. Растущий спрос на обработку больших объемов данных за ограниченное время, а также современные методыанализа данных на основе подобия вызывают необходимость в приближенныхвычислениях. Например, описанные в [14, 15] системы поддерживают приближенное параллельное выполнение запросов в реальном времени, предоставляяпользователю статистические гарантии качества неточного результата.Значительная часть элементов традиционной архитектуры выполнения декларативных запросов, включая компиляцию в промежуточный алгебраический язык, оптимизацию и интерпретацию алгебраического выражения, требует пересмотра в контексте новых моделей данных, классов систем хранения идоступа, и вычислительных архитектур.Таким образом, современные проблемы анализа больших данных требуют создания методов и средств, обеспечивающих реализацию систем, которыепозволят единообразно формулировать запросы к разнородным данным и описывать их обработку; реализуют эффективное выполнение сложных сценариеванализа данных на основе их оптимизации; и будут поддерживать приближенное выполнение запросов в реальном времени, то есть будут обеспечивать предсказуемое и контролируемое время ответа на запрос.Цель работыЦелью исследования являлась разработка методов оптимизации для приближенного выполнения сценариев нечеткого анализа данных.Основные задачи работыДля достижения цели были поставлены и решены следующие задачи:10∙ Разработать систему понятий и теоретическую модель оптимизации и контролируемого приближенного выполнения нечетких запросов;∙ Разработать методы решения задачи распределения ограниченного количества вычислительных ресурсов среди операций в плане приближенноговыполнения запроса;∙ Предложить методы решения задачи многокритериальной оптимизациизапросов, допускающих приближенное выполнение, ориентированные наспецифические ограничения на количество вычислительных ресурсов икачество ответа.Положения, выносимые на защитуПоложения, выносимые на защиту:∙ Предложена система понятий, составляющих теоретическую модель, формализующую оптимизацию и контролируемое приближенное выполнениедекларативных запросов, на основе модели стоимости и качества операций;∙ Разработана математическая модель распределения ресурсов среди операций в плане выполнения запроса и решена задача выбора оптимальногораспределения;∙ Разработан приближенный алгоритм распределения ограниченного количества вычислительных ресурсов среди операций в плане выполнения запроса на основе моделей качества;∙ Разработаны алгоритмы бикритериальной оптимизации запросов, ориентированные на специфические в контексте приближенного выполнения,ограничения на количество вычислительных ресурсов и качество ответа.Методология и методы исследованияОбъектом исследования являлась совокупность моделей, методов, инструментов оптимизации и приближенного выполнения сценариев анализа данных.11Предметом исследования являлись задачи распределения ресурсов и бикритериальной оптимизации запросов, допускающих контролируемое приближенноевыполнение.

Характеристики

Тип файла

PDF-файл

Размер

2,8 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

metody-i-sredstva-jeffektivnogo-vypolnenija-scenariev-analiticheskoj-obrabotki-dannyh-na-osnove-optimizacii-i-priblizhennyh-vychislenij.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.