ПЗ_Забарин (1220033), страница 4
Текст из файла (страница 4)
Рисунок 1.3 – CAP теорема
Реляционные БД решают проблему избыточности данных и возникновения аномалий в реляционной схеме за счет использования нормализации [24]. Применив нормализацию, БД обеспечивает целостность данных и позволяет избежать избыточных данных. Когда данные распределены, производительность реляционной БД существенно снижается, и они становятся не эффективны. Что часто упоминается разработчиками. В распределенной системе, самый сложный запрос операция «JOIN». Производительность реляционной БД очень мала, когда необходимо отображение реляционных данных из сложных программируемых структур, где программируемая модель состоит из комплекса данные или иерархических данные, такие как Extensible Markup Language (XML).
Таблица 1.1 – Свойства реляционных баз данных и NoSQL
| Реляционные БД | БД NoSQL |
| сложные взаимоотношения данных | простые взаимоотношения |
| схемацентричность структурированные данные | произвольная схема неструктурированные данные |
| вертикальная масштабируемость | распределённая обработка |
| статическая память | память масштабируется вместе с вычислительными ресурсами |
| универсальные свойства и функции | система ориентирована на приложение и разработчика |
| строгая согласованность данных | частичная согласованность данных |
| длительность получения результатов | быстрое получение результатов |
| эффективность при работе с таблицами | возможность работы с неструктурированными данными |
| стабильность, эфективность в задачах с неизменным процессом и набором объектов | гибкость, возможность хранения данных любых типов |
Результаты испытаний показывают, что обработка запросов на чтение и запись на в рамках одного компьютера происходит медленнее чем в SQL, однако значительно возрастает в многокомпьютерных кластерных системах [25].
Важнейшим преимуществом в условиях роста объёма данных, является тот факт, что при превышении объема 200-300 ГБ, SQL сервер не способен обрабатывать данные, однако, для технологии NoSQL нет подобных ограничений. Таким образом система не только обладает масштабируемостью, но также показывает себя значительно эффективнее при расширении системы, БД NoSQL является наиболее подходящей для задач, в которых хранилище данных распределено по разным серверам и где согласованность не является приоритетной задачей. Несмотря на то что NoSQL используется уже несколько лет еще существует проблема визуализации состояния объекта БД.
-
Визуализации состояния объектов
Визуализация информации – использование созданных с помощью компьютера интерактивных, визуальных представлений абстрактных данных для лучшего восприятия.
Вопросам анализа и визуализации больших объемов данных (BigData) посвящено множество работ отечественных [1-8,26] и зарубежных [9,10] авторов.
Ключевая задача визуализации информации заключается в создании понятного пользователю графического отображения набора данных, а также в использовании интерактивных технологий, которые бы упростили работу с данными и позволили пользователю изучать их интуитивно [3].
Визуализация информации основывается на знаниях таких областей как компьютерная графика, человеко-машинное взаимодействие, графический дизайн, когнитивная психология, статистика, картография и изобразительное искусство.
Продвижение визуализации информации в значительной степени было обусловлено исследованием поиска информации. Основная проблема поиска информации – это повысить его эффективность и результативность.
Визуализация информации – процесс анализа и преобразования абстрактных данных в визуальную форму для того, чтобы улучшить наше восприятие больших объемов данных.
Визуализация множества объектов с различных точек зрения позволяет составить более полное представление и получить больше информации об отображаемых объектах, что позволяет более эффективно исследовать полученную информацию, а также повышая осведомленность пользователя об объектах.
Качественная визуализация позволяет:
– предоставить возможность охватить огромные объемы данных;
– снизить затраты времени на поиск;
– обеспечить более глубокое понимание сложного набора данных;
– отображать отношения между данными;
– рассматривать набор данных с различных точек зрения[5].
Принципы человеческого восприятия используются для эффективного визуализации данных. Методы визуализации преобразовать данные в полезную информацию в графическом виде.
Визуализация полезна для понимания закономерностей в данных и для восприятия отклонений, которые могут присутствовать. Она может помочь принять решение и анализировать данные в контексте. Визуализация полезно при анализе данных в целом и может поддерживать рассуждения, основываясь на информации. И, наконец, визуализация помогает подчеркнуть важные аспекты данных.
В настоящее время все чаще возникает необходимость использовать методы визуализации навигации и представления данных для более эффективного управления информацией. Применение методов и средств визуализации информационными системами, открывает новые возможности для восприятия их содержимого и значительно повышает информативность и эффективность информационных систем.
Интерактивная компьютерная графика (ИКГ) – это одно из наиболее бурно развивающихся направлений новых информационных технологий, которые позволяют активизировать свойственную человеку способность мыслить сложными пространственными образами.
Когнитивная функция ИКГ состоит в том, чтобы с помощью некоего ИКГ-изображения получить новое, еще не существующее для специалиста знание или, по крайней мере, способствовать интеллектуальному процессу получения этого знания [6]. Наиболее актуальными на сегодняшний день являются исследования возможности использования когнитивной компьютерной графики при анализе больших объемов данных.
Когнитивный подход научное направление в области решения задач анализа, моделирования, идентификации, оценки, прогнозирования развития, управления развитием слабоструктурированных объектов, систем, ситуаций для которых процесс решения практических задач рассматривается как познавательная деятельность, в которой применение формальных моделей и методов является лишь частью, этапом решения, наряду с не менее важным этапом формализации представлений о слабоструктурированных системах и ситуациях, а также о целях, интересах и мотивациях субъектов, вовлеченных в процесс решения задач.
Для повышения эффективности решений практических задач управления при разработке теоретических моделей, методов и компьютерных средств важная роль отводится учету человеческого фактора, знаний, накопленных и развиваемых в когнитивной науке [7].
Реальные технические системы, использующие технологию когнитивной графики, существуют и разрабатываются в ИПС РАН, ИСА РАН, МЭИ. В медицине – для мониторинга состояния больных, в технике – для обслуживания запуска ракет, стыковки космических аппаратов, контроля состояния реакторов АЭС и др. приложениях. При этом «объект управления» и его отображение в когнитивный графический образ определен и понятен для оператора. Например, для визуальной оценки состояния энергоблока АЭС на экран выводятся динамический образ сканируемых элементов, цвет которых отражает близость параметров к критическим порогам [8].
Развитие семантических сетевых моделей позволяет перейти к новому уровню исследования визуализированных данных. Картина исследования и принятия решения будет более полной если рассматривать не только атрибуты объекта, как это было представлено в реляционных базах данных, но и в контексте связей с другими объектами. В условиях динамических изменений реального мира выводы об объекте можно сформулировать на основе связей его с другими объектами так, как кружение объекта говорит о многом. Этот принцип можно описать процитировав Еврипида: «скажи мне кто твой друг, и я скажу кто ты».
1.4 Выводы по главе. Постановка задачи исследования
С ростом объема данных появилась необходимость в развитии нового типа баз данных, который может хранить и управлять сложными данными. Одной из наиболее важных и ресурсоемких задач процесса контроля состояния и динамики изменения объектов государственного управления является периодический поиск и анализ большого объема информации, содержавшейся в различных формах представления, необходимой для принятия решений.
Значительный объем исходных данных и многообразие их типов и форм представления с одной стороны и необходимость разностороннего описания объектов управления с учетом их взаимосвязей и особенностей функционирования с другой, породили проблему автоматизированного анализа открытых данных с целью выявления закономерностей, получения новых знаний об объекте управления, восполнения недостающих данных, прогнозирования поведения объекта управления и т.д.
Эволюция алгоритмов обработки данных в сторону интеллектуализации, все ближе приближается к задачам интеллектуальной деятельности человека в соответствии с этим необходим новый тип баз способный предоставить возможности хранения и обработки первичной информации.
Перспективным направлением развития информационных систем в рамках решения задач прогнозирование является возможность сбора и обработки первичной информации для последующего предоставления эксперту, что приводит к необходимости построения графического образа, пригодного для использования в системах анализа больших объемов данных.
На основании выше изложенной проблематики в данной ВКР были поставлены следующие задачи.
–исследовать возможности современных NoSQL систем, и выявить их преимущества перед SQL в рамках концепции Big Data;
– создать кластер способный обеспечить работу NoSQL хранилища, и разработать первичную структуру объектов, для возможности их визуализации;
– сформулировать подход к формированию графического образа, пригодного для использования в системах анализа больших объемов данных, в рамках концепции семантических сетевых моделей;
– разработать схему визуализации состояния объектов;
– реализовать веб приложения реализующие положения данных концепций;
–сформулировать направления дальнейшего развития разрабатываемой информационной системы.
2 КОНЦЕПЦИЯ ВИЗУАЛИЗАЦИИ
2.1 Концепция описания состояния объектов
В отличие от реляционной модели, которая сохраняет логическую бизнес-сущность приложения в различные физические таблицы, в целях нормализации NoSQL хранилища оперируют с этими сущностями как с целостными объектами. Объекты – это предметы интереса, которые важно визуализировать. Объект характеризуется набором атрибутов, которые подразделяться на статические, неизменяемые в течение времени; и динамические наборы параметров, описывающие состояния объекта в определенные моменты времени. Атрибутом является свойство объекта, которое не может существовать независимо от него.
Рисунок 2. 1– Структура обработки «больших данных».
На этапе начальной обработки данных, загруженные данные подвергаются систематизации и начальному анализу с целью помещения в хранилище данных. Основной режим функционирования состоит из следующих последовательности событий:
1) происходит предобработка данных которая может заключатся в фильтрации, агрегации, трансформации и других операция над данными, исходя из цели визуализации;
2) синтез модели графического образа на основе загруженных данных и параметров коррекции;
3) формирование графического образа;
4) вывод изображения на средства отображения информации;
5) взаимодействие с оператором с целью уточнения данных, изменения точки обзора графического образа и т.д.;
6) коррекция графического образа в соответствии с данными, полученными в результате взаимодействия с оператором.
Процесс визуального отображения – начальная точка для создания визуализации. Чем разнообразнее информация, которую нам нужно визуализировать, тем в большем количестве методов создания визуальных представлений мы нуждаемся. В ходе анализа исследований [2,27] составлена классификация. Наиболее актуальные способы визуализации данных можно представить в нескольких группах:
– табличное представление;















