1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 11
Текст из файла (страница 11)
Нельзя ли совместить два этих подхода так, чтобы скрыть их недостатки и сделать более заметными их достоинства? Удачные проекты реализации хранилищ данных, появившиеся в последнее время, показывают, что это возможно. Ситуация, когда для анализа необходима вся информация, находящаяся в хранилище, возникает довольно редко. Обычно каждый аналитик или аналитический отдел обслуживает одно из направлений деятельности организации, поэтому в первую очередь ему необходимы данные, характеризующие именно это направление.
Реальный объем этих данных не превосходит ограничений„присущих многомерным СУБД. Возникает идея выделить данные, которые реально нужны конкретным аналитическим приложениям, в отдельный набор. Такай набор мог бы быть реализован в многомерной БД. Источником данных для него должно быть центральное хранилище организации. Если проводить аналогии с производством и реализацией продукции, то многомерные БД выполняют роль мелких складов. В концепции ХД их принято именовать киосками данных ~Раса Маг~а) ~91. Киоск данных — это специализированное тематическое хранилище, обслуживающее одно их направлений деятельности организации. Логическая схема СППР, использующей центральное ХД организации и киоски данных аналитических отделов ~121, представлена на рис. З.б.
Глава 3. Приниилы построения систем, ориентированных ма анаГГиз данных 55 Источники информации Постаащиаи информации ЗаГрузка данных Приведение данных к единому формату Центральное хранилИща Мносомарнье аизуапизациа запросы данных анап из систамы Пользовательские приложения МОДЕЛИ, ПРОГНОЗЫ Потокзадач анализа Рис.
3.6. Логическая стема СППР, испсиьзуГОГаей ЛД и киоски данутых Такая схема позволяет эффективно использовать возможности реляционных СУБД по хранению огромных объемов информации и способность многомерных СУБД обеспечивать высокую скорость выполнения аналитических запросов. Киоски данных (тематические хранилища) Анализ и представление данных ~-" Ф 'Х С татистнн аспид ааааа ртныа идд а Базы данных.
Интеллектуальная обработка информации З.б. Построение систем на основе ХД Системы, использующие хранилище данных, как правило, строятся на основе архитектуры клиент-сервер. Хранилище данных размещается на специальном сервере (сервере хранилища данных). Для его реализации используется мощные многопроцессорные вычислительные системы таких производителей, как 1ВМ„Неч4ец-Рас)сагд, ВЕС, МСВ. и др. В качестве СУБД применяется одна из СУБД, поддерживающих параллельную обработку запросов Тегада!а (фирма !ЧСК), 0В/2 (фирма 1ВМ), Огас1е, 1п1оптпх и др.
Киоски данных реализуются с использованием серверов многомерных БД: ЕззЬаае (АгЬог Бойюаге), Огас!с Ехргеы (Огас1е), бепбцт (Р!апп1пя Зс1епсеа) и др. Современные аналитические системы, основанные на концепции ХД, способны хранить большие массивы информации, В зависимости от объема используемых данных хранилища принято делить на: маленькие, средние, большие и сверхбольшие. Принципы такой классификации представлены в таблице 3.2. Таблица 3.2. Классификация ХД в зависимости от объема Тип хранилища Объем данных Число строк в фактологической таблице Маленькое до 3 ГБайт до нескольких миллионов Среднее до 25 ГБайт до ста миллионов Большое до 200 ГБайт несколько сотен миллионов Сверхбольшое свыше 200 ГБайт миллиард и более Приведенная классификация подразумевает полезный объем, то есть объем данных, которые могут быть использованы для анализа, Дисковое пространство, требуемое для реализации хранилища, обычно в несколько раз больше за счет того, что необходимо поддерживать систему индексов.
Для современных СУБД, таких как РВ2, Тегаг!а!а, Огас!е, соотношение между объемом задействованной дисковой памяти и объемом реально используемых данных примерно равно 5 — 10. 3.7. Доставка данных в хранилище Данные должны поступать в хранилище в нужном формате и с требуемой регулярностью, Как правило, составляется расписание пополнения хранилища, в соответствии с которым специальные программы организуют передачу данных на склад и их первичную обработку Передача данных на склад может также осуществляться при возникновении заранее определенных внешних событий.
Базы данных. Интеллектуальная обработка информации В аналитических системах для обработки данных используется очень широкая номенклатура методов. Это и традиционные статистические методы регрессионного, факторного, дисперсионного анализа, анализа временных рядов 1131, а также новые, получившие распространение в последнее время методы, основанные на искусственном интеллекте.
К последним, как правило, относят: нейронные сети, нечеткую логику, генетические алгоритмы, методы извлечения знаний. В совокупности они именуются методами интеллектуального анализа данных (ИАД). Часто используется англоязычный термин "да1а ппп1щ" (дословно — добыча знаний). Эти методы развивают традиционные статистические подходы, находя применение там, где обычные приемы невозможно использовать в силу отсутствия точных зависимостей, описывающих анализируемые процессы. Технологии ИАД способны существенно расширить круг практически значимых задач, решаемых с использованием вычислительной техники. Подробно методы интеллектуального анализа данных и примеры их применения описаны в соответствующих разделах.
В большинстве случаев средства анализа данных в СППР на основе ХД используются для решения следующих задач: 1) выделение в данных групп сходных по некоторым признакам записей (кластерный анализ); 2) нахождение и аппроксимация зависимостей, связывающих анализируемые параметры или события, а также поиск параметров, наиболее значимых в терминах конкретной задачи; 3) поиск данных, существенно отклоняющихся от выявленных закономерностей (анализ аномалий); 4) прогнозирование развития объектов различной природы на основе хранящейся ретроспективной информации об их состоянии в прошлом. Кластерный анализ (также употребляются термины "кластеризация", "самообучение", "обучение без учителя") — это метод выделения из множества элементов групп (кластеров) схожих между собой элементов.
Предполагается, что элементы одного и того же кластера похожи, а элементы различных кластеров отличаются друг от друга. Как правило, число кластеров заранее не определяется. Кластерный анализ записей баз данных осуществляется на основе значений их количественных и качественных атрибутов. При этом делается попытка автоматически разнести имеющиеся записи по различным группам. Кластерный анализ применяют при решении большого числа задач. В социологии его используют для обработки результатов опросов общественного мнения, в медицине — для выявления типичных клинических случаев, в маркетинге — для поиска родственных групп клиентов. Часто выделение кластеров— отправная точка для других алгоритмов интеллектуального анализа данных. Базы данных. Интеллектуальная обработка информации нованы на принципе инерционности развития, то есть предполагается„что развитие объекта подчинено определенным закономерностям, которые сохранятся на некоторый период в будущем.
При прогнозировании используется способность методов ИАД выявлять закономерности в исторических данных, описывающих развитие объекта, и использовать в дальнейшем эти тенденции для выработки гипотез о его состоянии в будущем. Особенно широко для предсказаний методы ИАД применяют в финансовой сфере при прогнозировании доходности акций, курсов валют, экономических индикаторов.
В настоящее время компьютерные аналитические технологии данных переживают этап бурного развития — появляются новые программные продукты и задачи, которые успешно решаются с их помощью. Однако даже самые лучшие программные средства не заменят специалиста, способного провести интегральный анализ наблюдаемых явлений. Тем не менее современные интеллектуальные компьютерные технологии могут быть хорошим помощником аналитика, в значительной мере упрощая ему работу Глава 4. Документальные системы 4.1. Назначение и основные понятия Классические модели и методы в теории БД изначально ориентировались на организацию хранения и обработки детально структурированных данных. Чаще всего эти данные представляли собой числовые значения, описывающие те или иные характеристики информационных объектов.
Однако на практике оказалось, что чаще информация представлена не в виде структурированных массивов данных, а в виде простых текстовых документов. Вследствие этого документальные БД (иногда их еще называют полнотекстовыми) сразу выделялись в особый тип баз данных. Исторически сложилось так, что за системами, ориентированными на работу с текстовыми документами, укоренился термин информационно-поисковые системы (ИПС). Хотя, если быть точнее, их следует называть документальными ИПС (ДИПС), поскольку традиционные СУБД также являются ИПС, только фактографическими (ФИПС).