Вопросы ГЭК 2009new (1094840), страница 23
Текст из файла (страница 23)
Решение - концепция Хранилища Данных (Data Warehouse, ХД), которое выполняет функции предварительной подготовки и хранения данных для СППР на основе информации из системы управления предприятием (OLTP - системы), а также информации из сторонних источников, которые в достаточном количестве стали доступны на рынке информации.
Все данные в ХД делятся на три основные категории:
-
детальные данные
-
агрегированные данные
-
метаданные
Под аббревиатурой ETL — extraction, transformation, loading, то есть извлечение, преобразование и загрузка, скрываются три основных процесса, используемые при переносе данных из одного приложения или системы в другие (плакат)
Использование собранных данных решается подсистемами анализа. Эти подсистемы могут основываться на следующих технологиях:
-
регламентированные запросы (развиты еще до появления концепции БД);
-
оперативный анализ данных;
-
интеллектуальный анализ данных
ОLAP (Online Analytical Processing) - оперативная аналитическая обработка данных. Основная цель ОLAP – систем – поддержка произвольных (не регламентированных!) запросов пользователей аналитиков.
12 определяющих принципов OLAP сформулировал в 1993 г. Е. Ф. Кодд - "изобретатель" реляционных БД. Позже его определение было переработано в так называемый тест FASMI, требующий, чтобы OLAP-приложение предоставляло возможности быстрого анализа разделяемой многомерной информации.
Fast (Быстрый) - анализ должен производиться одинаково быстро по всем аспектам информации. Приемлемое время отклика - 5 с или менее.
Analysis (Анализ) - должна быть возможность осуществлять основные типы числового и статистического анализа, предопределенного разработчиком приложения или произвольно определяемого пользователем.
Of Shared (Разделяемой) - множество пользователей должно иметь доступ к данным, при этом необходимо контролировать доступ к конфиденциальной информации.
Multidimensional (Многомерной) - это основная, наиболее существенная характеристика OLAP.
Information (Информации) - приложение должно иметь возможность обращаться к любой нужной информации, независимо от ее объема и места хранения.
Data Mining- «добыча» данных. Это метод обнаружения в «сырых» данных ранее неизвестных, нетривиальных, практически полезных и доступных для интерпретации знаний, необходимых для принятия решений.
DM обеспечивает решение всего пяти задач — классификация, кластеризация, регрессия, ассоциация, последовательность:
Классификация — установление функциональной зависимости между входными и дискретными выходными переменными. При помощи классификации решается задача отнесение объектов (наблюдений, событий) к одному из заранее известных классов.
Регрессия- установление функциональной зависимости между входными и непрерывными выходными переменными. Прогнозирование чаще всего сводится к решению задачи регрессии.
Кластеризация — это группировка объектов (наблюдений, событий) на основе данных (свойств), описывающих сущность объектов. Объекты внутри кластера должны быть «похожими» друг на друга и отличаться от объектов, вошедших в другие кластеры. Чем больше похожи объекты внутри кластера и чем больше отличий между кластерами, тем точнее кластеризация.
Ассоциация — выявление зависимостей между связанными событиями, указывающих, что из события X следует событие Y. Такие правила называются ассоциативными. Впервые эта задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют анализом потребительской корзины (market basket analysis).
Последовательные шаблоны — установление закономерностей между связанными во времени событиями. Например, после события X через определенное время произойдет событие Y.
Иногда специально выделяют задачу анализа отклонений — выявление наиболее нехарактерных шаблонов.
Классификация используется в случае, если заранее известны классы отнесения объектов. Например, отнесение нового товара к той или иной товарной группе, отнесение клиента к какой-либо категории. При кредитовании это может быть, например, отнесение клиента по каким-то признакам к одной из групп риска.
Регрессия чаще всего используется при прогнозировании объемов продаж, в этом случае зависимой величиной являются объемы продаж, а факторами, влияющими на эту величину, могут быть предыдущие объемы продаж, изменение курса валют, активность конкурентов и т.д. или, например, при диагностике оборудования, когда оценивается зависимость надежности от различных внешних факторов, показателей датчиков, износа оборудования.
Кластеризация может использоваться для сегментирования и построения профилей клиентов (покупателей). При достаточно большом количестве клиентов становится трудно подходить к каждому индивидуально. Поэтому клиентов удобно объединить в группы - сегменты со сходными признаками. Выделять сегменты клиентов можно по нескольким группам признаков. Это могут быть сегменты по сфере деятельности, по географическому расположению. После сегментации можно узнать, какие именно сегменты являются наиболее активными, какие приносят наибольшую прибыль, выделить характерные для них признаки. Эффективность работы с клиентами повышается за счет учета их персональных или групповых предпочтений.
Ассоциации помогают выявлять совместно приобретаемые товары. Это может быть полезно для более удобного размещения товара на прилавках, стимулирования продаж. Тогда человек, купивший пачку спагетти, не забудет купить к ним бутылочку соуса.
Последовательные шаблоны могут быть использованы, например, при планировании продаж или предоставлении услуг. Например, если человек приобрел фотопленку, то через неделю он отдаст ее на проявку и закажет печать фотографий.
Для анализа отклонений необходимо сначала построить шаблон типичного поведения изучаемого объекта. Например, поведение человека при использовании кредитных карт. Тогда будет известно, что клиент (покупатель) использует карту регулярно два раза в месяц и приобретает товар в пределах определенной суммы. Отклонением будет, например, не запланированное приобретение товара по данной карте на большую сумму. Это может говорить об ее использовании другим лицом, то есть о факте мошенничества.
К базовым методам Data Mining, позволяющим решать перечисленные задачи относят:
-
автокорреляцию;
-
линейную регрессию;
-
логистическую регрессию;
-
нейронные сети;
-
прогнозирование;
-
деревья решений;
-
ассоциативные правила;
-
пользовательские модели;
-
карты Кохонена;
Основные понятия реляционной модели данных. Понятие функциональной зависимости. Процесс нормализации базы данных.
Основу модели составляет набор взаимосвязанных таблиц, в которых хранятся данные.
Схема базы данных – набор заголовков таблиц, взаимосвязанных друг с другом
Заголовок отношения – заголовок таблицы – названия полей (столбцов) таблицы
Тело отношения – тело таблицы – совокупность значений для всех объектов реального мира, которая представлена в виде записей таблицы (строк таблицы)
Схема отношения - строка заголовков столбцов
Кортеж отношения – строка таблицы, однозначное представление объекта реального мира
Домен – множество допустимых значений атрибута
Степень отношения – количество столбцов отношения
Мощность отношения количество строк (КОРТЕЖЕЙ)
Целостность данных - это механизм поддержания соответствия базы данных предметной области. В реляционной модели данных определены два базовых требования обеспечения целостности:
-
целостность сущностей - каждый кортеж любого отношения должен отличатся от любого другого кортежа этого отношения (т.е. любое отношение должно обладать первичным ключом). Очевидно, что если данное требование не соблюдается (т.е. кортежи в рамках одного отношения не уникальны), то в базе данных может хранится противоречивая информация об одном и том же объекте. Поддержание целостности сущностей обеспечивается средствами системы управления базой данных (СУБД). Это осуществляется с помощью двух ограничений:
-
при добавлении записей в таблицу проверяется уникальность их первичных ключей;
-
не позволяется изменение значений атрибутов, входящих в первичный ключ.
-
целостность ссылок (ссылочная целостность).
Наряду с первичными ключами отношения имеют внешние ключи. Если отношение С связывает отношения А и В, то оно должно включать внешние ключи, соответствующие первичным ключам отношений А и В.
Условие ссылочной целостности ставит следующие проблемы проектирования БД:
-
возможно или невозможно появление во внешних ключах неопределенных значений (NULL-значения – значения атрибута для отсутствующей информации);
-
что произойдет при попытке удаления кортежей из отношения, на который ссылается внешний ключ. При этом существуют следующие возможности:
-
операция каскадируется - то есть удаление кортежей в отношении приводит к удалению соответствующих кортежей в связанном отношении;
-
операция ограничивается - то есть удаляются лишь те кортежи, для которых связанной информации в другом отношении нет. Если такая информация имеется, то удаление осуществлять нельзя.
-
-
что произойдет при попытке обновления первичного ключа отношения, на которое ссылается некоторый внешний ключ. При этом существуют следующие возможности:
-
операция каскадируется - то есть при обновлении первичного ключа происходит обновление внешнего ключа в связанном отношении;
-
операция ограничивается – то есть обновляются лишь те первичные ключи, для которых связанной информации в другом отношении нет. Если таковая информация имеется, то обновление сделать нельзя.
-
Нормализация - процесс проверки и реорганизации сущностей и атрибутов с целью удовлетворения требований к реляционной модели данных. Нормализация позволяет быть уверенным, что каждый атрибут определен для своей сущности, значительно сократить объем памяти для хранения информации и устранить аномалии в организации хранения данных. В результате проведения нормализации должна быть создана структура данных, при которой информация о каждом факте хранится только в одном месте. Процесс нормализации сводится к последовательному приведению структуры данных к нормальным формам - формализованным требованиям к организации данных. Известны шесть нормальных форм:
-
первая нормальная форма (1NF);
-
вторая нормальная форма (2NF);
-
третья нормальная форма (3NF);
-
нормальная форма Бойса - Кодда (усиленная 3NF);
-
четвертая нормальная форма (4NF);
-
пятая нормальная форма (5NF).
На практике обычно ограничиваются приведением данных к третьей нормальной форме. Нормальные формы основаны на понятии функциональной зависимости (в дальнейшем «зависимость»).
Функциональная зависимость - Атрибут В сущности Е функционально зависит от атрибута А сущности Е, если в любой момент времени каждому значению В соответствует ровно одно значение А. т. е. А однозначно определяет В.
Полная функциональная зависимость - Атрибут В сущности Е полностью функционально зависит от ряда атрибутов А сущности Е, если В функционально зависит от А и не зависит ни от какого подряда А.
Первая нормальная форма (1NF). Сущность находится в первой нормальной форме тогда и только тогда, когда все атрибуты содержат атомарные значения. Среди атрибутов не должно встречаться повторяющихся групп, т. е. несколько значений для каждого экземпляра.
Для приведения сущности к первой нормальной форме следует:
-
разделить сложные атрибуты на атомарные,
-
создать новую сущность,
-
перенести в нее все «повторяющиеся» атрибуты,
-
выбрать возможный ключ для новой сущности (или создать новый ключ);
-
установить связь от прежней сущности к новой, Первичный ключ прежней сущности станет внешним ключом для новой сущности.
Вторая нормальная форма (2NF). Сущность находится во второй нормальной форме, если она находится в первой нормальной форме, и каждый неключевой атрибут полностью зависит от первичного ключа (не должно быть зависимости от части ключа). Вторая нормальная форма имеет смысл только для сущностей, имеющих сложный первичный ключ.