SAS EM. Лекция 1. Введение и обзор возможностей (Лекции 2014)
Описание файла
Файл "SAS EM. Лекция 1. Введение и обзор возможностей" внутри архива находится в папке "Лекции 2014". PDF-файл из архива "Лекции 2014", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
SAS ENTERPRISE MINERВВЕДЕНИЕ И ОБЗОР ВОЗМОЖНОСТЕЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ(DATA MINING)АналитикНайденныезакономерности(модели)ХранилищеданныхБД и др.источникиПроверка,интерпретация ивизуализациярезультатовИнтеллектуальныйанализ данных(Data Mining)Объединение ипредобработкаданныхСистемы интеллектуального анализа данных (ИАД) – класс программных системподдержки принятия решений, задачей которых является поиск скрытых, ранеенеизвестных, содержательных и потенциально полезных закономерностей вбольших объемах разнородных, сложно структурированных данных.Han J., Kamber M.
Data Mining: Concepts and Techniques // Morgan Kaufmann, 2000C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЭВОЛЮЦИЯ ТЕХНОЛОГИЙ ХРАНЕНИЯ ИОБРАБОТКИ ДАННЫХ•… — 1960-е:••1960-е:••Первые СУБД, иерархические, сетевые и т.д.1970-е:••Файлы и файловые архивыРеляционная модель данных, реляционные СУБД1980-е:«Продвинутые» СУБД (объектно-реляционные и объектные,«расширенные» реляционные, дедуктивные и др.)• «Специализированные» СУБД (гео-,научные, инженерные и др.)••1990-е — …:•Мультимедийные БД, WWW, хранилища, витрины данных,OLAP, DataMiningC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .АКТУАЛЬНОСТЬ И НЕОБХОДИМОСТЬИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ(ИАД)•Проблема больших объемов («Data explosion»):•Средства автоматического сбора данных, повсеместное внедрениеСУБД, электронный документооборот, WWW, мультимедийные архивыи т.д. приводят к росту объемов и усложнению структуры хранимойинформации.•Традиционные средства не справляются:•Информационный поиск и стат. анализ не везде помогают – многоданных, сложная структура и нужно знать точно, что искать.••Вывод: много данных, но мало информации для аналитика.Необходимо:•Наличие программных средств автоматизированного анализа данныхбольшого объема и сложной структуры.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПРОЦЕСС ИАД (1)•••Анализ предметной области:• выявление и формулировка необходимых априорных знаний опредметной области, целей анализа, задач приложения, сценариевиспользованияФормирование и подготовка данных для анализа:• поиск (или выбор) «сырых» данных• предобработка данных (нормализация, дискретизация, обработкапропущенных значений, удаление артефактов, проверкаконсистентности)• уменьшение размерности, выбор значимых характеристик, расчетинтегральных показателей и инвариантовОпределение типа решаемой задачи анализа и формализация:• классификация, прогнозирование, кластеризация, поискисключений, ассоциативный анализ и т.д.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРОЦЕСС ИАД (2)Выбор или разработка алгоритма анализа:• определение ограничений и требований к алгоритму по точности,размеру, интерпретируемости, скорости построения и примененияполучаемых моделей, по типу исходных данных• Непосредственно «Data mining»:• применение выбранного алгоритма анализа для поисказакономерностей выбранного типа и построение моделей• визуализация, преобразование, удаление избыточности, оценкаточности, достоверности моделей и т.д.• Применение построенных моделей:• Descriptive data mining - информирование аналитика,«описательные» модели, основная цель – визуализация• Predictive data mining – прогнозирование неизвестных значений илихарактеристик в «новых» данных с помощью построенных моделей,основная цель – прогноз•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .МЕСТО ИАД В ПРОЦЕССЕ ПОДДЕРЖКИПРИНЯТИЯ РЕШЕНИЙПринятиерешениийЛПРПредставлениерезультатов анализаData mining:выявление зависимостей,прогнозАналитикСтат. анализ, отчеты, запросы к хранилищуХранилища и витрины данных, OLAPИсточники данныхДокументы, файлы, отчеты, базы данных событийC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОператорОСНОВНЫЕ ТИПЫ ИСХОДНЫХ ДАННЫХ••••Транзакционные• Объекты анализа – «события» различной структуры счисловыми и категориальными атрибутами и с временнойметкойТабличные• Объекты анализа представлены в виде реляционных таблиц,возможно взаимосвязанных (заданно ER-схемой), имеютразнотипные атрибутыВременные ряды и числовые данные большого объема• Обработка результатов наблюдений, научных экспериментов,характеристик технологических процессовЭлектронные тексты на естественном языке• анализ содержимого документовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ЗАДАЧИ ИАД = ТИПЫ ВЫЯВЛЯЕМЫХЗАКОНОМЕРНОСТЕЙ•Классификация («Обучение с учителем»)••Ранжирование («Обучение с учителем»)••Выявление зависимостей между атрибутами в виде правил илианалитических зависимостейКластеризация («Обучение без учителя»)••На основании известных значений атрибутов анализируемого объектаопределяются значения неизвестных атрибутовАссоциации («Обучение без учителя»)••Оценка степени соответствия объектов одной или более заранееопределенным категориямПрогнозирование («Обучение с учителем»)••Отнесение объектов к заранее определенным категориямВыделение компактных подгрупп «похожих» объектовВыявление исключений («Обучение с учителем и без»)•Поиск объектов, которые своими характеристиками значительно отличаютсяот остальныхC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ДАННЫЕ ДЛЯ АНАЛИЗА••Объект анализа (или прецедент, или кейс, или ситуация, …)задается набором признаков (или атрибутов, или свойств, …)Признаки бывают:••••Категориальные - нет расстояний, не задан порядокОрдинальные (порядковые) – нет расстоянийЧисловые – есть расстояние«Размеченный» набор данных – для каждого объекта выделенодин или более признаков, которые могут быть неизвестны икоторые нужно предсказывать, тогда задача обучения «сучителем», иначе «без учителя» («неразмеченный» набор данных):«Выходные» признаки - нужно предсказывать (они же отклики, или«зависимые переменные», или …)• «Входные» признаки, которые считаются всегда известными (они жевходы, или «независимые переменные», или регрессоры, …)•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ОБУЧЕНИЕ «С УЧИТЕЛЕМ» И «БЕЗ»аномалии тоже разные?C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЛАССИФИКАЦИЯ•Дано:••Цель:••«размеченный» тренировочный набор – для каждого объектаизвестен его классПостроить классификатор – функцию или алгоритм, который взависимости от свойств объекта предсказывает его классПриложения:•••Компьютерная безопасностьПроизводство- прогнозирование качества изделийРаспознавание образовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРИМЕР: АНАЛИЗ И ПРОГНОЗИРОВАНИЕБРАКА В ТЕХНОЛОГИЧЕСКОМ ПРОЦЕССЕКакие параметры производственного процесса влияют накачество продукции?ПараметрыПроизводствоБрак?ПродукцияQuality = F(X1, … Xn),где Xi — i-ая характеристика производственного процесса,C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАНЖИРОВАНИЕ•Дано:••«размеченный» тренировочный набор – для каждого объекта известен его классили несколько не взаимоисключающих классовЦель:Построить функцию или алгоритм ранжирования, который в зависимости отсвойств объекта вычисляет степень его соответствия классам• Результат ранжирования: в рамках каждого класса можно упорядочить объектыпо степени соответствия данному классу, и наоборот, в рамках каждого объектаможно упорядочить классы по степени соответствия данному объекту••Приложения:Документооборот - рубрикация документов• Кредитование - оценка заемщика•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРИМЕР: РАНЖИРОВАНИЕ МНОГОТЕМНЫХ(MULTI-LABEL) ДОКУМЕНТОВЗадача ранжирования документов – определение степенипринадлежности документа к одному или нескольким классам (изпредопределённого набора классов) на основании анализа совокупностипризнаков, характеризующих документДокументВ Иракесовершилвзрывтеррористсмертник.............................Традиционная класс1 класс2задачакласс4классификациикласс3(multi-classкласс5classification)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Предопределённыйнабор классов1010100новостисоциологияполитикаэкономикатерроризмискусствоспортЗадачаклассификации спересекающимисяклассами(multi-label classification)РелевантныеклассыНелевантныеклассыкласс1класс2класс5класс3 класс4ПРОГНОЗИРОВАНИЕ•Дано:••Цель:••«размеченный» тренировочный набор – для каждого объектаизвестно значение некой числовой величины, котороенеобходимо спрогнозироватьПостроить функцию, которая в зависимости от свойств объектапредсказывает значение данной величиныПриложения:•••Финансы - прогноз курсов валют, цен на нефть и др., оценкаожидаемых доходов или убытков предприятияМаркетинг – прогнозирование числа новых клиентов или убылистарыхПрогноз электропотребленияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРИМЕР: ПРОГНОЗИРОВАНИЕ РАЗВИТИЯОБСТАНОВКИ••Проведениестатистическогоанализа и вычислениеиндикаторов,описывающих ситуациюОпределениетенденций ипрогнозированиезначений индикаторовРегионДата/времяСобытиеТипЗадание правилрасчета индикаторови генерация OLAPотчетовOLAP-кубы срассчитаннымииндикаторами...ГенерацияобучающейвыборкиOLAP-кубы срассчитаннымииндикаторамиOLAP-куб спропущеннымизначениямииндикаторовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .МодульпостроенияOLAP-отчетовБД событийПостроениемоделипрогнозированияМодельпрогнозированияМодельпрогнозированияOLAP-куб соспрогнозированнымизначениями индикаторовПОИСК АССОЦИАЦИЙ•Дано:••Цель:••«не размеченный» тренировочный набор – для каждого объектаизвестны только значения его свойств (атрибутов)Найти зависимости между значениями атрибутов, например, ввиде правил «если … то …»Приложения:•••Маркетинг и рекомендательные системы - анализ зависимостеймежду покупаемыми товарами или услугамиФинансовый анализ – поиск зависимостей между значениямииндексов и другими финансовыми параметрамиМедицина – анализ результатов исследованийC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРИМЕР: АНАЛИЗ «КОРЗИНЫПОКУПАТЕЛЯ»АссортиментсупермаркетаИнтересные правила=>=>=>Задача Определить интересные правила в предпочтенияхпокупателей при выборе товараC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЛАСТЕРИЗАЦИЯ•Дано:••Цель:••«не размеченный» тренировочный набор – для каждого объектаизвестны только значения его свойств (атрибутов)Найти «непохожие» группы «похожих» объектовПриложения:•••Маркетинг – сегментация клиентов, рынков, товаров и т.д.Производство – выявление типовых состояний и ситуацийИндексирование документовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ПРИМЕР: КЛАСТЕРИЗАЦИЯ И ВИЗУАЛИЗАЦИЯС ПОМОЩЬЮ SOM•Когерентные области:Близкие группы стран (по заданным стат. показателям) в исходномпространстве – рядом на решетке (свойство SOM) и одним (илиспектрально близким) цветом• Группы стран (категории, области) - кластеры•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВЫЯВЛЕНИЕ ИСКЛЮЧЕНИЙ•Дано:••Цель:••тренировочный набор («размеченный» или нет) – для каждогообъекта известны значения его свойствНайти наиболее «непохожие» объектыПриложения:•••Безопасность – подозрительные финансовые транзакции,звонки, люди, организацииПроизводство – выявление нештатных ситуацийМедицина – диагностикаC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .