Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » SAS EM. Лекция 1. Введение и обзор возможностей

SAS EM. Лекция 1. Введение и обзор возможностей (Лекции 2014)

PDF-файл SAS EM. Лекция 1. Введение и обзор возможностей (Лекции 2014) (ППП СОиАД) (SAS) Пакеты прикладных программ для статистической обработки и анализа данных (63185): Лекции - 10 семестр (2 семестр магистратуры)SAS EM. Лекция 1. Введение и обзор возможностей (Лекции 2014) - PDF (63185) - СтудИзба2020-08-25СтудИзба

Описание файла

Файл "SAS EM. Лекция 1. Введение и обзор возможностей" внутри архива находится в папке "Лекции 2014". PDF-файл из архива "Лекции 2014", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

SAS ENTERPRISE MINERВВЕДЕНИЕ И ОБЗОР ВОЗМОЖНОСТЕЙC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ДАННЫХ(DATA MINING)АналитикНайденныезакономерности(модели)ХранилищеданныхБД и др.источникиПроверка,интерпретация ивизуализациярезультатовИнтеллектуальныйанализ данных(Data Mining)Объединение ипредобработкаданныхСистемы интеллектуального анализа данных (ИАД) – класс программных системподдержки принятия решений, задачей которых является поиск скрытых, ранеенеизвестных, содержательных и потенциально полезных закономерностей вбольших объемах разнородных, сложно структурированных данных.Han J., Kamber M.

Data Mining: Concepts and Techniques // Morgan Kaufmann, 2000C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЭВОЛЮЦИЯ ТЕХНОЛОГИЙ ХРАНЕНИЯ ИОБРАБОТКИ ДАННЫХ•… — 1960-е:••1960-е:••Первые СУБД, иерархические, сетевые и т.д.1970-е:••Файлы и файловые архивыРеляционная модель данных, реляционные СУБД1980-е:«Продвинутые» СУБД (объектно-реляционные и объектные,«расширенные» реляционные, дедуктивные и др.)• «Специализированные» СУБД (гео-,научные, инженерные и др.)••1990-е — …:•Мультимедийные БД, WWW, хранилища, витрины данных,OLAP, DataMiningC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .АКТУАЛЬНОСТЬ И НЕОБХОДИМОСТЬИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ(ИАД)•Проблема больших объемов («Data explosion»):•Средства автоматического сбора данных, повсеместное внедрениеСУБД, электронный документооборот, WWW, мультимедийные архивыи т.д. приводят к росту объемов и усложнению структуры хранимойинформации.•Традиционные средства не справляются:•Информационный поиск и стат. анализ не везде помогают – многоданных, сложная структура и нужно знать точно, что искать.••Вывод: много данных, но мало информации для аналитика.Необходимо:•Наличие программных средств автоматизированного анализа данныхбольшого объема и сложной структуры.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ПРОЦЕСС ИАД (1)•••Анализ предметной области:• выявление и формулировка необходимых априорных знаний опредметной области, целей анализа, задач приложения, сценариевиспользованияФормирование и подготовка данных для анализа:• поиск (или выбор) «сырых» данных• предобработка данных (нормализация, дискретизация, обработкапропущенных значений, удаление артефактов, проверкаконсистентности)• уменьшение размерности, выбор значимых характеристик, расчетинтегральных показателей и инвариантовОпределение типа решаемой задачи анализа и формализация:• классификация, прогнозирование, кластеризация, поискисключений, ассоциативный анализ и т.д.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ПРОЦЕСС ИАД (2)Выбор или разработка алгоритма анализа:• определение ограничений и требований к алгоритму по точности,размеру, интерпретируемости, скорости построения и примененияполучаемых моделей, по типу исходных данных• Непосредственно «Data mining»:• применение выбранного алгоритма анализа для поисказакономерностей выбранного типа и построение моделей• визуализация, преобразование, удаление избыточности, оценкаточности, достоверности моделей и т.д.• Применение построенных моделей:• Descriptive data mining - информирование аналитика,«описательные» модели, основная цель – визуализация• Predictive data mining – прогнозирование неизвестных значений илихарактеристик в «новых» данных с помощью построенных моделей,основная цель – прогноз•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .МЕСТО ИАД В ПРОЦЕССЕ ПОДДЕРЖКИПРИНЯТИЯ РЕШЕНИЙПринятиерешениийЛПРПредставлениерезультатов анализаData mining:выявление зависимостей,прогнозАналитикСтат. анализ, отчеты, запросы к хранилищуХранилища и витрины данных, OLAPИсточники данныхДокументы, файлы, отчеты, базы данных событийC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОператорОСНОВНЫЕ ТИПЫ ИСХОДНЫХ ДАННЫХ••••Транзакционные• Объекты анализа – «события» различной структуры счисловыми и категориальными атрибутами и с временнойметкойТабличные• Объекты анализа представлены в виде реляционных таблиц,возможно взаимосвязанных (заданно ER-схемой), имеютразнотипные атрибутыВременные ряды и числовые данные большого объема• Обработка результатов наблюдений, научных экспериментов,характеристик технологических процессовЭлектронные тексты на естественном языке• анализ содержимого документовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ЗАДАЧИ ИАД = ТИПЫ ВЫЯВЛЯЕМЫХЗАКОНОМЕРНОСТЕЙ•Классификация («Обучение с учителем»)••Ранжирование («Обучение с учителем»)••Выявление зависимостей между атрибутами в виде правил илианалитических зависимостейКластеризация («Обучение без учителя»)••На основании известных значений атрибутов анализируемого объектаопределяются значения неизвестных атрибутовАссоциации («Обучение без учителя»)••Оценка степени соответствия объектов одной или более заранееопределенным категориямПрогнозирование («Обучение с учителем»)••Отнесение объектов к заранее определенным категориямВыделение компактных подгрупп «похожих» объектовВыявление исключений («Обучение с учителем и без»)•Поиск объектов, которые своими характеристиками значительно отличаютсяот остальныхC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ДАННЫЕ ДЛЯ АНАЛИЗА••Объект анализа (или прецедент, или кейс, или ситуация, …)задается набором признаков (или атрибутов, или свойств, …)Признаки бывают:••••Категориальные - нет расстояний, не задан порядокОрдинальные (порядковые) – нет расстоянийЧисловые – есть расстояние«Размеченный» набор данных – для каждого объекта выделенодин или более признаков, которые могут быть неизвестны икоторые нужно предсказывать, тогда задача обучения «сучителем», иначе «без учителя» («неразмеченный» набор данных):«Выходные» признаки - нужно предсказывать (они же отклики, или«зависимые переменные», или …)• «Входные» признаки, которые считаются всегда известными (они жевходы, или «независимые переменные», или регрессоры, …)•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ОБУЧЕНИЕ «С УЧИТЕЛЕМ» И «БЕЗ»аномалии тоже разные?C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЛАССИФИКАЦИЯ•Дано:••Цель:••«размеченный» тренировочный набор – для каждого объектаизвестен его классПостроить классификатор – функцию или алгоритм, который взависимости от свойств объекта предсказывает его классПриложения:•••Компьютерная безопасностьПроизводство- прогнозирование качества изделийРаспознавание образовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ПРИМЕР: АНАЛИЗ И ПРОГНОЗИРОВАНИЕБРАКА В ТЕХНОЛОГИЧЕСКОМ ПРОЦЕССЕКакие параметры производственного процесса влияют накачество продукции?ПараметрыПроизводствоБрак?ПродукцияQuality = F(X1, … Xn),где Xi — i-ая характеристика производственного процесса,C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .РАНЖИРОВАНИЕ•Дано:••«размеченный» тренировочный набор – для каждого объекта известен его классили несколько не взаимоисключающих классовЦель:Построить функцию или алгоритм ранжирования, который в зависимости отсвойств объекта вычисляет степень его соответствия классам• Результат ранжирования: в рамках каждого класса можно упорядочить объектыпо степени соответствия данному классу, и наоборот, в рамках каждого объектаможно упорядочить классы по степени соответствия данному объекту••Приложения:Документооборот - рубрикация документов• Кредитование - оценка заемщика•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ПРИМЕР: РАНЖИРОВАНИЕ МНОГОТЕМНЫХ(MULTI-LABEL) ДОКУМЕНТОВЗадача ранжирования документов – определение степенипринадлежности документа к одному или нескольким классам (изпредопределённого набора классов) на основании анализа совокупностипризнаков, характеризующих документДокументВ Иракесовершилвзрывтеррористсмертник.............................Традиционная класс1 класс2задачакласс4классификациикласс3(multi-classкласс5classification)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Предопределённыйнабор классов1010100новостисоциологияполитикаэкономикатерроризмискусствоспортЗадачаклассификации спересекающимисяклассами(multi-label classification)РелевантныеклассыНелевантныеклассыкласс1класс2класс5класс3 класс4ПРОГНОЗИРОВАНИЕ•Дано:••Цель:••«размеченный» тренировочный набор – для каждого объектаизвестно значение некой числовой величины, котороенеобходимо спрогнозироватьПостроить функцию, которая в зависимости от свойств объектапредсказывает значение данной величиныПриложения:•••Финансы - прогноз курсов валют, цен на нефть и др., оценкаожидаемых доходов или убытков предприятияМаркетинг – прогнозирование числа новых клиентов или убылистарыхПрогноз электропотребленияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ПРИМЕР: ПРОГНОЗИРОВАНИЕ РАЗВИТИЯОБСТАНОВКИ••Проведениестатистическогоанализа и вычислениеиндикаторов,описывающих ситуациюОпределениетенденций ипрогнозированиезначений индикаторовРегионДата/времяСобытиеТипЗадание правилрасчета индикаторови генерация OLAPотчетовOLAP-кубы срассчитаннымииндикаторами...ГенерацияобучающейвыборкиOLAP-кубы срассчитаннымииндикаторамиOLAP-куб спропущеннымизначениямииндикаторовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .МодульпостроенияOLAP-отчетовБД событийПостроениемоделипрогнозированияМодельпрогнозированияМодельпрогнозированияOLAP-куб соспрогнозированнымизначениями индикаторовПОИСК АССОЦИАЦИЙ•Дано:••Цель:••«не размеченный» тренировочный набор – для каждого объектаизвестны только значения его свойств (атрибутов)Найти зависимости между значениями атрибутов, например, ввиде правил «если … то …»Приложения:•••Маркетинг и рекомендательные системы - анализ зависимостеймежду покупаемыми товарами или услугамиФинансовый анализ – поиск зависимостей между значениямииндексов и другими финансовыми параметрамиМедицина – анализ результатов исследованийC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ПРИМЕР: АНАЛИЗ «КОРЗИНЫПОКУПАТЕЛЯ»АссортиментсупермаркетаИнтересные правила=>=>=>Задача Определить интересные правила в предпочтенияхпокупателей при выборе товараC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЛАСТЕРИЗАЦИЯ•Дано:••Цель:••«не размеченный» тренировочный набор – для каждого объектаизвестны только значения его свойств (атрибутов)Найти «непохожие» группы «похожих» объектовПриложения:•••Маркетинг – сегментация клиентов, рынков, товаров и т.д.Производство – выявление типовых состояний и ситуацийИндексирование документовC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

A l l r i g h t s r es er v e d .ПРИМЕР: КЛАСТЕРИЗАЦИЯ И ВИЗУАЛИЗАЦИЯС ПОМОЩЬЮ SOM•Когерентные области:Близкие группы стран (по заданным стат. показателям) в исходномпространстве – рядом на решетке (свойство SOM) и одним (илиспектрально близким) цветом• Группы стран (категории, области) - кластеры•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВЫЯВЛЕНИЕ ИСКЛЮЧЕНИЙ•Дано:••Цель:••тренировочный набор («размеченный» или нет) – для каждогообъекта известны значения его свойствНайти наиболее «непохожие» объектыПриложения:•••Безопасность – подозрительные финансовые транзакции,звонки, люди, организацииПроизводство – выявление нештатных ситуацийМедицина – диагностикаC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5224
Авторов
на СтудИзбе
428
Средний доход
с одного платного файла
Обучение Подробнее