SAS EM. Лекция 1. Введение и обзор возможностей (1185360), страница 2
Текст из файла (страница 2)
A l l r i g h t s r es er v e d .ПРИМЕР: ВЫЯВЛЕНИЕ МОШЕННИЧЕСТВ•Проблема:•••Примеры мошенничеств•••••мошенничать могут легальные пользователиправилами (сигнатурами) тяжело выявить «новые» или«замаскированные» сценарии мошенничествКредитные картыСтраховые случаиМобильные звонкиИнсайдерыПроблемы•••Реальное времяВелика цена ошибок и первого, и второго родаАномалия (необычное действие пользователя) еще не значитмошенничествоC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .МЕТОДЫ АНАЛИЗАБазы данныхМашинноеобучениеТеорияинформацииC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СтатистикаData MiningВизуализацияИскусственныйинтеллектОТЛИЧИЯ ИАД СИСТЕМ (1)•Наличие «обучения»• модели формируются на основе анализируемых данных, а неэкспертных знаний (в отличие от традиционных экспертныхсистем и систем информационного поиска)• структура модели и искомые зависимости заранее не известны(в отличие от стандартных статистических пакетов,ориентированных на расчет статистик, проверку гипотез иоценку параметров распределений)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ОТЛИЧИЯ ИАД СИСТЕМ (2)•Наличие большого объема данных сложной структуры• зачастую скорость работы алгоритмов в ИАД важнееотклонений по точности (“quick and dirty solution”)• большинство алгоритмов работают с исходными данными ввиде числовой матрицы признаков, сложная структурареальных объектов в ИАД приводит к необходимости решатьзадачу построения пространства характеристик и отображенияв него свойств исходных объектов• перечисленные особенности отличают ИАД системы оттрадиционных систем машинного обучения, в которых, какправило, решается обратная задача – построение достоверноймодели в условиях малой обучающей выборкиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ОТЛИЧИЯ ИАД СИСТЕМ (3)•Наличие аналитика• в сценарии работы любой системы ИАД всегда присутствуетаналитик, даже если полученная в результате модель далееиспользуется для автоматической классификации• аналитик формирует тренировочные наборы, производитнастройку алгоритмов, обучение, анализирует полученныемодели и принимает решения об их дальнейшем использовании• таким образом, системы автоматической классификации,кластеризации и распознавания образов, даже использующиевозможность обучения, не являются системами ИАДC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ЛИТЕРАТУРАhttp://www-stat.stanford.edu/~tibs/ElemStatLearnC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE MINER••Программный продукт компании SAS Institute Inc.,Cary, NC, USA,Реализует ИАД процесс в соответствии с концепциейSEMMA и обладает следующими характеристиками:••••Удобный GUI, позволяющий начать работать с «0», в том числе«бизнес-пользователю»Возможность создавать и обрабатывать в фоновом режиме пакетызадачМощные средства предобработки, агрегации и «разведочногоанализа» данныхСовременные алгоритмы прогнозного и описательногоинтеллектуального анализа данных (многие из них запатентованные разработки SAS)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE MINER•характеристики:•••••Развитые бизнесс-ориентированные средства сравнения и выборамоделей, построения отчетов, управления моделями, встроенныевозможности поддержки принятия решенийАвтоматизированный процесс применения моделей «внутри»продукта и «вне» («генерация» кода, реализующего ИАД процесс)«Открытая» расширяемая архитектура (возможно встраиваниесвоего кода)Масштабируемые вычисления (пока для части методов)Богатый набор встроенных прикладных решений (не входит встандартный пакет)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ONDEMAND SOLUTION•«Облачная» Saas модель:•Хостится, управляется и конфигурируется SAS•Пользователь ставит только Java клиент•Полные функциональные возможности по сравнению состандартной версией•Доступен «все время» «отовсюду»•Есть возможность загружать свои данные для анализа и«разделять» результаты работыC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОРГАНИЗАЦИЯ РАБОЧЕГО ПРОСТРАНСТВА ВSAS ENTERPRISE MINER••••••ПроектыИсточникиданныхДиаграммыПроцессыЗадачиОсновнаяструктураданных табличнаяC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ОСНОВНЫЕ СУЩНОСТИ DATA MINING ПРОЕКТАProjectsLibrariesandDiagramsProcessFlowsDatasourcesMy LibraryReportsEMWSSystemEMWS1em_dgraphIDsPart…C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .…WorkspacesNodesКОНЦЕПЦИЯ SEMMA•Sample (Выборка данных)••Explore (Исследование данных)••Алгоритмы преобразования данных, включая алгоритмы уменьшенияразмерности, выбора значимых признаков и т.д.Model (Построение моделей)••Разведочный анализ данных, включает ряд алгоритмов «обучения безучителя» и богатые средства визуализацииModify (Преобразование данных)••Создание наборов данных для анализа из источников «сырых» данных(только выбирает, не создает новых значений и не видоизменяетданные)Построение моделей прогнозированияAssess (Оценка моделей)•Выбор и сравнение моделейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMA•Sample (Выборка данных):•Подключение источников данных «внешних» и «внутренних»•Определение ролей источников, выделение структурыпрецедентов, задание ролей и типов характеристик прецедентов•Разбиение на тренировочный, тестовый и валидационный наборы(несколько стратегий)•Очистка данных (удаление ненужных прецедентов)•Случайная выборка (несколько стратегий)•«Вертикальная» и «горизонтальная» склейка данных•Агрегирование транзакций во временной рядC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMA•Explore (Исследование данных)•Богатые графические средства визуализации•Различные методы кластеризации (включая SOM, LVQ, k-means) и средства визуализации•Методы ассоциативного анализа (включая иерархическиеправила, а также анализ последовательностей и связей)•Методы уменьшения размерности (выбор ключевыххарактеристик)•Методы «кластеризации» переменныхC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMA•Modify (Преобразование данных)•Методы импутации пропущенных значений (точечныеоценки и на основе прогнозных моделей)•Поиск главных компонент•Интерактивная дискретизация (зависящая от отклика)•Богатые средства определения пользовательскихпроцедур преобразования данных•Стандартные преобразования числовых и дискретныххарактеристик с возможностью автоматического выбораоптимального преобразованияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMA•Model (Построение моделей)•Модели на основе деревьев решений для задач классификациии регрессии с различными критериями построения деревьев•Регрессионные модели, включая линейную, полиномиальную,логистическую, LASSO, PLS, собственные разработки SAS•Нейро-сетевые модели, включая многослойные персептроны,радиально-базисные сети, GLM, а также методы «оптимального»выбора архитектуры сети и собственные разработки SAS•Метод опорных векторов•MBR kNN•Комбинированные модели для прогнозирования редких событий•Ансамбли (голосущие, усредняющие, бустинг, баггинг, …)C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMA•Assess (Оценка моделей)•Вычисление оценок качества моделей•Графические средства сравнения качества ивизуализации найденных закономерностей•Средства выбора оптимального порога для задачпринятия решений•Средства интеграции в процесс поддержки принятиярешений•Средства применения моделейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessКОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessПОДКЛЮЧЕНИЕ ИСТОЧНИКА ДАННЫХSASFoundationServerLibrariesC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Выбрать источник.Определить ролипеременных.Определеить типыпеременных.Определить роль источника.Демонстрация на данных adultКОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ExploreModifyModelAssessФИЛЬТРАЦИЯ ДАННЫХ•Цель – удаление из выборки артефактов и выбросов•Правила фильтрации задаются для отдельныхпеременных:•Ручные – задаются недопустимые значения переменных (диапазоныдля числовых, список для категориальных)•Редкие значения для категориальных•Нетипичные значения для числовых (задается допустимое отклонениеот мат.
ожидания или допустимое отклоение от медианы илиэкстремальные процентили и другое).Демонстрация на данных adultC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КОНЦЕПЦИЯ SEMMASampleC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ExploreModifyModelAssessСОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ –СЛУЧАЙНАЯ ВЫБОРКА (SAMPLING)•Цель – выбрать «представительное» подмножество примеров:•В идеале с тем же распределением•Просто случайная выборка работает плохо – не удается сохранитьхарактеристики всего набора•Адаптивные методы случайной выборки:•В соответствии с «грубой» моделью, например кластерной•Случайная выборка в рамках экспертных «срезов» (условия на срезыформируются аналитиком)•Случайная выборка в рамках «срезов», построенных автоматически по какомулибо классу, высоко селективному атрибуту или их комбинации•Основная особенность – выборка в рамках среза или кластера пропорциональнаразмеру среза или кластера•Число операций ввода-вывода:•при sampling’е может не быть меньше чем при полном просмотре БДC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ(SAMPLING) – МЕТОД ГИСТОГРАММЗадается процент исходнойвыборки• Для выбраннойкатегориальной переменной(переменная стратификации)строится частотная диаграмма(для числовой необходимапредварительнаядискретизация)• Наблюдения случайнымобразом выбрасываются так,чтобы сохранитьраспределение переменнойстратификации•403530252015105010000C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .30000500007000090000СОКРАЩЕНИЕ ОБУЧАЮЩЕЙ ВЫБОРКИ(SAMPLING) – КЛАСТЕРИЗАЦИЯКластеризуем данные• Каждому наблюдениюприсваивем номер его кластера• Далее переменная с номеромкластера рассматривается какпеременная стратификации•C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СЛУЧАЙНАЯ ВЫБОРКА (SAMPLING)«Сырые» данныеКластерная/стратифицированнаяслучайная выборкаДемонстрация на данных adultC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СЛУЧАЙНАЯ ВЫБОРКА С ВОЗВРАТОМ ИБЕЗ«Сырые» данныеC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .