Лекция 0. Аналитическое ПО SAS и его применение в BIG DATA (Лекции 2015), страница 4
Описание файла
Файл "Лекция 0. Аналитическое ПО SAS и его применение в BIG DATA" внутри архива находится в папке "Лекции 2015". PDF-файл из архива "Лекции 2015", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
A l l r i g h t s r es er v e d .НОВЫЕИСТОЧНИКИДАННЫХ:ЗАГРУЗКА,ХРАНЕНИЕ,ОБРАБОТКААНАЛИТИЧЕСКОЕМОДЕЛИРОВАНИЕ/ПРОТОТИПЫИНТЕРАКТИВНОЕИССЛЕДОВАНИЕДАННЫХ/ ПРОВЕРКАКЕЙСОВIn-memory аналитикаC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .In-memoryУглубленная АналитикаIn-memoryMassive Parallel Processing или HadoopSAS VISUALИНТЕРАКТИВНАЯ ВИЗУАЛИЗАЦИЯANALYTICSОсновные возможности•••••••Показатели в любых разрезахИнтерактивная фильтрацияГрафикиПоказатели на картеКорреляцияПрогнозирование временных рядовИнтерактивные инструментальныепанели, на мобильных устройствахЗадачи аналитиков•••••Знакомство с даннымиКачество данных, выбросыВыявление закономерностейАнализ факторов влиянияМониторинг показателейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS VISUALSTATISTICSИнтеграция VA/VSModeling•Data Manipulation••Нахождение выбросовИнтерактивнаяфильтрация•Группировка, с учетомсилы взаимосвязи сцелевой переменной*•Стандартизацияпеременных*•Замена пропущенныхзначений*Data Exploration/VisualizationИсследованиевзаимосвязи параметров•Использованиенаиболее релевантныхпеременных длямоделирования•Распределениепеременных и сводныестатистикиРазделение выборки натренировочную ивалидационную*•Предиктивные модели••yr i g h t © 2 0доступно1 2 , S A S I n s t i t u t e Iсоn c . Aследующейl l r i g h t s r es er v e d .*C opБудетверсии (лето 2015)Регрессии••••Деревья решений••••••ЛинейнаяЛогистическаяОбщая линейная• Перенос данных с учетомфильтраций и созданныхпеременных из VAE в VS• Перенос данных без учетафильтраций и созданныхпеременных из VS в VAE• Полноценная интеграцияVS и VAE*КлассификационноеРегрессионное*Случайный лес*Нейронные сети*КластеризацияGroup by процессингAccess & Score••Сравнение моделейСкоринг данных винтерфейсе VS*•Выгрузка скоринг кодаSAS® VISUAL® СОКРАЩЕНИЕ ВРЕМЕНИ ПОСТРОЕНИЯ И ПОВЫШЕНИЕSTATISTICS -> SASТОЧНОСТИ МОДЕЛЕЙENTERPRISE MINER• Исследованиевсего объемаданных• Кластеризация иисследованиеполученныхсегментов• Создание новыхпеременныхвзаимодействияВИЗУАЛИЗАЦИЯСОЗДАНИЕПРОТОТИПА• Определениецелевойпеременной• Исследованиепотенциальныхпредикторов• Быстрая настройкаи оценка моделей• Group-byпроцессинг дляпроверкипреимуществамоделирования науровне сегмента• Разделениевыборки натренировочную,валидационную итестовую дляконтроляэффективностимодели• Исследованиеданных сиспользованиемстатистическихметодов, таких какфакторный анализПРЕОБРАЗОВАНИЕИМОДЕЛИРОВАНИЕ• Создание,изменение и отборпеременных длямодели• Создание модели,базирующейся напрототипе,добавление другихмоделей и ихансамблей• Окончательнаяоценка моделей ивыбор наилучшей• Создание скорингкода• Автоматическаярегистрациямодели вметаданных длядальнейшегоиспользованияПОДГОТОВКА ИИССЛЕДОВАНИЕВАЛИДАЦИЯ ИПРИМЕНЕНИЕSAS® Visual StatisticsSAS® Enterprise MinerИнтерактивная визуализация ибыстрое моделирование прототипаПолучение модели оптимальной точностидля регламентного примененияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ИНТЕРАКТИВНАЯАНАЛИТИКА АРХИТЕКТУРА: MPP (СИММЕТРИЧНЫЙ РЕЖИМ)SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual StatisticsBLADE ENVIRONMENTIN-MEMORY STOREWED BASEDCLIENTSASServerSAS® LASRANALYTIC SERVERHadoopHDFSHadoopC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .RDBMSNonrelational Click Stream PC Files & moreНе частьIMSTATИНТЕРАКТИВНАЯАНАЛИТИКА АРХИТЕКТУРА: MPP (АСИММЕТРИЧНЫЙ РЕЖИМ)SAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual StatisticsBLADE ENVIRONMENTASYMMETRICDISTRIBUTED SOURCEIN-MEMORY STOREWED BASEDCLIENTSASServerSAS® LASRANALYTIC SERVERSAS EmbeddedProcessHADOOP / TERADATA /GREENPLUM / DB2 /ORACLE / NETEZZA /SAP HANAHadoopC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .RDBMSNonrelational Click Stream PC Files & moreИНТЕРАКТИВНАЯАНАЛИТИКА АРХИТЕКТУРА: ОДНОСЕРСВЕРНЫЙ РЕЖИМSAS In-Memory STATISTICS, SAS Visual Analytics, SAS Visual StatisticsSINGLE MACHINEIN-MEMORYSTOREWED BASEDCLIENTSAS ServerSAS® LASRANALYTICSERVERCan beseparatedHadoopC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .RDBMSNonrelational Click Stream PC Files & moreNot partof VS orVAПостроениепрототипов в BigData лабораторииУНИФИКАЦИЯ ИТИНФРАСТРУКТУРЫМОНИТОРИНГЭФФЕКТИВНОСТИПОСТАНОВКАПРОТОТИПОВМОДЕЛЕЙ НАРЕГЛАМЕНТ/ТЕСТИРОВАНИЕИЗВЛЕЧЕНИЕНОВЫХХАРАКТЕРИСТИК:ИЗ ТЕКСТА,ВЗАИМОСВЯЗЕЙУСКОРЕНИЕРАБОТЫ BDЛАБОРАТОРИИИ ТЕКУЩИХСИСТЕМSAS Enterprise MinerSAS Factory MinerSAS Forecast ServerSAS/ORC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .НОВЫЕИСТОЧНИКИДАННЫХ:ЗАГРУЗКА,ХРАНЕНИЕ,ОБРАБОТКААНАЛИТИЧЕСКОЕМОДЕЛИРОВАНИЕ/ПРОТОТИПЫИНТЕРАКТИВНОЕИССЛЕДОВАНИЕДАННЫХ/ ПРОВЕРКАКЕЙСОВОбластиуглубленнойаналитикиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .•Базовая аналитическая платформа,анализ закономерностей•Интеллектуальный анализ данных(Data Mining)•Управление аналитическими моделями•Прогнозирование временных рядов•Оптимизация•Текстовая аналитика•Теория графовSAS ENTERPRISEMINER12.3 (JUL 2013): HP Nodes, Credit Scoring: LGD, …13.1 (DEC 2013): R support, diagrams templates13.2 (JUN 2014): Global metadataКлючевыенововведенияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .14.1 (JUL 2015): Python supportУНИФИКАЦИЯ ИТИНФРАСТРУКТУРЫBig Data технологиидля повышенияэффективностиработы Big Dataлаборатории итекущих системМОНИТОРИНГЭФФЕКТИВНОСТИПОСТАНОВКАПРОТОТИПОВМОДЕЛЕЙ НАРЕГЛАМЕНТ/ТЕСТИРОВАНИЕИЗВЛЕЧЕНИЕНОВЫХХАРАКТЕРИСТИК:ИЗ ТЕКСТА,ВЗАИМОСВЯЗЕЙУСКОРЕНИЕРАБОТЫ BDЛАБОРАТОРИИИ ТЕКУЩИХСИСТЕМSAS High Performance Data MiningSAS High-Performance …SAS In-Memory StatisticsC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .НОВЫЕИСТОЧНИКИДАННЫХ:ЗАГРУЗКА,ХРАНЕНИЕ,ОБРАБОТКААНАЛИТИЧЕСКОЕМОДЕЛИРОВАНИЕ/ПРОТОТИПЫИНТЕРАКТИВНОЕИССЛЕДОВАНИЕДАННЫХ/ ПРОВЕРКАКЕЙСОВУСКОРИТЕЛИ РАБОТЫ АНАЛИТИКИHP Data Mining• Сегментация объектов• Задачи классификации• Вероятность наступления событийHP ForecastingHP OptimizationРаспределениересурсов• Расписания• Объекты на карте••••Прогнозирование временных рядовСценарный анализПланированиеHP Text Mining••Неструктурированные предикторы вмоделяхКластеризация документовHP Statistics•Линейные, нелинейные, смешанные,обобщенные моделиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .HP Econometrics••Анализ закономерностей длявременных рядовЗадачи классификации и регрессиина временных рядахHP SNA•••ВзаимосвязиСообществаЛидерыSAS® HIGH-PERFORMANCE DATA MININGHighperformanceprocedure nodesin SAS®Enterprise MinerC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .БАНК ИЗ TOP-3SAS HIGH-PERFORMANCE DATA MININGHigh-PerformanceсредаПрежняявычислительнаясредаПриростпроизводительности( во сколько раз)7 мин 14 сек90 мин 4 сек~13Кластеризация3 мин 14 сек44 мин 45 сек~14Логистическаярегрессия11 мин 30 сек8 часов 19 мин 24 сек~449 мин 15 сек1 час 18 мин 52 сек~9ФункционалРазмер выборкиТрансформация данных(binning)187 переменных3 000 000 наблюденийНейронные сетиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .200 переменных3 000 000 наблюденийУНИФИКАЦИЯ ИНФРАСТРУКТУРЫ SASC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS GRID «НА ПАЛЬЦАХ»SAS Grid ManagerControl ServerSAS Grid ManagerNodesC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .C0...ЗАДАЧИ SAS GRID MANAGERМногопользовательская балансировказагрузкиПараллелизация загрузкиРаспределенное планированиеВысокая доступностьМасштабируемостьC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ВАРИАНТЫ ЦЕЛЕВОЙ АРХИТЕКТУРЫОсновной аналитическийкластерNode 0Node 1ПодкластерWebсредыNode 2ПодкластервычисленийNode 3Управлениепреобразованием данныхБалансировка нагрузки накластереПубликация моделейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .