Лекция 0. Аналитическое ПО SAS и его применение в BIG DATA (Лекции 2015), страница 3
Описание файла
Файл "Лекция 0. Аналитическое ПО SAS и его применение в BIG DATA" внутри архива находится в папке "Лекции 2015". PDF-файл из архива "Лекции 2015", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
A l l r i g h t s r es er v e d .НОВЫЕИСТОЧНИКИДАННЫХ:ЗАГРУЗКА,ХРАНЕНИЕ,ОБРАБОТКААНАЛИТИЧЕСКОЕМОДЕЛИРОВАНИЕ/ПРОТОТИПЫИНТЕРАКТИВНОЕИССЛЕДОВАНИЕДАННЫХ/ ПРОВЕРКАКЕЙСОВSAS & HADOOPSAS & Hadoop точки пересечения: SAS использует Hadoop как источник данных, забирая информацию FROM Hadoop, когда это необходимо; SAS работает WITH Hadoop, поднимая данные воперативную память для разработки и примененияаналитических моделей; SAS выполняется непосредственно IN Hadoop, используя возможности Hadoop по распределеннымвычислениям.C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS + FROM HADOOPSAS извлекает данные из Hadoop на SAS сервердля обработки и записи результатов обратноМост к традиционной SAS средеHadoop, как “очередной источник данных”Ограничения по производительности связанные соднопотоковостью чтения данныхИдеально, когда не все данные находятся в Hadoop,или определенные процессы не могут быть выполненыв HadoopDATA MOVEMENTC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS + FROM HadoopSAS ServersSAS/ACCESS®SAS ApplicationsHiveCloudera ImpalaHadoopC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS/ACCESSto HadoopSAS/ACCESSto ClouderaImpalaSAS SPDEformatsSAS + IN HADOOPSAS обрабатывает данные непосредственно вкластере Hadoop.INSAS Embedded Process позволяют выполнять SAS в HadoopВычисления SAS управляются технологиями HadoopПоддержка манипуляций с данными, обеспечения качества иприменения моделейИдеально, когда все данные находятся в HadoopSAS LOGICC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .ВОЗМОЖНОСТИ - SAS DATA LOADER ДЛЯ HADOOP1ИЗВЛЕЧЕНИЕ ИИССЛЕДОВАНИЕДАННЫХ2ТРАНСФОРМАЦИЯДАННЫХ3ОЧИСТКАДАННЫХ4ИНТЕГРАЦИЯДАННЫХ5ДОСТАВКАДАННЫХ• Копирование данныхв Hadoop• Запросы к данным• Проверка• Объединение• Выбор колонок• Парсинг• Исследование ипрофилированиеданных• Применениефильтров• Стандартизация• Построение кодовнечёткого поиска• Сортировка идедубликация• Идентификационныйанализ• Меппинг колонок• Сортировка• Агрегация• Расчет колонок• Запуск программ SAS• Загрузка данных вSAS LASRОбъединяйте данные,в том числе те,которые не имеютоднозначных ключей,дедублицируйте иагрегируйтеСоздавайте новыетаблицы и вью,доставляйте новыйконтент в любыесистемы-источники,включая SAS LASR inmemory analytic server• Запросы к данным• Транспонирование• Создание таблиц вHadoop• Создание вью вHadoop• Выгрузка данных изHadoop в любую БД• Агрегация• ТрансформацияДоступ к данным,загрузка их в Hadoop,оценка структурыданных и контентаC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Выбор интересующихданных, манипуляциис ними и построениенеобходимой дляиспользованияструктурыПриведите данные втребуемый форматSAS® EVENT STREAM PROCESSINGSOURCESXMLCloudMQC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS® Event Stream Processing EngineОбесспечение обработкивысокоскоростных потоковсобытий в реальном времени,тригеры, преобразования,реакцииУправление потокамисобытий для обнаружения,фильтрации, агрешации иоценки корреляциисобытий, удаление шумаПрименение аналитики вреальном времени длянепрерывной оценкиважности и релевантностипоступающих событийCONSUMERSSAS EVENT STREAM ПРИМЕРЫ ИСПОЛЬЗОВАНИЯPROCCESSINGЭЛЕКТРОННАЯ КОММЕРЦИЯ• Маркетинг и реклама в реальномвремени• Анализ кликов и профиляпользователяФОНДОВЫЕ БИРЖИ• Дополнение SAS HP Risk• Сокращение времени от сделки доотчета• Непрерывный расчет на потоковыхданныхПРОМЫШЛЕННОСТЬ• Мониторинг производства• Диагностировние неисправностейC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .АНТИФРОД И ИБ• Анализ транзакций в реальномвремени• Анализ поведения• Алерты и триггерыТЕЛЕКОММУНИКАЦИЯ• Маркетинг в реальном времени• Выявление мошенничества• Исследование ИТ-системТЭК• Предсказание потребления• Выявление сбоев в реальномвремени• Контроль качества услугSAS® Data DirectorРАЗРАБОТКАSAS® EVENT STREAM PROCESSING STUDIOМОДЕЛИ ESPГибкое, «drag&drop»визуальное моделирование,используя веб-интерфейсна HTML5Конструктор языкавыраженийESP STUDIOSCREENSHOTAND KEYELEMENTSИмпорт/экспорт XMLмоделейИнтегрированная среда интерактивной отладкиC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .User NameУНИФИКАЦИЯ ИТИНФРАСТРУКТУРЫПолучениеинформации изновых данных:360 Customer ViewМОНИТОРИНГЭФФЕКТИВНОСТИПОСТАНОВКАПРОТОТИПОВМОДЕЛЕЙ НАРЕГЛАМЕНТ/ТЕСТИРОВАНИЕИЗВЛЕЧЕНИЕНОВЫХХАРАКТЕРИСТИК:ИЗ ТЕКСТА,ВЗАИМОСВЯЗЕЙУСКОРЕНИЕРАБОТЫ BDЛАБОРАТОРИИИ ТЕКУЩИХСИСТЕМSAS Text AnalyticsSAS Customer Link AnalyticsC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .НОВЫЕИСТОЧНИКИДАННЫХ:ЗАГРУЗКА,ХРАНЕНИЕ,ОБРАБОТКААНАЛИТИЧЕСКОЕМОДЕЛИРОВАНИЕ/ПРОТОТИПЫИНТЕРАКТИВНОЕИССЛЕДОВАНИЕДАННЫХ/ ПРОВЕРКАКЕЙСОВРАБОТА С ИНТЕЛЛЕКТУАЛЬНЫЙ МОНИТОРИНГ ПОТОКАТЕКСТОМ ДОКУМЕНТОВ/СООБЩЕНИЙОпыт в предметной областиПрогнозированиеТекстовыеиструктурированныеданныеКатегоризацияКонцептыИсследовательскийText MiningВизуализацияОбогащенныйнабор данныхАнализТональностиAd HocанализБизнесприложенияC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS TEXT MINER КЛАСТЕРИЗАЦИЯ И ВЫДЕЛЕНИЕ КЛЮЧЕВЫХ ТЕМ ДОКУМЕНТОВ1. Входные данные –текстыЖалобы, логифорумов, блоги,СУБД, эл. почта2. Структурирование текста –Текст разбирается на слова ивыражения, определяются частиречи слов, нормализуются формыслов, группируются сообщения спохожим содержанием3.
Поиск тем – документыразбиваются на группы с похожимсодержанием, которое описываетсянабором ключевых словСегодня в новостях:разрушения отурагана, новый закон,выход ноутбуковнового поколенияЭто письмо лучшеперенаправить вотдел маркетингаC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Наиболее частаятема звонка втех.поддержку –вопросы по сайтуИЗВЛЕЧЕНИЕSAS CONTEXTUAL ANALYSISФАКТОВ1. Доступ к источникамтекстовой информации –письменные жалобы, форумы,блоги, СУБД, эл. почта2.
Извлечение фактовопределенных в таксономии3. Результаты– каждый документтеперь ассоциирован со спискомизвлеченных фактовТаксономия фактовФакты• Дата – 28.06.2010• Место – Смоленск• Причина – хамство• Объект – проводникСУБДC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Результаты индексированы дляорганизации поиска и/или отправлены всуществующие СУБДПОСТРОЕНЫ ОТЧЕТЫКАТЕГОРИЗАЦИЯ SAS CONTEXTUAL ANALYSIS1.
Доступ к источникамтекстовой информации –письменные жалобы, форумы,блоги, СУБД, эл. почта2. Определение категориидокумента изпредопределеннойтаксономии3. Результаты – каждому документуприсвоена конкретная категорияТаксономия категорийКатегория = Проблемы с проводникамиСУБДC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Результаты индексированы дляорганизации поиска и/или отправлены всуществующие СУБДПОСТРОЕНЫ ОТЧЕТЫSAS SENTIMENTАНАЛИЗ МНЕНИЙANALYSISАвтоматическое выделение позитивного или негативного отношения людей: всообщении в целом, к определенному объекту (бренду, продукту, публичному лицу)или характеристикам объектаОбычный холодильник, чего-либо необычного в нем нет,простой среднего класса холодильник, главное что покаработает, но еще такой же я бы не взял.Лично мое мнение, если бы эту модель собирали не чертикак «славянские руки», то модель отличная была бы.Так что мое мнение, лучше взять сборки из Китая илиКореи, и любой марки, главное чтоб Вам нравилосьПродукт: холодильник; Мнение: нейтральноеХарактеристика: модель; Мнение: положительноеХарактеристика: сборка; Мнение: отрицательноеC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS SENTIMENTАНАЛИЗ МНЕНИЙANALYSIS1.
Доступ к источникамтекстовой информации –письменные жалобы, форумы,блоги, СУБД, эл. почта2. Автоматическоеопределение тональностина основе таксономиимнений3. Результаты – в каждом документеопределен предмет обсуждения и мнения,высказанные о немЭто позитивное сообщениеТаксономия мненийТочно негативноеДа, негативное сообщениеЭто тоже позитивноеПохоже негативное сообщениеИ это позитивное тожеРезультаты индексированы дляорганизации поиска и/илиотправлены в существующиеСУБДПОСТРОЕНЫ ОТЧЕТЫC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS TEXT MINER ПОСТРОЕНИЕ МОДЕЛЕЙ1.
Входные данные – нетолько структурированныепараметры, но исопутствующий текстНапример, email-сообщения,логи операторов callцентров, документация…2. Структурирование текста – Текстразбирается на слова и выражения,определяются части речи слов,нормализуются формы слов,группируются сообщения с похожимсодержанием3. Предиктивное моделирование сиспользованием текста –Структурированный текст используется вмодели вместе с другими параметрами,значительно повышая точностьпредсказанияCustomerdataРазмер выплаты поэтому случаю составитоколо 1135$…С вероятностью 78% этомошенник…C op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Этот клиент не уйдет вотток с вероятностью90%…АНАЛИЗ ГРАФОВSAS CUSTOMER LINK ANALYTICSПостроение графа наоснове любых типов связейВыявление тесносвязанных сообществАнализ роли узла всообществемошенникC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .УНИФИКАЦИЯ ИТИНФРАСТРУКТУРЫИнтерактивнаяаналитика:ИсследованиеданныхПроверка кейсовМОНИТОРИНГЭФФЕКТИВНОСТИПОСТАНОВКАПРОТОТИПОВМОДЕЛЕЙ НАРЕГЛАМЕНТ/ТЕСТИРОВАНИЕИЗВЛЕЧЕНИЕНОВЫХХАРАКТЕРИСТИК:ИЗ ТЕКСТА,ВЗАИМОСВЯЗЕЙУСКОРЕНИЕРАБОТЫ BDЛАБОРАТОРИИИ ТЕКУЩИХСИСТЕМSAS Visual AnalyticsSAS Visual StatisticsC op yr i g h t © 2 0 1 2 , S A S I n s t i t u t e I n c .