SAS. Инструменты текстовой аналитики (Лекции 2014)
Описание файла
Файл "SAS. Инструменты текстовой аналитики" внутри архива находится в папке "Лекции 2014". PDF-файл из архива "Лекции 2014", который расположен в категории "". Всё это находится в предмете "(ппп соиад) (sas) пакеты прикладных программ для статистической обработки и анализа данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
ИНСТРУМЕНТЫ ТЕКСТОВОЙ АНАЛИТИКИ SASC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .MOTIVATION EXAMPLE Для построения более точных аналитических моделей требуется нетолько продвинутые алгоритмы, но и больше информации При этом, например, в реальном бизнесе информации о клиентахмного, однако существенная её часть представлена внеструктурированном тестовом виде (соцсети, комментарии, ...) При этом сейчас аналитические модели работаюттолько со структурированной информациейСистемы поддержки принятия решений с учетом дополнительнойтекстовой информации могли бы быть существенно точнее!...C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЗАЧЕМ ЕЩЁ АНАЛИЗИРОВАТЬ ТЕКСТРазведочныйстатистическийанализ коллекциитекстовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Обогащениеаналитическихмоделей новымипредикторамиВыявлениеотдельных фактов исобытийИНСТРУМЕНТЫРазведочныйстатистическийанализ коллекциитекстовОбогащениеаналитическихмоделей новымипредикторамиSAS Text MinerСтатистический подходC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Выявлениеотдельных фактов исобытийSAS EnterpriseContentCategorizationRule-Based подходSAS TEXT MINERСТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TRANSFORMING TEXT TO NUMBERSFree-styletextParsingStemmingMergingsynonimsP-o-S filterFreq filterWeightingTermFreqTermFreqTermFreqTermDocWeightapple7apple7apple7fruit10.7juice2juice2juice2doll20.12get6get6get6make31.47fruit4fruit11fruit11sun40.84C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS TEXT MINER TOOLSADVANCEDBASICC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Разбиение текста на токены,P-o-S фильтрИмпорт больших коллекцийдлинных документовВзвешивание токенов, поисксинонимов, частотный фильтрПостроение булевых правилкатегоризацииВыделение и интерпретацияглавных тем коллекции (SVD)КластеризацияSAS TEXT MINER TYPICAL WORKFLOWImportFilter byMorphologyFilter byFrequencyExtractTopicsParseWeight TermsAdjustTopicsDiscoverSynonymsC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS TEXT MINERTEXT PARSING NODEC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT PARSING NODE – P-o-S AND STEMMINGPart-of-Speech tagging – определение части речи терминов исключение определенных частей речи из анализа более качественный и быстрый stemmingStemming – приведение терминов к начальным формам качественное выделение главных тем коллекции документов значительное ускорение последующего анализа текстаC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TEXT PARSING NODE - TERM FILTERING OPTIONSТри способа фильтрации терминов в Text Parsing Node1. Morphology-BasedИсключение определенных частей речи из анализаПример: исключаем все глаголы и предлоги2. Role-BasedИсключение терминов из анализа по их роли в предложенияхПример: исключаем все знаки пунктуации и аббревиатуры3. Stop ListsЯвный список исключаемых терминовПример: исключаем слова «apple» и «juice»C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TERM-DOCUMENT MATRIX AFTER TEXT PARSINGНа выходе Text Parsing Node – RAW term-document matrix=C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS TEXT MINERTEXT FILTER NODEC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TEXT FILTER NODE – OVERVIEWФункции Text Filter Node:1. Spell Checking – проверка орфографии2. Weighting – назначение терминам весов в зависимости от ихвстречаемости и силы связи с целевой переменной3. Frequency-based term filtering4. Interactive Synonyms Search – инструменты для интерактивногосоздания словарей синонимовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT FILTER NODE – SPELL CHECKINGРедко встречаютсяfreq < 10Из словаря иличасто встречаютсяfreq > 6РасстояниеЛевенштейна+ с учетомклавиатурыТаблица синонимовTermParentодноклассникиодноклассникиодноклассникиодноклассникиTermParent CandidateDistanceодноклассникиодноклассники0одн0клас_никиодноклассникиодноклассники0дноклассники2одн0клас_никиодноклассникиодн0клас_никиодноклассники6одн0клас_ники0дноклассники10C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TEXT FILTER NODE – INTERACTIVE SYNONIMS SEARCHКонтекступотреблениятерминов«Семантическая»сетьИнтерактивный поиск синонимовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT FILTER NODE – TERM WEIGHTINGЗначимостьтермина для анализаTotal termWeight«TF» part=In-Documentterm Weight«IDF» partХ1. None = FREQ1.
IDF2. Binary(FREQ)2. Enthropy3. Log(FREQ)3. MutualInformationC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .In-Collectionterm WeightTERM-DOCUMENT MATRIX AFTER TEXT FILTERНа выходе Text Filter Node – WEIGHTED term-document matrix+C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .=SAS TEXT MINERTEXT TOPIC NODEC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SVD DECOMPOSITIONC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .d4рамарамаINTUITION BEHIND SVD PROJECTIONd4*d3d2d1мамаC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .мамаd3*d2* d1*TEXT TOPIC – SVD PROJECTIONC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT TOPIC – SVD ROTATIONSVD Rotation - алгоритм повышенияинтерпретируемости тем:1. Преобразовать координатыx, y NEW x3 , y 32.
Рассчитать SVD наC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .OLDx, y NEWTEXT TOPIC – INTERACTIVE TOPIC CORRECTION Ручная коррекция весовтерминов в составе тем Анализ релевантностидокументов в разрезеконкретной темы Анализ распределения весовтем в рамках документаC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS TEXT MINERADVANCED NODESC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT RULE BUILDERText Rule Builder строит булевы правила категоризации документовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT CLUSTERText Cluster разбивает документы на кластеры для:- предварительной сегментацииобъектов перед построением моделей- выявления плагиатаАлгоритмы:1.
Expectation-Maximization2. Hierarchical ClusteringC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE CONTENT CATEGORIZATIONКОНТЕКСТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE CONTENT CATEGORIZATION Специализированный инструментдля семантического разбора текста Богатый выбор правил длявыделения фактов и объектов Иерархическая организация правилдля ускоренной разработки Быстрый старт работ при наличииSAS Text MinerC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СПАСИБО ЗА ВНИМАНИЕ!C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .sas.comКЕЙС №1.
ВЫДЕЛЕНИЕ ГЛАВНЫХ ТЕМ И ТЕМАТИЧЕСКИХ ТРЕНДОВC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЕЙС №2. ПОВЫШЕНИЕ ТОЧНОСТИ МОДЕЛЕЙ КРЕДИТНОГО СКОРИНГАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЕЙС №3. УВЕЛИЧЕНИЕ ТОЧНОСТИ ЦЕЛЕВОГО МАРКЕТИНГАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ..