SAS. Инструменты текстовой аналитики (1185371)
Текст из файла
ИНСТРУМЕНТЫ ТЕКСТОВОЙ АНАЛИТИКИ SASC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .MOTIVATION EXAMPLE Для построения более точных аналитических моделей требуется нетолько продвинутые алгоритмы, но и больше информации При этом, например, в реальном бизнесе информации о клиентахмного, однако существенная её часть представлена внеструктурированном тестовом виде (соцсети, комментарии, ...) При этом сейчас аналитические модели работаюттолько со структурированной информациейСистемы поддержки принятия решений с учетом дополнительнойтекстовой информации могли бы быть существенно точнее!...C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .ЗАЧЕМ ЕЩЁ АНАЛИЗИРОВАТЬ ТЕКСТРазведочныйстатистическийанализ коллекциитекстовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .Обогащениеаналитическихмоделей новымипредикторамиВыявлениеотдельных фактов исобытийИНСТРУМЕНТЫРазведочныйстатистическийанализ коллекциитекстовОбогащениеаналитическихмоделей новымипредикторамиSAS Text MinerСтатистический подходC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Выявлениеотдельных фактов исобытийSAS EnterpriseContentCategorizationRule-Based подходSAS TEXT MINERСТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TRANSFORMING TEXT TO NUMBERSFree-styletextParsingStemmingMergingsynonimsP-o-S filterFreq filterWeightingTermFreqTermFreqTermFreqTermDocWeightapple7apple7apple7fruit10.7juice2juice2juice2doll20.12get6get6get6make31.47fruit4fruit11fruit11sun40.84C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS TEXT MINER TOOLSADVANCEDBASICC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .Разбиение текста на токены,P-o-S фильтрИмпорт больших коллекцийдлинных документовВзвешивание токенов, поисксинонимов, частотный фильтрПостроение булевых правилкатегоризацииВыделение и интерпретацияглавных тем коллекции (SVD)КластеризацияSAS TEXT MINER TYPICAL WORKFLOWImportFilter byMorphologyFilter byFrequencyExtractTopicsParseWeight TermsAdjustTopicsDiscoverSynonymsC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .SAS TEXT MINERTEXT PARSING NODEC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT PARSING NODE – P-o-S AND STEMMINGPart-of-Speech tagging – определение части речи терминов исключение определенных частей речи из анализа более качественный и быстрый stemmingStemming – приведение терминов к начальным формам качественное выделение главных тем коллекции документов значительное ускорение последующего анализа текстаC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TEXT PARSING NODE - TERM FILTERING OPTIONSТри способа фильтрации терминов в Text Parsing Node1. Morphology-BasedИсключение определенных частей речи из анализаПример: исключаем все глаголы и предлоги2. Role-BasedИсключение терминов из анализа по их роли в предложенияхПример: исключаем все знаки пунктуации и аббревиатуры3. Stop ListsЯвный список исключаемых терминовПример: исключаем слова «apple» и «juice»C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TERM-DOCUMENT MATRIX AFTER TEXT PARSINGНа выходе Text Parsing Node – RAW term-document matrix=C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS TEXT MINERTEXT FILTER NODEC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TEXT FILTER NODE – OVERVIEWФункции Text Filter Node:1. Spell Checking – проверка орфографии2. Weighting – назначение терминам весов в зависимости от ихвстречаемости и силы связи с целевой переменной3. Frequency-based term filtering4. Interactive Synonyms Search – инструменты для интерактивногосоздания словарей синонимовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT FILTER NODE – SPELL CHECKINGРедко встречаютсяfreq < 10Из словаря иличасто встречаютсяfreq > 6РасстояниеЛевенштейна+ с учетомклавиатурыТаблица синонимовTermParentодноклассникиодноклассникиодноклассникиодноклассникиTermParent CandidateDistanceодноклассникиодноклассники0одн0клас_никиодноклассникиодноклассники0дноклассники2одн0клас_никиодноклассникиодн0клас_никиодноклассники6одн0клас_ники0дноклассники10C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .TEXT FILTER NODE – INTERACTIVE SYNONIMS SEARCHКонтекступотреблениятерминов«Семантическая»сетьИнтерактивный поиск синонимовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT FILTER NODE – TERM WEIGHTINGЗначимостьтермина для анализаTotal termWeight«TF» part=In-Documentterm Weight«IDF» partХ1. None = FREQ1.
IDF2. Binary(FREQ)2. Enthropy3. Log(FREQ)3. MutualInformationC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .In-Collectionterm WeightTERM-DOCUMENT MATRIX AFTER TEXT FILTERНа выходе Text Filter Node – WEIGHTED term-document matrix+C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c .
A l l r i g h t s r es er v e d .=SAS TEXT MINERTEXT TOPIC NODEC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SVD DECOMPOSITIONC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .d4рамарамаINTUITION BEHIND SVD PROJECTIONd4*d3d2d1мамаC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .мамаd3*d2* d1*TEXT TOPIC – SVD PROJECTIONC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT TOPIC – SVD ROTATIONSVD Rotation - алгоритм повышенияинтерпретируемости тем:1. Преобразовать координатыx, y NEW x3 , y 32.
Рассчитать SVD наC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .OLDx, y NEWTEXT TOPIC – INTERACTIVE TOPIC CORRECTION Ручная коррекция весовтерминов в составе тем Анализ релевантностидокументов в разрезеконкретной темы Анализ распределения весовтем в рамках документаC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS TEXT MINERADVANCED NODESC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT RULE BUILDERText Rule Builder строит булевы правила категоризации документовC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .TEXT CLUSTERText Cluster разбивает документы на кластеры для:- предварительной сегментацииобъектов перед построением моделей- выявления плагиатаАлгоритмы:1.
Expectation-Maximization2. Hierarchical ClusteringC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE CONTENT CATEGORIZATIONКОНТЕКСТНО-СЕМАНТИЧЕСКИЙ АНАЛИЗ ТЕКСТАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .SAS ENTERPRISE CONTENT CATEGORIZATION Специализированный инструментдля семантического разбора текста Богатый выбор правил длявыделения фактов и объектов Иерархическая организация правилдля ускоренной разработки Быстрый старт работ при наличииSAS Text MinerC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .СПАСИБО ЗА ВНИМАНИЕ!C op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .sas.comКЕЙС №1.
ВЫДЕЛЕНИЕ ГЛАВНЫХ ТЕМ И ТЕМАТИЧЕСКИХ ТРЕНДОВC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЕЙС №2. ПОВЫШЕНИЕ ТОЧНОСТИ МОДЕЛЕЙ КРЕДИТНОГО СКОРИНГАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d .КЕЙС №3. УВЕЛИЧЕНИЕ ТОЧНОСТИ ЦЕЛЕВОГО МАРКЕТИНГАC op yr i g h t © 2 0 1 3 , S A S I n s t i t u t e I n c . A l l r i g h t s r es er v e d ..
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.