Диссертация (1138748), страница 17
Текст из файла (страница 17)
Представленный модуль позволяетавтоматически создать древовидную иерархию каталогов из имеющихсятекстов, а каждый узел в полученной древовидной структуре отмечаетсянаиболее индикативным для относящихся к нему текстов.99Модуль Link Tеrms (LT) – занимается связыванием понятий. Модульвыявляет связи между понятиями, которые встречаются в текстах исследуемойбазы данных, и представляет их в форму графа. Сформированный граф можетбытьиспользовандляопределениянаблюдений,характеризующихвыбранную связь.Модули Tехt ОLАР и Tахоnоmiеs (матрицы измерений и таксономии,соответственно) – являются схожими методами для разбиения текста накатегории. Модуль Tехt ОLАР позволяет создавать измерения, которыепредставляют собой именованные столбцы пользователя, и состоят они иззапросов на естественном языке.
Например: «[математика] и [алгоритм] и не([программа] или [машина] или [скрипт])». Реализованный алгоритмРоlуАnаlуst применяет созданные условия ко всем документам, находящимсяв базе данных для исследования и если документ подпадает под условие, тоотносит данный документ к соответствующей ему категории. Применяятехнологии ОLАР, пользователь может выбирать необходимые измерения(элементы матриц) и просматривать сформированный список текстов,удовлетворяющий заданным критериям. А найденные слова подкрашиваютсядля выделения в тексте.SАS Еntеrрrisе Minеr программный продукт (разработанный компаниейSАS Institutе Inс., 2015) – это компонент сложной системы SАS,разработанный для выявления в больших массивах корпоративных данныхинформации, которая требуется и поможет при принятии решений.Программныйкомплекс,разработанныйдляпоискаианализазакономерностей, скрытых в исходных данных компании, Еntеrрrisе Minеrвключает в себя группу методов статистического анализа, собственныйразработанный механизм реализации проектов Dаtа Mining, названныйSЕMMА, со встроенным графическим интерфейсом.
Пакет SАS ЕntеrрrisеMinеr позволяет произвести оптимизацию всего процесса применения методовDаtа Mining в целом, с момента организации собственно доступа к данным ивплоть до конечной оценки готовой модели. Аналитический пакет100поддерживает функционирование всех требуемых процедур в рамках единогоинтегрированного решения с возможностью работы целого коллективааналитиков. Решение поставляется в виде распределенной клиент-сервернойархитектуры, что практически является обязательным для проведенияаналитической деятельности в рамках любой крупных компании. ПрограммаSАS Еntеrрrisе Minеr реализует обработку больших объемов данных иосуществляет интуитивно понятные способы представления результатовпроведеннойаналитикидлязаинтересованныхлицразногоуровня.Полученные модели встраиваются непосредственно в процессы предприятия.Подход, реализованный в продукте SАS Еntеrрrisе Minеr, в своемосновании строится на создании диаграмм процессов обработки исследуемыхданных.
Он позволяет убрать кодирование при помощи ручного ввода ипроизвести оптимизацию разработки моделей путем ускорения при помощиметодики SЕMMА. Программный комплекс SАS, используемый дляформированияупраздняетинформационно-логическихтребованиеручногомоделейпрограммирования,анализааданных,формируемыедиаграммы представляют собой самоописательные шаблоны, их можнодорабатывать или прямо применять для решения новых проблем, безнеобходимости проводить анализ с самого начала. Большим преимуществоманалитическогоинструментаявляетсявозможностьобменамеждуаналитиками результатами их аналитических шаблонов (диаграмм) в рамкахвсего предприятия.
Графический интерфейс разработан с реализациейнеобходимого для оперативной работы инструмента «drаg аnd drор».Возможность перетаскивать объекты значительно ускоряет и упрощаетпроцедуру прохождения всех этапов процесса применения методов DаtаMining для анализа данных, на каждом этапе, начиная с выбора данных ипонимания данных, моделирования взаимосвязей в данных и последующегоприменения разработанных моделей, а также оценки сформированныхрешений,чтоотразитсяинарезультатахпринимаемыхрешений.Аналитический Пакет SАS Еntеrрrisе Minеr разработан в рамках клиент101серверной архитектуры. Приложение клиент разработано на языке Jаvа, асервер представляется самостоятельным SАS-сервером, который и являетсявычислительным сервером, выполняющим всю обработку данных. Обработкапроизводится независимо от пользовательского приложения.
Удаленнаяобработка на сервере дает также возможности аналитикам и потребителям ихдеятельности не быть привязанным физически к высокопроизводительнымвычислительным машинам. Многие трудоемкие алгоритмы, в вопросахмашинного времени обработки данных, разработаны многопоточными, чтопозволит распределить выполнение расчетной части аналитического процессана больших серверных комплексах. Разработана система планированиявремени обработки задач, что позволяет оставить трудоемкие задачи на часынаименьшейнагрузкианалитическихсерверов.Висследовательскоминструменте SАS Еntеrрrisе Minеr существует набор различных инструментовдля проведения подготовки данных, который часто является одним изнаиболеедлительныхпроцессоввдеятельностианалитика,путемавтоматизации таких процессов как формирование выборки, разбивку данныхна контрольную, целевую группу, обработку пропущенных значений, такжепозволяет произвести объединение данных из нескольких источников,удалить не значимые переменные, произвести кластеризацию.
При этомсуществует возможность используя узел SАS соdе, осуществить действия попреобразование переменных и фильтрации недостоверных данных, которые вштатном режиме произвести не представляется возможным. В рамках пакетареализована возможность рассмотрения описательной статистики, как исредства визуализации, включая средства для визуализации многомерныхпредставленийданных.Представлениетакихсложныхмногомерныхвизуальных представлений позволяет производить анализ больших объемовданных и в графической форме представлять и сравнивать результатыисследования.В программном комплексе SAS реализованы регрессии: построениестандартных линейной и логистической функций. А также продвинутые102модели: пошаговые, с выбором переменных прямым (добавлением) иобратным (исключением).Метод построителя условий уравнений.
Реализован полиномиальныйпостроитель, а также с основным взаимодействием и вариант с поддержкойиерархии эффектов.Среди разработанных методов оптимизации представлены методдвойных ломаных, метод Ньютона-Рафсона двух видов поиска линейного игребневого, метод сопряжённых градиентов, а также квазиньютоновскийметод и метод доверительных областей.В качестве деревьев решений реализованы версии методов: СHАID (проводит построение дерева решений в автоматическомрежиме на основе метода хи-квадрат). Версии деревьев для классификации. Алгоритм С 5.0.Выбор лучших деревьев производится в соответствии с целевымизначениями прибыльности или роста и последующим отсечением ветвей,имеющих низкую полезность.
В качестве меры расщепления ветвейиспользуются критерий Джини, критерий хи-квадрат, критерий оценкиэнтропии, а также вероятностный F-критерий и мера уменьшения дисперсии.Вывод идентификаторов листьев дерева производится в автоматическомрежиме в виде входных значений, если необходимо в дальнейшемпроизводить моделирование. Полезной функцией является автоматическаяоценка значимости переменных, что позволяет произвести предварительныйотбор.Реализовано 10 различных методов проведения обучения сети. Дляпостроениянейроннойсетипроводитсяпроцедураоптимизации.Производится процедура стандартизации анализируемых переменных вавтоматическом режиме.
Осуществляется поддержка направленных связей.103Для функционирования нейронной сети создаются многоуровневыеперсептроны, функционирование которых оптимизируется для нахождениялучшей конфигурации.Выбор типа функции создаваемой нейронной сети и активации нейроновопределяется из четырех вариантов архитектуры.В качестве дополнительных инструментов представлены: Объединение данных из нескольких источников. Фильтрация переменных. Узел метаданных, задача которого производить манипуляции надданными о данных переменных (столбцы метаданных), например,могут быть переопределены уровень измерений, роль и порядокхранения переменных.Для работы SАS используется собственное специализированноехранилище данных.
Структура, разработанная для хранилища данных SАS,ориентирована под задачи аналитической обработки, и минимизирует время,требуемое для поиска необходимых для анализа данных, а такжеформирование промежуточных результатов.Существующие продукты компании SАS соответствуют действующимтребованиям к аналитической системе, а многие разработки компаниипредставляют собой новаторский подход к решению существующих задач,согласно финансовой отчетности компания тратит до 25% своей прибыли напроведение дополнительных исследования и доработок существующихпродуктов анализа данных, а также разработку и тактирование возможныхновых направлений (SАS, 2015).IBM SРSS Mоdеlеr – это программное приложение, предназначенное дляпроведенияанализаданных,позволяющееприменятьпрогнознуюинформацию при принятии решений на уровне отдельных пользователей,групп,системилипредприятия.Платформапредоставляетнаборусовершенствованных алгоритмов и технологий, в том числе анализ текста,анализ сущностей, управление решениями и их оптимизацию, что поможет104выбрать действия, приводящие к наилучшим результатам.