Диссертация (1149537), страница 2
Текст из файла (страница 2)
1.3 и 1.4 формулируются проблемы классификации и кластеризации и приводятся классические алгоритмы для их решения.В п. 1.5 даны определения мер сходства и различия, приведены примеры широко используемых функций расстояния и схожести. Даны определения ядерных функций, упомянуты связанные с этими понятиямиважные теоретические результаты.Во второй главе предложен один из возможных методов построениядинамической модели текста. На основе предложенной динамической модели были разработаны и обоснованы два метода классификации документов и их фрагментов. Первый метод основан на кластеризации периодограмм, второй использует кластеризацию с помощью расстоянияоснованного на некоторых ядрах. Сформулированы теоремы об однозначности и корректности построенных процедур классификации.В п.
2.1 приводится метод построения динамической модели текста.Пусть {Xi }ni=1 — множество текстовых документов. Под текстовым документом будет понимать упорядоченное множество символов.∀i = 1, . . . , n разделим документ Xi на mi последовательных фрагментов:iXi = x1i + . . . + xmi ,где “+” — операция конкатенации строк. Рассмотрим множество всехфрагментов X = {xji }i∈1..n,j∈1..mi .Введем отображение V , которое сопоставляет фрагменту xji ∈ Xнекоторое вероятностное распределение P ∈ PM из множества вероят-8ностных распределений на {1, . . .
, M }:V : X → PM .Таким образомxji = V (xji ) ∈ RM .Обозначим X = {xji }i∈1..n,j∈1..mi — множество всех фрагментов в векторном представлении.Значение параметра M определяется выбранной векторной моделью.Будем считать, что на множестве RM × RM определена некотораяфункция похожести двух отрывковr : RM × RM → R.Пусть T > 0. Для i ∈ 1..n, j > T , xji ∈ X обозначим через ∆xj множеiство предшествующих ему векторов-фрагментов: ∆xj = {xj−T,...
, xj−1ii }.iКаждая последовательность векторов-фрагментов ∆x с помощью описанной выше функции (2.3) порождает функцию sx (·) : RM → R:sx (y) =1 Xr(x0 , y),T 0x ∈∆xкоторую будем называть динамической моделью.Значения функции sx (y) соответствуют средней похожести векторафрагмента y с каждым из векторов-фрагментов из ∆x .Таким образом, введено отображениеφ : xji → sx (·).В п. 2.2 предложен алгоритм кластеризации с помощью спектрального представления и правило классификации на его основе. Сформулирована теорема о корректности построенной процедуры.9Формулировка алгоритма:X — множество текстовT — параметр задержкиk ? — максимальное количество кластеровCl — алгоритм кластеризацииCLV — индекс алгоритма валидации кластеризации1.
Преобразовать документ Xi ∈ X во временной ряд Si последовательно применив (2.6) и (2.7).2. Для каждого временного ряда вычислить периодограмму PG(Si ).3. f or k = 2 to k ∗• T = Cl({PG(Si )}i∈1..n , k);• indk = CLV (T );4. Количество кластеров соответствует оптимальному числу кластеров, согласно значению индекса indk {k = 2, .., k ∗ }.Правило классификации 1:Два документа Xi и Xj относятся к одному классу lk , если соответствующие им периодограммы PG(Si ) и PG(Sj ) попали в один кластер k.Теорема 1.
Кластеризация в пространстве F обеспечивает однозначность и корректность правила классификации.В п. 2.3 предложен алгоритм кластеризации с помощью расстояний наядрах и правило классификации на его основе. Сформулирована теоремао корректности построенной процедуры.Формулировка алгоритма: X — коллекция текстовT — параметр задержкиk — число групп1. Построить X = {xji }mj=T +1 .102. Для каждого x построить динамическую модель sx по (2.4).3. Вычислить F (x) для каждого x по (2.11).4.
Разделить множество F на k кластеров с помощью алгоритма кластеризации Cl.Правило классификации 2Два фрагмента xi и xj относятся к одному классу lk , если соответствующие им вектора F (xi ) и F (xj ) попали в один кластер k.Теорема 2. Если r(x, y) — положительно определенное ядра и выполнено Предположение 1 кластеризация в пространстве F обеспечиваетоднозначность и корректность правила классификации.В третьей главе представлены результаты применения предложенных алгоритмов кластеризации к задаче определения авторства текстовнескольких серий популярных книг.В п. 3.1 дается определение задачи определения авторства и приводится краткий обзор методов решения.В п. 3.2 приводится результат применения алгоритма классификациитекстов на основе кластеризации с помощью спектрального представления к задаче определения авторского стиля в двух коллекциях книг.В п. 3.3 приводится результат применения алгоритма классификации текстов на основе кластеризации с помощью расстояния на ядрах кзадаче определения авторского стиля в трех коллекциях книг.Результаты применения предложенных алгоритмов к анализу серийных последовательностей книг показывают, что рассмотренная в диссертации новая динамическая модель фрагментов текстов дает для каждогоавтора некоторые новые уникальные характеристики его стиля.В заключении диссертации подведены итоги проведенного и завершенного в рамках поставленных задач исследования.11Глава 1Интеллектуальный анализтекстовВ этой главе рассматриваются основные проблемы и задачи, которыевозникают в сфере интеллектуального анализа текстовых данных.
Перечисляются этапы предварительной обработки и дается описание распространенных моделей представления текстовых данных. Формулируютсяпроблемы классификации и кластеризации и приводятся классическиеалгоритмы для их решения.1.1Основные задачиИзвлечение информации — одна из ключевых задач интеллектуального анализа текстов, основной целью которой является получение структурированной информации (фактов) из неструктурированных или полуструктурированных текстовых данных. Часто служит промежуточнымэтапом в решении других задач анализа текстов. Так, например, определение именованных сущностей (англ. Name Entity Recognition) и ихсвязей может выявить важную семантическую информацию в текстовых данных для улучшения результатов поисковой выдачи.Реферирование. Во многих приложениях может быть необходимо резюмировать текст для того, чтобы предоставить краткий обзор большого документа или коллекции документов на определенную тему.
Методы12реферирования можно разделить на два типа. При первом типе реферирования, в резюме содержатся информационные единицы из исходноготекста. При втором типе, напротив, резюме может содержать “синтезированную” информацию, которая необязательно присутствовала в текстовых документах.Обучение с учителем — класс методов машинного обучения, которые используют тренировочные данные (т. е.
входные данные и соответствующие им выходные данные) для обучения регрессионной функцииили классификатора. Так как множество прикладных задач можно переформулировать как задачу классификации, то часто под обучением сучителем понимают методы классификации. Множество традиционныхалгоритмов машинного обучения таких, как байесовский классификатор,деревья решений, классификатор ближайших соседей применяются длярешения задач интеллектуального анализа текстов.Обучение без учителя. Для алгоритмов обучения без учителя не требуется набор тренировочных данных, поэтому их можно применять ктекстовым данным без дополнительной обработки вручную.
Наиболеераспространенными методами обучения без учителя в сфере интеллектуального анализа текстов являются кластеризация и тематическое моделирование. Задача кластеризации заключается в нахождении разбиения корпуса текстов на группы, например, документов, относящихся кодной теме. Кластеризация и тематическое моделирование тесто связаны между собой.
В тематическом моделировании используются вероятностные модели для определения “нежесткой” кластеризации, в которойдля документа определяются вероятности принадлежности к кластеру,в противоположность “жесткому” разделению документов, когда одиндокумент может принадлежать только одному кластеру.Извлечение мнений. Значительное количество текстовых данных, доступных в сети Интернет, представляет собой отзывы о продуктах илимнение пользователей в социальных сетях. Анализ такого рода текстовой информации имеет широкое практическое применение: поддержкаклиентов или бизнес-аналитика, проведение социальных исследований.13Анализ биомедицинских данных — анализ текстов на биомедицинскую тематику. Интеллектуальный анализ текстов в сфере биомедициныоблегчает ученым доступ к информации, заключенной в огромном объеме биомедицинской литературы и амбулаторных карт пациентов.
Множество алгоритмов анализа текстов также были адаптированы и расширены для применения к задаче распознавания различных биомедицинских сущностей, таких как последовательности генома, данные экспрессии генов и структуры белка.1.2Представление текстаАнализ большой коллекции документов — сложный процесс, поэтому важно ввести такое представление документов, которое облегчало быдальнейшую работу с ними. Одной из самых распространенных моделейпредставления текстов является модель мешка слов (англ.
bag of words),которая учитывает частоту появления слов, но игнорирует их порядокв тексте. Такая модель приводит к векторному представлению текста,которое далее можно анализировать с помощью алгоритмов пониженияразмерности. Среди основных алгоритмов понижения размерности можно упомянуть латентно-семантический анализ, вероятностный латентносемантический анализ и тематическое моделирование.1.2.1Предобработка текстовПредобработка текста — один из ключевых этапов большинства алгоритмов интеллектуального анализа текстов.