Диссертация (1137276), страница 5
Текст из файла (страница 5)
Она основана на предположении о том, что каждый текстявляется смесью так называемых тем, причем каждая тема задается собственным распределением слов. В основе модели вероятностного латентного семантического анализа лежит вероятностная модель коллекции текстов: (,) =∑︁ () (|) (|,)(1.1)∈Здесь ∈ – текст из коллекции текстов, состоящий из слов ∈ , – множество скрытых тем. Для численного решения уравнения используетсяEM-алгоритм, на каждом шаге которого оцениваются параметры модели (), (|), (|,).Модель вероятностного латентного семантического анализа получила широкое распространение. Она используется в тех случаях, в которых требуетсяоценить скрытые переменные, связующие две явные. Например, в задаче коллаборативной фильтрации в качестве скрытое переменной может выступатьпеременная, соответствующая классу пользователей, а через нее связаны пользовательские сообщества и модели поведения пользователей [34].
Аналогично,в задаче персонификации поиска в Интернете скрытые переменные, связывающие данные о пользователях и их запросы в поисковой системе, строятся наоснове истории поведении пользователя [35].Латентное размещение Дирихле является генеративной моделью, так же,как и языковая модель. Так же, как и вероятностный латентный семантическийанализ, латентное размещение Дирихле основано на уравнении 1.1.
Каждыйтекст представляется смесью тем, причем вероятности тем распределены по закону Дирихле. Каждая тема состоит набора слов (термов) и вероятностей, чтоданное слово относится к этой теме. Вероятность слова принадлежать к темеописывается так же законом Дирихле. Генерация корпуса текстов , состоящего из текстов, длинной каждый, устроена так:1. Пусть распределение тем в тексте – это распределение Дирихле спараметром Dir(): ∼ Dir(), 1 ≤ ≤ .2.
Пусть распределение слов в теме – это распределение Дирихлес параметром – это распределение Дирихле с параметром Dir(): ∼ Dir(), 1 ≤ ≤ , – заданное число тем.3. Для каждой позиции слова , , 1 ≤ ≤ , 1 ≤ ≤ :22a) Выбрать тему ∼ Multinomial( ).b) Выбрать слово ∼ Multinomial( ).Здесь Multinomial – мультиномиальное распределение с одним исходом.Вероятностные тематические модели получили широкое распространениеи используются в задачах поиска по запросу [36; 37], классификации текстов [38;39], автоматического реферирования текстов [40; 41], фильтрации спама [42; 43],а так же в других областях, не связанных с автоматической обработкой текстов,таких как коллаборативная фильтрация [34; 44], анализ изображений [45; 46].В задаче поиска по запросу латентный семантический анализ может бытьиспользован для снижения размерности.
Допустим, исходная матрица термтекст имела размерность × , а запрос был представлен вектором из компонент. После использования сингулярного матрицы , вектор запроса может быть преобразован как ˆ = Σ−1 , после чего используется косинуснаямера близости (которая будет описана ниже) для поиска ближайших ˆ столбцов матрицы , , соответствующих текстам.
Такой поиск по запросу дает результаты точнее, чем поиск по лексическому совпадению, поскольку учитываетскрытые отношения между термами и текстами. В [37] формулируется вероятностная генеративная модель, позволяющая по аналогии с моделью языкаоценить вероятность генерации одного текста и вероятность появления запросав тексте.В задаче классификации текстов латентно-семантический анализ так жеможет быть использован для снижения размерности. В [38] для классификации текстов на два класса используется метод ближайшего соседа и машиныопорных векторов.
Утверждается, что использование латентно-семантическогоанализа для аппроксимации исходной матрицы терм-текст матрицей меньшегоранга позволяет значительно сократить объем вычислений при незначительной(порядка 2-3%) потере в аккуратности. Адаптация метода латентного размещения Дирихле на случай заранее известных тем, предложенная в [39] носитназвание labeled LDA. Предполагается, что количество тем, существующих взафиксированной коллекции текстов, известно заранее, при этом, известно, ккакой теме или каким темам относится каждый текст.
Примером такой коллекции может служить коллекция сообщений в блогах, помеченных различнымитегами-метками. Предложенная в [39] генеративная модель такой коллекциитекстов и основанный на ней классификатор превосходит машины опорных векторов, которые обычно используются для подобных задач классификации.23Сравнение векторной модели и модели скрытых тем на основе латентносемантического анализа в задаче автоматического реферирования текстов проводится в [40]. Рефератом текста считается набор из фиксированного числапредложений из текста, наиболее полно отражающий его содержаний. Предложен следующий алгоритм суммаризации текста:1.
Разбить исходный текст на множество предложений кандидатов .2. В пространстве всех слов для каждого предложения составить свойвектор и общий вектор для всего текста (следуя принципам векторной модели).3. Найти близость каждого вектора вектору по косинусной мереблизости, которая будет описана ниже.4. Выбрать предложение соответствующее вектору , наиболее близкому вектору . будет входит в реферат ∈ . Если достигнуто искомое число предложений в реферате, алгоритм останавливается.Иначе переходит на шаг 5.5.
Исключить из рассмотрения все термы, входящие в Составить представления предложений и текста в новом пространстве термов. Перейтина шаг 3.Для использования латентно-семантического анализа предложена следующая модификация этого алгоритма:1. Разбить исходный текст на множество предложений кандидатов , апредложения – на множество термов.2. Создать матрицу терм – предложение3. Выполнить сингулярное разложение = Σ , столбцы правой сингулярной матрицы отвечают предложениям: = [1 , .
. . , ] –вектор-столбец, соответствующий предложению .4. Выбрать -тый столбец правой матрицы сингулярной матрицы .5. Выбрать предложение, соответствующее максимальному значению выбранного -того столбца правой матрицы сингулярной матрицы . Согласно гипотезе авторов статей, это предложение будет соответствовать-той скрытой теме, т.е. его необходимо включить в реферат исходноготекста ∈ .6. Если достигнуто искомое число предложений в реферате, алгоритмостанавливается. Иначе переходит на шаг 4.24Показано, что вторая версия алгоритма незначительно превосходитпервую.В статье [41] предложено использовать латентное размещение Дирихледля автоматического реферирования текста.
Согласно предложенному алгоритму, для автоматического построения реферата необходимо:– Найти скрытые темы в тексте, используя латентное размещение Дирихле.– Оценить вероятность порождения каждого предложения каждой темой.– Выбрать наиболее вероятное предложение из каждой темы. Если предложение уже входит в состав реферата, выбрать второе по вероятности.Существующие методы фильтрации спама позволяют достичь высокойточности при сравнительно невысокой полноте [42]. В этой же статье [42] показано, что использование скрытых тем, полученных с помощью латентно-семантического анализа в качестве признаков для обучения трех разных классификаторов и ансамбля классификаторов, позволяет сохранить точность на высокомуровне и повысить полноту. Однако, автор отмечает важный недостаток предложенного метода, который затрудняет его использование в системах фильтрацииспама: латентно-семантический анализ не является интерактивным методом, тоесть, при появлении нового текста в коллекции необходимо заново формироватьматрицу терм – текст и заново вычислять сингулярные матрицы и матрицу сингулярных значений.
В [43] предложен метод разделения коллекции текстов надве части в соответствии с предположением о том, что одна часть коллекцииявляется спамом, а вторая – нет. Авторы использовали размеченную на спами не-спам коллекцию текстов UK2007-WEBSPAM. На обеих частях коллекциибыло использовано латентное размещение Дирихле для поиска скрытых тем.Распределения тем получаются разные, несмотря на то, что слова, формирующие темы присутствуют в обеих частях коллекции. Использование найденныхскрытых тем в качестве признаков для классификации по признаку спам/неспам позволяет получить результаты на 10% превосходящие по F-мере другиеизвестные методы, примененные к этой же коллекции текстов.251.5Теоретико-множественная модель представления текстовВ простейшей формулировке теоретико-множественная модель представления текстов предполагает следующее: каждый текст представляется неупорядоченным набором термов (то есть, слов или любых других его элементов – лемм, стемов, символьных -грамм) [6; 7].
Естественным применениемтакой теоретико-множественной модели можно считать вычисления сходствадвух текстов. Пусть дано два текста и каждый текст представлен множествомтермов. Тогда сходство между двумя текстами можно оценить с использованием любого теоретико-множественной меры близости. Как правило, любой коэффициент тем или иным образом учитывает количество совпадающих термов(мощность пересечения двух множеств термов), так же как и мощности каждого множества по отдельности или мощность объединения множеств [47].Приведем несколько примеров теоретико-множественных мер близости.Обозначим множество термов, на которые разбиваются тексты через и .Будем оценивать по сходство двух множеств: sim(, ). Тогда:– Расстояние городских кварталов (или манхэттенское расстояние) [48]предполагает, что каждый терм – это одна из координат в многомерном пространстве размерности , где – общее число термов в обоих∑︀множествах.
sim(, ) = =1 | − |, , – частоты соответствующих-той координате термов;2|∩|;– Коэффициент Дайса [49]: sim(, ) = ||+||– Коэффицинт Жаккара [50]: sim(, ) = |∩||∪| ;– Количество совпавших элементов – это абсолютное количество совпавших термов в множествах ,;|∩|– Коэффициент Симпсона [51]: sim(, ) = min[||,||];– Коэффициент Отиаи [52]: sim(, ) = √|∩| .||·||Однако такая теоретико-множественная модель является тривиальной ине представляет особого практического и исследовательского интереса. В данном диссертационном исследовании предполагается использовать теоретикомножественный аппарат для построения другой модели представления текстов.В предлагаемой модели текст представляется в виде фрагментов произвольной длины и их частот. Поскольку использование всех возможных фрагментов вряд ли имеет смысл и невероятно неэффективно с вычислительной26точки зрения, мы предлагаем ограничить объём учитываемых фрагментов следующим образом.