Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 5

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 5 страницаДиссертация (1137276) страница 52019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 5)

Она основана на предположении о том, что каждый текстявляется смесью так называемых тем, причем каждая тема задается собствен­ным распределением слов. В основе модели вероятностного латентного семан­тического анализа лежит вероятностная модель коллекции текстов: (,) =∑︁ () (|) (|,)(1.1)∈Здесь ∈ – текст из коллекции текстов, состоящий из слов ∈ , – множество скрытых тем. Для численного решения уравнения используетсяEM-алгоритм, на каждом шаге которого оцениваются параметры модели (), (|), (|,).Модель вероятностного латентного семантического анализа получила ши­рокое распространение. Она используется в тех случаях, в которых требуетсяоценить скрытые переменные, связующие две явные. Например, в задаче кол­лаборативной фильтрации в качестве скрытое переменной может выступатьпеременная, соответствующая классу пользователей, а через нее связаны поль­зовательские сообщества и модели поведения пользователей [34].

Аналогично,в задаче персонификации поиска в Интернете скрытые переменные, связыва­ющие данные о пользователях и их запросы в поисковой системе, строятся наоснове истории поведении пользователя [35].Латентное размещение Дирихле является генеративной моделью, так же,как и языковая модель. Так же, как и вероятностный латентный семантическийанализ, латентное размещение Дирихле основано на уравнении 1.1.

Каждыйтекст представляется смесью тем, причем вероятности тем распределены по за­кону Дирихле. Каждая тема состоит набора слов (термов) и вероятностей, чтоданное слово относится к этой теме. Вероятность слова принадлежать к темеописывается так же законом Дирихле. Генерация корпуса текстов , состояще­го из текстов, длинной каждый, устроена так:1. Пусть распределение тем в тексте – это распределение Дирихле спараметром Dir(): ∼ Dir(), 1 ≤ ≤ .2.

Пусть распределение слов в теме – это распределение Дирихлес параметром – это распределение Дирихле с параметром Dir(): ∼ Dir(), 1 ≤ ≤ , – заданное число тем.3. Для каждой позиции слова , , 1 ≤ ≤ , 1 ≤ ≤ :22a) Выбрать тему ∼ Multinomial( ).b) Выбрать слово ∼ Multinomial( ).Здесь Multinomial – мультиномиальное распределение с одним исходом.Вероятностные тематические модели получили широкое распространениеи используются в задачах поиска по запросу [36; 37], классификации текстов [38;39], автоматического реферирования текстов [40; 41], фильтрации спама [42; 43],а так же в других областях, не связанных с автоматической обработкой текстов,таких как коллаборативная фильтрация [34; 44], анализ изображений [45; 46].В задаче поиска по запросу латентный семантический анализ может бытьиспользован для снижения размерности.

Допустим, исходная матрица терм­текст имела размерность × , а запрос был представлен вектором из компонент. После использования сингулярного матрицы , вектор запроса мо­жет быть преобразован как ˆ = Σ−1 , после чего используется косинуснаямера близости (которая будет описана ниже) для поиска ближайших ˆ столб­цов матрицы , , соответствующих текстам.

Такой поиск по запросу дает ре­зультаты точнее, чем поиск по лексическому совпадению, поскольку учитываетскрытые отношения между термами и текстами. В [37] формулируется веро­ятностная генеративная модель, позволяющая по аналогии с моделью языкаоценить вероятность генерации одного текста и вероятность появления запросав тексте.В задаче классификации текстов латентно-семантический анализ так жеможет быть использован для снижения размерности. В [38] для классифика­ции текстов на два класса используется метод ближайшего соседа и машиныопорных векторов.

Утверждается, что использование латентно-семантическогоанализа для аппроксимации исходной матрицы терм-текст матрицей меньшегоранга позволяет значительно сократить объем вычислений при незначительной(порядка 2-3%) потере в аккуратности. Адаптация метода латентного разме­щения Дирихле на случай заранее известных тем, предложенная в [39] носитназвание labeled LDA. Предполагается, что количество тем, существующих взафиксированной коллекции текстов, известно заранее, при этом, известно, ккакой теме или каким темам относится каждый текст.

Примером такой коллек­ции может служить коллекция сообщений в блогах, помеченных различнымитегами-метками. Предложенная в [39] генеративная модель такой коллекциитекстов и основанный на ней классификатор превосходит машины опорных век­торов, которые обычно используются для подобных задач классификации.23Сравнение векторной модели и модели скрытых тем на основе латентно­семантического анализа в задаче автоматического реферирования текстов про­водится в [40]. Рефератом текста считается набор из фиксированного числапредложений из текста, наиболее полно отражающий его содержаний. Предло­жен следующий алгоритм суммаризации текста:1.

Разбить исходный текст на множество предложений кандидатов .2. В пространстве всех слов для каждого предложения составить свойвектор и общий вектор для всего текста (следуя принципам век­торной модели).3. Найти близость каждого вектора вектору по косинусной мереблизости, которая будет описана ниже.4. Выбрать предложение соответствующее вектору , наиболее близ­кому вектору . будет входит в реферат ∈ . Если достигну­то искомое число предложений в реферате, алгоритм останавливается.Иначе переходит на шаг 5.5.

Исключить из рассмотрения все термы, входящие в Составить пред­ставления предложений и текста в новом пространстве термов. Перейтина шаг 3.Для использования латентно-семантического анализа предложена следу­ющая модификация этого алгоритма:1. Разбить исходный текст на множество предложений кандидатов , апредложения – на множество термов.2. Создать матрицу терм – предложение3. Выполнить сингулярное разложение = Σ , столбцы правой син­гулярной матрицы отвечают предложениям: = [1 , .

. . , ] –вектор-столбец, соответствующий предложению .4. Выбрать -тый столбец правой матрицы сингулярной матрицы .5. Выбрать предложение, соответствующее максимальному значению вы­бранного -того столбца правой матрицы сингулярной матрицы . Со­гласно гипотезе авторов статей, это предложение будет соответствовать-той скрытой теме, т.е. его необходимо включить в реферат исходноготекста ∈ .6. Если достигнуто искомое число предложений в реферате, алгоритмостанавливается. Иначе переходит на шаг 4.24Показано, что вторая версия алгоритма незначительно превосходитпервую.В статье [41] предложено использовать латентное размещение Дирихледля автоматического реферирования текста.

Согласно предложенному алгорит­му, для автоматического построения реферата необходимо:– Найти скрытые темы в тексте, используя латентное размещение Дири­хле.– Оценить вероятность порождения каждого предложения каждой темой.– Выбрать наиболее вероятное предложение из каждой темы. Если пред­ложение уже входит в состав реферата, выбрать второе по вероятности.Существующие методы фильтрации спама позволяют достичь высокойточности при сравнительно невысокой полноте [42]. В этой же статье [42] пока­зано, что использование скрытых тем, полученных с помощью латентно-семан­тического анализа в качестве признаков для обучения трех разных классифика­торов и ансамбля классификаторов, позволяет сохранить точность на высокомуровне и повысить полноту. Однако, автор отмечает важный недостаток предло­женного метода, который затрудняет его использование в системах фильтрацииспама: латентно-семантический анализ не является интерактивным методом, тоесть, при появлении нового текста в коллекции необходимо заново формироватьматрицу терм – текст и заново вычислять сингулярные матрицы и матрицу син­гулярных значений.

В [43] предложен метод разделения коллекции текстов надве части в соответствии с предположением о том, что одна часть коллекцииявляется спамом, а вторая – нет. Авторы использовали размеченную на спами не-спам коллекцию текстов UK2007-WEBSPAM. На обеих частях коллекциибыло использовано латентное размещение Дирихле для поиска скрытых тем.Распределения тем получаются разные, несмотря на то, что слова, формирую­щие темы присутствуют в обеих частях коллекции. Использование найденныхскрытых тем в качестве признаков для классификации по признаку спам/не­спам позволяет получить результаты на 10% превосходящие по F-мере другиеизвестные методы, примененные к этой же коллекции текстов.251.5Теоретико-множественная модель представления текстовВ простейшей формулировке теоретико-множественная модель представ­ления текстов предполагает следующее: каждый текст представляется неупо­рядоченным набором термов (то есть, слов или любых других его элемен­тов – лемм, стемов, символьных -грамм) [6; 7].

Естественным применениемтакой теоретико-множественной модели можно считать вычисления сходствадвух текстов. Пусть дано два текста и каждый текст представлен множествомтермов. Тогда сходство между двумя текстами можно оценить с использовани­ем любого теоретико-множественной меры близости. Как правило, любой ко­эффициент тем или иным образом учитывает количество совпадающих термов(мощность пересечения двух множеств термов), так же как и мощности каждо­го множества по отдельности или мощность объединения множеств [47].Приведем несколько примеров теоретико-множественных мер близости.Обозначим множество термов, на которые разбиваются тексты через и .Будем оценивать по сходство двух множеств: sim(, ). Тогда:– Расстояние городских кварталов (или манхэттенское расстояние) [48]предполагает, что каждый терм – это одна из координат в многомер­ном пространстве размерности , где – общее число термов в обоих∑︀множествах.

sim(, ) = =1 | − |, , – частоты соответствующих-той координате термов;2|∩|;– Коэффициент Дайса [49]: sim(, ) = ||+||– Коэффицинт Жаккара [50]: sim(, ) = |∩||∪| ;– Количество совпавших элементов – это абсолютное количество совпав­ших термов в множествах ,;|∩|– Коэффициент Симпсона [51]: sim(, ) = min[||,||];– Коэффициент Отиаи [52]: sim(, ) = √|∩| .||·||Однако такая теоретико-множественная модель является тривиальной ине представляет особого практического и исследовательского интереса. В дан­ном диссертационном исследовании предполагается использовать теоретико­множественный аппарат для построения другой модели представления текстов.В предлагаемой модели текст представляется в виде фрагментов произ­вольной длины и их частот. Поскольку использование всех возможных фраг­ментов вряд ли имеет смысл и невероятно неэффективно с вычислительной26точки зрения, мы предлагаем ограничить объём учитываемых фрагментов сле­дующим образом.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее