Диссертация (1137276), страница 8

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 8 страницаДиссертация (1137276) страница 82019-05-202019-05-20СтудИзба

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 8)

. ,| | ) Компоненты вектора – это либо частоты слов, либо − веса, которые вычисляются по формуле, = × = × log( ) + 1где – частота слова в тексте , ( ) – число текстов, содержащихслово , – – количество текстов. Каждому тексту соответствует вектор в пространстве слов.

Размерность этого вектора совпадает с количеством различныхслов во всех текстах из коллекции. Составим аналогичный вектор для строкис использованием − весов для слов из строки. Релевантность строки тексту определяется через косинусную меру близости между соответствующимивекторами:relevance(,) = cos(,) =2.1.3 × |||| × ||||(2.1)Релевантность в бинарной модели независимостиРелевантность строки тексту в бинарной модели независимости определяется по следующему Байесовскому правилу:relevance(,) = (|,) = (|,) × (|), (|)(2.2)39где – бинарная переменная, принимающая два значения, 1, если строкарелевантна тексту и 0 в обратном случае. Следовательно, (| = 1,)и (| = 0,) – вероятности того, что строка релевантна тексту и того, что строка нерелеватна тексту, соответственно. Заметим, что (| =1,) + (| = 0,) = 1.2.1.4Релевантность в вероятностной моделиВероятностная модель представления текста используется, в основном, взадачах извлечения/поиска информации и сформулирована в терминах задачи поиска по запросу.

Она основана на теоретическом принципе ранжированиявероятностей (“Probability Ranking Principle”, PRP) [2]: наиболее эффективнаяпоисковая машина выдает тексты пользователю в соответствии с убываниемвероятности релевантности его запросу. Здесь под релевантностью понимается соответствие содержания текста запросу (более широкое понимание понятия релевантности будет изложено ниже). Предполагается, что релевантность – это случайная величина, которая принимает бинарные значения: – если¯ – в обратном случае.запрос релевантен тексту, Она построена в предположениях теоретической модели, согласно которойкаждый текстовый текст представляется как смесь двух Пуассоновских распределений [2].

Одно из них отвечает за распределение обычных слов, другое – зараспределение «элитных» слов, то есть, тех, на которых лежит основная смысловая нагрузка в разрезе рассматриваемой тематики. Обычно тематика задаётся тем запросом на извлечение информации, относительно которого и оценивается релевантность. Релевантность строки тексту в этой модели определяетсяпо вероятности того, что слова, принадлежащие строке, окажутся элитными втексте.Следуя векторной модели представления текстов вероятностная модельрелевантности предполагает, что строка и текст – два набора слов.

Ставшаяочень популярной в последнее время мера релевантности BM25 придаёт больший вес значимым словам и меньший – незначимым:40relevance(,) =∑︁IDF( )=1(1 + 1) + 1 (1 − +| | ),(2.3)где – среднее количество слов в тексте, а , 1 – константы, равные,как правило 1.5 и 0.75, соответственно, согласно citerobertson2009probabilistic.В качестве нормализующего сомножителя используется функция IDF, име )+0.5, где ( ) – число текстов, соющая следующий вид: IDF( ) = log −(( )держащих слово .

Функции IDF имеет смысл обратной частоты: чем большетекстов содержат данное слово, тем менее он значим.2.1.5Релевантность в тематических моделяхРелевантность строки тексту в модели латентно-семантического анализаопределяется следующим образом. Пусть для строки определен вектор частотслов в исходном пространстве слов. Представим в его новом пространˆ = Σ−1 . Релевантность строки текстве меньшей размерности: сту определяется по косинусной мере близости между преобразованным вектором, соответствующем строке, и вектором, соответствующем тексту, т.е.

столбцуˆв матрице .В генеративных моделях представления текста, таких как языковая модель или модель латентного размещения Дирихле, релевантность строки текстусоставляет вероятность порождения текстом строки, то есть, (|) =∏︁ (|),∈где – слова из которых состоит строка .В [64] предложены следующие оценки вероятностей (|) = (|) + (1 −) (|), + + где – параметр распределения Дирихле (в [64] предложено использовать = 1000), – количество текстов в коллекции, (|), (|) – оценки по принципу максимального правдоподобия вероятностей слова в тексте и коллекции , соответственно.41Альтернативная схема вычисления оценок вероятностей предложена в[37]: (|) + (1 −) (|)) + (1 − ) (|) + + (2.4)которая отличается от предыдудщей схемы наличием последнего члена формулы (1 − ) (|). Здесь – это нормировочный показатель, а (|) – оценка вероятности слова в тексте по модели ЛРД, которая находится по стандартному алгоритму ЛРД, примененному к проиндексированнойколлекции текстов.

(|) = (2.1.6Релевантность в теоретико-множественной моделипредставления текстовВ предложенной в данном диссертационном исследовании теоретико-множественной модели представления текстов каждый текст представляется набором всех фрагментов строк и их частотами. В качестве строк выступают одно-,двух- или трехсловные последовательности. Для определения релевантностистроки тексту в данной модели введем понятие совпадения. Совпадение – этотакая подстрока входной строки, которая встречается и в множестве фрагментов текста. Максимальным совпадением назовем такое совпадение, которое придобавлении символа в начало или в конец, перестает быть совпадением.Допустим, что существует совпадение строки с текстом .

. . . Определим его вероятность, как условную частоту последнего символа в совпадении : ( . . . ) = ( | . . . −1 ) (УВС). Вероятностью максимального совпадения тогда являетсясредняя сумма совпадений, в него входящих (СУВС):∑︀ ( ... ) ( . . . ) = =1(−) . Полной релевантностью строки тексту являетсясредняя сумма вероятностей максимальных совпадений данному тексту (чтоэквивалентно средней условной вероятности символа в совпадении, СУВСС):relevance(,) =.∑︀||=1 ( ...

),где – количество символов в строке42Для эффективной реализации вычисления оценок релевантности следуетиспользовать аппарат аннотированного суффиксного дерева. Оценивание релевантности строки тексту с использованием АСД предполагает построение АСДдля текста и последующее наложение строки на АСД [5].Метод AST оценивания релевантности строки текстуКаждый текст представляется собственным АСД, с которым сличается строка для вычисления оценок релевантности. Оценка релевантностиrelevance(,) строки тексту вычисляется следующим образом:1. Выделяются все суффиксы строки 2.

Для каждого суффикса вычисляется оценка его совпадения match сАСД:score(match( ,)) =∑︁(∈ℎ (node)), (node )(2.5)где совпадение – это путь от корня дерева, кодирующий совпадающийс ним префикс суффикса или суффикс целиком, (node) – частота,приписанная узлу node АСД из совпадения, (node ) – частота,приписанная родителю данного узла3.

Оценка релевантности вычисляется как сумма всех оценок:relevance(,) = SCORE(,) =∑︁score(match( ,)) (2.6)В формуле 2.5 – это шкалирующая функция, переводящая оценку совпадения в уровень релевантности. Рассмотрим три вида шкалирующей функции, рекомендованных в [5] на основе экспериментов по категоризации электронной почты:– () = 1 – константа (обозначение – constant);– () = – линейная (обозначение – linear);– () = log 1−– логистическая (обозначение – logit);43√– () = – корень квадратный (обозначение – root);– () = 2 – квадратичная функция (обозначение – square);– () = log() – логарифмическая функция (обозначение – log);– () = 1+1 − – сигмоида (обозначение – sigmoid).Из этих трёх только линейная, ничего не меняющая функция, имеет очевидный операциональный смысл – средней условной вероятности символа всовпадении (СУВСС); две нелинейные шкалы из [5] могут быть использованыдля контроля.2.2Метод nAST-k оценивания релевантности строки тексту сиспользованием нормированного АСДМетод nAST-k используется для оценивания релеватности строки (иликоллекции строк) тексту (коллекции текстов).

Метод nAST-k имеет несколькорадиикальных отличий от метода аннотированного суффиксного дерева, описанного в [5]. Во-первых, используется другой способ подготовки текстов: текстпредставляется набором строк нефиксированной длины, а не набором фрагментов. Во-вторых, используется нормированная оценка релевантности.

В-третьих,метод nAST-k предусматривает параметризацию АСД, в том числе, процедуруочистки АСД от шума. В-четвертых, для АСД построения используется алгоритм, имеющий линейную сложность по времени.2.2.1Структура методаМетод оценивания релевантности строки тексту с использованием нормированного АСД заключается в– подготовке текстов к обработке путем разбиения на последовательныефрагменты– определении и вычислении параметров АСД– вычислении нормированной оценки релевантности442.2.2Подготовка текстов к обработкеПодготовка текстов к обработке проводится согласно стандартной схеме,представленной в [6]: удаление xml- и html-разметки, если она присутствуетв тексте, токенизация, удаление знаков препинания и прочих символов, включая цифры и псевдографику, приведение всех слов к нижнему регистру.

Подтокенизацией мы понимаем процедуру последовательного разбиения текста напредложения и на слова.Обработанный текст представляет собой последовательность строк. Подстрокой мы понимаем несколько последовательно идущих слов из одного предложения.

В [65] экспериментально показано, что глубина дерева, построенногопо строкам из 2-4 слов, вполне достаточна для задач анализа текстов. Такимобразом, текст после обработки состоит из строк из 2-4 слов, соединенных через пробел. Строки строятся следующим образом: первая строка начинается спервого слова в тексте и заканчивается 2-4 словом в тексте, вторая начинаетсясо второго и заканчивается соответственно на 3-5 слове. Например, если перваястрока обработанного текста такова: “слово1 слово2 слово3”, то вторая строкатекста будет такой: “слово2 слово3 слово4”. При этом учитываются границыпредложений: в одну строку не должны попадать слова из разных предложений.2.2.3Параметризация АСДРассмотрим три параметра АСД: глубину, уровень очистки от шума иразмах.

Характеристики

Тип файла

PDF-файл

Размер

1,94 Mb

Материал

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

razrabotka-vychislitelnyh-metodov-analiza-tekstov-s-ispolzovaniem-annotirovannyh-suffiksnyh-derevev.rar

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.