Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 4

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 4 страницаДиссертация (1137276) страница 42019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 4)

Как правило, задача категоризации текстов решается спомощью методов машинного обучения. Исчерпывающий обзор подходов к ре­шению этой задачи приведен в [16]. В этом обзоре показано, в том числе, чтопредставление коллекции текстов в виде общей матрицы терм–текст делает воз­можным использование любого метода машинного обучения.

В статьях [17] и[18]. впервые возникает задача классификации текстов по тональности, котораязаключается в том, чтобы определить имеет текст положительную или отри­цательную окраску. Чаще всего, речь идет об отзывах на какие-либо товары,фильмы, музыкальные альбомы, продукты и т.д. [21]. В таком случае возникаетпотребность понять, остался ли пользователь доволен или нет. Эта задача тожерешается с помощью методов машинного обучения. На вход методу машинногообучения поступает стандартная матрица терм–текст, при этом, текстам из обу­чающей выборки приписан либо положительный, либо отрицательный класс.В более поздних работах по классификации текстов по тональности использу­ются вспомогательные ресурсы, такие как WordNet [19].

Согласно [15] методыкластеризации текстов востребованы, в основном, в поисковых системах дляулучшения результатов поиска или сжатого представления найденных по за­просу текстов. Обзор методов кластеризации текстов [20] показывает, что чащевсего используются либо методы иерархического кластерного анализа, либо ме­тод -Means и его модификации. На вход этим методам подается стандартнаяматрица терм–текст, по которой и находятся кластеры.Благодаря своей популярности векторная модель получила несколь­ко направлений развития. К ним относятся обобщенная векторная модель(generalized vector space model, GVSM) [21], векторные модели семантики [22—24] и, в некотором смысле, вероятностная модель релевантности [2] и моделискрытых тем [25; 26], которые заслуживают отдельного рассмотрения.

Обобщен­ная векторная модель [21] позволяет уйти от принципа попарной независимоститермов и учесть попарную корреляцию между векторами, соответствующимитермам, в новом пространстве большей размерности. В исходной формулиров­ке пространство векторной модели имеет размерность равную числу термов17в данной коллекции. В обобщенной векторной модели рассматривается про­странство размерности 2 . В этом пространстве базис задается векторами каждый из которых соответствует конъюнктивному одночлену : (11 ) ∩ (22 ) ∩ · · · ∩ ( ),где⎧⎨ ( ) = , = 1 ( ) =⎩ (¯ ) = ¯ , = 0 – множество текстов, содержащих терм , а определяет отрицаниепеременной .

В [21] предложен вычислительный алгоритм построения 2 та­ких конъюктивных одночленов по матрице смежности термов. Таким образом,в обобщенной векторной модели текст представляется вектором в пространстве,образованном 2 базисными векторами, имеющими смысл связей между терма­ми.Векторные модели семантики основаны на гипотезе, сформулированнойв [8]. Согласно этой гипотезе, слова, встречающиеся в одинаковом контексте,имеют одинаковый смысл. В основе большинства векторных моделей семантикилежит матрица терм-терм, построенная по аналогии с традиционной матрицейтерм-текст [12]. В [23], например, матрица терм-терм строится исключительнодля существительных, встречающихся рядом друг с другом в окне ± 2 слова.Для построения такой матрицы необходимо, во-первых, извлечь все существи­тельные из текста в том порядке, в котором они встречаются в тексте, во-вто­рых, расположить их в этом же порядке по строкам и столбцам матрицы, в тре­тьих, убрать все стоп-слова из текста (под стоп-словами понимаются предлоги,артикли и местоимения).

К значению в клетке матрицы добавляется единица,если слов по строке встречается среди двух слов справа или слева от словапо столбцу в тексте, очищенном от стоп-слов. Далее такая матрица использу­ется для поиска синонимов: согласно косинусной мере, которая будет описананиже, определяются пары близких друг другу векторов – столбцов матрицы,соответствующих разным словам. В [23] этот алгоритм был протестирован наматериалах экзамена TOEFL. В результате применения этого алгоритма сино­нимов было найдено порядка 90% пар синонимичных пар слов из заданий напоиск синонимов.

Анализу таких матриц посвящены работы [24] и [22]. В пер­18вой работе используются ансамбли классификаторов, а во второй – собствен­ный метод кластеризации, названый «Комитеты кластеризации» (“ClusteringBy Committee”) для выделения групп синонимов. Таким образом, в этом случаевекторная модель используется для представления смысла слова вектором дру­гих слов. Некоторым упрощением векторной модели является бинарная модельнезависимости (“Binary Independent Model”), разработанная авторами вектор­ной модели [27].

Ее основное отличие от исходной модели заключается в том,что значения матрицы терм-текст являются бинарными и показывают, встре­чается ли терм в тексте или нет. Это отличие оказывается существенным ипозволяет использовать Байесовский принцип для определения релевантностистроки тексту (которая будет описана ниже в Главе 2).На векторной модели представления текста основана и вероятностная мо­дель релевантности, предложенная в [2]. Эта модель релевантности использует­ся, в основном, в задаче поиска по запросу. Согласно этой модели слова в текстене независимы, а распределены по смеси Пуассоновских распределений.

Тем неменее, и запрос, и текст, следуя векторной модели, представляется векторомчастот в пространстве слов.1.3Языковая модель представления текстаЯзыковая модель (language model) [3] позволяет оценить вероятность по­явления последовательности слов в тексте.

В отличии от векторной и вероят­ностных моделей, языковая модель является генеративной [6; 7], то есть, позво­ляет генерировать текст. В этой модели текст представляется с помощью цепейМаркова, где каждому узлу соответствует одно слово, а на ребрах – вероят­ности того, что одно слово встретится после другого. Модель считается гене­ративной, поскольку позволяет сгенерировать искусственный текст. Обратимсяк двум наиболее востребованным видам языковых моделей: модели униграм(одиночных слов) и модели биграм (последовательных пар слов).При использовании языковых моделей нет необходимости в формальномпреставлении всего текста.

Говорят о вероятности текста, или о вероятности по­явления его фрагмента – последовательности слов. Так же как и векторная мо­дель, модель униграм основана на предположении о независимости появления19слова в тексте от предыдущего слова. Согласно модели униграм, текст 1, – этопоследовательный набор слов из слов , = 1,, причем вероятность всеготекста равна произведению (1, ) = (1 ,2 , .

. . , ) =∏︁ ( ),то есть, произведению вероятностей появления каждого слова по отдель­ности. В модели биграм вероятность появления слова зависит от вероятностипоявления предшествующего слова: ( |1 , 2 , . . . −1 ) ≈ ( |−1 ). Таким обра­зом в модели биграм учитывается локальный контекст слова. Тогда вероятностьвсего текста: (1, ) = (1 ,2 , . . . , ) = (1 ) ×∏︁ ( |−1 ).=2Следуя принципу максимального правдоподобия, такая вероятность мо­−1 , )жет быть оценена как ( |−1 ) = ((−1 ) , где (−1 , ) – частота пары слов−1 , в тексте, а (−1 ) – частота слова −1 .Аналогичным образом можно сформулировать языковую модель на бук­венных последовательностях: вместо вероятности одного слова вычисляем ве­роятность одной буквы.

[3]В последнее время, языковые модели вновь стали популярны и востре­бованы среди исследователей благодаря обощению на непрерывный случай ипоявлению эффективных методов глубинного обучения для оценки параметровтаких моделей [28; 29].Языковые модели используются в тех случаях, когда важно сохранить ко­роткие семантические связи: в задачах машинного перевода [30], распознаванияречи [31], исправлении опечаток [32]. Данная работа посвящена задачам друго­го рода, поэтому мы не будем в дальнейшем заострять внимание на языковыхмоделях.1.4Представление текста на основе моделей скрытых темТематические модели – это класс моделей, объеденный общим предполо­жением о существовании скрытых (латентных) тем. Допустим, есть коллекция20текстов.

В этих текстах отражено некоторое количество тем. Темы представля­ются набором слов, а текст – набором тем. Каждый текст характеризуется век­тором, составленным из оценок степени принадлежности текста к различнымтемам. Каждая тема представляет собой вектор, состоящий из оценок степенипринадлежности слова к данной теме. Одна из первых тематических моделей –это латентно-семантический анализ (или латентно-семантическая индексация)[25]. Главное новшество латентно-семантического анализа заключается не столь­ко в математических построениях, сколько в интерпретации получаемых резуль­татов. Латентно-семантический анализ основан на следующем принципе: слова,похожие по смыслу, встречаются в похожих контекстах. Похожесть контекстовможет быть установлена с помощью сингулярного разложения матриц. Пусть – матрица слово (или любая его модификация, терм) – текст.

Строки в этойматрице соответствует термам, столбцы – текстам. Значения матрицы показы­вают, как часто встречается терм в тексте. Заметим, что иногда в матрицузаписывают не частоты, а − веса термов. В этом случае справедливо такназываемое сингулярное разложение, представляющее матрицу как произве­дение трех матриц:× = × Σ× ×,где –число термов, – число текстов, = min(,), rank() = ,Σ = diag(1 , . . . , ), матрицы , ортогональны.

Матрицы представляеттермы, матрица представляет тексты, диагональная матрица Σ – сингуляр­ные значения. Сингулярные числа подчиняются следующем принципу: > 0,если 1 ≤ ≤ , = 0, если >≥ + 1. Сингулярное разложение матрицыпозволяет получить приближенное представление ранга исходной матрицы:ˆ× = × Σ× ×.ˆ слова и тексты представлены векторами размерно­В новой матрице сти значительно меньшей, чем исходная. Этот факт позволяет интерпрети­ровать столбцы матрицы как группы близких по смыслу слов, т.е. скрытыетемы, а строки матрицы – как представления текстов в новом семантическомпространстве [25]. Модель латентного семантического анализа относят к классувекторных моделей, однако другие модели скрытых тем имеют более сложнуюструктуру и уходят от векторного представления текстов [6; 7].21К таким моделям относится модель вероятностного латентного семанти­ческого анализа [33].

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее