Главная » Просмотр файлов » Диссертация

Диссертация (1149537), страница 3

Файл №1149537 Диссертация (Исследование паттернов в текстах на основе динамических моделей) 3 страницаДиссертация (1149537) страница 32019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Классическая методологиякатегоризации текстов включает в себя этапы предобработки, извлечения признаков и классификации. Несмотря на то, что, как было показанов работах [54], [64], [138], извлечение признаков, их отбор и метод классификации вносят значительный вклад в процесс классификации, предобработка может серьезно повлиять на ее результат. Этап предобработкисостоит из токенизации, фильтрации, лемматизации и стемминга.14Токенизация: разбиение последовательности символов на части (слова/фразы), называемые токенами.

Также может включать в себя удаление определенных символов, например, знаков пунктуации.Фильтрация заключается в удалении некоторых слов из текста. Распространенный вид фильтрации — удаление стоп-слов. Под стоп-словамипонимаются такие слова, которые часто встречаются в тексте и не несутсодержательной информации (предлоги, союзы и т. п.)Лемматизация включает в себя морфологический анализ слов, прикотором различные формы слова группируются для того, чтобы их можно было обрабатывать как один объект. При лемматизации документовдля каждого слова необходимо определить часть речи.

Так как определение части речи очень сложный процесс, подверженный ошибкам, напрактике чаще пользуются методами стемминга.Стемминг — процесс нахождения основы слова, которая не обязательно совпадает с его морфологическим корнем. Алгоритмы стеммингазависят от языка. Первый алгоритм для английского языка был предложен в 1968 году [98].

Наиболее распространенным на сегодняшний деньявляется стеммер Портера [117]. Опубликованный в 1980 году, оригинальный алгоритм был предназначен для английского языка, но впоследствии автором были предложены стеммеры для распространенныхиндоевропейских языков, в том числе для русского языка.1.2.2Векторная модельВекторная модель — представление текстов в виде векторов из некоторого общего для всех текстов векторного пространства. Этот подходявляется одним из основных инструментов в области интеллектуальногоанализа текстов, информационного поиска, классификации и кластеризации текстовых документов.Каждая координата вектора в рамках модели соответствует отдельному терму.

Определение терма зависит от сферы применения и в егороли могут выступать отдельные слова, группы слов, комбинации цифр15и букв. Если терм присутствует в документе, то соответствующее значение в векторе отлично от нуля. Существует несколько стандартныхспособов подсчета этих значений, известных также как веса термов. Этоможет быть булевский вес, равный 1, если терм встретился в документеи 0 в противном случае. Другой вариант — количество вхождений термав документ. В классической векторной модели, предложенной Сэлтономи др.

[126], веса термов представляют собой произведение локальныхи глобальных параметров. Такая модель известна как tf-idf (англ. termfrequency — inverse document frequency, частота терма — обратная частота документа). Вектор весов vd = col(w1,d , w2,d , . . . , wN,d ) для документаd определяется следующим образом:wt,d = tf t,d · log|D|,|{d0 ∈ D | t ∈ d0 }|где• tf t,d — частота терма в документе (локальный параметр),• log |{d0 ∈D|D|| t∈d0 }| — обратная частота документа в коллекции (глобальный параметр).Здесь |D| — общее количество документов в коллекции документов, |{d0 ∈D | t ∈ d0 }| — число документов, содержащих терм t.Таким образом, терм будет иметь большой вес, если в некотором тексте он встречается часто, а в других — редко. С другой стороны, дляраспространенных термов веса будут небольшими.Для моделирования коллекции документов вектора, соответствующие документам, группируют в матрицу так, что строка определяеттерм, а каждый столбец соответствуют некоторому документу.Последовательность N элементов (символов, термов, звуков, слогов)называется N -граммой.

N -граммные модели используются для широкого круга исследований и разработок в области обработки естественногоязыка, как, например, распознавание речи, машинный перевод, извлечение информации.161.3КлассификацияЗадача классификация текстов широко изучается в таких областяхзнаний, как интеллектуальный анализ данных, машинное обучение и информационный поиск. Цель классификации заключается в присвоениитекстовым документам меток определенных классов. Дан набор тренировочных данных D = {d1 , . . .

, dn } такой, что для каждого документаdi известна метка класса li — значение из множества L = {l1 , . . . , lk }.Требуется найти модель классификации (классификатор) f , гдеf : D → L,f (d) = l,который мог бы присвоить правильную метку класса новому документуd (тестовый экземпляр). Обзор методов классификации приведен в [50],[76].

В статье [146] авторы оценивают различные виды классификаторовтекстов. Многие алгоритмы классификации реализованы в различныхпрограммных системах и находятся в открытом доступе, как, например,BOW toolkit [101], Mallet [102].Для оценивания качества модели классификации, случайная частьтекстов откладывается (тестовый набор). После обучения на тренировочных данных, производится классификация текстов из тестового набора,сравниваются оценки меток классов с истинными метками.

Для задач бинарной классификации, в которой метки принадлежат множеству {0, 1},назовем объекты с меткой 1 положительными, а объекты с меткой 0 – отрицательными. Точность (precision) – это доля положительных объектовсреди объектов, классифицированных алгоритмом как положительные.Полнота (recall) – доля правильно классифицированных объектов среди всех положительных объектов.

F1 -мера – это геометрическое среднееточности и полнотыF1 = 2 ×precision × recall.precision + recall171.3.1Деревья решенийДерево решений представляет собой иерархическую декомпозициютренировочного множества данных, в которой использует предикат илиусловие на значение признака для иерархического разделения множества данных [112]. Разделение множества данных происходит рекурсивно в дереве решений, пока в листовых узлах не окажется минимальноеколичество элементов или пока не выполнятся условия любого другогокритерия останова. Наиболее частотная метка класса в листовых узлахиспользуется в модели классификации. Для тестового экземпляра применяется последовательность предикатов в узлах дерева с целью определить путь от корня к подходящему листу.Для борьбы с переобучением некоторое множество листьев можетбыть удалено, для того чтобы отделить часть данных, не использующихся при построении дерева.

Отделенный набор данных затем используется для определения следует ли удалять листовой узел или нет. Вчастности, если распределение класса в тренировочном наборе данныхотличается от распределения классов в отделенном наборе данных, топредполагается, что листовой узел ведет к переобучению и должен бытьудален. Подробный обзор и анализ алгоритмов на основе деревьев решений представлен в работах [52], [68], [105], [112].В случае текстовых данных предикаты для деревьев решений определены в терминах слов исходной коллекции. Например, узел может бытьразделен на два дочерних узла в зависимости от наличия или отсутствияодного или нескольких слов в тексте. В разных узлах на одном и том жеуровне могут быть использованы разные слова в процессе разделения.1.3.2Байесовский классификаторВ вероятностном подходе к задаче классификации делаются предположения о том, как были сгенерированы данные (слова в документах)и предлагается вероятностная модель, основанная на этих предположениях.

Используя тренировочные данные производится оценивание пара18метров модели. Теорема Байеса используется при классификации новыхэлементов и при выборе класса, который с наибольшей вероятностью,сгенерировал этот элемент [103].Наивный байесовский классификатор – один из самых простых, но вто же время популярных методов классификации. Моделирование распределения документов в каждом классе происходит в предположении,что разные термы появляются в тексте независимо друг от друга.Существуют две основные модели, которые обычно используются длянаивных классификаторов Байеса [103].

Обе модели стремятся найтиапостериорную вероятность класса, основанную на распределении словв документе. Единственное различие моделей в том, что одна учитываетчастоты появления слов, в то время как вторая нет.1. Модель многомерных испытаний Бернулли: в рамках модели документ представляется как вектор бинарных признаков, обозначающих наличие или отсутствие слов в документе. Таким образом,частота появления слов не учитывается.

Подробное описание модели дано в работе [97].2. Мультиномиальная модель: частоты слов (термов) в документе фиксируется, представляя документ как мешок слов. Различные вариации мультиномиальной модели описаны в [81], [104], [108], [112].В работе [103] проведено сравнение между моделью многомерныхиспытаний Бернулли и мультиномиальной моделью. В результатесформулированы следующие выводы:• Если размер словаря небольшой, модель многомерных испытаний Бернулли может показывать лучшее качество.• Мультиномиальная модель всегда превосходит модель многомерных испытаний Бернулли для случая большого словаря ипочти всегда превосходит, если размер словаря выбран оптимальным для каждой модели.Обе модели предполагают, что документы сгенерированы параметризо19ванной моделью смеси распределений.

Приведем описание параметризованной модели, как она представлена в работе [103].Модель смеси распределений включает компоненты смеси cj ∈ C ={c1 , . . . , ck }. Каждый документ di = {w1 , . . . , wni } сгенерирован согласноаприорному распределению P (cj |θ). Таким образом можно вычислитьправдоподобие документа как сумму вероятностей по всем компонентамP (di |θ) =kXP (cj |θ)P (di |cj ; θ).j=1Предполагается взаимно-однозначное соответствие между метками классов L{l1 , . .

. , lk } и компонентами смеси. Таким образом, cj определяет j-йкомпонент смеси и j-й класс. Пусть дан набор тренировочных данных,D = {d1 , . . . , d|D| }. Сначала оцениваются параметры вероятностной модели классификации θ̂. Далее, используя оценки этих параметров, производится классификация тестовых документов путем подсчета апостериорной вероятности каждого класса cj , при условии тестового документа,и выбирается наиболее вероятный класс (класс с наибольшей вероятностью)P (cj |di ; θ̂) =P (cj |θ̂)P (di |cj ; θ̂j )=P (di |θ̂)P (cj |θ̂)P (w1 , w2 , .

. . , wni |cj ; θ̂j )=P.P(w,w,...,w|c;θ̂)P(c|θ̂)12nicc∈CСогласно предположению, что слова в документе независимы получаем:P (w1 , w2 , . . . , wni |cj ; θ̂j ) =niYi=120P (wi |cj ; θ̂j ).1.3.3Линейный классификаторЛинейными классификаторами называются такие классификаторы,в которых результат линейного предсказателя имеет видp = a · x + b,где x = col(x1 , . . . , xn ) – нормализованный вектор частот термов в документе, a = col(a1 , . . .

Характеристики

Список файлов диссертации

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6451
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее