Диссертация (1149537), страница 4

Файл №1149537 Диссертация (Исследование паттернов в текстах на основе динамических моделей) 4 страницаДиссертация (1149537) страница 42019-06-292019-06-29СтудИзба

Исследование паттернов в текстах на основе динамических моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

, an ) – вектор коэффициентов и b – скаляр. Такойвид предсказателя p = a · x + b естественно интерпретировать как разделяющую гиперплоскость между различными классами.Метод опорных векторов был впервые предложен в [40], [140]. Основная идея алгоритма заключается нахождении оптимальной разделяющейгиперплоскости. Рассмотрим пример на Рис. 1.1. Два класса отмеченыкрестом и кружком, три разделяющие гиперплоскости A, B и C. Гиперплоскость A лучше всего разделяет классы, так как расстояние от любогообъекта до нее наибольшее.

Говорят, что гиперплоскость имеет наибольший зазор разделения. Вектор нормали к гиперплоскости указывает нанаправление в пространстве признаков, вдоль которого происходит максимальное различение.Одним из преимуществ метода опорных векторов является его устойчивость к большой размерности, поскольку обучение происходит практически независимо от размерности признакового пространства.

Отборпризнаков редко требуется, так как для классификации выбираются элементы множества данных (опорные вектора). Как отмечено в работе [79],текстовые данные идеально подходят для этой модели классификатора из-за высокой размерности и разреженности данных. Метод опорныхвекторов популярен в приложениях распознавания образов, распознавания лиц, фильтрации спама [27], [49], [114]. Более глубокий анализ методапредставлен в [78].Регрессионные модели обычно применяются в задачах выявления зависимости между вещественнозначными признаками.

Тем не менее бинарные значения меток классов можно рассматривать как частный слу21Рис. 1.1: Разделяющая плоскость.чай вещественнозначного признака и применять в задаче классификациирегрессионные модели.Одной из первых регрессионных моделей, примененной к задаче классификации текстов был метод наименьших квадратов [145]. Допустим,предсказанная метка класса pi = a · xi + b. Истинная метка yi известна и и требуется найти такие значения a, b, которые минимизируютPn2i=1 (pi − yi ) .

Пусть p — 1 × n вектор-индикатор бинарных значенийклассов, b равняется 0. Таким образом, если x — матрица n × d термдокумент, требуется найти такой вектор регрессионных коэффициентов1×d, который минимизирует ||a · xT − p||, где ||·|| — норма Фробениуса.Задачу можно обобщить на случай k классов, положив p — k×n матрицабинарных значений. В этой матрице в каждом столбце ровно одно значение 1, и соответствующий ей номер строки служит меткой класса дляобъекта. В работах [145], [146], [148] был проведен сравнительный анализметода наименьших квадратов с множеством других методов классификации, и было показано, что метод наименьших квадратов оказываетсядостаточно робастным на практике.Другим способом применения регрессионной модели к задаче классификации является логистическая регресия [111], где в качестве целевойфункции, которую нужно оптимизировать, звыступает функция правдо22подобия.

Предполагается, что вероятность наблюдать метку yi равняетсяp(C = yi |xi ) =Или иначеlogexp(a · xi + b),1 + exp(a · xi + b)p(C = yi |xi )= a · xi + b.1 − p(C = yi |xi )Таким образом логистическая регрессия — это линейный классификатор,так как граница принятия решения является линейной функцией от признаков. В случае бинарной классификации значение p(C = yi |xi ) можетбыть использовано для определения метки класса (например, используя пороговое значение 0.5, если вероятность превышает порог, отнестиобъект к классу ’1’, в противном случае — к классу ’0’).

В случае многоклассовой классификации метка класса, имеющая наибольшее значениесогласно p(C = yi |xi ), будет присвоена xi . Пусть дан набор тренировочных данных {(x1 , y1 ), . . . , (xn , yn )}, оценка параметров a происходитQпутем максимизации функции правдоподобия ni=1 p(yi |xi ).1.3.4Классификатор k ближайших соседейКлассификаторы на основе близости используют для классификациифункции расстояния.

Основная идея заключается в том, что документы,относящиеся к одному классу с большой вероятностью находятся близкодруг другу согласно значению некоторой функции близости, напримерскалярного произведения или косинусной меры сходства [125]. Для того, чтобы классифицировать тестовый объект можно воспользоватьсяодним из следующих подходов:• Определить k ближайших к тестовому объекту соседей в тренировочном наборе данных.

Наиболее распространенный среди соседейкласс возвращается как метка класса для тестового объекта. Примеры таких подходов изучены в [41], [66], [145]. Выбор k обычноварьируется от 20 до 40, в зависимости от размера словаря.23• На этапе предобработки данные в тренировочном наборе объединяются в группы документов, принадлежащих одному классу. Длякаждой группы создается мета-документ, являющийся представителем класса. Подход k ближайших соседей, описанный выше, применяется к новому множеству мета-документов (обобщенных экземпляров [93]), а не к множеству исходных документов. Реферирование на этапе предобработки улучшает эффективность классификатора, так как сокращает количество вычислений расстояний.В случае, если в множестве данных большое количество выбросов,реферирование так же может повысить качество работы классификатора.

В работах [67], [93], [120] описаны примеры таких подходов.Как отмечено в статье [145], в классификаторах k ближайших соседей значительную роль играет отбор признаков и представление документов. В объемном корпусе документов большинство термов можетне относиться к интересующей категории. Поэтому в [145] было предложен ряд методов выявления ассоциаций между словами и категориями.Далее эти ассоциации используются при построении признакового описания документа, так классификатор k ближайших соседей будет болеечувствительным к классам в коллекции документов. Похожее наблюдение было сделано в статье [66], где было показано, что добавление весовтермам (на основе их ассоциации с классом) повышает качество классификатора.1.4Кластеризация0Пусть Z = {z j }mj=1 , ρ(z, z ) – метрика.

Задача кластеризации заключается в нахождении разбиения множества Z на k кластеров таких, чтоT k (Z) = {C1 , . . . , Ck },Z=k[Ci ,Ci ∩ Cj = ∅, i 6= j.i=124Для разбиения T k (Z) функция γT k : Z → {1, . . . , k}, соотносящаяточки кластерам, определена следующим образомγT k (z) = i ⇔∈ Ci , i = 1, . . . , k.Таким образомCi = {z ∈ Z|γT k (z) = i}.Для любого k для множества Z существуют различные разбиения T k (Z).Разбиение должно обладать следующим свойством: объекты, принадлежащие одному кластеру более “похожи” между собой, чем объекты,принадлежащие разным кластерам. Определим qi – функцию “близости”к кластеру i, для любого i = 1, .

. . , k. Рассмотрим задачу минимизации(1.1)kf (T , z) =kXγT k (z)qi (T k , x) → min .Tki=1Результат минимизации функции (1.1) зависит от z. Пусть вероятностноераспределение P (·) определено на множестве Z. Тогда можно рассматривать задачу минимизации функции качества(1.2)F (T k ) = Ef (T k , z) =k ZXi=1qi (T k , z)P (dz) → minCiTkВ некоторых случаях можно ограничиться разбиением T k , котороеполностью определяется множеством k векторов c1 , .

. . , ck ∈ Rm , которыеформируют m × k матрицу C = (c1 , . . . , ck ) и для i = 1, . . . , k и z ∈ Zфункции q( ·, z) зависят только от ci , то есть qi (·, ·) : Rm ×Z → R. Правилоразбиения можно задать следующим образомCi (Z) = {z ∈ Z :qi (ci , z) < qj (cj , z), j = 1, . .

. , i − 1qi (ci , z) ≤ qj (cj , z), j = i + 1, . . . , k}, i = 1, . . . , k,которое минимизирует (1.1). Вектора ci , i = 1, . . . , k интерпретируются25как центры кластеров, когда Z — подмножество евклидова пространстваRm . В этом случае функционал качества (1.2) принимает форму(1.3)kF (T ) =k ZXi=1qi (ci , z)P (dz) → min .TkCiи может быть переписан в видеZ(1.4)F (C) = hl(C, z), q(C, z)iP (dz) → min,CZгде l(C, z) и q(C, z) — вектора длины k такие, что первый состоит иззначений характеристической функции 1Ci (C) (C, z), а второй из qi (ci , z),i = 1, .

. . , k.Такая формализация имеет простую геометрическую интерпретацию.Пусть распределение P (·) равномерно на Z и пусть функцииqi (ci , z) = ||ci − z||2 , i = 1, . . . , kпредставляют расстояние до центров кластеров c1 , c2 , . . . , ck . ИнтегралZ||ci − z||2 dzCiопределяет разброс точек x множества Ci . Функционал (1.4) принимаетвид(1.5)F (C) =l ZXi=1||ci − z||2 dz → min .CCiТаким образом, задача кластеризации свелась к задаче нахождения такого множества центров {c∗1 , . . .

, c∗k }, для которых общий разброс точекминимален.В области анализа текстов кластеризация может проходить на разных уровнях, в качестве кластеров могут выступать целые документы,абзацы, предложения или термы. Кластеризация активно применяется26в категоризации документов для улучшения поиска или просмотра. Например, в работе [42] авторы использовали алгоритмы кластеризациидля составления оглавления большой коллекции документов, в [17] припомощи кластеризации строилась контекстная система информационного поиска.Многие алгоритмы кластеризации можно применять к текстовым данным, используя, например, их векторное представление.

Однако, текстовые данные имеют ряд особенностей представления:1. Представление текста имеет высокую размерность, но сами данныеразреженные. Другими словами, размер словаря коллекции можетбыть очень большим (например, порядка 105 ), но в отдельном документе встречаться всего несколько сотен слов.2. Слова из словаря рассматриваемой коллекции документов обычно связаны между собой. Следует учитывать корреляцию междусловами при разработке алгоритма кластеризации.3. Документы в коллекции отличаются длиной (количеством встречающихся слов), важно производить нормализацию представленийтекста.Ряд алгоритмов, оптимизирующих представление текста, учитываяперечисленные выше характеристики, предложен в [124].1.4.1Иерархическая кластеризацияНазвание “иерархическая” объясняется тем, что в результате работыалгоритмов строится иерархия группы кластеров.

Построение иерархииможет происходить сверху-вниз (разделительная кластеризация) или снизувверх (агломеративная). Алгоритмы иерархической кластеризации относят к алгоритмам кластеризации, использующих функцию расстояния (похожести) ρ(X, X 0 ) для определения близости текстовых документов.

Обзор алгоритмов иерархической кластеризации представленв [109], [110], [143].27При разделительном подходе один кластер, состоящий из всех документов коллекции, рекурсивно разделяется на под-кластеры. В агломеративном подходе, изначально каждый документ представляет отдельныйкластер. Затем последовательно наиболее схожие кластеры объединяются, пока все документы не образуют единый кластер.Для кластеров, состоящих из одного элемента определена функциярасстоянияD({x}, {x0 }) = ρ(x, x0 ).На каждой итерации слияния схожих кластеров вместо кластеров Uи V образуется новый W = U ∪ V .

Характеристики

Тип файла

PDF-файл

Размер

603,3 Kb

Материал

Исследование паттернов в текстах на основе динамических моделей

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

issledovanie-patternov-v-tekstah-na-osnove-dinamicheskih-modelej.rar

Исследование паттернов в текстах на основе динамических моделей

Автореферат.pdf

Выписка из протокола заседания диссертационного совета.pdf

Диссертация.pdf

Информация об официальном оппоненте 2.pdf

Информация об официальном оппоненте.pdf

Отзыв ведущей организации.pdf

Отзыв на автореферат.pdf

Отзыв научного руководителя.pdf

Отзыв официального оппонента 2.pdf

Отзыв официального оппонента.pdf

Прочти меня!!!.txt

Сведения о ведущей организации.pdf

Сведения о результатах публичной защиты.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.