Диссертация (1149537), страница 5

Файл №1149537 Диссертация (Исследование паттернов в текстах на основе динамических моделей) 5 страницаДиссертация (1149537) страница 52019-06-292019-06-29СтудИзба

Исследование паттернов в текстах на основе динамических моделей

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

В 1967 году Лансом и Уильямсом [94]была предложена универсальная формула определения расстояния отнового кластера W до любого кластера S:D(U ∪ V, S) = αU D(U, S) + αV D(V, S) + βD(U, V ) + γ|D(U, S) − D(V, S)|,где αU , αV , β, γ ∈ R — параметры.Наиболее распространены следующие три метода объединения кластеров в агломеративном подходе:1. Метод одиночной связи (англ. single linkage)Dsl (W, S) = min ρ(w, s),w∈W,s∈S11αU = αV = , β = 0, γ = − .222. Метод полной связи (англ. complete linkage)Dcl (W, S) = max ρ(w, s),w∈W,s∈S11αU = αV = , β = 0, γ = .223. Метод средней связи (англ. group-average linkage)Dgal (W, S) = max ρ(w, s),w∈W,s∈S28αU =|U ||V |αV =, β = γ = 0.|W ||W |1.4.2Алгоритм k-среднихАлгоритм k-средних является одним из самых популярных методовкластеризации с заданным количеством кластеров.

Принцип алгоритмаосновывается на поиске представителей кластеров (называемых центроидами), по одному для каждого кластера, и выборе разбиения на основе того, как кластеры рассеиваются вокруг этих точек. Таким образомкластеризация k-средних ищет разбиение, которое минимизирует функционал (1.5).Приближенное решение этой задачи формулируется в виде следующего алгоритма:Алгоритм 1 k-среднихВход:Z — множествоk — количество кластеровTb k — начальное разбиение (необязательно)Процедура:1: Инициализация: Если начальное разбиение не задано, то сформировать начальное разбиение (обычно точки случайным образом относятся к кластерам).2: Минимизация: Вычислить среднее (центроиду) точек каждого кластера.3: Классификация: Отнести каждый элемент к текущей ближайшейцентроиде.4: Повторить 2-3 пока разбиение не стабилизируется, то есть центроидыперестанут изменяться.Доказательство сходимости алгоритма кластеризации алгоритма kсредних требует проверки следующих двух утверждений:• Переопределение точки к другому кластеру не увеличивает функцию ошибки.• Пересчет центроида кластера не увеличивает функцию ошибки.На практике элементы множества Z подаются на вход системе постепенно: z 1 , z 2 , .

. .. В этой связи итеративные алгоритмы, когда центроиды29пересчитываются одновременно с поступлением новых данных, гораздоболее предпочтительны. Рандомизированный итеративный алгоритм kсредних был предложен в [4].1.4.3Тематическое моделированиеЗадача тематического моделирования заключается в построении вероятностной порождающей модели корпуса текстовых документов.

Врамках модели документы представляются как смеси тем, где тема —это вероятностное распределение слов.Самые известные тематические модели — вероятностный латентносемантический анализ (англ. Probabilistic Latent Semantic Analysis, PLSA)[70] и латентное размещение Дирихле (англ. Latent Dirichlet Allocation,LDA) [25]. Недостатком модели PLSA является невозможность вычислить вероятность документа, которого нет в коллекции текстовых документов. В [25] эта проблема была устранена введением априорного распределения Дирихле для тем в документах.

Рассмотрим в этом разделемодель LDA.Пусть D = {d1 , . . . , d|D| } – коллекция документов и V = {w1 , . . . , w|V | }– словарь коллекции. Тема zj , 1 6 j 6 K представляет собой мультиP|V |номиальное распределение |V | слов, p(wi |zj ), i p(wi |zj ) = 1. МодельLDA генерирует слова в два этапа: слова генерируются из тем, а темыиз документов. Таким образом распределение слов в документе можновычислить как:KXp(wi |zj )p(zj |d)p(wi |d) =j=1LDA предполагает следующий генеративный процесс для коллекциидокументов D:1. Случайно выбрать для документа его распределение по темам θ ∼Dir(α).2.

Для каждого слова в документе:30• Случайно выбрать тему из распределения θd , полученного на1-м шаге.• Случайно выбрать слово из распределения в выбранной темеzi .Совместное распределение модели (скрытых и наблюдаемых переменных) равняетсяP (φ1:K , θ1:D , z1:D , w1:D ) =KYP (φj |β)j=1×|D|YP (θd |α)×d=1NY!P (zd,n |θd )P (wd,n |φ1:K , ad,n ) .n=1Далее для оценивания параметров необходимо вычислить апостериорное распределение скрытых переменных при условии наблюдаемых документов:P (φ1:K , θ1:D , z1:D |w1:D ) =P (φ1:K , θ1:D , z1:D , w1:D ).P (w1:D )Знаменатель дроби представляет собой вероятность наблюдать w привсех возможных параметрах модели и равняется сумме вероятностей совместного распределения по всем значениям скрытых переменных.

Числовсех возможных отнесений слов w к темам z растет экспоненциально сростом длины документа. Поэтому на практике используют приближенные методы вывода апостериорной вероятности, например, вариационный вывод [25] или сэмплирование по Гиббсу [63].Сэмплирование по Гиббсу вычисляет апостериорную вероятность длякаждого слова следующим образом:(d)P (zi = k|wi = w, z−i , w−i , α, β) = PKnk,−i + αk 0 =1(d)nk0 ,−i + Kα(k)× PWnw,−i + βw0 =1(k),nw,−i + W βгде zi = k — назначение слова i теме k, z−i — назначение всех остальных31(k)слов к темам, nw,−i – количество раз, когда слово w было отнесено к теме(d)k за исключением текущего отнесения.

Аналогично, nk,−i – количествораз, когда тема k была отнесена к любому слову из документа d за исключением текущего отнесения. Теоретический обзор сэмплирования поГиббсу представлен в [34], [62].LDA часто используется как элемент более сложных моделей. В [37]авторы использовали LDA совместно с иерархией понятий для моделирования документов.1.51.5.1Меры сходства и различияОпределение мер сходства и различия иих свойстваПонятия сходства и различия широко используются в сфере искусственного интеллекта.

Среди множества областей применения – интеллектуальный анализ данных, извлечение информации, распознавание образов, биоинформатика и нечеткая логика [23]. В широком смысле сходство и различие выражают результат сравнения двух объектов. Несмотря на интуитивность этих понятий, в литературе существует несколькоспособов их формализации.Рассмотрим X — множество. Функция расстояния d : X × X → Rудовлетворяет следующим свойствам [141]:1.

d(x, x) = 0 (тождественность.2. d(x, y) > 0 (неотрицательность).3. d(x, y) = d(y, x) (симметричность).4. d(x, y) = 0 =⇒ x = y. (определенность)5. d(x, y) + d(y, z) > d(x, z) (неравенство треугольника)32Если функция обладает только свойствами (1) и (2), то она называетсяфункцией расстояния или функцией различия. Если функция различияудовлетворяет свойствам (1)–(3) и (5), то она называется полуметрикой,а если всем пяти свойствам, то метрикой.

Пространство (X , d) называется пространством, снабженным полуметрикой, если d – полуметрикаили метрическим пространством, если d – метрика. Принято формировать матрицу D := (d(xi , xj )i,j−1,...,n ) из расстояний между объектамиx1 , . . . , x n ∈ X .В контексте функций сходства рассмотрим следующие свойства [23]:1.

s(x, x) > 0.2. s(x, y) = s(y, x) (симметричность).3. s(x, x) > 0 (неотрицательность).Любую функцию, удовлетворяющую свойству (1) будем называть функцией сходства. Свойство (3) может выполняться не для всех функцийсходства, например, оно не выполняется для коэффициентов корреляции или скалярного умножения.Алгоритмы машинного обучения обычно используют либо функциисходства, либо функции различия.

В общем случае выбор функции зависит от типа исследуемых данных, но может быть необходимо преобразовать функцию сходства в функцию различия и наоборот. Ниже представлено несколько способов такого преобразования.• Если функция сходства является скалярным произведением в евклидовом пространстве, соответствующую функцию расстояния можно получить следующим образом:d(x, y)2 = hx − y, x − yi = hx, xi − 2hx, yi + hy, yi.• Предположим, функция сходства нормирована, то есть 0 6 s(x, y) 61 и s(x, x) = 1 для любых x, y ∈ X .

Тогда d := 1 − s – функциярасстояния.33• Для евклидовой функции расстояния соответствующая функциясходства может быть вычислена следующим образом:1s(x, y) := (d(x, 0)2 + d(y, 0)2 − d(x, y)),2где 0 — некоторая произвольная точка в X , играющая роль началакоординат.• Если d — функция различия, то неотрицательная убывающая функция от d будет являться функцией сходства.

Например, s(x, y) =1exp(−d(x, y)2 /t) при некотором параметре t или s(x, y) = 1−d(x,y)Далее приведены примеры наиболее известных функций расстояния(различия) и сходства. Пусть xi , xj ∈ X , P > 0, |X | = N . Обозначениеxik означает k-й элемент xi .• Евклидово расстояние:vu PuXdEuclidean (xi , xj ) :=t (xik − xjk )2 .k=1• Взвешенное евклидово расстояниеvu PuXdW Euclidean (xi , xj ) :=tWk (xik − xjk )2 ,k=1где Wk обозначает вес k-го элемента вектора.• Манхэттенское расстояние, расстояние городских кварталовdM anhattan (xi , xj ) :=PXk=134|xik − xjk |.• Расстояние ЧебышёваdChebyshev := max(|xi1 − xj1 |, .

. . , |xiP − xjP |).• Расстояние МинковскогоPXdM inkowski (xi , xj ) :=! 1l|xik − xjk |l,k=1где l > 1.• Расстояние Махаланобисаvu PuXdM ahalanobis :=t (xi − xj )T Σ−1 (xi − xj ),k=1где Σ – матрица ковариации размера P × P , ij-й элемент которойравенP1 X(xik − x̄i )(xjk − x¯j ),Σ(i, j) :=N −1k=1N1 Xx̄ =xik .Nk=1• Корреляция СпирменаПусть X = (x1 , . .

. , xN ), Y = (y1 , . . . , yN )dSpearman := 1 −6PN2i=1 (R(xi ) − R(yi )),N (N 2 − 1)где R(xi ), R(yi ) – ранги элементов xi , yi в последовательностях X, Yсоответственно.• Расстояние КанберраdCanberraPX|xik − xjk |:=.|x|+|x|ikjki=135• Гауссовская ядерная функция сходства (радиальная базисная функция)||xi − xj ||2sGaussian (xi , xj ) := a exp(−),2σ 2где σ — “масштабирующий” параметр.• Гармоническое среднееsHarmonicPXxik xjk:= 2.xik + xjkk=1• Косинусная мера сходстваPPsCosine :=k=1 xik xjk||xi ||||xj ||=hxi , xj i.||xi ||||xj ||• Корреляция ПирсонаPP− x̄i )(xjk − x¯j )||xi − x̄i ||||xj − x¯j ||hxi − x̄i , xj − x¯j i=||xi − x̄i ||||xj − x¯j ||sP earson :=k=1 (xik=SCosine (xi − x̄i , xj − x¯j ).1.5.2Ядерные функции и их свойстваВ последнее время подход, основанный на ядерных функциях, сталраспространенным и популярным методом в машинном обучении. Основной причиной такой популярности стал так называемый “Kernel trick”,впервые предложенный в [2].

Идея заключается в переходе в пространство большей размерности, в котором нелинейная задача легко решаетсялинейными методами. Исходное пространство объектов X вкладываетсяв пространство признаков Fφ : X → F, x → φ(x),36в котором затем вычисляется скалярное произведениеK(x, x0 ) = hφ(x), φ(x0 )i.(1.6)Обычно, ядро K(·, ·) выбирается без какой-либо дополнительной информации об отображении φ, чтобы избежать расчетов в пространствевысокой размерности. Теорема Мерсера [127] утверждает, что любая непрерывная, симметричная, положительно определенная ядерная функцияможет быть представлена скалярным произведением в пространстве высокой размерности.

Успех применения ядерных функций в методе опорных векторов [43] расширил применение этих функций на другие задачимашинного обучения: кластеризации (см. обзор в [55], [128]) и пониженияразмерности [106].Далее приведем определения, свойства и известные результаты о вещественных положительно и отрицательно определенных ядрах.Определение 1.• Симметричная функция K : X × X → R называется положительно определенным ядром, если ∀n ≥ 1 и для любых x, . . .

Характеристики

Тип файла

PDF-файл

Размер

603,3 Kb

Материал

Исследование паттернов в текстах на основе динамических моделей

Тип материала

Кандидатская диссертация

Предмет

Физико-математические науки

Высшее учебное заведение

СПбГУ

Список файлов диссертации

issledovanie-patternov-v-tekstah-na-osnove-dinamicheskih-modelej.rar

Исследование паттернов в текстах на основе динамических моделей

Автореферат.pdf

Выписка из протокола заседания диссертационного совета.pdf

Диссертация.pdf

Информация об официальном оппоненте 2.pdf

Информация об официальном оппоненте.pdf

Отзыв ведущей организации.pdf

Отзыв на автореферат.pdf

Отзыв научного руководителя.pdf

Отзыв официального оппонента 2.pdf

Отзыв официального оппонента.pdf

Прочти меня!!!.txt

Сведения о ведущей организации.pdf

Сведения о результатах публичной защиты.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.