Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 54

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 54 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 542020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 54)

Из (24) и (23)Vследует, что геометрический зазор равен · ‖0.##$‖Таким образом, задача алгоритма опорных векторов заключается в поискепараметров 5##$ и b, удовлетворяющих следующим условия:а) величина5##$ / 5##$ достигает минимума;VVб) при всех X¤$ , ° Z ∈ Ω выполняется неравенство (24).Имеем задачу минимизации квадратичной функции при линейныхограничениях. Для решения задачи квадратичной оптимизации разработаномножество алгоритмов, рассмотрение, которых выходит за рамки наших лекций.Однако для понимания алгоритма опорных векторов необходимо привестиследующую информацию о её решении. Для решения данной задачи формулируютдвойственную задачу, в которой с каждым ограничением вида (24) прямой задачисвязан соответствующий множитель Лагранжа ¸ , и задача заключается в поиске‖0##$‖,182значений ¸, , … , ¸|¹| при которых величина ∑ ¸ C ∑ ∑ ¸ ¸ ° ° ¤$ ¤$ достигаетмаксимума, ∑ ¸ °0, ¸ ¶ 0 для всех 1 = = |Ω|.Решение задачи имеет следующий вид:¥,V/|Ω|A ¸ ° ¤$ ,5##$(25)E,°) C 5##$ / ¤$) , для ∀¤$) , таких что ¸) » 0,6X¤$ Z|Ω|? 9± XA ¸ ° ¤$ ¤$ f ¥Z,/E,(26)Большинство параметров ¸ равны нулю, ненулевое значение означает, чтосоответствующий вектор ¤$ является опорным.Пример.Обучение.

С помощью статистического программного пакета получим значенияпараметров ¸, , … , ¸|¹| :¸, w 0,31; ¸V w 0,23; ¸s w 0,23; ¸t w 0,78. Все обучающие документы сталиопорными.C1; °VC1; °s C1; °t1.°,Из (25):5##$0,31XC1Z¥01¾ 0Á½0À f 0,230¼ 0¿Å1 ¾ÄXC1Z C X04 ½ÄÄ¼ÃXC1ZC0,3100¾ 1Á½0À f 0,230¼ 0¿C0,2300¾ ÁXC1Z ½0À f 0,78 Xf1Z10¼ 0¿01 È¾ 0Á ÇC0,23 0,55 0,55Z ½ ÀÇ00 Ç¼ 0¿ Æ00¾0Á½0À0,7¼0,7¿00 È¾ 1Á ÇC0,31 C0,23 C0,23 0,55 0,55Z ½ ÀÇ00 Ç¼ 0¿ Æ0Å0 È¾ 0Á ÇÄf ÄXC1Z C X0 C0,31 C0,23 C0,23 0,55 0,55Z ½ ÀÇ1Ä0 ÇÃ¼ 0¿ Æ0Å0 ÈÄ¾ 0 ÁÇ Áf ÄX1Z C X0 C0,31 C0,23 C0,23 0,55 0,55Z ½ ÀÇÀ0 ÇÄ0,7 ÇÄÃ¼0,7¿Æ¿1XC0,69 C 0,77 C 0,77 f 0,23Z C0,5.4ÅÄf ÄXC1Z C X0ÄÃТестирование. Из (26):1830C0,31¾C0,23Á.½½C0,23ÀÀ0,55¼ 0,55 ¿6+####$‘ .¾X0? 9± ½½C0,31C0,23C0,23¼Следовательно, с∗ с, то есть «не Китай».Вычислительная сложность.Обучение: œX|ž||•|V Z.Тестирование: œX|ž|Z.§ 1.7.0,550,55Z0Á¾ 00 ÁC0,5À½0ÀÀ0,7¼0,7¿¿1.Алгоритм деревьев принятия решенийАлгоритм деревьев принятия решений наглядно демонстрируют человекупроцесс и результат классификации.

На основе обучающего множества строитсядерево, узлами которого являются термины документов, листьями – метки классов, аребра помечены весами терминов.На рис. 4 представлен пример деревапринятиярешений,вкоторомиспользуются бинарные веса терминов.Тестовый документ прогоняется по дереву,выбираютсяветви,соответствующиетерминамдокумента.Врезультатедокументуприсваиваетсякласс,соответствующий достигнутому листу.Приобучениииспользуютследующую стратегию: рассматриваютмножество документов, проверяют, все лиРис.

4. Пример дерева принятиядокументы данного множества имеютрешений с бинарными весамиодинаковую метку класса (категорию);терминовесли нет, то ищут термин, обладающийнаибольшей различительной способностьюдля разделения этих документов на классы; получают два подмножества документови строят их поддеревья, повторяя всё сначала, пока не получат подмножестводокументов одного класса, тогда добавляют в соответствующее поддерево лист сметкой этого класса.Для выбора очередного разделяющего термина используется понятиеинформационной энтропии – меры неопределенности. Предположим, имееммножество A из n элементов, обладающих атрибутом Q, который может приниматьодно из m значений.

Тогда мера неопределенности множества A по отношению катрибуту Q вычисляется следующим образом:Ì(27)MMXZÊ e, ËCAlog V ,±±E,где M – число случаев, когда реализуется i-ое значение.Иначе выражение (27) можно записать так:Ê Xe, ËZÊ X}, , … , }Ì ZÌCA}E,184log V } .(28)Максимальное значение энтропия достигает, когда m значений атрибута Qравновероятны, Ê Xe, ËZ log V M. Если значения атрибута Q не равновероятны, тоэнтропия понижается, а информационная выгода от описания элементов множества Ас помощью атрибута Q возрастает.Теперь представим, что имеем множество A из n элементов, характеризующихсясвойством S и обладающих атрибутом Q, который может принимать одно из mзначений. Тогда информационная выгода (прирост информации) от классификации(по свойству S) посредством атрибута Q имеет следующее значение:Ì(29)|e |bXe, ËZ Ê Xe, «Z C AÊ Xe , « Z,|e|E,где e – множество элементов A, на которых атрибут Q имеет i-ое значение.Применительно к задаче классификации коллекции документов по двум классамисходная энтропия вычисляется следующим образом:(30)Ê Xe, «Z Ê X", Z C}X Z log }X Z C }X Z log }X Z,VВыражение (29) принимает вид:b Xe, ËZ Ê X", Z C Q}X() Z Ê X() , Z f }+() .VÊ+() , .SÊ X", Z C +}X() Z ŠC}X() | Z log V }X() | Z C }X() | Z log V }X() | Z‹ f }+() .ÍC}+() | .

log V }+() | . C }+() | . log V }+() | .Î.,(31)Текущим разделяющим атрибутом становится тот, при котором приростинформации наибольший (а энтропия наименьшая).Алгоритм в общем виде.Обучение.Вход: иΩ.Шаг 1. Дерево <G,E>, где G := Ø; E := Ø;{G – множество вершин, E –множество рёбер}Шаг 2. G := G + {x};{создать «безымянную» вершину (корень дерева)}Шаг 3. Вызвать ПостроитьУровень( , x, G, E, m);Выход: Дерево <G,E>.ПостроитьУровень(A, x, G, E, T):Вход: A, x, G, E, T.Шаг 1. Если для ∀ » , ∈ e и ∈ e,∈ ) и ∈ r : * }, тоШаг 2.x := ) ;{если все документы имеют одинаковую меткукласса,то поместить её в вершину}Шаг 3.Выход;Шаг 4.

ИначеШаг 5.для каждого () ∈ [Ñ :{[Ñ – множество терминов документов измножества A}Шаг 6.вычислить b X() Z по формуле (31);∗Шаг 7.() ∶ arg max b X() Z ;{поместитьразделяющийтерминвШаг 8.x := ()∗ ;«безымянную» вершину}Шаг 9.A1 := : ∈ e, ()∗ ∈;185Шаг 10.G := G + {y}; E := E + <x=()∗ , y, true>; {y–«безымянная» вершина}Шаг 11.Вызвать ПостроитьУровень(A1, y, G, E, T – {()∗ });Шаг 12.A2 :={ : ∈ e, ()∗ ∉ };Шаг 13.G := G + {z}; E := E + <x=()∗ , z, false>; {z–«безымянная» вершина}Шаг 14.Вызвать ПостроитьУровень(A2, z, G, E, T – {()∗ });Выход: Дерево <G,E>.Пример.Обучение.s,s,1) Исходная энтропия Ê X" •, Z C log V C log V w 0,81.2) b XкитайскийZ0,81 0.3) b XпекинZstVt0,81 C Ôtb XшанхайZV,,QC log V C log V SÕs4) b XтокиоZsssssbXяпонияZvvtsst,ttv,QC log V C log V S ftbXмакаоZt,tt,0,81 C Ô0,81 C 0,690,81 C ÔtvX… ZÕt,новая0,81 C,vvtQC log V C log V S fv,0,12.,,,,,,QC log V C log V S f,новая,,stQC log V C log V SÕ 0,81 C 0 0,81.ssssСледовательно, разделять будем по термину «токио».

Дальнейшего разделенияне требуется, так как все документы обоих выделенных подмножеств имеютодинаковые метки класса (внутри подмножеств). Полученное дерево принятиярешений представлено на рис.5.Рис.5. Дерево принятия решений для коллекции из пяти документовТестирование. Тестовый документ d5 содержит термин «токио».Следовательно, с∗ с, то есть «не Китай».Вычислительная сложность.Обучение: œX|Ω| log|Ω|Z.§ 1.8.Алгоритм наименьших квадратовАлгоритм наименьших квадратов (LLSF, Linear Least Squares Fit), относящийся котряду алгоритмов регрессионного анализа, ищет линейную функциональнуюзависимость между средним значением наблюдаемой случайной величины(зависимой) и другими наблюдаемыми случайными величинами (независимыми).Зависимой случайной величиной является класс документа, а независимымислучайными величинами – термины документов обучающего множества.Пусть A – матрица |Ω|x|m|, строки которой являются документами впространстве терминов; B – матрица |Ω|x| |, строки которой являются документами впространстве меток классов (категорий).

Тогда метод наименьших квадратов ищет186способ преобразования исходного пространства (терминов) в целевое пространство(классов). Для этого вычисляется матрица преобразования ^Ù¯ (| |x|m|) так, чтобыминимизировать регрессионные остатки, то есть разность между фактическимзначением зависимой величины и восстановленным:|Ω||Ω|(32)V//VV//#$‖^e C h ‖ÛD ,A‖Ž$ ‖A£^Ú$ C ¥ £^Ù¯ arg Ü min‖^e/ C h/ ‖VÛD ,где Ú$ и ¥#$ – i-ая пара в обучающем множестве; Ž$ – ошибка отображения Ú$посредством F;E,‖a‖ÛDU∑ E, ∑|Ω|E,|_|VE, aв ¥#$– фробениусова норма матрицы М (|C|x|Ω|).Матрица преобразования ^Ù¯ показывает степени ассоциации между терминамии классами; 6 ∈ H – это оценка (вес) связи термина и класса.

Метод наименьшихквадратов взвешивает ассоциации так, чтобы минимизировать ошибкипреобразования на всём обучающем множестве. Из анализа значений элементов этойматрицы можно получить информацию о важных/неважных терминах для всейколлекции документов. Более информативные термины имеют веса, «смещённые» кконкретным классам; менее информативные термины имеют относительноодинаковые веса ассоциаций для всех классов.Итоговая матрица преобразований вычисляется следующим образом:(33)^Ù¯ h/ Xeu Z/ ,uгде e – матрица, псевдообратная матрице А.Таким образом, классификационным правилом алгоритма является вычислениепроекции $ исходного образа тестового документа $ в целевое пространство классов:/(V34)$ +^Ù¯ $/ .

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.