Диссертация (1137511), страница 22

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 22 страницаДиссертация (1137511) страница 222019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 22)

В настоящей работе векторное представлениелексического значения получается как векторное представление лексемы в контексте токования её значения.Для данной модели в настоящей работе определено два параметра: выбор части толкования для построения векторного представления, способ построениявекторного представления в зависимости от предсказанных моделью вероятностей.В качестве толкования для модели AdaGram могут быть использованы: либотолкование, либо расширенное толкование.В качестве способа построения векторного представления могут быть использованы: вектор лексического значения, для которого предсказана наибольшая112вероятность; взвешенная сумма векторов лексических значений с весами, равными предсказанным вероятностям значений; либо вектор, состоящий из вероятностей лексических значений.Построенные вектора значений используются как входные данные для шага 3: классификация векторных представлений лексических значений гипонимовдля выбора лексического значения гиперонима для каждого из них.

Все выбранные для этого шага подходы базируются на предположениях:– лексические значения гипонима и гиперонима принадлежат к одному домену;– с точки зрения векторного представления согласно выбранным моделям употребления лексических значений в пределах одного домена имеют более сходные контексты, чем употребления лексических значений в целом по корпусу.Эти предположения определяют выбор методов классификации.

В работеисследуется три классификатора:– выбор ближайшего значения из обучающей выборки согласно выбранной метрике; очевидно, что при наличии в обучающей выборке для каждого классатолько одного примера такой классификатор эквивалентен методу опорных векторов;– классификатор label propagation [116]; классификатор относится к методам с частичным привлечением учителя; основной принцип подхода к классификацииданных состоит в построении полного графа, в котором вершинами являютсяточки данных, как из обучающей, так и из тестируемой выборки, а весом рёберявляется расстояние между точками согласно выбранной метрике, для котороговыполняется итеративная процедура распространения меток принадлежностик классу в зависимости от весов рёбер;– классификатор label spreading [115]; классификатор также относится к методам с частичным привлечением учителя и является модификацией алгоритма label propagation; различие между алгоритмами состоит в выборе метрикипотерь в процедуре распространения меток в графе: метод label spreading использует нормализованный дискретный оператор Лапласа, который в условияхданной задачи обладает свойствами регуляризации, в то время как метод labelpropagation использует ненормализованный оператор, и, как следствие, имееттенденцию к переобучению.Для классификаторов не тестировались параметры, специфичные длякакого-либо одного классификатора.113Общим параметром для всех классификаторов является выбор метрики свозможными значениями: евклидова метрика расстояния, косинусная мера близости, ядро Гаусса.

Кроме того, для ядра Гаусса параметром является величина γ.Целью шага 4 является выбор единственной лексемы гиперонима для техлексических значений гипонимов, которым в корпусе омонимичных отношенийсопоставлено более одной лексемы гиперонима. Шаг выполняется после того,как для всех гипонимов выполнены шаги 1, 2, 3, т. е. для каждой пары [лексическое значение гипонима – лексема гиперонима] выбрано единственное лексическое значение гиперонима.Шаг повторяется для каждого лексического значения гипонима, для которого задано более одной лексемы гиперонима. Шаг состоит из построения задачи для классификации и решения задачи классификации. Для построения задачи классификации собирается обучающая выборка, содержащая векторное представление выбранного на предыдущих шагах лексического значения для каждойлексемы гиперонима. Каждый гипероним в обучающей выборке имеет уникальную метку класса.

Классифицируемая выборка состоит из единственного вектора: векторного представления лексического значения гипонима. Для построениявекторных представлений используется та же модель, что и на шаге 2. Для классификации используется тот же классификатор с теми же параметрами, что и нашаге 3.Для каждого метода построения векторного представления и каждого метода классификации классификации выбран диапазон применимых значений каждого параметра. Для тех параметров, которые имеют числовое представление,каждый выбранный диапазон разделен на небольшое количество интервалов пологарифмической шкале, границы интервалов являются испытуемыми значениями параметров. Для всех возможных сочетаний значений каждого из параметров проведено разрешение неоднозначности на размеченных данных. В случаеесли крайнее значение какого-либо числового параметра показывает наилучшийрезультат, для него диапазон применимы значений расширен.

Так как в эксперименте проводится полный перебор всех возможных сочетаний векторных моделей, классификаторов и их параметров, то добавление даже одного значения внесколько диапазонов параметров приводит к очень значительному увеличениючисла необходимых испытаний.

Для избежания этого расширение диапазона производилось либо добавлением нового значения в диапазон, либо увеличением шага в интервале при сохранении количества значений в диапазоне.114Окончательный перебор всех возможных сочетаний векторных моделей,методов классификации и их параметров содержал 3521 их комбинаций.4.5РезультатыВ этом разделе описывается метод оценки алгоритмов дизамбигуации, называются параметры дизамбигуатора, получившего наилучшую оценку, а затемописывается влияние каждого из исследованных свойств на точность дизамбигуации.В настоящем разделе используется мягкая оценка, описанная в разделе 4.3.4: оценка за каждую гипо-гиперонимическую пару вычисляется как максимум из оценок двух аннотаторов.Для оценки алгоритма дизамбигуации используется его средняя точность.Средняя точность вычисляется следующим образом.

Для начала оценка каждогоаннотатора переводится в интервал [0, 1] таким образом, чтобы наилучший ответ получил оценку 1, наихудший ответ получил оценку 0, и при этом линейноеуменьшение оценки аннотатора приводило к экспоненциальному уменьшениюhитоговой оценки. Таким требованиям удовлетворяет оценка s = 2 32−1 , где h является ответом аннотатора в диапазоне [0,5], s является оценкой точности алгоритма, используемой ниже. Точностью алгоритма называется среднее значение sпо всем аннотированным парам [гипоним – гипероним].Наилучшая точность, показанная каким-либо алгоритмом, составила 0.6.Наилучшую оценку точности получил дизамбигуатор, использующий для построения векторного представления модель word2vec, с выбором весов согласно модели TF·IDF, использующая в качестве контекста для дизамбигуации взвешеннуюсумму толкования и расширенного толкования с весом 0.5; дизамбигуатор основана классификаторе label propagation и гауссовой метрике при γ = 16.В таблице 13 приведены наилучшие результаты дизамбигуации, которыеоснованы на использовании выбранной языковой модели, входом для которойслужит выбранная часть толкования лексического значения.

Многие протестированные модели показали результаты, превосходящие модель Леска, используемую в качестве контроля нижней границы ожидаемой точности моделей. Этопозволяет нам сделать вывод о применимости векторных моделей для решения115Контекст glossgloss_extmax mean std max mean stdМодельAdaGram 42% 33% 5% 40% 31% 5%Lesk32% 25% 7% 45% 29% 9%Word2Vec 50% 37% 4% 59% 41% 8%Таблица 13 –– Влияние выбора векторной модели и используемого дляпостроения векторного представления контекста на точностьдизамбигуатора. Здесь gloss обозначает толкование, gloss_extрасширенное толкование.Точностьmax mean stdКонтекстgloss46%gloss and head50%gloss ext59%gloss ext and head59%weighted gloss and gloss ext 62%37% 4%38% 5%40% 8%42% 8%42% 9%Таблица 14 –– Влияние выбора контекста для построения векторногопредставления на результат дизамбигуации.задачи дизамбигуации гипо-гиперонимических отношений на корпусе словарныхтолкований.

В рамках настоящей работы в качестве такого контроля использовалось только классическое представление контекста согласно модели алгоритмаЛеска. Однако опираясь на опубликованные данные исследования применимостирасширений алгоритма Леска [35] можно предположить о преимуществе новыхвекторных моделей и над модифицированными версиями алгоритма Леска.Неожиданно низкую точность показывает применением модели AdaGram,которая неоднократно применялась на материале дорожек по дизамбигуации, втом числе и на материале русского языка и решения на её основе показывалинаилучшие результаты.

Этот результат требует подробного исследования. В рамках настоящего исследования допустимо заключить либо о необходимости под116Рисунок 4.7 –– Влияние выбора контекста для построения векторногопредставления на распределение результатов дизамбигуации в зависимости отвыбора оставшихся свободными параметров.бора параметров обучения для этой модели, либо о том, что на материале гипогиперонимических отношений извлечённых из толкового словаря модель требуетприменения специальных методов классификации.Словарная статья содержит несколько типов информации, применимой вкачестве контекста для дизамбигуатора: лексема, толкование, словарные пометы, примеры.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.