Диссертация (1137511), страница 18

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 18 страницаДиссертация (1137511) страница 182019-05-202019-05-20СтудИзба

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 18)

Однако такие подходы долгое время не находили практического применения, в первую очередь из-за слишком высоких требований к вычислительноймощности и количества памяти. В 2013 году группа Миколова обучила нейроннуюсесть автоэнкодер word2vec [85] и показала несколько важных свойств, которымиобладают значения, образующиеся на среднем слое нейронной сети:1. расстояние между двумя векторами соответствуют ассоциативной близостимежду ними,2. «свойство параллелограмма», т. е.

способность векторной модели отображатьнекоторые семантические отношения; например, если v(w) — векторное представление лексемы w, то w(Париж) − w(Франция) ≈ w(Москва) − w(Россия).Кроме того, в работе сравнивались модели «непрерывный мешок слов» и«Skip-gram». Согласно модели «непрерывный мешок слов» классификатор тренируется предсказывать очередное слово корпуса, опираясь на данные о количествекаждого из словарных слов в контексте предсказываемого слова. Модель Skipgram описывается как задача предсказания каждого из слов контекста выбраннойлексемы по самой выбранной лексеме. При применении обеих моделей ко всемукорпусу они рассматривают одно и то же множество пар соседних слов. В действительности разница между ними состоит в том, что Skip-gram использует дляпредсказания только одно слово, в то время, как «непрерывный мешок слов» использует сумму всех слов контекста.

В работе Т. Миколова [85] было показано,что модель Skip-gram требует больше вычислительных ресурсов, но при этом показывает более точные результаты.Описанная модель векторного представления лексем является методом решения проблемы разреженных данных, а не готовым методом дизамбигуации. Наивный подход к дизамбигуации, состоящий в том, чтобы подставить векторноепредставление word2vec в качестве признаков в существующие методы на основеалгоритма Леска или методов машинного обучения.93В работе И. Иакобаччи и др.

[67] описаны возможные подходы к использованию векторного представления контекста для решения задачи дизамбигуации, а также представлено сравнение их эффективность. В работе протестированы несколько представлений контекста омонимичной лексемы, используемыедля представления её значения. Все протестированные представления основанылибо на конкатенации, либо на различных взвешенных суммах векторов контекста. Контекст может быть представлен как конкатенация векторных представлений контекста или используя один из подходов для усреднения векторов контекста.

Почти во всех проведённых экспериментах наибольшую точность для дизамбигуации представляло взвешенное среднее векторов контекста, в котором вескаждого вектора в сумме экспоненциально убывал в зависимости от расстояниямежду словом контекста и употреблением дизамбигуируемой лексемы.Эксперименты, описанные в разделе 4.4 настоящей работы посвящены исследованию той же задаче. В них тестируются различные стратегии извлеченияпризнаков, различные подходы к решению задачи методами машинного обучения,и различные векторные семантические модели.Как правило, описанные выше модели [85] являются способами описыватьв векторном представлении семантику именно лексемы, а не отдельного ее значения.

В то же время для решения задачи дизамбигуации наиболее удобным являлось бы алгебраическое представление не лексемы, а ее значения в данном контексте. Поиску векторного представления лексического значения в конкретномконтексте посвящены многие работы.И. Иакобаччи и др. [68] обучили векторную модель (автоэнкодер с признаками Skip-gram) на дизамбигуированном корпусе английского языка.

ГруппаЭспинозы-Анке [56] продемонстрировала применение полученной таким образом векторной семантической модели как способа составления базы данных семантической близости. В свою очередь такую базу данных они применили длярешения задачи дизамбигуации.Чен и др. [50] описали итеративный подход к дизамбигуации с применением векторных моделей, приводящий в итоге к получению дизамбигуированногокорпуса текстов и векторного представления значения лексемы в контексте. Подход состоит из повторения двух шагов.

Первым шагом группа использует дизамбигуированный корпус для обучения на нём векторной семантической модели,приписывающей векторное представление каждому значению лексемы. Вторымшагом группа применяет полученную векторную модель и существующий ди94замбигуированный корпус для уточнения значения каждого словоупотребленияв нём. Для запуска такого итеративного подхода требуется изначально применитькакой-либо метод дизамбигуации для получения первоначального приближениядизамбигуированного корпуса. В этой работе показано, что такой итеративныйподход позволяет значимо улучшить результаты дизамбигуации для некоторыхкорпусов.Другой подход к получению векторного представления описан в работе Роте и др.

[100]. В работе в качестве множества значений английского языка выбрано множество синсетов из Princeton WordNet. Работа исследует два предположения о векторной модели word2vec: во-первых, векторное представление синсета является суммой векторных представлений составляющих этот синсет лемм,во-вторых, векторное представление лексемы является суммой векторных представлений значений лексемы. В работе предлагается модель обучения векторноймодели, удовлетворяющей таким предположениям. Полученными из модели векторами авторы аннотировали синонимические наборы Princeton WordNet. В работе показано, что применение описанных выше методов дизамбигуации на основеword2vec для выбора из такого набора векторных представлений значений словпоказывает более высокую точность предсказаний, чем для прежде предложенных представлений значений.

Нам важно отметить и то, что непосредственногоспособа представления значения в векторном виде в работе не предложено.В 2015 году Бартунов и др. разработали подход под названиемAdaGram [42], являющийся непараметрическим расширением модели Skip-gram.В процессе обучения модель AdaGram при помощи байесовского итеративногоподхода подбирает для каждой лексемы оптимальное количество значений и длякаждого лексического значения вектор, представляющий его.Авторы работы демонстрируют эффективность разработанной модели, тестируя её на наборах данных для предсказания значений слов, опубликованныхдля соревнований SemEval 2007, SemEval 2010и SemEval 2013. В вышеупомянутой статье показано значимое преимущество наивного применения AdaGram посравнению с результатами победителей этих соревнований.Для настоящей работы представляет большой интерес проверка возможности модели, предсказывающей лексическое значение по контексту.

Представляется интересным в рамках эксперимента:– проверить, применима ли модель AdaGram к решению задачи дизамбигуациина материале корпуса с ограниченным подмножеством естественного языка и95– сравнить результаты применения такой модели с результатами более распространённых моделей, игнорирующих многозначность контекстных словоупотреблений.Самыми новыми алгоритмами для разрешения неоднозначности являютсяалгоритмы на основе применения рекуррентных нейронных сетей.

Пример такогоалгоритма предложен группой Юан и др. в 2016 году [114]. В работе предложенподход к разрешению неоднозначности с применением рекуррентной сети, организованной согласно модели LSTM (Long Short-Term Memory [61]). Модель интересна тем, что она грубо моделирует поведение человека при чтении предложения: по мере чтения каждого следующего слова она уточняет своё представлениео значении предыдущих слов. В процессе обучения сеть пытается предсказатькаждое слово, следующее за данным началом предложения или текста. Так же,как и в модели word2vec, в этом случае векторным представлением слова является вектор значений, возникающих на скрытом слое нейронной сети. В отличиеот word2vec такой вектор описывает не лексему, а словоупотребление. В работепредложен способ визуализировать значение вектора как список наиболее вероятных слов, которые были бы предложены сетью в качестве ответа при данномнаборе значений на скрытом слое нейронов.

Для решения задачи дизамбигуациив работе предложено совмещать предсказания нейронной сети с частичным обучением по алгоритму Label propagation [117].4.2.4Выбор методовВ настоящей главе исследуется применимость трёх моделей представления контекста в методах разрешения неоднозначности в отношениях гипогиперонимии.В качестве отправной точки выбрана модель представления контекста, применяемая в алгоритме Леска.

Характеристики

Тип файла

PDF-файл

Размер

1,14 Mb

Материал

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

metody-avtomaticheskogo-vydelenija-tezaurusnyh-otnoshenij-na-osnove-slovarnyh-tolkovanij.rar

Методы автоматического выделения тезаурусных отношений на основе словарных толкований

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.