Диссертация (1137511), страница 18
Текст из файла (страница 18)
Однако такие подходы долгое время не находили практического применения, в первую очередь из-за слишком высоких требований к вычислительноймощности и количества памяти. В 2013 году группа Миколова обучила нейроннуюсесть автоэнкодер word2vec [85] и показала несколько важных свойств, которымиобладают значения, образующиеся на среднем слое нейронной сети:1. расстояние между двумя векторами соответствуют ассоциативной близостимежду ними,2. «свойство параллелограмма», т. е.
способность векторной модели отображатьнекоторые семантические отношения; например, если v(w) — векторное представление лексемы w, то w(Париж) − w(Франция) ≈ w(Москва) − w(Россия).Кроме того, в работе сравнивались модели «непрерывный мешок слов» и«Skip-gram». Согласно модели «непрерывный мешок слов» классификатор тренируется предсказывать очередное слово корпуса, опираясь на данные о количествекаждого из словарных слов в контексте предсказываемого слова. Модель Skipgram описывается как задача предсказания каждого из слов контекста выбраннойлексемы по самой выбранной лексеме. При применении обеих моделей ко всемукорпусу они рассматривают одно и то же множество пар соседних слов. В действительности разница между ними состоит в том, что Skip-gram использует дляпредсказания только одно слово, в то время, как «непрерывный мешок слов» использует сумму всех слов контекста.
В работе Т. Миколова [85] было показано,что модель Skip-gram требует больше вычислительных ресурсов, но при этом показывает более точные результаты.Описанная модель векторного представления лексем является методом решения проблемы разреженных данных, а не готовым методом дизамбигуации. Наивный подход к дизамбигуации, состоящий в том, чтобы подставить векторноепредставление word2vec в качестве признаков в существующие методы на основеалгоритма Леска или методов машинного обучения.93В работе И. Иакобаччи и др.
[67] описаны возможные подходы к использованию векторного представления контекста для решения задачи дизамбигуации, а также представлено сравнение их эффективность. В работе протестированы несколько представлений контекста омонимичной лексемы, используемыедля представления её значения. Все протестированные представления основанылибо на конкатенации, либо на различных взвешенных суммах векторов контекста. Контекст может быть представлен как конкатенация векторных представлений контекста или используя один из подходов для усреднения векторов контекста.
Почти во всех проведённых экспериментах наибольшую точность для дизамбигуации представляло взвешенное среднее векторов контекста, в котором вескаждого вектора в сумме экспоненциально убывал в зависимости от расстояниямежду словом контекста и употреблением дизамбигуируемой лексемы.Эксперименты, описанные в разделе 4.4 настоящей работы посвящены исследованию той же задаче. В них тестируются различные стратегии извлеченияпризнаков, различные подходы к решению задачи методами машинного обучения,и различные векторные семантические модели.Как правило, описанные выше модели [85] являются способами описыватьв векторном представлении семантику именно лексемы, а не отдельного ее значения.
В то же время для решения задачи дизамбигуации наиболее удобным являлось бы алгебраическое представление не лексемы, а ее значения в данном контексте. Поиску векторного представления лексического значения в конкретномконтексте посвящены многие работы.И. Иакобаччи и др. [68] обучили векторную модель (автоэнкодер с признаками Skip-gram) на дизамбигуированном корпусе английского языка.
ГруппаЭспинозы-Анке [56] продемонстрировала применение полученной таким образом векторной семантической модели как способа составления базы данных семантической близости. В свою очередь такую базу данных они применили длярешения задачи дизамбигуации.Чен и др. [50] описали итеративный подход к дизамбигуации с применением векторных моделей, приводящий в итоге к получению дизамбигуированногокорпуса текстов и векторного представления значения лексемы в контексте. Подход состоит из повторения двух шагов.
Первым шагом группа использует дизамбигуированный корпус для обучения на нём векторной семантической модели,приписывающей векторное представление каждому значению лексемы. Вторымшагом группа применяет полученную векторную модель и существующий ди94замбигуированный корпус для уточнения значения каждого словоупотребленияв нём. Для запуска такого итеративного подхода требуется изначально применитькакой-либо метод дизамбигуации для получения первоначального приближениядизамбигуированного корпуса. В этой работе показано, что такой итеративныйподход позволяет значимо улучшить результаты дизамбигуации для некоторыхкорпусов.Другой подход к получению векторного представления описан в работе Роте и др.
[100]. В работе в качестве множества значений английского языка выбрано множество синсетов из Princeton WordNet. Работа исследует два предположения о векторной модели word2vec: во-первых, векторное представление синсета является суммой векторных представлений составляющих этот синсет лемм,во-вторых, векторное представление лексемы является суммой векторных представлений значений лексемы. В работе предлагается модель обучения векторноймодели, удовлетворяющей таким предположениям. Полученными из модели векторами авторы аннотировали синонимические наборы Princeton WordNet. В работе показано, что применение описанных выше методов дизамбигуации на основеword2vec для выбора из такого набора векторных представлений значений словпоказывает более высокую точность предсказаний, чем для прежде предложенных представлений значений.
Нам важно отметить и то, что непосредственногоспособа представления значения в векторном виде в работе не предложено.В 2015 году Бартунов и др. разработали подход под названиемAdaGram [42], являющийся непараметрическим расширением модели Skip-gram.В процессе обучения модель AdaGram при помощи байесовского итеративногоподхода подбирает для каждой лексемы оптимальное количество значений и длякаждого лексического значения вектор, представляющий его.Авторы работы демонстрируют эффективность разработанной модели, тестируя её на наборах данных для предсказания значений слов, опубликованныхдля соревнований SemEval 2007, SemEval 2010и SemEval 2013. В вышеупомянутой статье показано значимое преимущество наивного применения AdaGram посравнению с результатами победителей этих соревнований.Для настоящей работы представляет большой интерес проверка возможности модели, предсказывающей лексическое значение по контексту.
Представляется интересным в рамках эксперимента:– проверить, применима ли модель AdaGram к решению задачи дизамбигуациина материале корпуса с ограниченным подмножеством естественного языка и95– сравнить результаты применения такой модели с результатами более распространённых моделей, игнорирующих многозначность контекстных словоупотреблений.Самыми новыми алгоритмами для разрешения неоднозначности являютсяалгоритмы на основе применения рекуррентных нейронных сетей.
Пример такогоалгоритма предложен группой Юан и др. в 2016 году [114]. В работе предложенподход к разрешению неоднозначности с применением рекуррентной сети, организованной согласно модели LSTM (Long Short-Term Memory [61]). Модель интересна тем, что она грубо моделирует поведение человека при чтении предложения: по мере чтения каждого следующего слова она уточняет своё представлениео значении предыдущих слов. В процессе обучения сеть пытается предсказатькаждое слово, следующее за данным началом предложения или текста. Так же,как и в модели word2vec, в этом случае векторным представлением слова является вектор значений, возникающих на скрытом слое нейронной сети. В отличиеот word2vec такой вектор описывает не лексему, а словоупотребление. В работепредложен способ визуализировать значение вектора как список наиболее вероятных слов, которые были бы предложены сетью в качестве ответа при данномнаборе значений на скрытом слое нейронов.
Для решения задачи дизамбигуациив работе предложено совмещать предсказания нейронной сети с частичным обучением по алгоритму Label propagation [117].4.2.4Выбор методовВ настоящей главе исследуется применимость трёх моделей представления контекста в методах разрешения неоднозначности в отношениях гипогиперонимии.В качестве отправной точки выбрана модель представления контекста, применяемая в алгоритме Леска.