Диссертация (1137511), страница 22
Текст из файла (страница 22)
В настоящей работе векторное представлениелексического значения получается как векторное представление лексемы в контексте токования её значения.Для данной модели в настоящей работе определено два параметра: выбор части толкования для построения векторного представления, способ построениявекторного представления в зависимости от предсказанных моделью вероятностей.В качестве толкования для модели AdaGram могут быть использованы: либотолкование, либо расширенное толкование.В качестве способа построения векторного представления могут быть использованы: вектор лексического значения, для которого предсказана наибольшая112вероятность; взвешенная сумма векторов лексических значений с весами, равными предсказанным вероятностям значений; либо вектор, состоящий из вероятностей лексических значений.Построенные вектора значений используются как входные данные для шага 3: классификация векторных представлений лексических значений гипонимовдля выбора лексического значения гиперонима для каждого из них.
Все выбранные для этого шага подходы базируются на предположениях:– лексические значения гипонима и гиперонима принадлежат к одному домену;– с точки зрения векторного представления согласно выбранным моделям употребления лексических значений в пределах одного домена имеют более сходные контексты, чем употребления лексических значений в целом по корпусу.Эти предположения определяют выбор методов классификации.
В работеисследуется три классификатора:– выбор ближайшего значения из обучающей выборки согласно выбранной метрике; очевидно, что при наличии в обучающей выборке для каждого классатолько одного примера такой классификатор эквивалентен методу опорных векторов;– классификатор label propagation [116]; классификатор относится к методам с частичным привлечением учителя; основной принцип подхода к классификацииданных состоит в построении полного графа, в котором вершинами являютсяточки данных, как из обучающей, так и из тестируемой выборки, а весом рёберявляется расстояние между точками согласно выбранной метрике, для котороговыполняется итеративная процедура распространения меток принадлежностик классу в зависимости от весов рёбер;– классификатор label spreading [115]; классификатор также относится к методам с частичным привлечением учителя и является модификацией алгоритма label propagation; различие между алгоритмами состоит в выборе метрикипотерь в процедуре распространения меток в графе: метод label spreading использует нормализованный дискретный оператор Лапласа, который в условияхданной задачи обладает свойствами регуляризации, в то время как метод labelpropagation использует ненормализованный оператор, и, как следствие, имееттенденцию к переобучению.Для классификаторов не тестировались параметры, специфичные длякакого-либо одного классификатора.113Общим параметром для всех классификаторов является выбор метрики свозможными значениями: евклидова метрика расстояния, косинусная мера близости, ядро Гаусса.
Кроме того, для ядра Гаусса параметром является величина γ.Целью шага 4 является выбор единственной лексемы гиперонима для техлексических значений гипонимов, которым в корпусе омонимичных отношенийсопоставлено более одной лексемы гиперонима. Шаг выполняется после того,как для всех гипонимов выполнены шаги 1, 2, 3, т. е. для каждой пары [лексическое значение гипонима – лексема гиперонима] выбрано единственное лексическое значение гиперонима.Шаг повторяется для каждого лексического значения гипонима, для которого задано более одной лексемы гиперонима. Шаг состоит из построения задачи для классификации и решения задачи классификации. Для построения задачи классификации собирается обучающая выборка, содержащая векторное представление выбранного на предыдущих шагах лексического значения для каждойлексемы гиперонима. Каждый гипероним в обучающей выборке имеет уникальную метку класса.
Классифицируемая выборка состоит из единственного вектора: векторного представления лексического значения гипонима. Для построениявекторных представлений используется та же модель, что и на шаге 2. Для классификации используется тот же классификатор с теми же параметрами, что и нашаге 3.Для каждого метода построения векторного представления и каждого метода классификации классификации выбран диапазон применимых значений каждого параметра. Для тех параметров, которые имеют числовое представление,каждый выбранный диапазон разделен на небольшое количество интервалов пологарифмической шкале, границы интервалов являются испытуемыми значениями параметров. Для всех возможных сочетаний значений каждого из параметров проведено разрешение неоднозначности на размеченных данных. В случаеесли крайнее значение какого-либо числового параметра показывает наилучшийрезультат, для него диапазон применимы значений расширен.
Так как в эксперименте проводится полный перебор всех возможных сочетаний векторных моделей, классификаторов и их параметров, то добавление даже одного значения внесколько диапазонов параметров приводит к очень значительному увеличениючисла необходимых испытаний.
Для избежания этого расширение диапазона производилось либо добавлением нового значения в диапазон, либо увеличением шага в интервале при сохранении количества значений в диапазоне.114Окончательный перебор всех возможных сочетаний векторных моделей,методов классификации и их параметров содержал 3521 их комбинаций.4.5РезультатыВ этом разделе описывается метод оценки алгоритмов дизамбигуации, называются параметры дизамбигуатора, получившего наилучшую оценку, а затемописывается влияние каждого из исследованных свойств на точность дизамбигуации.В настоящем разделе используется мягкая оценка, описанная в разделе 4.3.4: оценка за каждую гипо-гиперонимическую пару вычисляется как максимум из оценок двух аннотаторов.Для оценки алгоритма дизамбигуации используется его средняя точность.Средняя точность вычисляется следующим образом.
Для начала оценка каждогоаннотатора переводится в интервал [0, 1] таким образом, чтобы наилучший ответ получил оценку 1, наихудший ответ получил оценку 0, и при этом линейноеуменьшение оценки аннотатора приводило к экспоненциальному уменьшениюhитоговой оценки. Таким требованиям удовлетворяет оценка s = 2 32−1 , где h является ответом аннотатора в диапазоне [0,5], s является оценкой точности алгоритма, используемой ниже. Точностью алгоритма называется среднее значение sпо всем аннотированным парам [гипоним – гипероним].Наилучшая точность, показанная каким-либо алгоритмом, составила 0.6.Наилучшую оценку точности получил дизамбигуатор, использующий для построения векторного представления модель word2vec, с выбором весов согласно модели TF·IDF, использующая в качестве контекста для дизамбигуации взвешеннуюсумму толкования и расширенного толкования с весом 0.5; дизамбигуатор основана классификаторе label propagation и гауссовой метрике при γ = 16.В таблице 13 приведены наилучшие результаты дизамбигуации, которыеоснованы на использовании выбранной языковой модели, входом для которойслужит выбранная часть толкования лексического значения.
Многие протестированные модели показали результаты, превосходящие модель Леска, используемую в качестве контроля нижней границы ожидаемой точности моделей. Этопозволяет нам сделать вывод о применимости векторных моделей для решения115Контекст glossgloss_extmax mean std max mean stdМодельAdaGram 42% 33% 5% 40% 31% 5%Lesk32% 25% 7% 45% 29% 9%Word2Vec 50% 37% 4% 59% 41% 8%Таблица 13 –– Влияние выбора векторной модели и используемого дляпостроения векторного представления контекста на точностьдизамбигуатора. Здесь gloss обозначает толкование, gloss_extрасширенное толкование.Точностьmax mean stdКонтекстgloss46%gloss and head50%gloss ext59%gloss ext and head59%weighted gloss and gloss ext 62%37% 4%38% 5%40% 8%42% 8%42% 9%Таблица 14 –– Влияние выбора контекста для построения векторногопредставления на результат дизамбигуации.задачи дизамбигуации гипо-гиперонимических отношений на корпусе словарныхтолкований.
В рамках настоящей работы в качестве такого контроля использовалось только классическое представление контекста согласно модели алгоритмаЛеска. Однако опираясь на опубликованные данные исследования применимостирасширений алгоритма Леска [35] можно предположить о преимуществе новыхвекторных моделей и над модифицированными версиями алгоритма Леска.Неожиданно низкую точность показывает применением модели AdaGram,которая неоднократно применялась на материале дорожек по дизамбигуации, втом числе и на материале русского языка и решения на её основе показывалинаилучшие результаты.
Этот результат требует подробного исследования. В рамках настоящего исследования допустимо заключить либо о необходимости под116Рисунок 4.7 –– Влияние выбора контекста для построения векторногопредставления на распределение результатов дизамбигуации в зависимости отвыбора оставшихся свободными параметров.бора параметров обучения для этой модели, либо о том, что на материале гипогиперонимических отношений извлечённых из толкового словаря модель требуетприменения специальных методов классификации.Словарная статья содержит несколько типов информации, применимой вкачестве контекста для дизамбигуатора: лексема, толкование, словарные пометы, примеры.