Диссертация (1137511), страница 21
Текст из файла (страница 21)
Было проведено пилотное испытания аннотации с такой постановкой задания. Результаты испытания, включающего разметку и эксперименты по дизамбигуации с помощью вариаций алгоритма Леска,опубликованы [35]. Испытания выявили несколько проблем с подходом к аннотации, предполагающим детерминированный выбор одного лексического значенияиз нескольких:– в некоторых случаях в корпусе словарных толкований встречаются синонимичные значения, которые аннотаторы не способны различить; причины и примеры таких случаев приведены на рис. 4.6;–––––––––108– при изучении результатов дизамбигуации эксперты признавали приемлемыми сточки зрения построения итоговой таксономии некоторые результаты, которыене были размечены как таковые в исходном корпусе;– качество аннотации существенно зависит как от мотивированности, так и оттеоретической подготовленности аннотатора, что значительно ограничиваеткруг потенциальных аннотаторов;– аннотация выбора одного варианта из нескольких позволяет создавать агрегированную разметку золотого стандарта путём выбора наиболее частого ответалишь в случае участия в эксперименте значительного числа аннотаторов и одновременно высокого уровня согласия между ними.В результате анализа было принято решение допустить отметку несколькихлексических значений допустимыми гиперонимами, а также предоставить аннотатору инструмент для отметки случаев их неуверенности в ответе.
Вместо того,чтобы составлять эталонный корпус, содержащий единственно-верный ответ аннотатора, в настоящей работе принято решение сохранять ответы всех аннотаторов и порождать оценки на основе их агрегации. Так, для того, чтобы получитьстрогую оценку, достаточно выбрать для каждой пары [гипоним – лексема гиперонима] наименьшую из оценок аннотаторов. Для того, чтобы получить мягкуюоценку, наоборот, необходимо выбрать максимум из оценок.Аннотированный набор данных содержит 1537 пар [лексическое значениегипонима – лексема гиперонима], аннотированных хотя бы одним экспертом. Изних 646 пар аннотированы двумя экспертами.
Как описано выше, некоторые парыбыли отклонены аннотаторами: из 646 пар, аннотированных двумя экспертами,только 342 не были отвергнуты хотя бы одним из них. Малый объём пересечения аннотированных данных частично процедурой построения длинных цепочекв процессе аннотации: если в начале цепочки аннотаторы выбирали разные лексические значения, то вся последующая гиперонимическая цепочка аннотироваласьими по-разному.Задача семантической аннотации является сложной задачей и часто имеетневысокое согласие аннотаторов. Для вычисления согласия в настоящей работеиспользовалось несколько метрик: доля согласия и κ Фляйса [59], для каждой изних посчитана строгая и мягкая оценка:– 19% — процент согласия в строгом смысле: два гипонима считаются размеченными одинаково, если множество лексических значений, получивших наивысшую оценку аннотаторов среди них совпадают;109– 52% — процент согласия в мягком смысле: два гипонима считаются размеченными одинаково, если для них существует хотя бы одно лексическое значение,принятое обоими аннотаторами;– κ = 0.34 ± 0.06 — согласие аннотаторов в следующем смысле: каждая пара[лексическое значение гипонима – лексическое значение гиперонима] оценивается как допущенная аннотатором, если она получила оценку 5;– κ = 0.34 ± 0.06 — аналогично, если допустимыми считаются оценки 3, 4, 5.4.4 Постановка экспериментаДля ответа на вопросы, поставленные в настоящем разделе, была разработана потоковая среда тестирования дизамбигуаторов, имеющих сходное устройство, но содержащих несколько вариабельных частей.
Общая структура каждогодизамбигуатора такова:1. чтение корпуса извлечённых отношений в виде пар [значение гипонима –лексема гиперонима] и объединение их в группы по совпадению лексемы гиперонима,затем для каждой такой группы:2. построение векторного представления каждого гипонима и каждого значениялексемы гиперонима,3. применение классификатора для предсказания значения гиперонима для каждого из гипонимов в группе,4.
применение классификатора для выбора лексемы гиперонима в случае, еслидля одного значения гипонима указано более одной леммы гиперонима.Для шагов 2 и 3 в эксперименте протестированы различные реализации.Некоторые реализации некоторых шагов имеют параметры, для которых задан перечень допустимых значений. Подробное описание реализаций шагов и их параметров приведено ниже. Целью эксперимента является перебор всех возможныхсочетаний реализаций и их параметров, исследование результатов их применения к размеченным данным и выбор оптимальной реализации алгоритма с точкизрения точности разрешения неоднозначности.При разметке данных аннотаторы показывали большую скорость и уверенность в разметке, если им подряд предъявлялись задания на дизамбигуацию с од110ним гиперонимом, чем в случае, если гипероним менялся от задания к заданию.Возможное объяснение этому наблюдению состоит в том, что аннотатор обнаруживает сходство между гипонимами соседних заданий и это даёт ему возможность применять один и тот же ответ к ко-гипонимам одного лексического значения гиперонима.
Одной из задач эксперимента является попытка воспроизведения такого поведения применительно к автоматическим дизамбигуаторам. Длядостижения этого задачей шага 1 является объединение в одну группу всех значений одной лексемы (гиперонима) и всех лексических значений, для которыхданная лексема была идентифицирована в данных как гипероним.После группировки лексических значений выбранных гипонимов и одного гиперонима задачу дизамбигуации возможно сформулировать следующим образом: имея группу лексических значений, где каждому лексическому значениюгиперонима присвоен «правильный ответ» — номер его значения — необходимо автоматически присвоить ответ каждому лексическому значению гипонима.
Втакой формулировке задача очень похожа на задачу машинного обучения с учителем с одной особенностью: обучающая выборка для каждого класса содержиттолько одну точку данных. В рамках такой точки зрения на постановку задачипереход от машинного обучения с учителем к машинному обучению с частичным применением учителя обозначает автоматическое пополнение обучающейвыборки теми гипонимами, решение задачи дизамбигуации для которых очевидно. Таким образом, простейшим подходом для симуляции поведения аннотаторовпри такой постановки задачи является сравнение методов машинного обучения сучителем и методов машинного обучения с частичным привлечением учителя наподготовленных таким образом данных.
При этом необходимо отметить, что такая постановка задания не является машинным обучением с учителем в привычном понимании, так как размеченные аннотатором данные никак не участвуют вобучении.Кроме группировки лексических значений, шаг 1 включает необходимыетехнологические действия: чтение корпуса омонимичных отношений в виде пар[лексическое значение гипонима – лексема гиперонима], чтение словаря, выбор изсловаря всех лексических значений гиперонима.Шаг 2 сводится к тому, чтобы назначить векторное представление каждому лексическому значению в группе. Лексическое значение представлено в виде набора из: уникального идентификатора, лексемы, толкования, расширенного111толкования.
Процесс назначения векторного представления зависит от выбраннойсемантической модели: алгоритм Леска, word2vec, AdaGram.– Алгоритм Леска определяет способ присвоения векторного представления словоупотреблению в заданном контексте. Векторное представление лексическогозначения задаёт число вхождений каждой леммы словаря в толкование значения.Для данной модели в настоящей работе определён один параметр: какая частьтолкования используется для получения векторного представления, в качествезначения возможны любые комбинации из самой лексемы, толкования и расширенного толкования.– Модель word2vec определяет векторное представление для каждой лексемы.Представление лексического значения в настоящем эксперименте подбираетсяв виде взвешенной суммы векторных представлений токенов толкования.Для данной модели в настоящей работе определено два параметра: выбор части толкования для построения векторного представления, принцип назначениявесов.В качестве толкования может быть использована любая комбинация из: лексемы, толкования, расширенного толкования.В качестве принципа назначения весов могут быть использованы: равные весадля всех токенов; веса согласно метрике TF·IDF; равные веса в окне ±5 вокругупотребления леммы гиперонима в толковании при весе 0 у всех остальныхтокенов.– Модель AdaGram определяет векторное представление каждого лексическогозначения, а также алгоритм предсказания вероятности каждого лексическогозначения в заданном контексте.