Диссертация (1137511), страница 20
Текст из файла (страница 20)
Оцениваемая доля словоупотреблений корпуса тол102Рисунок 4.3 –– Рабочее место разметчика омонимичных данных длядизамбигуации. Слева направо: форма идентификация аннотатора для началаработы, пример окна разметки, персональная история разметки аннотатора.кового словаря, оцениваемая на основе такой классификации с учётом частотытокенов, составляет 0.0008 от всех словоупотреблений.
Таким образом кажетсядопустимым предположить, что различие в параметрах обучения окажет незначительное влияние на результаты обучения и на поведение обученной модели.4.3.4 Аннотация данныхДля сравнения различных подходов к снятию неоднозначности необходимэталонный набор данных, размеченных экспертами.Для разметки данных экспертами разработана среда для аннотации данныхрабочее место разметчика в виде веб-приложения. На рис. 4.3 приведены три основных экрана рабочего места разметчика. Для допуска аннотатора к разметкеэкспериментатор предлагает аннотатору ознакомиться с инструкцией по аннотации данных и добавляет его учётную запись в настройках среды. После ознакомления с инструкцией аннотатор переходит в веб-интерфейс рабочего места разметчика по ссылке, содержащейся в инструкции.
Работа в веб-интерфейсе начинается с аутентификации аннотатора. После аутентификации аннотатор сразу получает возможность разметить корпусный пример. По завершению разметки одного примера аннотатору предлагается очередной пример. Кроме разметки примеров у аннотатора имеется возможность изучить историю примеров, размеченных им, и, при необходимости, разметить заново некоторые из них.103Рисунок 4.4 –– Пример задания аннотатору с различными леммами,идентифицированными для одной лексемы гиперонима.При разметке корпусного примера эксперту предъявляется гипоним и список возможных гиперонимов.
Как гипоним, так и каждый кандидат в гиперонимыпредставлен в виде пары: [лексема – толкование одного её значения]. Кандидатыв гиперонимы могут представлять как значения одной и той же лексемы, так инескольких разных. Последнее возможно в двух случаях: либо в корпусе отношений для данного значения гипонима предложено несколько возможных гиперонимов (пример 4.4), либо в случае если словарное представление гиперонима можетсоответствовать нескольким леммам (пример 4.5).Задача аннотатора состоит в том, чтобы выбрать одно или несколько значений кандидатов в гиперонимы, которые в наибольшей степени приемлемы вкачестве гиперонима для выбранного значения гипонима. Каждому кандидату вгиперонимы аннотатор может выставить оценку: 0, 3, 4, 5.
Оценка 5 обозначает, что данное значение действительно является гиперонимом для представленного гипонима. Аннотатор может выставить оценку 5 нескольким кандидатам в104Рисунок 4.5 –– Пример задания аннотатору с несколькими кандидатами вгиперонимы.гиперонимы, если они синонимичны между собой.
При такой постановке эксперимента есть две причины возникновения синонимичных кандидатов: во-первых,если для гипонима было выделено несколько лексем гиперонимов, среди значений которых действительно находятся синонимичные; во-вторых, один из типовтолкований в словаре предполагает перечисление нескольких синонимов либо гиперонимов для определяемого понятия через точку с запятой. Оценка 4 обозначает косвенную гиперонимию (например, предложенный кандидат в гиперонимы в действительности является гиперонимом для другого понятия, являющегося гиперонимом для представленного гипонима), либо значение, которое трудноотличить от гиперонима. Оценка 3 обозначает, что выбранное значение ассоциировано с предложенным гипонимом, однако либо удалено от него по цепочкегиперонимических отношений, либо связно с ним вовсе другим семантическимотношением.
Для всех остальных кандидатов в гиперонимы аннотатор выставляет оценку 0. Кроме этого аннотатор имеет возможность сообщить о нескольких105видах ошибки в постановке задачи: ошибка определения части речи для предложенного гипонима, отсутствие среди предложенных значений соответствующегогиперониму, либо ошибка в определении слова, представляющего гипероним.Задания для аннотатора собраны в блок: набор значений-гипонимов, длякаждого из которых аннотатору необходимо выбрать гиперонимы. Для того, чтобы у аннотатора сложилось более полное представление о семантическом контексте размечаемых данных, ему предложено для каждого размечаемого значениягипонима построить максимально длинную цепочку гиперонимических отношений. После того, как аннотатор разметил для гипонима Ai гипероним Bj , емупредлагается выбрать гипероним для Bj . Если аннотатор счёл, что Ai имеетнесколько допустимых гиперонимов, интерфейс разметки выбирает из них первый.
Интерфейс разметки предлагает аннотатору перейти к следующему заданиюв блоке лишь после того, как для очередного гипонима не отмечено ни одного гиперонима.Для уменьшения объёма рутинной работы аннотатору в режиме автоматической разметки никогда не предлагается повторно размечать уже размеченныезначения. Если аннотатор считает, что допустил ошибку, он имеет возможностьпросмотреть историю размеченных лексем и разметить выбранную лексему повторно. При использовании данных разметки в эксперименте всегда используетсятолько последний результат разметки каждой лексемы каждым аннотатором.Согласно инструкции аннотатору разрешено указывать высокую оценку (4)значению, для которого он не уверен, является ли оно гиперонимом или синонимом.
Наличие такого допущения приводит к тому, что в аннотированных данных могут образовываться циклы, т. е. цепочки лексических значений, для которых каждое последующее аннотировано как гипероним предыдущего, а первоеаннотировано как гипероним последнего. В этом случае каждый элемент циклаявляется либо синонимом, либо гиперонимом каждого другого элемента цикла,что возможно только при синонимии всех элементов цикла.
Таким образом такаяразметка и соответствующее ей поведение дизамбигуатора помогает объединятьлексические значения в синсеты.В корпусе толкований количество значений (толкований) у лексемы имеетэкспоненциальное распределение. Очевидно, как аннотатору, так и автоматическому алгоритму снятия неоднозначности проще всего указать правильное значение гиперонима в случае, если лексема гиперонима однозначна. В свою очередьмногозначные лексемы создаются в словаре в том случае, если составители счи106тают, что различие некоторых из сходных значений необходимо подчеркнуть изафиксировать в словаре. Поэтому снятие неоднозначности в случае, когда гиперонимом оказывается такого рода многозначная лексема, сложнее как аннотатору,так и алгоритму.
Вследствие таких рассуждений нам кажется необходимым включить в размеченную аннотаторами выборку примеры с гиперонимами, имеющимиразличное количество значений. Интересным было бы включить в размеченнуювыборку большое количество примеров для нескольких классов гиперонимов сэтой точки зрения, однако в силу трудности семантической разметки для аннотатора набрать необходимое для этого количество данных оказалось невозможным.Наряду с этим корпус извлечённых из толкований семантических отношений, построенный в главе 3, проявляет разнообразие в ещё одном сходном свойстве: количестве гипонимов, которое было выделено для какой-либо лексемы.Количество гипонимов также распределено согласно экспоненциальному закону.Трудно выявить свойства, общие для задач дизамбигуации, в которых у даннойлексемы есть лишь один гипоним.
Однако в случае, если у данной лексемы выделено несколько тысяч гипонимов, то можно предположить, что для многих гипонимов выделенное отношение является не гипо-гиперонимическим, а отношением принадлежности лексического значения к семантическому классу. В такомслучае задача разрешения неоднозначности состоит в выделении в большом объёме отношений экземпляр-класс небольшого количества действительных гипогиперонимических пар, выделении среди значений лексемы «гиперонима» тогозначения, которое в наибольшей мере можно принять за описывающее класс ирешению задачи разрешения собственно неоднозначности для действительныхгипо-гиперонимических пар. В случаях, если для лексемы количество выделенных гипонимов превышает количество значений лексемы гиперонима, можно заметить, что аннотатору проще размечать все такие случаи подряд, не перемежаядругими парами [гипоним – гипероним]. То есть наблюдение общих свойств ипротивопоставление различных среди одних только гипонимов помогает аннотатору выбирать правильное значение гиперонима.
Кажется интересным вопрос,возможно ли аналогичным образом упростить задачу и автоматическому классификатору.Опираясь на перечисленные пожелания мы составили размечаемый наборданных. В описании ниже для простоты задачей аннотации мы называем пару:[значение гипонима – лексема гиперонима]. Набор данных составлен следующимобразом:107– Особенности преобразования словаря в табличное представление, ср.:«ПЕШЕХОД1 : Человек, идущий пешком»«ПЕШЕХОД2 : пеший человек.»– Соответствие нескольких лексем одной лемме, ср.:«ЧЕЛОВЕК1 : Лицо, являющееся носителем каких-л. внутренних характерных качеств,свойств, принадлежащее к какой-л. среде, обществу и т.п.»«ЛЮДИ2 : Те, кто принадлежит к одной общественной среде, характеризующиеся наличием каких-л.
общих признаков.»– Значения, не являющиеся синонимами в строгом смысле, но в равной мере допустимые в качестве гиперонимов в некоторых контекстах, ср.:«ЛАВАШ1 : плоский, в виде большой лепёшки, пшеничный пресный хлеб.»«ХЛЕБ1 : Пищевой продукт, выпекаемый из муки.»«ХЛЕБ2 : Такой продукт в виде изделия какой-л. определённой формы.»Рисунок 4.6 –– Причины возникновения синонимичных значений в корпусесловарных толкований10 задач таких что: для гипероним выделено менее 10 гипонимов,20 задач выбрано случайным образом из корпуса извлечённых отношений40 задач таких что: для гиперонима выделено 40 гипонимов,40 задач таких что: для гиперонима выделено более 1000 гипонимов,58 задач таких что: гипероним имеет более 16 значений,48 задач таких что: гипероним имеет 8–16 значений,34 задачи таких что: гипероним имеет 5–7 значений,33 задачи таких что: гипероним имеет 2–4 значений,1000 задач таких, что: гипероним имеет более 1 значения.Сущностной задачей для аннотатора является выбор одного лексическогозначения из предложенного списка.