Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 10
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 10 страницы из PDF
К примерам из корпусабыли применены следующие фильтры: Пример должен содержать предикат Пример должен начинаться с заглавной буквы или символа изаканчиваться знаком препинания Пример должен представлять собой одно полное предложениеМы считаем, что подобная фильтрация не оказывает значительноговлияния на задачу и не отдаёт предпочтения тем или иным предикатам иконструкциям в ущерб другим. По мере развития корпуса FrameBankнеобходимость в этом этапе, как мы надеемся, исчезнет.Предложения корпуса FrameBank разбиты на слова и содержат слойморфологическойотсутствуют.разметки.Учитывая,чтоСинтаксическиеслойразборыморфологическойпредложенийразметкисозданавтоматически и содержит морфологическую неоднозначность, мы принялирешение удалить всю информацию из корпуса кроме непосредственноразбиения на слова и предложения и разметки по семантическим ролям.
Послеэтого корпус был обработан морфологическим анализатором со снятиемнеоднозначности и синтаксическим парсером из пакета, разработанного С.Шаровым [Sharoff, Nivre, 2011]. Принципильно важно на этом этапе предвидетьвозможные ошибки, которые возникают на этапе работы парсера.
Так, в редких60случаях в процессе предобработки возникают границы предложений, которыеотсутствовали в исходных данных. В таких случаях приоритет отдаётсяграницам, предложенным морфологическим анализатором и парсером, длясохранениясинтаксическихразборов.Результатомработымодуляпредобработки является файл в формате CoNLL-2009 [Hajič и др., 2009],который обогащается ролями из разметки FrameBank.Как уже ранее упоминалось, разметка во FrameBank выполнена поотрезкам текста, а не по синтаксическим узлам или группам. Учитывая, что мыопределили задачу автоматической классификации актантов как задачуразметки узлов, нам необходимо осуществить отображение разметкиFrameBank с отрезков текста на узлы соответствующего синтаксическогодерева. За эту операцию отвечает модуль обогащения данных, о котором мыещё расскажем позднее.
Этот этап завершает процесс предварительнойобработки данных. Ниже приводится пример предобработки, на которомотражены различные стадии этого процесса. Колонки соответствуют стадиямпредобработки и добавляются последовательно, слева направо.Рисунок 6: Этапы предварительной обработки (слева направо)Далеевсепредложения-примерыизкорпусагруппируютсяпоконструкциям, которые они описывают, формируя таким образом подкорпусапримеров для каждой отдельной конструкции.61Для каждого из полученных подкорпусов производится случайноеразбиение на тренировочную и тестовую выборки. Единицей разбиения мыпринимаем предложение (а не слово, что, впрочем, было бы вполне корректноучитывая нашу "пословную" постановку задачи). Тренировочная выборкапоступает на вход классификатора и используется для обучения, тестоваявыборка используется для оценки качества работы классификатора.Как тренировочная, так и тестовая выборка поступают на вход модуляизвлечения свойств, который преобразует информацию, полученную врезультатепредварительнойобработки,всвойства,используемыеклассификатором.
Модуль извлечения свойств приписывает набор признаковкаждому узлу дерева зависимостей, построенного для каждого предложениятренировочной и тестовой выборки. Здесь же экземпляры-узлы получаютметку класса: в тренировочной выборке эта метка используется для обученияклассификатора, а в тестовой – для сравнения результатов работы системы сэталонной разметкой.На этапе тестирования каждое предложение тестовой выборки подаётсяна вход классификатору, который для каждого узла в дереве зависимостейэтого предложения определяет его семантическую роль.
Ключевая проблема,которая возникает на данном этапе состоит в том, что одна и та же роль можетбыть приписана нескольким узлам. Такой результат противоречит базовымпринципам теории семантических ролей, в соответствии с которой всесемантические роли актантов должны быть уникальны. Это имеет неприятныепоследствия и с практической точки зрения, поскольку не позволяетоднозначно определить роли актантов, а это значит, что последующееиспользование результатов работы системы в других прикладных задачахбудет осложнено. Для решения этой проблемы было решено использоватьмодуль ILP-оптимизации на основе метода целочисленного программированиядля постобработки результатов классификации. Задача модуля – для каждого62предложения выбрать наилучшую комбинацию решений классификатора,которая удовлетворяет требованию, чтобы каждая роль была приписана толькоодин раз.
Подробнее работа модуля будет рассмотрена ниже. Результатработы модуля оптимизации является конечным результатом работы системыи поступает на выход.Далее будут рассмотрены те модули системы, которые были специальноразработаны в рамках текущего исследования и которые, собственно, исоставляют научную ценность и новизну предлагаемой системы. Это во-первыхмодуль проекции на синтаксические узлы, во-вторых, модуль отбора свойств,в-третьих, собственно модуль классификатора, и в-четвертых, модуль ILPоптимизации.II.3.2 Модуль проекции на синтаксические узлыПредназначение описываемого модуля состоит в том, чтобы сопоставитьузлы синтаксического дерева с разметкой по семантическим ролям. Посколькуединого стандарта разметки текстов по семантическим ролям не существует,различные ресурсы используют разные конвенции аннотирования аргументов.В частности, английский FrameNet и русский FrameBank используют схемуразметки, при которой границы аргументов задаются отрезками текста, а несинтаксическимиузлами.Этосоздаетопределенныесложностиприопределении того, какие именно узлы синтаксического дерева являютсяпредставителями той или иной семантической роли.
В качестве иллюстрацииданной проблемы рассмотрим следующий пример:63Рисунок 7: Проекция разметки на синтаксические узлыВ данном случае сложность представляет аргумент "Фольксваген Гольфили корейскую машину", который включает в себя пять синтаксических узлов.Для извлечения свойств для классификации нам нужно определить "главный"представительный узел для выбранного отрезка, и далее считывать свойстватолько этого узла.Как правило, для решения этой проблемы используется набор эвристик,основаннных на максимизации пересечения покрытия зависимостного узла саннотацией [Bauer, Fürstenau, Rambow, 2012]. Под покрытием узла понимаетсянабор всех его зависимых, в том числе и непрямых. Тот узел, покрытиекоторогомаксимальнопересекаетсясаннотацией,объявляетсяпредставителем этой аннотации в дереве зависимостей.
Так, приведенныйвыше проблематичный случай мог бы быть разрешен следующим образом.Рассмотрим покрытие для всех узлов, которые расположены в рамках отрезка,обозначенного аннотацией.узелпокрытиеФольксвагенГольф, или, машину, корейскуюГольф-илимашину, корейскуюмашинукорейскуюкорейскую-Таблица 1: Покрытие узлов синтаксического дерева64Покрытие узла Гольф включает в себя только само слово “Гольф”,пересечение с исходной аннотацией составляет 5 из 35 символов или около12%. Покрытие узла или пересекается с аннотацией в 15 из 35 символов.Наконец, узел Фольксваген имеет наибольшее пересечение с исходнойаннотацией, и потому выбирается в качестве ролевого узла для данногопредиката.Врезультатепримененияописаннойвышепроцедурыкаждойсемантической роли ставится в соответствие узел дерева зависимостей.
Послеэтого каждый узел дерева преобразуется в экземпляр: объект, описанный втерминах свойств и наделённый меткой класса. Эти экземпляры используютсядля обучения классификатора.II.3.3 Модуль классификатораПослетогокакузлывходныхсинтаксическихдеревьевбылипреобразованы в экземпляры, описанные в терминах выбранных нами свойств,они поступают на вход классификатора. На этапе обучения классификатор наоснове тренировочных данных строит модель, которая затем используется наэтапе применения классификатора для присвоения меток новым, тестовымэкземплярам. Существует множество методов построения классификационныхмоделей, большая часть из которых более или менее успешно была примененадля автоматической классификации актантов. Так, в работе [Johansson, Nugues,2007] в качестве классификатора используется метод опорных веторов (SVM), a[Ngai и др., 2004] проводит сравнение систем на основе бустинга, методаопорных веторов, нейронных сетей и правил.