Диссертация (1100480), страница 10

Файл №1100480 Диссертация (Автоматическая разметка семантических ролей в русском языке) 10 страницаДиссертация (1100480) страница 102019-03-132019-03-13СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 10)

К примерам из корпусабыли применены следующие фильтры: Пример должен содержать предикат Пример должен начинаться с заглавной буквы или символа изаканчиваться знаком препинания Пример должен представлять собой одно полное предложениеМы считаем, что подобная фильтрация не оказывает значительноговлияния на задачу и не отдаёт предпочтения тем или иным предикатам иконструкциям в ущерб другим. По мере развития корпуса FrameBankнеобходимость в этом этапе, как мы надеемся, исчезнет.Предложения корпуса FrameBank разбиты на слова и содержат слойморфологическойотсутствуют.разметки.Учитывая,чтоСинтаксическиеслойразборыморфологическойпредложенийразметкисозданавтоматически и содержит морфологическую неоднозначность, мы принялирешение удалить всю информацию из корпуса кроме непосредственноразбиения на слова и предложения и разметки по семантическим ролям.

Послеэтого корпус был обработан морфологическим анализатором со снятиемнеоднозначности и синтаксическим парсером из пакета, разработанного С.Шаровым [Sharoff, Nivre, 2011]. Принципильно важно на этом этапе предвидетьвозможные ошибки, которые возникают на этапе работы парсера.

Так, в редких60случаях в процессе предобработки возникают границы предложений, которыеотсутствовали в исходных данных. В таких случаях приоритет отдаётсяграницам, предложенным морфологическим анализатором и парсером, длясохранениясинтаксическихразборов.Результатомработымодуляпредобработки является файл в формате CoNLL-2009 [Hajič и др., 2009],который обогащается ролями из разметки FrameBank.Как уже ранее упоминалось, разметка во FrameBank выполнена поотрезкам текста, а не по синтаксическим узлам или группам. Учитывая, что мыопределили задачу автоматической классификации актантов как задачуразметки узлов, нам необходимо осуществить отображение разметкиFrameBank с отрезков текста на узлы соответствующего синтаксическогодерева. За эту операцию отвечает модуль обогащения данных, о котором мыещё расскажем позднее.

Этот этап завершает процесс предварительнойобработки данных. Ниже приводится пример предобработки, на которомотражены различные стадии этого процесса. Колонки соответствуют стадиямпредобработки и добавляются последовательно, слева направо.Рисунок 6: Этапы предварительной обработки (слева направо)Далеевсепредложения-примерыизкорпусагруппируютсяпоконструкциям, которые они описывают, формируя таким образом подкорпусапримеров для каждой отдельной конструкции.61Для каждого из полученных подкорпусов производится случайноеразбиение на тренировочную и тестовую выборки. Единицей разбиения мыпринимаем предложение (а не слово, что, впрочем, было бы вполне корректноучитывая нашу "пословную" постановку задачи). Тренировочная выборкапоступает на вход классификатора и используется для обучения, тестоваявыборка используется для оценки качества работы классификатора.Как тренировочная, так и тестовая выборка поступают на вход модуляизвлечения свойств, который преобразует информацию, полученную врезультатепредварительнойобработки,всвойства,используемыеклассификатором.

Модуль извлечения свойств приписывает набор признаковкаждому узлу дерева зависимостей, построенного для каждого предложениятренировочной и тестовой выборки. Здесь же экземпляры-узлы получаютметку класса: в тренировочной выборке эта метка используется для обученияклассификатора, а в тестовой – для сравнения результатов работы системы сэталонной разметкой.На этапе тестирования каждое предложение тестовой выборки подаётсяна вход классификатору, который для каждого узла в дереве зависимостейэтого предложения определяет его семантическую роль.

Ключевая проблема,которая возникает на данном этапе состоит в том, что одна и та же роль можетбыть приписана нескольким узлам. Такой результат противоречит базовымпринципам теории семантических ролей, в соответствии с которой всесемантические роли актантов должны быть уникальны. Это имеет неприятныепоследствия и с практической точки зрения, поскольку не позволяетоднозначно определить роли актантов, а это значит, что последующееиспользование результатов работы системы в других прикладных задачахбудет осложнено. Для решения этой проблемы было решено использоватьмодуль ILP-оптимизации на основе метода целочисленного программированиядля постобработки результатов классификации. Задача модуля – для каждого62предложения выбрать наилучшую комбинацию решений классификатора,которая удовлетворяет требованию, чтобы каждая роль была приписана толькоодин раз.

Подробнее работа модуля будет рассмотрена ниже. Результатработы модуля оптимизации является конечным результатом работы системыи поступает на выход.Далее будут рассмотрены те модули системы, которые были специальноразработаны в рамках текущего исследования и которые, собственно, исоставляют научную ценность и новизну предлагаемой системы. Это во-первыхмодуль проекции на синтаксические узлы, во-вторых, модуль отбора свойств,в-третьих, собственно модуль классификатора, и в-четвертых, модуль ILPоптимизации.II.3.2 Модуль проекции на синтаксические узлыПредназначение описываемого модуля состоит в том, чтобы сопоставитьузлы синтаксического дерева с разметкой по семантическим ролям. Посколькуединого стандарта разметки текстов по семантическим ролям не существует,различные ресурсы используют разные конвенции аннотирования аргументов.В частности, английский FrameNet и русский FrameBank используют схемуразметки, при которой границы аргументов задаются отрезками текста, а несинтаксическимиузлами.Этосоздаетопределенныесложностиприопределении того, какие именно узлы синтаксического дерева являютсяпредставителями той или иной семантической роли.

В качестве иллюстрацииданной проблемы рассмотрим следующий пример:63Рисунок 7: Проекция разметки на синтаксические узлыВ данном случае сложность представляет аргумент "Фольксваген Гольфили корейскую машину", который включает в себя пять синтаксических узлов.Для извлечения свойств для классификации нам нужно определить "главный"представительный узел для выбранного отрезка, и далее считывать свойстватолько этого узла.Как правило, для решения этой проблемы используется набор эвристик,основаннных на максимизации пересечения покрытия зависимостного узла саннотацией [Bauer, Fürstenau, Rambow, 2012]. Под покрытием узла понимаетсянабор всех его зависимых, в том числе и непрямых. Тот узел, покрытиекоторогомаксимальнопересекаетсясаннотацией,объявляетсяпредставителем этой аннотации в дереве зависимостей.

Так, приведенныйвыше проблематичный случай мог бы быть разрешен следующим образом.Рассмотрим покрытие для всех узлов, которые расположены в рамках отрезка,обозначенного аннотацией.узелпокрытиеФольксвагенГольф, или, машину, корейскуюГольф-илимашину, корейскуюмашинукорейскуюкорейскую-Таблица 1: Покрытие узлов синтаксического дерева64Покрытие узла Гольф включает в себя только само слово “Гольф”,пересечение с исходной аннотацией составляет 5 из 35 символов или около12%. Покрытие узла или пересекается с аннотацией в 15 из 35 символов.Наконец, узел Фольксваген имеет наибольшее пересечение с исходнойаннотацией, и потому выбирается в качестве ролевого узла для данногопредиката.Врезультатепримененияописаннойвышепроцедурыкаждойсемантической роли ставится в соответствие узел дерева зависимостей.

Послеэтого каждый узел дерева преобразуется в экземпляр: объект, описанный втерминах свойств и наделённый меткой класса. Эти экземпляры используютсядля обучения классификатора.II.3.3 Модуль классификатораПослетогокакузлывходныхсинтаксическихдеревьевбылипреобразованы в экземпляры, описанные в терминах выбранных нами свойств,они поступают на вход классификатора. На этапе обучения классификатор наоснове тренировочных данных строит модель, которая затем используется наэтапе применения классификатора для присвоения меток новым, тестовымэкземплярам. Существует множество методов построения классификационныхмоделей, большая часть из которых более или менее успешно была примененадля автоматической классификации актантов. Так, в работе [Johansson, Nugues,2007] в качестве классификатора используется метод опорных веторов (SVM), a[Ngai и др., 2004] проводит сравнение систем на основе бустинга, методаопорных веторов, нейронных сетей и правил.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.