Диссертация (1100480), страница 6

Файл №1100480 Диссертация (Автоматическая разметка семантических ролей в русском языке) 6 страницаДиссертация (1100480) страница 62019-03-132019-03-13СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 6)

В 2007 и 2008году были проведены соревнования CoNLL 2007 и 2008, посвящённые задачеавтоматическогосинтаксическогоисемантическогоанализакакдляанглийского, так и других языков. На нескольких работах, представленных наэтих соревнованиях, мы хотели бы остановиться подробнее.Исследование, описанное в работе Х. Льюис и Л. Маркес [Lluís, Màrquez,2008] развивает идею, предложенную в [Haghighi, Toutanova, Manning, 2008].32Авторы предлагают систему, которая на основе тренировочных данныхобучается одновременно выполнять синтаксический парсинг и автоматическуюразметку актантов. Система состоит из пяти компонентов: предобработка,предварительныйсинтаксическийанализ,идентификацияпредиката,финальный синтаксический и семантический парсинг и постобработка.

На этапепредобработки из корпусных данных извлекаются стандартные для задачсинтаксического анализа свойства. На этапе предварительного синтаксическогоанализа к данным применяется парсер с целью снабдить компонентклассификации актантов синтаксическими свойствами. Затем в предложениях спомощью бинарного SVM-классификатора и набора эвристик выделяютсяцелевые предикаты. После этого к данным снова применяется парсер, но наэтот раз обученный с использованием комбинированных синтактикосемантических меток. В результате работы этого парсера для каждогопредложения строится два дерева: синтаксическое и семантическое. Затем, наэтапе постобработки, предикату приписывается значение, при котором ролиоказываются максимально заполнены (своего рода снятие лексическойнеоднозначности, но выполненное не в начале анализа, а в конце). Системапоказала конкурентоспособные результаты по автоматической классификацииактантов при стабильных результатах синтаксического анализа, однако авторыотмечают ухудшение качества при анализе именных предикатов.Другая работа, о которой мы хотели бы рассказать в рамках нашегообзора – исследование Р.

Йоханссон и П. Нюг [Johansson, Nugues, 2007],которые одними из первых стали использовать синтаксис зависимостей дляавтоматическойразметкиактантов,доказалисостоятельностьипродемонстрировали удобство этого подхода на примере работы с данными изкорпуса FrameNet. Это одна из классических и наиболее цитируемыхсовременных публикаций по автоматической разметке и классификацииактантов.

Авторы опираются на теоретический аппарат теории связывания33[Mel’čuk, 1988] и определяют задачу автоматической разметки актантов какзадачу моделирования семантико-синтаксического интерфейса предиката. Длясинтаксического анализа исходных предложений авторы обучили модель дляпарсера MaltParser [Nivre, Hall, Nilsson, 2006] на конвертированном в форматдеревьев зависимостей корпусе Penn Treebank [Marcus, Santorini, Marcinkiewicz,1993]. Далее они применили обученную модель к корпусу примеров FrameNet,в котором, в отличие от PropBank, отсутствует синтаксическая разметка. Спомощью набора эвристик основанная на отрезках текста разметка быласпроецирована на узлы деревьев зависимостей.

Для снятия неоднозначностина уровне предикатов авторы использовали набор эвристик и классификатор наоснове SVM, в результате чего каждому предикату из тестового корпусаприписывалось значение из FrameNet. После того как значение предикатаопределено, выполняется обнаружение и классификация актантов. В обоихслучаях авторы используют классификатор на основе метода опорных векторовсо стандартным набором свойств (отметим, что синтаксические свойства теперьизвлекаютсяиздеревьевзависимостей,анесоставляющих).Ролиприписываются актантам независимо, т.е. глобальной оптимизации непроизводится. Эта работа была предложена в рамках соревнования SemEval2007, посвящённого автоматической классификации актантов на основе данныхFrameNet, и продемонстрировала результаты, сопоставимые с системами наоснове синтаксиса непосредственных составляющих.

Авторы обращаютвнимание на ряд трудностей, связанных со свойством "путь" и нанетривиальность соответствий между синтаксическим и семантическимпредставлениями текста.34I.4 Современные системыСовременныесистемыавтоматическойклассификацииактантовопираются на более сложные методы, в которых информация о структурезадачииособенностяхсемантическогопредставлениякодируетсянепосредственно в модели. В качестве примера такой системы можнопривести систему SEMAFOR [Das и др., 2010]. Все рассмотренные нами ранеесистемыпредставляютсобойпоследовательностьнезависимыхклассификаторов: процесс обработки состоит из нескольких этапов, которые взависимости от конкретной конфигурации могут включать в себя поискцелевого предиката, определение значения предиката (при использованииPropBank) или фрейма (при использовании FrameNet), а также обнаружение иклассификациюактантов.Одинизнедостатковтакогоподхода—невозможность использовать информацию о присвоении ролей на этапеидентификации актантов.

В системе SEMAFOR идентификация и классификацияактантов выполняются одновременно. Система SEMAFOR получает на входрезультаты предобработки исходных данных морфологическим анализатором,модулем снятия неоднозначности на основе WordNet [Fellbaum, 1998] ипарсером деревьев зависимостей MST [McDonald, Lerman, Pereira, 2006]. Далеена основе извлечённых свойств происходит обучение двух классификаторов:одного для определения фрейма, и одного – для идентификации иклассификации актантов. Обнаружение и классификация актантов, в отличие отболее ранних работ, выполняются одновременно.

Авторам удалось превзойтипо качеству предыдущие разработки для классификации актантов на основеFrameNet. Система SEMAFOR до сих пор совершенствуется, подробный отчёт оработе системы, а также обзор конкурирующих подходов можно найти вработе [Das, 2010].35В рамках данного обзора мы рассматривали преимущественно системы,разработанные для английского языка.

Как мы уже ранее упоминали, насегодняшний день английский язык действительно наиболее разработан врелевантном для SRL отношении: доступно множество ресурсов дляпредобработки, а также корпуса, размеченные по семантическим ролям ипредикатам. Для других языков, при наличии обучающих данных, используютсяподходысхожиесописаннымивыше,акачествоавтоматическойклассификации актантов, как правило, оказывается сопоставимым илинесколько ниже, чем для английского языка. Основная сложность приразработке подобных систем состоит в зависимости от аннотированногоресурса: разметка по семантическим ролям – крайне трудозатратный и плохоформализуемый процесс, и даже наличие подобного корпуса для того илииного языка не гарантирует качественной работы обученных систем на новыхданных.Этапроблемаобычноизвестнакакпроблемадоменнойспецифичности SRL.Длярешенияпроблемыдоменнойспецифичностивобластиавтоматической разметки семантических ролей в последние годы былопредложено несколько подходов, которые позволяют уменьшить объёмтренировочных данных, требуемый для обучения системы, или вовсеизбавиться от необходимости в таких данных за счёт использования методовобучения без учителя.Так, Х.

Фюстенау и М. Лапата в работе [Furstenau, Lapata, 2011]предлагаюттехникусинтаксическихпроекцииграфовнааннотацийосновеспомощьюцелочисленноговыравниваниялинейногопрограммирования. Общий принцип работы их системы состоит в следующем:корпус примеров FrameNet (исходный корпус) и некоторый другой большой, ноне размеченный целевой корпус анализируются с помощью синтаксическогопарсера. Затем для каждого предложения из корпуса FrameNet в целевом36корпусе находится предложение-кандидат на проекцию. Эта операция можетбыть выполнена на основе леммы предиката или с использованием болеесложногомеханизмаснятиялексическойнеоднозначности.Далеесинтаксические деревья исходного и целевого предложений фильтруются спомощьюэвристикиподвергаютсявыравниваниюнаоснованиисинтаксического и лексического сходства между узлами.

Выравниваниепроизводится с помощью целочисленного линейного программирования иимеет своей целью максимизировать сходство между графами. Поле того каквыравнивание выполнено, семантическая разметка из исходного графатривиальнымобразомпереноситсянацелевойграф.Полученныйрасширенный набор данных (FrameNet плюс целевой корпус, обогащённыйролями) может использоваться для обучения системы.В качестве примера системы обучения без учителя хотелось быупонямуть решение, выполненное на основе графовой кластеризации, котороебыло предложено в работе [Lang, Lapata, 2011]. Авторы предлагают обработатьисходный корпус, не содержащий семантической разметки, синтаксическиманализатором и расположить все актанты для каждого предиката на графе.Узлами графа будут являться употребления актантов в тексте, а рёбрами –отношения сходства между актантами, которые вычисляются на основелексического и синтаксического сходства.

К построенному таким образом графупрменяется алгоритм непараметрической графовой кластеризации ChineseWhispers [Biemann, 2006a], в результате работы которого граф оказываетсяразбит на группы сходных между собой узлов-актантов, которые и объявляютсясемантическими ролями для данного предиката.Успех применения данного метода, как и многих других методовобучения без учителя применительно к высокоуровневым задачам, сильнозависит от качества предобработки корпуса и от моделей лексическогосходства.

В качестве альтернативного примера формулировки автоматической37разметки актантов как задачи непараметрической кластеризации можноупомянуть успешную работу [Titov, Klementiev, 2012], в которой для решенияиспользовалась байесовская сеть со скрытыми переменными.Как уже упоминалось, автоматическая разметка актантов – ресурсоёмкаязадача, для решения которой требуется качественная предварительнаяобработка текстов и большие объёмы аннотированных данных. Несмотря на то,что наша система принадлежит к классическим системам обучения с учителем,кажется важным отметить потенциал современных методов, которыенаправленынауменьшениезависимостиSRLкакпредобработки, так и от объёмов тренировочных корпусов.38отрезультатовI.5 Автоматическая разметка актантов и русскийязыкНа сегодняшний день практически не имеется публикаций, посвященныхрешению задачи автоматической классификации актантов на русскомматериале.Единственная известная нам реализация данной задачи на основемашинного обучения [Смирнов, Shelmanov, 2014] скорее относится к методамчастичного обучения с учителем.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.