Диссертация (1137507), страница 2

Файл №1137507 Диссертация (Автоматическая разметка семантических ролей в русском языке) 2 страницаДиссертация (1137507) страница 22019-05-202019-05-20СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Теоретической основой длянаправления послужила теория семантических ролей Ч. Филлмора [Fillmore,1968]. Прикладным основанием экспериментов в этой области можно считатьпостроенные на базе теории Филлмора лексико-грамматические ресурсы: и еёответвления (в первую очередь, модели FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005] и VerbNet [Schuler, 2005]). Теориясемантических ролей описывает ролевые инвентари и задаёт общуюсемантическую модель, на основе которой производится анализ ситуаций.Первые системы автоматической разметки актантов были созданы дляанглийского языка, который на тот момент обладал наиболее обширнымиресурсами и развитой инфраструктурой. Со временем ресурсы стали7создаваться и для других языков, однако английский язык до сих пор сохраняетпервенство в плане качества разрабатываемых систем и их применения вреальныхприложениях.Историческимногиеметодыавтоматическойобработки языка были созданы на базе английского и затем перенесены надругие языки.

В то же время по очевидным причинам прямой перенос методови систем между языками невозможен: каждый язык обладает уникальнымиособенностями,значительнойизачастуюмодификации,дажеиспользуемыепреждечемалгоритмыаналогичныйтребуютанглийскомуинструмент сможет быть использован для других языков. Среди яркихпримеров таких отличий – автоматический анализ морфологии, который дляанглийского языка сводится к определению частей речи и успешновыполняется с помощью простейших моделей, в то время как для языков сбогатой морфологией требуется анализ и снятие неоднозначности насимвольном уровне.

Другой пример – синтаксический анализ, который ванглийском языке в первую очередь опирается на порядок слов и части речи,однако в языках со свободным порядком слов и развитым элилпсисом длярешения этой задачи требуются значительно более сложные и гибкие модели.Было неоднократно продемонстрировано, что системы автоматическойразметки актантов также теряют в качестве при переносе на другой язык[Björkelund, Hafdell, Nugues, 2009]. В дальнейшем для отсылки к этой проблемемы будем использовать понятие языковой специфичности.Другая причина, по которой системы автоматического выделенияглагольных актантов для языков, отличных от английского, отстают отанглийских систем – доступность ресурсов.

Исторически первые системыавтоматической разметки актантов были основаны на правилах [Hirst, 1988].Эти системы сильно отличались от современных, т.к. были ориентированы наанализ текстов из узких предметных областей и оперировали специфичными8наборами семантических ролей, которые зачастую были мотивированыприкладными задачами, а не лингвистической теорией.Большинство современных систем SRL основаны на машинном обучениис учителем: система автоматически обучается выполнять задачу на основеразмеченного корпуса примеров.

Создание такого корпуса – крайнетрудоёмкая задача, и подобные ресурсы существуют лишь для ограниченногочисла языков. Для обозначения комплекса проблем, связанных с недостаткомресурсов, мы будем использовать понятие ресурсозависимости.В последние годы было проведено множество исследований поавтоматической обработке текстов для русского языка. Так, в 2010 году прошлосоревнование морфологических анализаторов [Ляшевская и др., 2010] в 2012 –соревнование синтаксических парсеров [Толдова и др., 2012], в 2014 –соревнование систем разрешения анафоры [Toldova и др., 2014].Несмотря на общую популярность, тема автоматической разметкиактантов почти не исследовалась на русском материале, и одной из причинэтого было отсутствие обучающего и тестового корпуса.

Единственнымподходящим ресурсом для русского языка на сегодняшний день являетсяFrameBank, один из компонентов которого представляет собой корпус снеобходимой для нашей задачи разметкой. Помимо корпуса, ресурс включаетвсебяописаниеконструкцийсразличнымиглаголамиидругуюлексикографическую информацию (подробнее см. [Ляшевская, Кузнецова,2009]). В рамках диссертационного исследования мы разработали системуавтоматической разметки актантов, опираясь на промежуточную версию этогоресурса.

Подобной работы на материале FrameBank ранее не проводилось.Объект нашего исследования – автоматическая разметка актантов дляметодами машинного обучения для русского языка. Цель исследования –разработать и описать систему автоматической разметки актантов и детальноизучить результаты её работы, выяснить вклад различных лингвистических9свойств и других параметров задачи в качество классификации. В качествематериала исследование опирается на корпус примеров FrameBank, а также напостроенные на основе этого корпуса модели.

Автоматическая разметкаактантов для русского языка – одно из наименее развитых направлений вавтоматической обработке текста, что, учитывая большое прикладное значениеэтой задачи, объясняет её актуальность. Научная новизна работы состоит в том,что ранее подобных исследований на русском материале не проводилось.Предложенное исследование – первый опыт применения систем на основемашинного обучения к корпусу примеров FrameBank. Ряд частных решенийтакже применяется к русскому языку впервые, кроме того, это первоеизвестное нам полноценное описание подобной системы, достаточноподробноедляуспешнойреимплементациииусовершенствованияпредложенного метода. Теоретическая значимость исследования состоит воценке вклада различных лингвистических свойств в качество работыклассификатора. Мы предлагаем и подробно анализируем ряд свойств,которые по причинам типологического характера не могут быть использованына английском материале и потому почти не представлены в литературе.Практическая значимость исследования состоит в подробном качественном иколичественном анализе результатов работы системы.

Кроме того, работасодержитдетальноеописаниекомпонентовсистемы,атакжерядрекомендаций по усовершенствованию ресурса, основанных на нашем опыте,которые помогут усвершенствовать ресурс и сделать исследования на егооснове более доступными.Диссертация состоит из введения, четырёх глав, заключения ибиблиографии. В Главе Iзадача автоматической разметки семантическихролей рассматривается в исторической перспективе. Как упоминалось выше,автоматическаяразметкаактантов–однаизнаболеетеоретическивовлеченных задач в автоматической обработке языка, и кажется разумным10подробно остановиться на теоретической стороне задачи, чтобы мотивироватьрешения и ограничения, которые мы принимаем на этапе практическойреализации системы. Также глава содержит обзор и историю развитияподходов к автоматическому выделению семантических ролей, начиная отпервых работ, опубликованных в начале 2000-х годов, и заканчивая наиболеесовременными системами на основе частичного обучения с учителем иобучения без учителя.

Глава II посвящена описанию разработанной системы.Глава III рассказывает в метриках и процедуре оценки качества, а такжесодержит анализ результатов работы системы. Глава IV подводит итоги работыи определяет дальнейшие пути развития автоматической разметки актантов исопутствующих ресурсов применительно к русскому языку на основанииприобретённого нами опыта.11I.

Теория семантических ролей иавтоматическая разметкаактантовI.1 Теоретические основыВтеоретическомопираетсянатеориюотношенииавтоматическаясемантическихролей.обработкаактантовИсторическипонятиесемантической роли в том или ином виде присутствовало в большинствелингвистических теорий, однако несмотря на то, что этот концепт, как правило,интуитивно понятен, и существование семантических ролей не подвергаетсясомнению, до сих пор ведутся споры о том, как именно следует определятьсемантическую роль, каков инвентарь этих ролей, каково место семантическихролей в системе языка и какие функции они выполняют.

Поэтому прежде чемперейти к непосредственно решению задачи автоматической обработкиактантов, кажется уместным ненадолго остановиться на теории семантическихролей, истории её развития и современных направлениях исследований вданной области.12Традиционно первым упоминанием семантических ролей принятосчитать систему падежей kāraka, предложенную Панини для описанияграмматики санскрита [Misra, 1966]. Kāraka определяется как семантическоеотношение между глаголом и зависимым именем, которое обусловливаетморфологическую форму имени. Панини использует 6 падежей-kāraka – агент,объект, инструмент, пункт назначения, источник и локус – которым в санскритесоответствуют падежи – номинатив, аккузатив, инструменталис, датив, аблативи локатив соответственно.

Соотношение между kāraka и морфологическимипадежами не было однозначным, так, например, в конструкции с пассивнымглаголом агент маркируется инструменталисом, однако сохраняет своюагентивную kāraka-роль. Несмотря на очевидное сходство с понятиемглубинного падежа, падежи-kāraka в системе Панини таковыми не являлись ииспользовались скорее как средство описания объективной реальности.Работы Панини не имели большого влияния на западную лингвистическуютрадицию, хотя и были в целом хорошо известны [Malchukov, Spencer, 2012].Понятие семантической роли, которое используется в современнойавтоматической обработке актантов, основывается на работах Ч.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomaticheskaja-razmetka-semanticheskih-rolej-v-russkom-jazyke.rar

Автоматическая разметка семантических ролей в русском языке

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.