Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 2
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Теоретической основой длянаправления послужила теория семантических ролей Ч. Филлмора [Fillmore,1968]. Прикладным основанием экспериментов в этой области можно считатьпостроенные на базе теории Филлмора лексико-грамматические ресурсы: и еёответвления (в первую очередь, модели FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005] и VerbNet [Schuler, 2005]). Теориясемантических ролей описывает ролевые инвентари и задаёт общуюсемантическую модель, на основе которой производится анализ ситуаций.Первые системы автоматической разметки актантов были созданы дляанглийского языка, который на тот момент обладал наиболее обширнымиресурсами и развитой инфраструктурой. Со временем ресурсы стали7создаваться и для других языков, однако английский язык до сих пор сохраняетпервенство в плане качества разрабатываемых систем и их применения вреальныхприложениях.Историческимногиеметодыавтоматическойобработки языка были созданы на базе английского и затем перенесены надругие языки.
В то же время по очевидным причинам прямой перенос методови систем между языками невозможен: каждый язык обладает уникальнымиособенностями,значительнойизачастуюмодификации,дажеиспользуемыепреждечемалгоритмыаналогичныйтребуютанглийскомуинструмент сможет быть использован для других языков. Среди яркихпримеров таких отличий – автоматический анализ морфологии, который дляанглийского языка сводится к определению частей речи и успешновыполняется с помощью простейших моделей, в то время как для языков сбогатой морфологией требуется анализ и снятие неоднозначности насимвольном уровне.
Другой пример – синтаксический анализ, который ванглийском языке в первую очередь опирается на порядок слов и части речи,однако в языках со свободным порядком слов и развитым элилпсисом длярешения этой задачи требуются значительно более сложные и гибкие модели.Было неоднократно продемонстрировано, что системы автоматическойразметки актантов также теряют в качестве при переносе на другой язык[Björkelund, Hafdell, Nugues, 2009]. В дальнейшем для отсылки к этой проблемемы будем использовать понятие языковой специфичности.Другая причина, по которой системы автоматического выделенияглагольных актантов для языков, отличных от английского, отстают отанглийских систем – доступность ресурсов.
Исторически первые системыавтоматической разметки актантов были основаны на правилах [Hirst, 1988].Эти системы сильно отличались от современных, т.к. были ориентированы наанализ текстов из узких предметных областей и оперировали специфичными8наборами семантических ролей, которые зачастую были мотивированыприкладными задачами, а не лингвистической теорией.Большинство современных систем SRL основаны на машинном обучениис учителем: система автоматически обучается выполнять задачу на основеразмеченного корпуса примеров.
Создание такого корпуса – крайнетрудоёмкая задача, и подобные ресурсы существуют лишь для ограниченногочисла языков. Для обозначения комплекса проблем, связанных с недостаткомресурсов, мы будем использовать понятие ресурсозависимости.В последние годы было проведено множество исследований поавтоматической обработке текстов для русского языка. Так, в 2010 году прошлосоревнование морфологических анализаторов [Ляшевская и др., 2010] в 2012 –соревнование синтаксических парсеров [Толдова и др., 2012], в 2014 –соревнование систем разрешения анафоры [Toldova и др., 2014].Несмотря на общую популярность, тема автоматической разметкиактантов почти не исследовалась на русском материале, и одной из причинэтого было отсутствие обучающего и тестового корпуса.
Единственнымподходящим ресурсом для русского языка на сегодняшний день являетсяFrameBank, один из компонентов которого представляет собой корпус снеобходимой для нашей задачи разметкой. Помимо корпуса, ресурс включаетвсебяописаниеконструкцийсразличнымиглаголамиидругуюлексикографическую информацию (подробнее см. [Ляшевская, Кузнецова,2009]). В рамках диссертационного исследования мы разработали системуавтоматической разметки актантов, опираясь на промежуточную версию этогоресурса.
Подобной работы на материале FrameBank ранее не проводилось.Объект нашего исследования – автоматическая разметка актантов дляметодами машинного обучения для русского языка. Цель исследования –разработать и описать систему автоматической разметки актантов и детальноизучить результаты её работы, выяснить вклад различных лингвистических9свойств и других параметров задачи в качество классификации. В качествематериала исследование опирается на корпус примеров FrameBank, а также напостроенные на основе этого корпуса модели.
Автоматическая разметкаактантов для русского языка – одно из наименее развитых направлений вавтоматической обработке текста, что, учитывая большое прикладное значениеэтой задачи, объясняет её актуальность. Научная новизна работы состоит в том,что ранее подобных исследований на русском материале не проводилось.Предложенное исследование – первый опыт применения систем на основемашинного обучения к корпусу примеров FrameBank. Ряд частных решенийтакже применяется к русскому языку впервые, кроме того, это первоеизвестное нам полноценное описание подобной системы, достаточноподробноедляуспешнойреимплементациииусовершенствованияпредложенного метода. Теоретическая значимость исследования состоит воценке вклада различных лингвистических свойств в качество работыклассификатора. Мы предлагаем и подробно анализируем ряд свойств,которые по причинам типологического характера не могут быть использованына английском материале и потому почти не представлены в литературе.Практическая значимость исследования состоит в подробном качественном иколичественном анализе результатов работы системы.
Кроме того, работасодержитдетальноеописаниекомпонентовсистемы,атакжерядрекомендаций по усовершенствованию ресурса, основанных на нашем опыте,которые помогут усвершенствовать ресурс и сделать исследования на егооснове более доступными.Диссертация состоит из введения, четырёх глав, заключения ибиблиографии. В Главе Iзадача автоматической разметки семантическихролей рассматривается в исторической перспективе. Как упоминалось выше,автоматическаяразметкаактантов–однаизнаболеетеоретическивовлеченных задач в автоматической обработке языка, и кажется разумным10подробно остановиться на теоретической стороне задачи, чтобы мотивироватьрешения и ограничения, которые мы принимаем на этапе практическойреализации системы. Также глава содержит обзор и историю развитияподходов к автоматическому выделению семантических ролей, начиная отпервых работ, опубликованных в начале 2000-х годов, и заканчивая наиболеесовременными системами на основе частичного обучения с учителем иобучения без учителя.
Глава II посвящена описанию разработанной системы.Глава III рассказывает в метриках и процедуре оценки качества, а такжесодержит анализ результатов работы системы. Глава IV подводит итоги работыи определяет дальнейшие пути развития автоматической разметки актантов исопутствующих ресурсов применительно к русскому языку на основанииприобретённого нами опыта.11I.
Теория семантических ролей иавтоматическая разметкаактантовI.1 Теоретические основыВтеоретическомопираетсянатеориюотношенииавтоматическаясемантическихролей.обработкаактантовИсторическипонятиесемантической роли в том или ином виде присутствовало в большинствелингвистических теорий, однако несмотря на то, что этот концепт, как правило,интуитивно понятен, и существование семантических ролей не подвергаетсясомнению, до сих пор ведутся споры о том, как именно следует определятьсемантическую роль, каков инвентарь этих ролей, каково место семантическихролей в системе языка и какие функции они выполняют.
Поэтому прежде чемперейти к непосредственно решению задачи автоматической обработкиактантов, кажется уместным ненадолго остановиться на теории семантическихролей, истории её развития и современных направлениях исследований вданной области.12Традиционно первым упоминанием семантических ролей принятосчитать систему падежей kāraka, предложенную Панини для описанияграмматики санскрита [Misra, 1966]. Kāraka определяется как семантическоеотношение между глаголом и зависимым именем, которое обусловливаетморфологическую форму имени. Панини использует 6 падежей-kāraka – агент,объект, инструмент, пункт назначения, источник и локус – которым в санскритесоответствуют падежи – номинатив, аккузатив, инструменталис, датив, аблативи локатив соответственно.
Соотношение между kāraka и морфологическимипадежами не было однозначным, так, например, в конструкции с пассивнымглаголом агент маркируется инструменталисом, однако сохраняет своюагентивную kāraka-роль. Несмотря на очевидное сходство с понятиемглубинного падежа, падежи-kāraka в системе Панини таковыми не являлись ииспользовались скорее как средство описания объективной реальности.Работы Панини не имели большого влияния на западную лингвистическуютрадицию, хотя и были в целом хорошо известны [Malchukov, Spencer, 2012].Понятие семантической роли, которое используется в современнойавтоматической обработке актантов, основывается на работах Ч.