Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 2
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
В ходе процедуры синтаксического разборапредложения слова объединяются в синтаксические группы (в случае анализа втерминах непосредственных составляющих) или между ними устанавливаютсясинтаксические связи (в случае, если парсер опирается на формализм деревьевзависимостей). Несмотря на наличие определенных корреляций междусемантическими ролями и синтаксическим оформлением участников ситуации,эти явления не эквивалентны и относятся к разным уровням языковой модели.Синтаксический анализ – строгая процедура, которая опирается на грамматикуязыка и в большинстве случаев подразумевает единственный правильныйрезультат анализа. Автоматическая разметка актантов — гораздо болеесубъективная задача, в которой большую роль играет интерпретация ситуациичеловеком.6В то же время следует понимать, что автоматическая разметка актантов –это не полный семантический анализ, т.к.
работа всегда производится науровне предложения, и системы не используют правил логического вывода.Результат автоматической разметки актантов — не полное семантическоепредставление исходного предложения, а в большей степени поверхностныйрефлекс этого семантического представления, который, несмотря на своюнеполноту, оказывается полезен при решении ряда прикладных задач.Важность выбранной нами темы связана в первую очередь с тем, что анализтекста в терминах семантических ролей позволяет сравнительно небольшимиусилиями получить дополнительный уровень абстракции, описывающийсемантику текста.
Информация о семантических ролях может быть затемиспользована для извлечения фактов [Christensen, Soderland, Etzioni, 2010],машинного перевода [Liu, Gildea, 2010], в вопросно-ответных системах [Shen,Lapata, 2007], а также, потенциально, в любой системе автоматическойобработки языка, которая так или иначе опирается на семантическуюинформацию.Автоматическая разметка актантов в современном понимании возникла вначале 2000х годов [Gildea, Jurafsky, 2000]. Теоретической основой длянаправления послужила теория семантических ролей Ч.
Филлмора [Fillmore,1968]. Прикладным основанием экспериментов в этой области можно считатьпостроенные на базе теории Филлмора лексико-грамматические ресурсы: и еёответвления (в первую очередь, модели FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005] и VerbNet [Schuler, 2005]). Теориясемантических ролей описывает ролевые инвентари и задаёт общуюсемантическую модель, на основе которой производится анализ ситуаций.Первые системы автоматической разметки актантов были созданы дляанглийского языка, который на тот момент обладал наиболее обширнымиресурсами и развитой инфраструктурой. Со временем ресурсы стали7создаваться и для других языков, однако английский язык до сих пор сохраняетпервенство в плане качества разрабатываемых систем и их применения вреальныхприложениях.Историческимногиеметодыавтоматическойобработки языка были созданы на базе английского и затем перенесены надругие языки.
В то же время по очевидным причинам прямой перенос методови систем между языками невозможен: каждый язык обладает уникальнымиособенностями,значительнойизачастуюмодификации,дажеиспользуемыепреждечемалгоритмыаналогичныйтребуютанглийскомуинструмент сможет быть использован для других языков. Среди яркихпримеров таких отличий – автоматический анализ морфологии, который дляанглийского языка сводится к определению частей речи и успешновыполняется с помощью простейших моделей, в то время как для языков сбогатой морфологией требуется анализ и снятие неоднозначности насимвольном уровне. Другой пример – синтаксический анализ, который ванглийском языке в первую очередь опирается на порядок слов и части речи,однако в языках со свободным порядком слов и развитым элилпсисом длярешения этой задачи требуются значительно более сложные и гибкие модели.Было неоднократно продемонстрировано, что системы автоматическойразметки актантов также теряют в качестве при переносе на другой язык[Björkelund, Hafdell, Nugues, 2009].
В дальнейшем для отсылки к этой проблемемы будем использовать понятие языковой специфичности.Другая причина, по которой системы автоматического выделенияглагольных актантов для языков, отличных от английского, отстают отанглийских систем – доступность ресурсов. Исторически первые системыавтоматической разметки актантов были основаны на правилах [Hirst, 1988].Эти системы сильно отличались от современных, т.к. были ориентированы наанализ текстов из узких предметных областей и оперировали специфичными8наборами семантических ролей, которые зачастую были мотивированыприкладными задачами, а не лингвистической теорией.Большинство современных систем SRL основаны на машинном обучениис учителем: система автоматически обучается выполнять задачу на основеразмеченного корпуса примеров.
Создание такого корпуса – крайнетрудоёмкая задача, и подобные ресурсы существуют лишь для ограниченногочисла языков. Для обозначения комплекса проблем, связанных с недостаткомресурсов, мы будем использовать понятие ресурсозависимости.В последние годы было проведено множество исследований поавтоматической обработке текстов для русского языка. Так, в 2010 году прошлосоревнование морфологических анализаторов [Ляшевская и др., 2010] в 2012 –соревнование синтаксических парсеров [Толдова и др., 2012], в 2014 –соревнование систем разрешения анафоры [Toldova и др., 2014].Несмотря на общую популярность, тема автоматической разметкиактантов почти не исследовалась на русском материале, и одной из причинэтого было отсутствие обучающего и тестового корпуса. Единственнымподходящим ресурсом для русского языка на сегодняшний день являетсяFrameBank, один из компонентов которого представляет собой корпус снеобходимой для нашей задачи разметкой.
Помимо корпуса, ресурс включаетвсебяописаниеконструкцийсразличнымиглаголамиидругуюлексикографическую информацию (подробнее см. [Ляшевская, Кузнецова,2009]). В рамках диссертационного исследования мы разработали системуавтоматической разметки актантов, опираясь на промежуточную версию этогоресурса. Подобной работы на материале FrameBank ранее не проводилось.Объект нашего исследования – автоматическая разметка актантов дляметодами машинного обучения для русского языка.
Цель исследования –разработать и описать систему автоматической разметки актантов и детальноизучить результаты её работы, выяснить вклад различных лингвистических9свойств и других параметров задачи в качество классификации. В качествематериала исследование опирается на корпус примеров FrameBank, а также напостроенные на основе этого корпуса модели. Автоматическая разметкаактантов для русского языка – одно из наименее развитых направлений вавтоматической обработке текста, что, учитывая большое прикладное значениеэтой задачи, объясняет её актуальность.
Научная новизна работы состоит в том,что ранее подобных исследований на русском материале не проводилось.Предложенное исследование – первый опыт применения систем на основемашинного обучения к корпусу примеров FrameBank. Ряд частных решенийтакже применяется к русскому языку впервые, кроме того, это первоеизвестное нам полноценное описание подобной системы, достаточноподробноедляуспешнойреимплементациииусовершенствованияпредложенного метода. Теоретическая значимость исследования состоит воценке вклада различных лингвистических свойств в качество работыклассификатора. Мы предлагаем и подробно анализируем ряд свойств,которые по причинам типологического характера не могут быть использованына английском материале и потому почти не представлены в литературе.Практическая значимость исследования состоит в подробном качественном иколичественном анализе результатов работы системы.
Кроме того, работасодержитдетальноеописаниекомпонентовсистемы,атакжерядрекомендаций по усовершенствованию ресурса, основанных на нашем опыте,которые помогут усвершенствовать ресурс и сделать исследования на егооснове более доступными.Диссертация состоит из введения, четырёх глав, заключения ибиблиографии. В Главе Iзадача автоматической разметки семантическихролей рассматривается в исторической перспективе.
Как упоминалось выше,автоматическаяразметкаактантов–однаизнаболеетеоретическивовлеченных задач в автоматической обработке языка, и кажется разумным10подробно остановиться на теоретической стороне задачи, чтобы мотивироватьрешения и ограничения, которые мы принимаем на этапе практическойреализации системы. Также глава содержит обзор и историю развитияподходов к автоматическому выделению семантических ролей, начиная отпервых работ, опубликованных в начале 2000-х годов, и заканчивая наиболеесовременными системами на основе частичного обучения с учителем иобучения без учителя.
Глава II посвящена описанию разработанной системы.Глава III рассказывает в метриках и процедуре оценки качества, а такжесодержит анализ результатов работы системы. Глава IV подводит итоги работыи определяет дальнейшие пути развития автоматической разметки актантов исопутствующих ресурсов применительно к русскому языку на основанииприобретённого нами опыта.11I.
Теория семантических ролей иавтоматическая разметкаактантовI.1 Теоретические основыВтеоретическомопираетсянатеориюотношенииавтоматическаясемантическихролей.обработкаактантовИсторическипонятиесемантической роли в том или ином виде присутствовало в большинствелингвистических теорий, однако несмотря на то, что этот концепт, как правило,интуитивно понятен, и существование семантических ролей не подвергаетсясомнению, до сих пор ведутся споры о том, как именно следует определятьсемантическую роль, каков инвентарь этих ролей, каково место семантическихролей в системе языка и какие функции они выполняют. Поэтому прежде чемперейти к непосредственно решению задачи автоматической обработкиактантов, кажется уместным ненадолго остановиться на теории семантическихролей, истории её развития и современных направлениях исследований вданной области.12Традиционно первым упоминанием семантических ролей принятосчитать систему падежей kāraka, предложенную Панини для описанияграмматики санскрита [Misra, 1966].