Диссертация (1137507), страница 4

Файл №1137507 Диссертация (Автоматическая разметка семантических ролей в русском языке) 4 страницаДиссертация (1137507) страница 42019-05-202019-05-20СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

им.п.сущ. в.п.из сущ. р.пПример 7: Толкование и модель управленияОбратим внимание, что заполнение всех семантических валентностейтребуется не всегда: так, например, одна из моделей управления глагола"курить", представленных выше, допускает опущение третьего участника.Модель управления – компактный и удобный способ кодированиясоответствия между семантическими и синтаксическими валентностямипредиката. В рамках этого формализма не все синтаксические валентностидолжны быть связаны с семантическими валентностями: в случае, когда этотак, единица, заполняющая синтаксическую и семантическую валентность,называется актантом выбранного предиката.

В случаях, когда это не так, т.е.выбранной единице не соответствует никакая из семантических валентностей,она объявляется сирконстантом. Так, например, в предложении "Петя куриттрубку на улице" "Петя" и "Трубка" являются актантами, т.к. входят втолкование лексемы "курить", "на улице" же, хотя и синтаксически зависит отпредиката, является сирконстантом.Несмотря на то, что формализм моделей управления в теоретическомотношении отличается от формализма семантических ролей, мы можемзаметить их функциональное и описательное сходство. Актанты кодируются втолкованияхуникальнымипредикатно-специфическимибуквеннымиобозначениями, которые сохраняют своё значение при трансформациях, что21делаетихфункциональноэквивалентнымисемантическимролямвпредикатно-специфическом смысле.

Как и в случае с семантическими ролями,соблюдается ограничение на единственность заполнения актанта, а самипеременные-валентности атомарны и неделимы.Именно формализм МСШ использовался при разметке корпуса примеровFrameBank [Lyashevskaya, Kashkin, 2015] – единственного доступного насегодняшний день корпусного ресурса с разметкой, подходящей для обучениясистем автоматической классификации актантов в русском языке. Исходя изтого, что понятие актанта в МСШ и понятие предикатно-специфичнойсемантической роли в ресурсах типа PropBank функционально эквивалентны,мы ставим перед собой задачу автоматической разметки актантов – илиавтоматической разметки семантических ролей, и в дальнейшем используемдва этих понятия как взаимозаменяемые, хотя с теоретической точки зренияэто не совсем соответствует действительности.

При разработке системыавтоматческойразметкиактантовмыопираемсянахарактеристикисемантических ролей, которые традиционно используются в semantic rolelabeling, и моделируем синтаксическое оформление актантов, ограничения налексическое заполнение валентностей, устойчивость к трансформациям иограничение на единственность заполнения роли.Следует отметить, что для FrameBank также разрабатывается иерархиясемантических ролей, что позволит в дальнейшем использовать этот ресурс дляработы с более абстрактными ролями.В данной работе, однако, мысосредоточили внимание на предикатно-специфических ролях.Прежде чем перейти к описанию прикладного аспекта исследования,кажетсяважным остановитьвниманиенаещёодномтеоретическиперспективном направлении в выбранной нами области.Как уже упоминалось выше, абсолютное большинство современныхсистем semantic role labeling опираются на корпуса, созданные на основе22категориальных теорий семантических ролей.

В категориальных теорияхпостулируются жёсткие границы между семантическими ролями и ролиобъявляются неделимыми, что влечёт за собой массу сложностей, связанных сопределением инвентаря и растущей гранулярностью ролей. В то же времякатегориальность не является обязательным условием, и один из наиболееперспективных на сегодняшний день теоретических подходов к описаниюсемантических ролей отказывается от этого свойства. Так, Д.

Даути [Dowty,1991] предлагает вместо опоры на жесткие категории использовать дляописания семантических ролей ряд признаков, принадлежащих к прото-ролямПрото-Агенса и Прото-Пациенса. Прото-Агенс (1) волитивно вовлечён всобытие, (2) сознателен/воспринимает событие, (3) инициирует событие, (4)движется и (5) существует независимо от события.

Прото-Пациенс, в своюочередь, (1) претерпевает изменение, (2) подвергается каузации, (3)неподвижен по отношению к другому участнику события, (4) являетсяинкрементальной темой и (5) не существует независимо от события. Даути всвоей работе подчёркивает, что прото-роли не реализуются в действительностии являются лишь прототипами, на основании свойств которых различаютсяроли конкретных предикатов. Подобный подход позволяет решить проблемуфрагментированности пространства семантических ролей, при этом неуменьшая способности теории к генерализации.На сегодняшний день существует только одна инициатива по разметкекорпуса с использованием ролевых свойств вместо категориальных ролей[Reisinger, Rawlins, Durme, 2015] и обучению систем автоматчиеской разметкиактантов на основе этих данных. Данная тема представляет большой интерес, имы рассчитываем увидеть работы, посвящённые этому вопросу, в ближайшембудущем.

Следует отметить, что автоматическое распознавание признаковможет оказаться более сложной задачей, чем автоматическая разметкаактантов, и что интеграция результатов работы подобной системы в конечные23приложения – отдельная прикладная задача. Данный пример хорошоиллюстрирует неизбежное отставание прикладных методов, основанных наразмеченных вручную массивах данных, от прогресса в теоретическойлингвистике, и демонстрирует важность теоретических исследований дляавтоматической разметки актантов и для прикладной лингвистики в целом.24I.2 Задача и мотивацияПоследнее десятилетие характеризуется ростом внимания к концепциисемантических ролей в контексте автоматической обработки естественногоязыка. Основное направление исследований в этой области — автоматическаяклассификация актантов (semantic role labeling).

Задача автоматическойклассификации актантов определяется следующим образом. Предположим,что нам надо предложение на естественном языке, и в этом предложениивыбран целевой предикат (например, глагол). Требуется найти в предложенииактанты этого предиката и присвоить этим актантам семантические роли[Gildea, Jurafsky, 2000].Тема автоматической классификации актантов достаточно популярна всовременной компьютерной лингвистике: ежегодно появляется множестворабот,посвящённыхэтомувопросу,регулярнопроводятсякрупныесоревнования систем (например, Senseval-3 в 2004-м году [Litkowski, 2004],CoNLL в 2005, 2008 и 2009-м [Carreras, Marquez, 2005; Hajič и др., 2009; Surdeanuи др., 2008]).

Для английского языка уже достигнуты приемлемые результаты,которые позволяют использовать технологию в промышленных системах[Björkelund, Hafdell, Nugues, 2009; Das и др., 2010]Одна из причин популярности semantic role labeling, по всей видимости,состоит в том, что аппарат семантических ролей позволяет создать уровеньсемантической интерпретации, достаточный для решения многих прикладныхзадач. Так, автоматическая разметка актантов зачастую позволяет ответить наклассический набор вопросов "кто", "что", "где", "когда", "почему", чтооказывается полезным при разработке вопросно-ответных систем [Shen,Lapata, 2007], систем извлечения информации, в частности извлечения фактов[Christensen, Soderland, Etzioni, 2010] и других приложениий.

Представление на25основе семантических ролей успешно применяется для снятия омонимии, прирешении задач машинного перевода [Liu, Gildea, 2010] и может бытьиспользовано почти в любой задаче по автоматической обработке языка, гдетребуется семантический анализ.Можнокомпромиссрассматриватьмеждуавтоматическуюкачествоманализаиразметкуактантовценностьюкакрезультатов:синтаксический анализ не предоставляет семантической информации в явномвиде, а глубинный семантический анализ с использованием логики и баззнаний слишком сложен и на сегодняшний день полностью не реализован.Автоматическаяразметкаактантовпозволяетполучитьповерхностныйсемантический анализ предложения с приемлемым качеством.Автоматическаяразметкаактантовкакзадачаприобреласвойсовременный вид в начале 2000-х годов.

Ранние системы, выполнявшиеаналогичные функции, основывались на правилах и шаблонах. Основнойпроблемой систем на основе правилового подхода была узкая специализацияи высокие затраты на разработку, т.к. правила составлялись вручную длянебольших групп предикатов в рамках узких тематических областей(существуют и современные системы, основанных на правилах, см. например,[Anisimovich и др., 2012]).На сегодняшний день большинство систем автоматической разметкиактантов основывается на машинном обучении, что позволяет избежатьвышеупомянутых проблем правилового подхода – в первую очередь, здесьимеется в виду зависимость от языка, сложность адаптации и высокиетрудозатраты на разработку.

Системы машинного обучения приписываютэкземплярам, описанным в терминах свойств (features), метку целевогокласса. Задача машинного обучения – на основании трерировочного набораэкземпляров, для которых значение класса известно, построить решающуюфункцию, которая будет приписывать метку класса новым экземплярам.26Поскольку для машинного обучения необходимы размеченные вручнуюданные, создание подобных систем стало возможным лишь после того, какпоявились наборы обучающих данных FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005], NomBank [Meyers, 2007] и другие.Одной из первых публикаций, посвящённых автоматической обработкеактантов в её современном виде, стала статья Д.

Журафски и Д. Гилдеа [Gildea,Jurafsky, 2000]. Эта работа во многом определила путь, по которому сталоразвиваться рассматриваемое направление. Автоматическая разметка актантовбыла сформулирована как задача классификации, в которой отрезкамисходного предложения требуется приписать семантические метки или роли.Работа была выполнена для английского языка на основе корпуса FrameNet идеревьевнепосредственныхсоставляющих.Авторыразделилизадачуавтоматической разметки актантов на два этапа: определение актантов, т. е.синтаксических групп, которые так или иначе относятся в выбранномупредикату, и классификацию актантов, при которой выбранным группамприписываются роли.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomaticheskaja-razmetka-semanticheskih-rolej-v-russkom-jazyke.rar

Автоматическая разметка семантических ролей в русском языке

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.