Диссертация (1137507), страница 4
Текст из файла (страница 4)
им.п.сущ. в.п.из сущ. р.пПример 7: Толкование и модель управленияОбратим внимание, что заполнение всех семантических валентностейтребуется не всегда: так, например, одна из моделей управления глагола"курить", представленных выше, допускает опущение третьего участника.Модель управления – компактный и удобный способ кодированиясоответствия между семантическими и синтаксическими валентностямипредиката. В рамках этого формализма не все синтаксические валентностидолжны быть связаны с семантическими валентностями: в случае, когда этотак, единица, заполняющая синтаксическую и семантическую валентность,называется актантом выбранного предиката.
В случаях, когда это не так, т.е.выбранной единице не соответствует никакая из семантических валентностей,она объявляется сирконстантом. Так, например, в предложении "Петя куриттрубку на улице" "Петя" и "Трубка" являются актантами, т.к. входят втолкование лексемы "курить", "на улице" же, хотя и синтаксически зависит отпредиката, является сирконстантом.Несмотря на то, что формализм моделей управления в теоретическомотношении отличается от формализма семантических ролей, мы можемзаметить их функциональное и описательное сходство. Актанты кодируются втолкованияхуникальнымипредикатно-специфическимибуквеннымиобозначениями, которые сохраняют своё значение при трансформациях, что21делаетихфункциональноэквивалентнымисемантическимролямвпредикатно-специфическом смысле.
Как и в случае с семантическими ролями,соблюдается ограничение на единственность заполнения актанта, а самипеременные-валентности атомарны и неделимы.Именно формализм МСШ использовался при разметке корпуса примеровFrameBank [Lyashevskaya, Kashkin, 2015] – единственного доступного насегодняшний день корпусного ресурса с разметкой, подходящей для обучениясистем автоматической классификации актантов в русском языке. Исходя изтого, что понятие актанта в МСШ и понятие предикатно-специфичнойсемантической роли в ресурсах типа PropBank функционально эквивалентны,мы ставим перед собой задачу автоматической разметки актантов – илиавтоматической разметки семантических ролей, и в дальнейшем используемдва этих понятия как взаимозаменяемые, хотя с теоретической точки зренияэто не совсем соответствует действительности.
При разработке системыавтоматческойразметкиактантовмыопираемсянахарактеристикисемантических ролей, которые традиционно используются в semantic rolelabeling, и моделируем синтаксическое оформление актантов, ограничения налексическое заполнение валентностей, устойчивость к трансформациям иограничение на единственность заполнения роли.Следует отметить, что для FrameBank также разрабатывается иерархиясемантических ролей, что позволит в дальнейшем использовать этот ресурс дляработы с более абстрактными ролями.В данной работе, однако, мысосредоточили внимание на предикатно-специфических ролях.Прежде чем перейти к описанию прикладного аспекта исследования,кажетсяважным остановитьвниманиенаещёодномтеоретическиперспективном направлении в выбранной нами области.Как уже упоминалось выше, абсолютное большинство современныхсистем semantic role labeling опираются на корпуса, созданные на основе22категориальных теорий семантических ролей.
В категориальных теорияхпостулируются жёсткие границы между семантическими ролями и ролиобъявляются неделимыми, что влечёт за собой массу сложностей, связанных сопределением инвентаря и растущей гранулярностью ролей. В то же времякатегориальность не является обязательным условием, и один из наиболееперспективных на сегодняшний день теоретических подходов к описаниюсемантических ролей отказывается от этого свойства. Так, Д.
Даути [Dowty,1991] предлагает вместо опоры на жесткие категории использовать дляописания семантических ролей ряд признаков, принадлежащих к прото-ролямПрото-Агенса и Прото-Пациенса. Прото-Агенс (1) волитивно вовлечён всобытие, (2) сознателен/воспринимает событие, (3) инициирует событие, (4)движется и (5) существует независимо от события.
Прото-Пациенс, в своюочередь, (1) претерпевает изменение, (2) подвергается каузации, (3)неподвижен по отношению к другому участнику события, (4) являетсяинкрементальной темой и (5) не существует независимо от события. Даути всвоей работе подчёркивает, что прото-роли не реализуются в действительностии являются лишь прототипами, на основании свойств которых различаютсяроли конкретных предикатов. Подобный подход позволяет решить проблемуфрагментированности пространства семантических ролей, при этом неуменьшая способности теории к генерализации.На сегодняшний день существует только одна инициатива по разметкекорпуса с использованием ролевых свойств вместо категориальных ролей[Reisinger, Rawlins, Durme, 2015] и обучению систем автоматчиеской разметкиактантов на основе этих данных. Данная тема представляет большой интерес, имы рассчитываем увидеть работы, посвящённые этому вопросу, в ближайшембудущем.
Следует отметить, что автоматическое распознавание признаковможет оказаться более сложной задачей, чем автоматическая разметкаактантов, и что интеграция результатов работы подобной системы в конечные23приложения – отдельная прикладная задача. Данный пример хорошоиллюстрирует неизбежное отставание прикладных методов, основанных наразмеченных вручную массивах данных, от прогресса в теоретическойлингвистике, и демонстрирует важность теоретических исследований дляавтоматической разметки актантов и для прикладной лингвистики в целом.24I.2 Задача и мотивацияПоследнее десятилетие характеризуется ростом внимания к концепциисемантических ролей в контексте автоматической обработки естественногоязыка. Основное направление исследований в этой области — автоматическаяклассификация актантов (semantic role labeling).
Задача автоматическойклассификации актантов определяется следующим образом. Предположим,что нам надо предложение на естественном языке, и в этом предложениивыбран целевой предикат (например, глагол). Требуется найти в предложенииактанты этого предиката и присвоить этим актантам семантические роли[Gildea, Jurafsky, 2000].Тема автоматической классификации актантов достаточно популярна всовременной компьютерной лингвистике: ежегодно появляется множестворабот,посвящённыхэтомувопросу,регулярнопроводятсякрупныесоревнования систем (например, Senseval-3 в 2004-м году [Litkowski, 2004],CoNLL в 2005, 2008 и 2009-м [Carreras, Marquez, 2005; Hajič и др., 2009; Surdeanuи др., 2008]).
Для английского языка уже достигнуты приемлемые результаты,которые позволяют использовать технологию в промышленных системах[Björkelund, Hafdell, Nugues, 2009; Das и др., 2010]Одна из причин популярности semantic role labeling, по всей видимости,состоит в том, что аппарат семантических ролей позволяет создать уровеньсемантической интерпретации, достаточный для решения многих прикладныхзадач. Так, автоматическая разметка актантов зачастую позволяет ответить наклассический набор вопросов "кто", "что", "где", "когда", "почему", чтооказывается полезным при разработке вопросно-ответных систем [Shen,Lapata, 2007], систем извлечения информации, в частности извлечения фактов[Christensen, Soderland, Etzioni, 2010] и других приложениий.
Представление на25основе семантических ролей успешно применяется для снятия омонимии, прирешении задач машинного перевода [Liu, Gildea, 2010] и может бытьиспользовано почти в любой задаче по автоматической обработке языка, гдетребуется семантический анализ.Можнокомпромиссрассматриватьмеждуавтоматическуюкачествоманализаиразметкуактантовценностьюкакрезультатов:синтаксический анализ не предоставляет семантической информации в явномвиде, а глубинный семантический анализ с использованием логики и баззнаний слишком сложен и на сегодняшний день полностью не реализован.Автоматическаяразметкаактантовпозволяетполучитьповерхностныйсемантический анализ предложения с приемлемым качеством.Автоматическаяразметкаактантовкакзадачаприобреласвойсовременный вид в начале 2000-х годов.
Ранние системы, выполнявшиеаналогичные функции, основывались на правилах и шаблонах. Основнойпроблемой систем на основе правилового подхода была узкая специализацияи высокие затраты на разработку, т.к. правила составлялись вручную длянебольших групп предикатов в рамках узких тематических областей(существуют и современные системы, основанных на правилах, см. например,[Anisimovich и др., 2012]).На сегодняшний день большинство систем автоматической разметкиактантов основывается на машинном обучении, что позволяет избежатьвышеупомянутых проблем правилового подхода – в первую очередь, здесьимеется в виду зависимость от языка, сложность адаптации и высокиетрудозатраты на разработку.
Системы машинного обучения приписываютэкземплярам, описанным в терминах свойств (features), метку целевогокласса. Задача машинного обучения – на основании трерировочного набораэкземпляров, для которых значение класса известно, построить решающуюфункцию, которая будет приписывать метку класса новым экземплярам.26Поскольку для машинного обучения необходимы размеченные вручнуюданные, создание подобных систем стало возможным лишь после того, какпоявились наборы обучающих данных FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005], NomBank [Meyers, 2007] и другие.Одной из первых публикаций, посвящённых автоматической обработкеактантов в её современном виде, стала статья Д.
Журафски и Д. Гилдеа [Gildea,Jurafsky, 2000]. Эта работа во многом определила путь, по которому сталоразвиваться рассматриваемое направление. Автоматическая разметка актантовбыла сформулирована как задача классификации, в которой отрезкамисходного предложения требуется приписать семантические метки или роли.Работа была выполнена для английского языка на основе корпуса FrameNet идеревьевнепосредственныхсоставляющих.Авторыразделилизадачуавтоматической разметки актантов на два этапа: определение актантов, т. е.синтаксических групп, которые так или иначе относятся в выбранномупредикату, и классификацию актантов, при которой выбранным группамприписываются роли.