Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 9
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 9 страницы из PDF
Задача классификатора состоит в том, чтобы на основанииобучающей выборки построить модель, которая позволяет, зная свойства узла,предсказать его класс, т.е. семантическую роль. К результатам работыклассификатора затем применяется модуль глобальной оптимизации на основецелочисленного программирования.52Обучение классификатора производится на тренировочной выборке,которая состоит из случайно отобранных и определенным образомсгруппированных предложений исходного корпуса примеров FrameBank (опринципах группировки будет подробно рассказано ниже). Оценка качестваработы классификатора производится на тестовой выборке, которая такжепредставляет собой набор предложений исходного корпуса.Для того чтобы сконцентрироваться на задаче автоматической разметкиактантов, мы приняли решение не включать модуль снятия глагольнойнеоднозначности в нашу систему и исходим из того, что значения глаголовданы нам заранее.Наконец, мы производим поиск и классификацию актантов в один шаг,т.к.
в формулировке на основе узлов дерева зависимостей необходимость вдвухступенчатой архитектуре классификатора неочевидна.Теперь, когда мы сформулировали задачу, которую предстоит решить,рассмотрим подробнее ресурс, на основе которого будет производитьсяобучение и тестирование классификатора, – корпус FrameBank – а затемперейдём к описанию реализации системы.53II.2 Исходные данныеВ рамках данного исследования задача автоматической классификацииактантов формулируется как задача машинного обучения с учителем.
Для тогочтобы решить её, нам необходимы тренировочные данные, а именно, корпустекстов, в котором были бы размечены предикаты и их значения, а также самисемантические роли. В качестве такого корпуса мы использовали коллекциюпримеров из корпуса FrameBank. Ниже мы остановимся на этой системеподробнее.FrameBank представляет собой корпусно-лексикографический ресурс,описывающийлексическиеконструкциирусскогоязыкаспомощьюспециальным образом размеченных предложений из Национального корпусарусского языка [Апресян, Богуславский, Иомдин, 2005].На сегодняшний день ресурс находится в стадии активной разработки: наданный момент в корпусе представлены примеры для ок.
2200 лексем (восновном глагольных), для каждой лексемы в среднем размечено по 100примеров.Этих данных (с некоторыми оговорками) уже достаточно дляиспользования корпуса в исследовательских задачах.Центральныморганизующимкомпонентомсистемыразметки,используемой в FrameBank, является лексическая конструкция. Лексическиеконструкциивсемантическомотношениисоответствуютзначениямпредикатов. Каждый глагол может иметь (и, как правило, имеет) несколькоконструкций. Описание конструкций в системе FrameBank представляеткаждую конструкцию в виде шаблона, для которого указываются следующиехарактеристики: уникальное имя конструкции состав элементов конструкции54 морфологические и синтаксические свойства элементов экспликация семантической роли участника семантические ограничения на участников конструкцииВ качестве примера приведём описание конструкции купить_1.1:Рисунок 3: Паспорт конструкции в системе FrameBankДля конструкции купить_1.1 задаётся множество из двух актантов,каждый из которых получает букву-идентификатор (X и W).
Для каждогоактанта указывается стандартный способ реализации, даётся подробнаяинтерпретацияегосемантики(столбец“Экспликация”),указываетсясинтаксический ранг и семантические ограничения. Также для каждойконструкции,помимопримеровизкорпуса,приводитсянесколькоканонических примеров употребления (в нашем примере “Пойди купи хлеба,молока и яиц” и проч.).Как мы можем видеть из этого примера, с точки зрения теориисемантических ролей FrameBank использует гибридное кодирование: каждыйучастник конструкции получает уникальную специфичную для конструкциироль (обозначенную буквой), а также экспликацию в форме семантическойпометы.
Инвентарь ролей, используемых в качестве семантических помет,55организован иерархически и содержит порядка 88 ролей, начиная от общих("Агенс", "Пациенс") и заканчивая частными в случаях, когда общих ролейнедостаточно для описания семантики участника ("тот, кому служат").Допускаетсяиспользованиесдвоенныхролейирасщепленияролей.Отдельный блок ролей отвечает за типичные модификаторы-сирконстанты("Время", "Место" и т.д.) подобно тому, как это сделано в системе PropBank.Поскольку проект находится в стадии разработки, инвентарь пополняетсяновыми ролями.Каждой конструкции в системе FrameBank соответствует набор примеровиз Национального корпуса русского языка (НКРЯ). Примеры представляютсобой отрывки текста, разбитые на предложения и слова.
Для каждого словадана морфологическая информация, полученная с помощью автоматическогоанализатора, а также семантические пометы из инвентаря НКРЯ. В ходеразметкианнотаторысоотносяткаждыйпредикатпредложенияссоответствующей лексической конструкцией. Далее они отмечают отрезкитекста, которые, по их мнению, относятся к той или иной роли. Разметкапроизводится с помощью предикатно-специфических ролей (буквенныхидентификаторов); комбинация имени конструкции и специфичной ролипозволяет однозначно определить остальные характеристики выбранногоучастника на основе словаря конструкций.
Разметка производится в первуюочередь для глагольных конструкций, включая конструкции с нефинитнымиформами(причастиями,деепричастиями,инфинитивамиит.д.),чтоувеличивает сложность распознавания семантических ролей в рамках однойконструкции.Следующий пример демонстрирует разметку, которая используется вкачестве исходных данных для нашей системы.56Рисунок 4: Разметка в корпусе FrameBankС концептуальной точки зрения FrameBank занимает промежуточноеположение между PropBank и FrameNet и учитывает опыт разработки ииспользования этих ресурсов. С PropBank выбранную нами систему роднитиспользование специфичных ролей и выделение модификаторов в отдельныйкласс. Сходство с FrameNet в первую очередь обусловлено использованиемиерархической системы ролей, отсутствием синтаксической разметки в корпусе(этот аспект имеет практическую важность) и группировка описательныхединиц в семантическую сеть.
В то же время, в отличие от FrameNet, системаFrameBank опирается не на понятие фрейма, а на понятие конструкции,мотивируяэтотем,что"конструкциякаждогопредикатаимеетиндивидуальные особенности, даже если они относятся к одному фрейму"[Ляшевская, Кашкин, 2013]. Можно сказать, что FrameNet более "семантичен" иориентируется в первую очередь на фреймовую семантику [Fillmore, 1982], в товремя как FrameBank описывает явления более поверхностного уровня иопирается на грамматику конструкций [Goldberg, 1995; Рахилина, 2010] итеоретические и прикладные исследования Московской семантической школы[Апресян и др., 2010]. FrameNet практически не ограничивает тенденцию кдроблению ролей, в результате чего ролевой инвентарь оказываетсяпрактически бесконечным, и это создаёт определенные трудности как в57процессе разметки, так и при использовании этого ресурса в качествеисточника данных при разработке приложений.
Учитывая этот опыт, FrameBankпо мере возможностей поддерживает инвентарь ролей небольшим, при этомсохраняя предикатно-специфическое маркирование.Система FrameBank на момент начала исследования находилась настадии разработки, и описания конструкций, а также некоторые корпусныепримеры, содержали неточности. В связи с этим было принято решениеиспользовать лишь крайне небольшой, однако наиболее стабильный инадёжный фрагмент доступной разметки, а именно разметку по именамконструкций и специфичным ролям.
Учитывая рамки поставленной задачи(система не работает с неизвестными предикатами и не моделируетсемантические роли независимо от предиката), данных о разметке поспецифичным ролям для выполнения нашей задачи оказывается достаточно.Полученный набор данных имеет сходство с корпусом PropBank, однако вотличие от последнего не содержит синтаксической разметки. Для того, чтобыдобавить этот важный для автоматической классификации актантов уровеньпредставления, мы разобрали корпус FrameBank с помощью синтаксическогоанализатора. Поскольку аннотация FrameBank выполнялась по отрезкам текста,мы также выполяем проекцию аннотаций с отрезков текста на узлы деревазависимостей.
В результате этих манипуляций корпус получает синтаксическуюразметку и может быть использован для обучения системы автоматическойклассификации актантов. Ниже мы рассмотрим эти компоненты, а также другиеоперации, которые мы производим над исходными данными.58II.3 Описание системыII.3.1 Основные компоненты системыНачать описание разработанной нами системы кажется уместным спредставления её общей архитектуры.
Ее можно условно разделить наследующие модули: модуль препроцессинга (фильтрация, морфологическийанализ, лемматизация, синтаксический анализ), модуль обогащения данных(проекция на узлы), модуль обучения (извлечение свойств, классификатор, ILPоптимизация). Приведённая ниже схема (Рис.
5) иллюстрирует взаимодействиемодулей системы.Рисунок 5: Архитектура системы автоматической разметки актантов59Итак, на вход системе поступает база данных FrameBank, которая помимопрочегосодержитразмеченныепосемантическимролямпримерыупотребления конструкций из Национального Корпуса русского языка вформате xml. Поскольку ресурс находится на стадии разработки, некоторыепримеры в корпусе содержат ошибки разметки, связанные в большинствеслучаев с техническими причинами. Для того чтобы дальнейшая работа былавозможной, мы применяем процедуру фильтрации корпуса, в результатекоторой на основании простых правил принимаем решение, какие изпредложений будут использованы в эксперименте.