Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 9

PDF-файл Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 9 Филология (31154): Диссертация - Аспирантура и докторантураДиссертация (Автоматическая разметка семантических ролей в русском языке) - PDF, страница 9 (31154) - СтудИзба2019-03-13СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.

Просмотр PDF-файла онлайн

Текст 9 страницы из PDF

Задача классификатора состоит в том, чтобы на основанииобучающей выборки построить модель, которая позволяет, зная свойства узла,предсказать его класс, т.е. семантическую роль. К результатам работыклассификатора затем применяется модуль глобальной оптимизации на основецелочисленного программирования.52Обучение классификатора производится на тренировочной выборке,которая состоит из случайно отобранных и определенным образомсгруппированных предложений исходного корпуса примеров FrameBank (опринципах группировки будет подробно рассказано ниже). Оценка качестваработы классификатора производится на тестовой выборке, которая такжепредставляет собой набор предложений исходного корпуса.Для того чтобы сконцентрироваться на задаче автоматической разметкиактантов, мы приняли решение не включать модуль снятия глагольнойнеоднозначности в нашу систему и исходим из того, что значения глаголовданы нам заранее.Наконец, мы производим поиск и классификацию актантов в один шаг,т.к.

в формулировке на основе узлов дерева зависимостей необходимость вдвухступенчатой архитектуре классификатора неочевидна.Теперь, когда мы сформулировали задачу, которую предстоит решить,рассмотрим подробнее ресурс, на основе которого будет производитьсяобучение и тестирование классификатора, – корпус FrameBank – а затемперейдём к описанию реализации системы.53II.2 Исходные данныеВ рамках данного исследования задача автоматической классификацииактантов формулируется как задача машинного обучения с учителем.

Для тогочтобы решить её, нам необходимы тренировочные данные, а именно, корпустекстов, в котором были бы размечены предикаты и их значения, а также самисемантические роли. В качестве такого корпуса мы использовали коллекциюпримеров из корпуса FrameBank. Ниже мы остановимся на этой системеподробнее.FrameBank представляет собой корпусно-лексикографический ресурс,описывающийлексическиеконструкциирусскогоязыкаспомощьюспециальным образом размеченных предложений из Национального корпусарусского языка [Апресян, Богуславский, Иомдин, 2005].На сегодняшний день ресурс находится в стадии активной разработки: наданный момент в корпусе представлены примеры для ок.

2200 лексем (восновном глагольных), для каждой лексемы в среднем размечено по 100примеров.Этих данных (с некоторыми оговорками) уже достаточно дляиспользования корпуса в исследовательских задачах.Центральныморганизующимкомпонентомсистемыразметки,используемой в FrameBank, является лексическая конструкция. Лексическиеконструкциивсемантическомотношениисоответствуютзначениямпредикатов. Каждый глагол может иметь (и, как правило, имеет) несколькоконструкций. Описание конструкций в системе FrameBank представляеткаждую конструкцию в виде шаблона, для которого указываются следующиехарактеристики: уникальное имя конструкции состав элементов конструкции54 морфологические и синтаксические свойства элементов экспликация семантической роли участника семантические ограничения на участников конструкцииВ качестве примера приведём описание конструкции купить_1.1:Рисунок 3: Паспорт конструкции в системе FrameBankДля конструкции купить_1.1 задаётся множество из двух актантов,каждый из которых получает букву-идентификатор (X и W).

Для каждогоактанта указывается стандартный способ реализации, даётся подробнаяинтерпретацияегосемантики(столбец“Экспликация”),указываетсясинтаксический ранг и семантические ограничения. Также для каждойконструкции,помимопримеровизкорпуса,приводитсянесколькоканонических примеров употребления (в нашем примере “Пойди купи хлеба,молока и яиц” и проч.).Как мы можем видеть из этого примера, с точки зрения теориисемантических ролей FrameBank использует гибридное кодирование: каждыйучастник конструкции получает уникальную специфичную для конструкциироль (обозначенную буквой), а также экспликацию в форме семантическойпометы.

Инвентарь ролей, используемых в качестве семантических помет,55организован иерархически и содержит порядка 88 ролей, начиная от общих("Агенс", "Пациенс") и заканчивая частными в случаях, когда общих ролейнедостаточно для описания семантики участника ("тот, кому служат").Допускаетсяиспользованиесдвоенныхролейирасщепленияролей.Отдельный блок ролей отвечает за типичные модификаторы-сирконстанты("Время", "Место" и т.д.) подобно тому, как это сделано в системе PropBank.Поскольку проект находится в стадии разработки, инвентарь пополняетсяновыми ролями.Каждой конструкции в системе FrameBank соответствует набор примеровиз Национального корпуса русского языка (НКРЯ). Примеры представляютсобой отрывки текста, разбитые на предложения и слова.

Для каждого словадана морфологическая информация, полученная с помощью автоматическогоанализатора, а также семантические пометы из инвентаря НКРЯ. В ходеразметкианнотаторысоотносяткаждыйпредикатпредложенияссоответствующей лексической конструкцией. Далее они отмечают отрезкитекста, которые, по их мнению, относятся к той или иной роли. Разметкапроизводится с помощью предикатно-специфических ролей (буквенныхидентификаторов); комбинация имени конструкции и специфичной ролипозволяет однозначно определить остальные характеристики выбранногоучастника на основе словаря конструкций.

Разметка производится в первуюочередь для глагольных конструкций, включая конструкции с нефинитнымиформами(причастиями,деепричастиями,инфинитивамиит.д.),чтоувеличивает сложность распознавания семантических ролей в рамках однойконструкции.Следующий пример демонстрирует разметку, которая используется вкачестве исходных данных для нашей системы.56Рисунок 4: Разметка в корпусе FrameBankС концептуальной точки зрения FrameBank занимает промежуточноеположение между PropBank и FrameNet и учитывает опыт разработки ииспользования этих ресурсов. С PropBank выбранную нами систему роднитиспользование специфичных ролей и выделение модификаторов в отдельныйкласс. Сходство с FrameNet в первую очередь обусловлено использованиемиерархической системы ролей, отсутствием синтаксической разметки в корпусе(этот аспект имеет практическую важность) и группировка описательныхединиц в семантическую сеть.

В то же время, в отличие от FrameNet, системаFrameBank опирается не на понятие фрейма, а на понятие конструкции,мотивируяэтотем,что"конструкциякаждогопредикатаимеетиндивидуальные особенности, даже если они относятся к одному фрейму"[Ляшевская, Кашкин, 2013]. Можно сказать, что FrameNet более "семантичен" иориентируется в первую очередь на фреймовую семантику [Fillmore, 1982], в товремя как FrameBank описывает явления более поверхностного уровня иопирается на грамматику конструкций [Goldberg, 1995; Рахилина, 2010] итеоретические и прикладные исследования Московской семантической школы[Апресян и др., 2010]. FrameNet практически не ограничивает тенденцию кдроблению ролей, в результате чего ролевой инвентарь оказываетсяпрактически бесконечным, и это создаёт определенные трудности как в57процессе разметки, так и при использовании этого ресурса в качествеисточника данных при разработке приложений.

Учитывая этот опыт, FrameBankпо мере возможностей поддерживает инвентарь ролей небольшим, при этомсохраняя предикатно-специфическое маркирование.Система FrameBank на момент начала исследования находилась настадии разработки, и описания конструкций, а также некоторые корпусныепримеры, содержали неточности. В связи с этим было принято решениеиспользовать лишь крайне небольшой, однако наиболее стабильный инадёжный фрагмент доступной разметки, а именно разметку по именамконструкций и специфичным ролям.

Учитывая рамки поставленной задачи(система не работает с неизвестными предикатами и не моделируетсемантические роли независимо от предиката), данных о разметке поспецифичным ролям для выполнения нашей задачи оказывается достаточно.Полученный набор данных имеет сходство с корпусом PropBank, однако вотличие от последнего не содержит синтаксической разметки. Для того, чтобыдобавить этот важный для автоматической классификации актантов уровеньпредставления, мы разобрали корпус FrameBank с помощью синтаксическогоанализатора. Поскольку аннотация FrameBank выполнялась по отрезкам текста,мы также выполяем проекцию аннотаций с отрезков текста на узлы деревазависимостей.

В результате этих манипуляций корпус получает синтаксическуюразметку и может быть использован для обучения системы автоматическойклассификации актантов. Ниже мы рассмотрим эти компоненты, а также другиеоперации, которые мы производим над исходными данными.58II.3 Описание системыII.3.1 Основные компоненты системыНачать описание разработанной нами системы кажется уместным спредставления её общей архитектуры.

Ее можно условно разделить наследующие модули: модуль препроцессинга (фильтрация, морфологическийанализ, лемматизация, синтаксический анализ), модуль обогащения данных(проекция на узлы), модуль обучения (извлечение свойств, классификатор, ILPоптимизация). Приведённая ниже схема (Рис.

5) иллюстрирует взаимодействиемодулей системы.Рисунок 5: Архитектура системы автоматической разметки актантов59Итак, на вход системе поступает база данных FrameBank, которая помимопрочегосодержитразмеченныепосемантическимролямпримерыупотребления конструкций из Национального Корпуса русского языка вформате xml. Поскольку ресурс находится на стадии разработки, некоторыепримеры в корпусе содержат ошибки разметки, связанные в большинствеслучаев с техническими причинами. Для того чтобы дальнейшая работа былавозможной, мы применяем процедуру фильтрации корпуса, в результатекоторой на основании простых правил принимаем решение, какие изпредложений будут использованы в эксперименте.

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5221
Авторов
на СтудИзбе
429
Средний доход
с одного платного файла
Обучение Подробнее