Диссертация (1137507), страница 22

Файл №1137507 Диссертация (Автоматическая разметка семантических ролей в русском языке) 22 страницаДиссертация (1137507) страница 222019-05-202019-05-20СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 22)

Исходя из этого требования модульцелочисленного программирования максимизирует суммарную уверенностьклассификатора по каждому отдельному узлу в дереве зависимостей длявыбранного предложения. Отметим, что заполнение каждой роли нетребуется, и таким образом в некоторых случаях более надежным решениемоказывается приписать слову нулевой класс. В качестве альтернативнойстратегииможнобылобырассмотретьвведениедополнительногоограничения, которое требует, что каждая роль или определённые роли былизаполнены. Вместо набора ограничений, который применяется в нашейсистеме сейчас, а именно∀: ∑ = 1∀ ≠ ∅: ∑ ≤ 1Мы бы могли использовать набор следующего вида:∀: ∑ = 1∀ ≠ ∅: ∑ ≤ 1152∀ ∈ ∶ ∑ = 1Однако такой модификации процедуры оптимизации противоречатсоображениятипологическогохарактера.Врусскомязыкекрайнераспространено явление эллипсиса, при котором то или иное слово, в томчисле актанты, не выражается в поверхностной структуре предложения.

Если ванглийском языке с точки зрения грамматики в таких ситуациях необходимоиспользовать местоимение, в русском языке может быть использован нулевойэлемент, не отражённый в поверхностной структуре.В этом смысле требование заполнения ядерных ролей хотя и можетвыполняться формально, на поверхностном уровне не действует.

До тех пор,пока нам не будет доступен синтаксический анализатор, который мог бывыделять подобные "нулевые" элементы, требование к заполнению всех ролейдля автоматической классификации актантов в русском языке кажется намслишком строгим. Это утверждение безусловно требует дополнительнойпроверки, которое находится за рамками настоящей работы.153IV. ВыводыВ этой главе мы подведём итоги проведённого исследования, а такжеопишем перспективные, на наш взгляд, пути дальнейшего развитияпредложенной системы.В рамках диссертационного исследования была предложена системаавтоматической разметки и классификации актантов для русского языка.

Этопервый опыт построения подобной системы на основе корпуса FrameBank,размеченного по семантическим ролям. В соответствии с установившейсятрадицией, мы интерпретируем задачу автоматической разметки актантов какзадачу классификации и решаем её с помощью методов машинного обучения.В качестве метода классификации мы используем метод опорных векторов(support vector machines) на основе набора лингвистически мотивированныхпризнаков. Для того чтобы получить доступ к лингвистической информации,необходимой для классификации актантов, мы подвергаем тексты исходногообучающегокорпусаFrameBankавтоматическойпредобработке:морфологическому анализу, лемматизации и синтаксическому анализу.Отдельный важный этап предобработки – проекция аннотаций FrameBank,выполненных на отрезках текста, на узлы синтаксических деревьев, чтопозволяет извлекать синтаксические свойства и интерпретировать задачуклассификации актантов как задачу классификации узлов дерева зависимостей.154Другой важный этап предварительной обработки данных – фильтрация:поскольку ресурс находится в стадии разработки, некоторые примерысодержат неточности, и мы устраняем подобные примеры с помощью наборафильтрующих правил.После того как свойства извлечены и выполнена проекция разметки сотрезков текста на узлы дерева зависимостей, мы выполняем классификациюактантов: каждому узлу в дереве зависимостей приписывается семантическаяроль или специальная отметка, сигнализирующая о том, что данный узел ненесёт никакой роли в выбранном предложении.

Недостаток такого подходасостоит в том, что решения классификатора принимаются независимо друг отдруга, в результате чего могут нарушаться некоторые теоретическиеограничения (например, что одна и та же роль не может быть заполненадважды для одного предиката). Для решения этой проблемы мы разработалимодуль на основе целочисленного программирования, который осуществляетглобальную оптимизацию работы классификаторов с учётом ограничений,налагаемых теорией семантических ролей.Мы провели детальный анализ работы системы и оценили вкладразличных параметров и свойств в качество автоматической разметки актантов.Нашанализдемонстрируетважностьсинтаксическихсвойствдляавтоматической разметки актантов, а также важность соответствия исходной ицелевой предметной областей при использовании дистрибутивных моделейдляучёталексическогосходстваактантов.Наширезультатытакжедемонстрируют, что глобальная оптимизация является важным шагом вавтоматической обработке актантов.Разработка предложенной в работе системы сопровождалась принятиемрядатехническихдоступностьюирешений,качествомобусловленныхресурсов,различнымикачествомработыфакторами:модулейпредобработки, легкостью анализов результатов работы определенных155подсистем.

Принятые решения не являются единственно возможными, и нижемы остановимся на альтернативных подходах, которые не были использованыв рамках данной работы, но безусловно являются жизнеспособнымиальтернативыми и представляют интерес для дальнейших исследований поавтоматической обработке актантов для русского языка.Наши выводы о возможных альтернативных подходах к решениюавтоматической разметки актатнов в русском языке можно условно разделитьна три группы.

Первая группа выводов связана с решениями, которыенаходятся в русле используемых в работе подходов, и так или иначе могли быспособствовать развитию и улучшению разработанной системы. Вторая группавыводов касается проблемы использования методов обучения без учителя длярешениязадачавтоматическойсемантическойразметкиактантовприменительно к русскому материалу. Наконец, финальные замечания связаныс возможными шагами по усовершенствованию корпуса FrameBank. Нижебудет более детально рассмотрена каждая из групп.IV.1 Альтернативные решенияИнтерпретируемый алгоритм машинного обученияКак уже было сказано, машинное обучение осуществлялось на баземетода опорных векторов.

Этот подход обладает рядом безусловныхдостоинств, наиболее важные из которых – скорость работы и качествополучаемых результатов. Основным недостатком метода является сложностьинтерпретациирезультатов.Приразработкесистемывкачествепромежуточного этапа мы использовали вариант, в котором вместо методаопорных веторов использовались деревья принятия решений. Результирующеекачество классификации этого метода оказалось невысоким, однако благодаряинтерпретируемости и прозрачности моделей мы смогли сделать ряд важных156наблюдений, например, о поведении свойства путь и целесообразностиусечения пути для повышения обобщающей способности модели.

В целом,использование деревьев принятия решений в той или иной форме имеетопределённые перспективы применительно к рассматриваемой задаче,особенно в случае, если система будет разрабатываться лингвистами, которыесмогут интерпретировать полученные деревья с точки зрения науки о языке.Даже в случаях, когда деревья принятия решений оказываются не самымэффективным методом с точки зрения показателей качества, они могут бытьиспользованы для анализа специфики задачи и адекватности предлагаемыхметодов. Такой анализ мог бы значительно улучшить понимание проблемавтоматической разметки актантов в контексте русского языка.Усовершенствованная глобальная оптимизацияМодель, использованная нами в рамках данного исследования,достаточно проста с технической точки зрения. Система основана на наборе независящих друг от друга классификаторов, результаты работы которых могутбыть затем оптимизированы на глобальном уровне с помощью алгоритмовцелочисленного программирования.

Хотя целочисленное програмимрование ипредоставляет определённый уровень глобальной оптимизации, это неединственное возможное решение. Так, в наиболее современных работах поавтоматической разметке актантов [Das, 2014] вместо целочисленнойоптимизации используются модели, в которых взаимозависимость присвоенияролей включена уже в модель классификации, что представляется нам болееестественным и эффективным решением, которое, однако, требует большихусилий по имплементации. Опробирование более современных моделей –один из возможных путей развития предложенной нами системы.157Усовершенствование свойств для обученияИз уже упомянутых ранее сложностей, с которыми мы столкнулись,хочетсяещёразостановитьсянанизкомвкладекластеризациииразреженности и специфичности свойства "путь".

Отсутствие существенноговклада кластеризации в нашем случае ни в коем случае нельзя считатьнедостаткомRusVectōrēs,выбраннойнанамикотороесемантическоймыопирались,модели.Представлениепозволяетполучитьвысококачественные кластеры, а метод кластеризации на основе алгоритмаChinese Whispers был успешно использован на английском материале. Скореевсего, основная причина низкой эффективности кластерных свойств – высокийвес синтаксических свойств и несоответствие предметных областей корпусаFrameBank и новостных корпусов, на основе которых были созданы моделисемантической близости.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomaticheskaja-razmetka-semanticheskih-rolej-v-russkom-jazyke.rar

Автоматическая разметка семантических ролей в русском языке

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.