Диссертация (1100480), страница 14

Файл №1100480 Диссертация (Автоматическая разметка семантических ролей в русском языке) 14 страницаДиссертация (1100480) страница 142019-03-132019-03-13СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 14)

Авторы алгоритма экспериментально установили, что оптимальноечисло итераций равно 10, это значение используется в имплементацииалгоритма по умолчанию, и мы также будем придерживаться этой величины.Для того чтобы конвертировать наше исходное множество точек-лексем вграфовое представление мы используем метрику семантической близости навекторной модели RusVectōrēs [Kutuzov, Andreev, 2015], созданной с помощьюинструмента word2vec [Mikolov и др., 2013] на основе большого корпусарусскоязычных новостных текстов. Данная модель описывает лексемы языка втерминахизменённогопризнаковогопространства,построенногосиспользованием нейронных сетей. Данные, полученные с помощью word2vec,позволяют эффективно вычислять семантическую близость лексем, а также90выполнять дополнительные операции, например, "сложение" и "вычитание"смыслов (анализ этого явления см.

в [Levy и др., 2015]).Используя представление RusVectōrēs, мы получаем для каждого слова,содержащегося в модели, 10 наиболее похожих на него слов с их весами,которые в выбранной нами имплементации вычисляются как косинусная мерасходства. Затем все слова модели помещаются в граф в качестве узлов, и вслучае, если одно из слов вошло в список 10 наиболее похожих для другогослова, эти слова связываются отношением с весом, равным степени ихсходства. К полученному графу применяется алгоритм Chinese Whispers встандартной конфигурации, и в результате работы этого алгоритма каждаялексема получает метку кластера, которая может быть использована в качествесвойства в нашем классификаторе.

Следующие примеры иллюстрируюткачество работы выбранного нами метода.Рисунок 26: Пример полученных кластеров91Как мы можем видеть, кластеры имеют достаточно однородный состав.Исходные данные RusVectōrēs содержат языковой материал из других языков,в частности, из белорусского. Однако дополнительный эффект кластеризациисостоит в том, что слова из других языков контекстно схожи и группируются вотдельные кластеры, и, таким образом, оказываются изолированы от принятиярешений по присвоению семантических ролей.

В то же время отметим, чтокластеризация английских лексем выполняется корректно, например, в одинкластер объединяются лексемы, обозначающие компании.В нашем исследовании мы используем две модификации описанноговыше подхода. Исходные данные содержат представления как для имёнсуществительных, так и для слов с другими частями речи. В некоторых случаяхкластеризация, полученная с использованием всех лексем, не лишена смысла иможет оказаться полезна, однако использование всех частей речи можетприводить и к нежелательным эффектам из-за слияния кластеров с разнымизначениями за счёт соседства с узлом-глаголом или узлом-прилагательным.В наших экспериментах мы используем два варианта кластеризации: водном из них используются только имена существительные, другой жеиспользует все лексемы, встречающиеся в исходных данных.II.3.6 Детали реализации свойства "путь"Синтаксическая структура предложения представляет собой формальноеописание предложения, которое отражает синтаксические связи между егочленами.

Два наиболее популярных класса формализмов, используемых дляэтой задачи, это деревья непосредственных составляющих и деревьязависимостей.Деревья непосредственных составляющих были предложены в рамкахгенеративного направления [Carnie, 2007]. В формализмах данного типа92предложение представляется в виде набора вложенных в друг друга структурсоставляющих, каждая из которых обладает относительной внутреннейавтономией.Структурапредложенияпредставляетсяввидедеревасоставляющих, состоящего из нетерминальных (фразовых) и терминальныхузлов. Нетерминальные узлы объединяют дочерние компоненты в т.н. группу,например,именнуюилиглагольную.Терминальныеузлысодержатнепосредственно слова предложения и не имеют потомков.

Следующийпример иллюстрирует формализм дерева составляющих для английскогоязыка.Рисунок 27: Дерево НС для английского языкаФормализм непосредственных составляющих имеет определённыепреимущества, однако разрабатывался в первую очередь для английскогоязыка и не всегда позволяет компактно описать синтаксическую структуру вдругих языках. В частности, трудности для формализма НС представляют языкисо свободным порядком слов (что ведёт к разрыву составляющих) и с зачастуюсопутствующим ему падежным маркированием синтаксических отношений (врезультате чего возникает необходимость в использовании промежуточныхузлов).93В качестве альтернативы для языков со свободным порядком слов ипадежным маркированием используется синтаксис деревьев зависимостей[Mel’čuk, 1988].

Формализм деревьев зависимостей также предполагаетпостроение графа синтаксических отношений между словами предложения,однако в отличие от дерева НС не является иерархическим. В основеформализмов зависимостей лежит граф, к которому применяются следующиетребования. Граф содержит направленные отношения между словамипредложения, от главного к зависимому. У каждого слова должен быть толькоодин и только один "родитель", и граф не должен содержать циклов.

Дляобозначения корня синтаксического дерева вводится специальный служебныйэлемент, который является родителем главного слова в предложении.Синтаксические отношения могут быть именованными, но это не являетсяобязательным требованием.Данное представление является более компактным и гибким посравнению с деревьями непосредственных составляющих, однако не позволяетнапрямую обращаться к синтаксическим группам. В то же время длябольшинства задач автоматической обработки языка деревья зависимостейоказываются подходящим уровнем абстракции и помимо автоматическойклассификации актантов активно применяются в построении языковыхмоделей [Levy, Goldberg, 2014], расчёте семантической близости [Lin, 1998] идругих задачах.В завершение мы хотели бы отметить, что конвертация из деревьевзависимостей в деревья составляющих возможна почти всегда (при условии,что в дереве составляющих отмечаются главные слова группы), а выборконкретного формализма зависит в первую очередь от доступностисинтаксических анализаторов, лингвистических традиций для конкретногоязыка, а также предпочтений в рамках конкретной задачи.94Даже в рамках одного формализма может существовать множествовариаций, особенно если речь идёт об описании синтаксиса несколькихязыков.

Отличаться может набор синтаксических отношений (в случае деревьевзависимостей) и групп (для деревьев НС), а также частные правилаустановления отношений между словами. В качестве иллюстрации приведём 4различных способа представления синтаксической структуры сочинительнойгруппы, каждый из которых полностью отвечает требованиям формализмадеревьев зависимостей:Рисунок 28: Различные варианты представления сочинительной группыДругой пример – использование "компактных" зависимостей дляпредложныхгрупп, которое мыможем встретить в синтаксическоманализаторе StanfordParser [Marneffe De, MacCartney, Manning, 2006] дляанглийского и в парсере CognitiveDwarf [Мисюрев, Antonova, 2012] для русскогоязыка:Рисунок 29: Компактные зависимости95Решение в подобных спорных случаях принимается исходя из конкретнойсинтаксической теории, на которую опирается исследователь. Следуетотметить, что подобные описательные условности могут приводить ксложностямприиспользованиирезультатовработыавтоматическихсинтаксических анализаторов для более высокоуровневых задач.

Приприменении готового алгоритма, основанного на синтаксической структуре,необходимо убедиться, что синтаксическая модель, на основе которойразрабатывался алгоритм, и текущая синтаксическая модель совместимы.В нашем исследовании мы опираемся на усовершенствованныйформализм модели Смысл↔Текст [Мельчук, 1974], использованный вединственном на текущий момент синтаксически аннотированном корпусе длярусского языка СинТагРус, разработанном ИППИ РАН (подробнее см. [Апресян,Богуславский, Иомдин, 2005]). Деревья зависимостей в рамках этогоформализма представляют собой ациклические направленные графы сединственной абстрактной вершиной ROOT и именованными синтаксическимиотношениями.Анализ предложения в рамках выбранного нами формализма выглядитследующим образом:Рисунок 30: Анализ предложения в формализме СинТагРус96На примере этого предложения мы объясним и продемонстрируемпринцип работы свойства "путь".

В общем случае путь между двумя словамипредложенияопределяетсякакпоследовательностьсинтаксическихотношений в дереве зависимостей, которая маркирует кратчайший путь вграфе зависимостей между этими словами. Для того, чтобы однозначноидентифицировать путь, мы дополняем имена синтаксических отношенийинформацией о направлении отношения. Благодаря тому, что граф ацикличен,имеет один корневой узел, и что при поиске пути мы можем перемещаться какв направлении отношения, так и в противоположном направлении, мы можемнайти путь между двумя любыми словами предложения. Например,кратчайший путь от слова “принцип” к слову “долго” – предложное,обстоятельственное, сочинительно-союзное и сентенциально-сочинительныеотношения против направления зависимости, и затем обстоятельственноеотношение по направлению зависимости, или, кратко, [-предл, -обст, -сочсоюзн, -сент-соч, обст], где знак минус обозначает обратное движение, т.е.

отзависимого к главному.Посколькувконтекстеавтоматическойклассификацииактантовнаибольший интерес представляет путь между целевым предикатом ипотенциальным актантом, мы определяем свойство "путь" для каждого словапредложения как путь от предиката до этого слова.

На этапе подготовкиданных к классификации мы производим автоматический синтаксическийанализ исходного предложения и вычисляем значение свойства "путь", котороезатем используется при обучении и применении классификатора.Так, для первых слов из указанного выше предложения с целевымпредикатом “ждать” были бы извлечены следующие значения свойства"путь":97этого1-компл, предлпостановления1-комплможно-предикдолго-предик, обстТаблица 2: Значения свойства путьВ рамках нашей задачи рассматриваемое свойство имеет большуюважность, т.к. имплицитно включает в себя информацию о субкатегориальнойрамке предиката и о кореференции в случаях с удалёнными актантами.

Вслучаях, если автоматический синтаксический анализ был произведён верно,совпадение пути, т.е. совпадение последовательности имён отношений снаправлениями, является веским аргументом в пользу правильности гипотезыо соответствии семантических ролей. Однако учитывая, что синтаксическийанализ в нашем случае производится автоматически как на этапе обученияклассификатора, так и на этапе применения, при увеличении длины путивозрастает и вероятность, что данный путь был определён неправильно, чтоприводит к появлению большого числа уникальных "длинных" путей и общейразреженности данных.Уникальные пути составляют около 50% всех обнаруженных путей нанаших тренировочных данных, при этом польза этих уникальных путейсомнительна, так как обладая высокой специфичностью они могут бытьошибочными.

В то же время вероятность, что путь содержит ошибку, растёт сувеличением длины пути. Исходя из этого, кажется разумным ограничитьдлину пути. Следующий график демонстрирует соотношения длин пути с ихчастотами в нашем корпусе:98Рисунок 31: Гистограмма длины свойства "путь"Пик распределения приходится на пути с частотой 1-4, затем частотападает. Средняя длина пути по нашей обучающей выборке составляет 3.5отношения,поэтомубылоприняторешениеограничитьдлинурассматриваемых путей 4 отношениями. Пути, длина которых превышает этувеличину, могут быть искусственным образом сокращены до 4 шагов отпредиката. В этом случае решение о присвоении роли может приниматься наоснове других свойств выбранного экземпляра. Это свойство, которое мы вдальнейшем будем именовать path4, используется при классификации наравнесо свойством path, которое представляет собой полный путь.II.3.7 Свойство "финский падеж"В языках со свободным порядком слов и падежным маркированиемпадеж часто используется для отражения синтаксических зависимостей междучленами предложения.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.