Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 14
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 14 страницы из PDF
Авторы алгоритма экспериментально установили, что оптимальноечисло итераций равно 10, это значение используется в имплементацииалгоритма по умолчанию, и мы также будем придерживаться этой величины.Для того чтобы конвертировать наше исходное множество точек-лексем вграфовое представление мы используем метрику семантической близости навекторной модели RusVectōrēs [Kutuzov, Andreev, 2015], созданной с помощьюинструмента word2vec [Mikolov и др., 2013] на основе большого корпусарусскоязычных новостных текстов. Данная модель описывает лексемы языка втерминахизменённогопризнаковогопространства,построенногосиспользованием нейронных сетей. Данные, полученные с помощью word2vec,позволяют эффективно вычислять семантическую близость лексем, а также90выполнять дополнительные операции, например, "сложение" и "вычитание"смыслов (анализ этого явления см.
в [Levy и др., 2015]).Используя представление RusVectōrēs, мы получаем для каждого слова,содержащегося в модели, 10 наиболее похожих на него слов с их весами,которые в выбранной нами имплементации вычисляются как косинусная мерасходства. Затем все слова модели помещаются в граф в качестве узлов, и вслучае, если одно из слов вошло в список 10 наиболее похожих для другогослова, эти слова связываются отношением с весом, равным степени ихсходства. К полученному графу применяется алгоритм Chinese Whispers встандартной конфигурации, и в результате работы этого алгоритма каждаялексема получает метку кластера, которая может быть использована в качествесвойства в нашем классификаторе.
Следующие примеры иллюстрируюткачество работы выбранного нами метода.Рисунок 26: Пример полученных кластеров91Как мы можем видеть, кластеры имеют достаточно однородный состав.Исходные данные RusVectōrēs содержат языковой материал из других языков,в частности, из белорусского. Однако дополнительный эффект кластеризациисостоит в том, что слова из других языков контекстно схожи и группируются вотдельные кластеры, и, таким образом, оказываются изолированы от принятиярешений по присвоению семантических ролей.
В то же время отметим, чтокластеризация английских лексем выполняется корректно, например, в одинкластер объединяются лексемы, обозначающие компании.В нашем исследовании мы используем две модификации описанноговыше подхода. Исходные данные содержат представления как для имёнсуществительных, так и для слов с другими частями речи. В некоторых случаяхкластеризация, полученная с использованием всех лексем, не лишена смысла иможет оказаться полезна, однако использование всех частей речи можетприводить и к нежелательным эффектам из-за слияния кластеров с разнымизначениями за счёт соседства с узлом-глаголом или узлом-прилагательным.В наших экспериментах мы используем два варианта кластеризации: водном из них используются только имена существительные, другой жеиспользует все лексемы, встречающиеся в исходных данных.II.3.6 Детали реализации свойства "путь"Синтаксическая структура предложения представляет собой формальноеописание предложения, которое отражает синтаксические связи между егочленами.
Два наиболее популярных класса формализмов, используемых дляэтой задачи, это деревья непосредственных составляющих и деревьязависимостей.Деревья непосредственных составляющих были предложены в рамкахгенеративного направления [Carnie, 2007]. В формализмах данного типа92предложение представляется в виде набора вложенных в друг друга структурсоставляющих, каждая из которых обладает относительной внутреннейавтономией.Структурапредложенияпредставляетсяввидедеревасоставляющих, состоящего из нетерминальных (фразовых) и терминальныхузлов. Нетерминальные узлы объединяют дочерние компоненты в т.н. группу,например,именнуюилиглагольную.Терминальныеузлысодержатнепосредственно слова предложения и не имеют потомков.
Следующийпример иллюстрирует формализм дерева составляющих для английскогоязыка.Рисунок 27: Дерево НС для английского языкаФормализм непосредственных составляющих имеет определённыепреимущества, однако разрабатывался в первую очередь для английскогоязыка и не всегда позволяет компактно описать синтаксическую структуру вдругих языках. В частности, трудности для формализма НС представляют языкисо свободным порядком слов (что ведёт к разрыву составляющих) и с зачастуюсопутствующим ему падежным маркированием синтаксических отношений (врезультате чего возникает необходимость в использовании промежуточныхузлов).93В качестве альтернативы для языков со свободным порядком слов ипадежным маркированием используется синтаксис деревьев зависимостей[Mel’čuk, 1988].
Формализм деревьев зависимостей также предполагаетпостроение графа синтаксических отношений между словами предложения,однако в отличие от дерева НС не является иерархическим. В основеформализмов зависимостей лежит граф, к которому применяются следующиетребования. Граф содержит направленные отношения между словамипредложения, от главного к зависимому. У каждого слова должен быть толькоодин и только один "родитель", и граф не должен содержать циклов.
Дляобозначения корня синтаксического дерева вводится специальный служебныйэлемент, который является родителем главного слова в предложении.Синтаксические отношения могут быть именованными, но это не являетсяобязательным требованием.Данное представление является более компактным и гибким посравнению с деревьями непосредственных составляющих, однако не позволяетнапрямую обращаться к синтаксическим группам. В то же время длябольшинства задач автоматической обработки языка деревья зависимостейоказываются подходящим уровнем абстракции и помимо автоматическойклассификации актантов активно применяются в построении языковыхмоделей [Levy, Goldberg, 2014], расчёте семантической близости [Lin, 1998] идругих задачах.В завершение мы хотели бы отметить, что конвертация из деревьевзависимостей в деревья составляющих возможна почти всегда (при условии,что в дереве составляющих отмечаются главные слова группы), а выборконкретного формализма зависит в первую очередь от доступностисинтаксических анализаторов, лингвистических традиций для конкретногоязыка, а также предпочтений в рамках конкретной задачи.94Даже в рамках одного формализма может существовать множествовариаций, особенно если речь идёт об описании синтаксиса несколькихязыков.
Отличаться может набор синтаксических отношений (в случае деревьевзависимостей) и групп (для деревьев НС), а также частные правилаустановления отношений между словами. В качестве иллюстрации приведём 4различных способа представления синтаксической структуры сочинительнойгруппы, каждый из которых полностью отвечает требованиям формализмадеревьев зависимостей:Рисунок 28: Различные варианты представления сочинительной группыДругой пример – использование "компактных" зависимостей дляпредложныхгрупп, которое мыможем встретить в синтаксическоманализаторе StanfordParser [Marneffe De, MacCartney, Manning, 2006] дляанглийского и в парсере CognitiveDwarf [Мисюрев, Antonova, 2012] для русскогоязыка:Рисунок 29: Компактные зависимости95Решение в подобных спорных случаях принимается исходя из конкретнойсинтаксической теории, на которую опирается исследователь. Следуетотметить, что подобные описательные условности могут приводить ксложностямприиспользованиирезультатовработыавтоматическихсинтаксических анализаторов для более высокоуровневых задач.
Приприменении готового алгоритма, основанного на синтаксической структуре,необходимо убедиться, что синтаксическая модель, на основе которойразрабатывался алгоритм, и текущая синтаксическая модель совместимы.В нашем исследовании мы опираемся на усовершенствованныйформализм модели Смысл↔Текст [Мельчук, 1974], использованный вединственном на текущий момент синтаксически аннотированном корпусе длярусского языка СинТагРус, разработанном ИППИ РАН (подробнее см. [Апресян,Богуславский, Иомдин, 2005]). Деревья зависимостей в рамках этогоформализма представляют собой ациклические направленные графы сединственной абстрактной вершиной ROOT и именованными синтаксическимиотношениями.Анализ предложения в рамках выбранного нами формализма выглядитследующим образом:Рисунок 30: Анализ предложения в формализме СинТагРус96На примере этого предложения мы объясним и продемонстрируемпринцип работы свойства "путь".
В общем случае путь между двумя словамипредложенияопределяетсякакпоследовательностьсинтаксическихотношений в дереве зависимостей, которая маркирует кратчайший путь вграфе зависимостей между этими словами. Для того, чтобы однозначноидентифицировать путь, мы дополняем имена синтаксических отношенийинформацией о направлении отношения. Благодаря тому, что граф ацикличен,имеет один корневой узел, и что при поиске пути мы можем перемещаться какв направлении отношения, так и в противоположном направлении, мы можемнайти путь между двумя любыми словами предложения. Например,кратчайший путь от слова “принцип” к слову “долго” – предложное,обстоятельственное, сочинительно-союзное и сентенциально-сочинительныеотношения против направления зависимости, и затем обстоятельственноеотношение по направлению зависимости, или, кратко, [-предл, -обст, -сочсоюзн, -сент-соч, обст], где знак минус обозначает обратное движение, т.е.
отзависимого к главному.Посколькувконтекстеавтоматическойклассификацииактантовнаибольший интерес представляет путь между целевым предикатом ипотенциальным актантом, мы определяем свойство "путь" для каждого словапредложения как путь от предиката до этого слова.
На этапе подготовкиданных к классификации мы производим автоматический синтаксическийанализ исходного предложения и вычисляем значение свойства "путь", котороезатем используется при обучении и применении классификатора.Так, для первых слов из указанного выше предложения с целевымпредикатом “ждать” были бы извлечены следующие значения свойства"путь":97этого1-компл, предлпостановления1-комплможно-предикдолго-предик, обстТаблица 2: Значения свойства путьВ рамках нашей задачи рассматриваемое свойство имеет большуюважность, т.к. имплицитно включает в себя информацию о субкатегориальнойрамке предиката и о кореференции в случаях с удалёнными актантами.
Вслучаях, если автоматический синтаксический анализ был произведён верно,совпадение пути, т.е. совпадение последовательности имён отношений снаправлениями, является веским аргументом в пользу правильности гипотезыо соответствии семантических ролей. Однако учитывая, что синтаксическийанализ в нашем случае производится автоматически как на этапе обученияклассификатора, так и на этапе применения, при увеличении длины путивозрастает и вероятность, что данный путь был определён неправильно, чтоприводит к появлению большого числа уникальных "длинных" путей и общейразреженности данных.Уникальные пути составляют около 50% всех обнаруженных путей нанаших тренировочных данных, при этом польза этих уникальных путейсомнительна, так как обладая высокой специфичностью они могут бытьошибочными.
В то же время вероятность, что путь содержит ошибку, растёт сувеличением длины пути. Исходя из этого, кажется разумным ограничитьдлину пути. Следующий график демонстрирует соотношения длин пути с ихчастотами в нашем корпусе:98Рисунок 31: Гистограмма длины свойства "путь"Пик распределения приходится на пути с частотой 1-4, затем частотападает. Средняя длина пути по нашей обучающей выборке составляет 3.5отношения,поэтомубылоприняторешениеограничитьдлинурассматриваемых путей 4 отношениями. Пути, длина которых превышает этувеличину, могут быть искусственным образом сокращены до 4 шагов отпредиката. В этом случае решение о присвоении роли может приниматься наоснове других свойств выбранного экземпляра. Это свойство, которое мы вдальнейшем будем именовать path4, используется при классификации наравнесо свойством path, которое представляет собой полный путь.II.3.7 Свойство "финский падеж"В языках со свободным порядком слов и падежным маркированиемпадеж часто используется для отражения синтаксических зависимостей междучленами предложения.