Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 13

PDF-файл Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 13 Филология (31154): Диссертация - Аспирантура и докторантураДиссертация (Автоматическая разметка семантических ролей в русском языке) - PDF, страница 13 (31154) - СтудИзба2019-03-132019-03-13СтудИзба

Автоматическая разметка семантических ролей в русском языке801

Описание файла

Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.

Просмотр PDF-файла онлайн

Текст 13 страницы из PDF

Внашей системе эту роль играет падежное маркирование, часть речи же несётболее семантизированную нагрузку и служит, в частности, для разграниченияимён существительных, наречий и сентенциальных актантов.Итак, мы рассмотрели в общих чертах свойства, которые применяются внашей системе для описания экземпляров. На основании этих свойств82классификатор принимает решение о том, какую семантическую роль (или еёотсутствие) приписать каждому рассматриваемому узлу. Влияние каждого изэтих свойств на результат классификации, было установлено в ходеэкспериментов.

Ниже мы хотели бы подробнее остановиться на несколькихсвойствах, которые, на наш взгляд, представляют интерес вне зависимости отих вклада в качество работы системы в нашей имплементации.II.3.5 Кластеризация лексикиЛексическая информация играет важную роль в автоматическойклассификации актантов и потому должна быть учтена в свойствах,используемыхлексическойдляописанияинформации–экземпляров.этоПростейшийнепосредственноспособлеммаучётаслова,представленного целевым узлом. В случае совпадения леммы тренировочногои тестового экземпляра вероятность соответствия их ролей крайне высока.Рассмотрим следующий пример, где предложение из тренировочной выборки(слева) требуется сопоставить с предложением из тестовой выборки (справа):Маша купила велосипед → Маша купила грузовикВ данном случае лексема "Маша" содержится в виде свойства как втестовом экземпляре, так и в тренировочном, и на основании одного этогофакта классификатор уже мог бы приписать тестовому узлу правильную роль.

Вто же время для второго узла, "грузовик", эта операция быть выполнена неможет, т.к. его лемма не совпадает с леммой тестового экземпляра("велосипед"). Поскольку объём корпусов, размеченных по семантическимролям, как правило, очень ограничен, вероятность встретить новое слово в узледостаточно велика. Для того чтобы решить эту проблему, можно использоватьвнешний источник данных, который для каждой пары слов определяет,принадлежат ли они к одному семантическому классу.

Имея такой ресурс,83созданный, как правило, с учётом значительно большего объёма данных, чемразмеченный по семантическим ролям корпус, мы можем частично решитьпроблему низкого покрытия и делать успешные предсказания даже для узлов,лемма которых в тренировочных данных отсутствует.Существуетдваосновныхтипаресурсов,которыемогутбытьиспользованы для решения этой задачи. Во-первых, можно использоватьготовыйвнешнийресурс-тезаурус,созданныйэкспертамиилиполуавтоматически.

В тезаурусе лексемы объединяются в группы, и для каждойпары лексем, в частности, можно установить, принадлежат ли они к одной итой же группе. В качестве иллюстрации приведём пример из тезауруса РуТезLite [Loukachevitch, Dobrov, Chetviorkin, 2014]:Рисунок 21: Запись тезауруса РуТез для концепта "Рептилия"Такие ресурсы отличаются высоким качеством разбиения слов, однакомогут страдать от недостаточной степени покрытия. Кроме того, ресурс можетпредставлять классификацию слов в виде иерархии, в результате чегоконкретныйкласс,ккоторомупринадлежитслово,оказываетсявдействительности очень малочисленным.

В этом случае требуется определить84некоторый уровень абстракции, на котором слова рассматриваются какпринадлежащие к одному общему классу, и использовать классы на этомуровне абстракции в качестве свойств. Поскольку подобные ресурсы зачастуюсоздаются с участием экспертов-аннотаторов, их объём, как правило,ограничен.Альтернативное решение в данной ситуации – использовать результатыавтоматической кластеризации лексики, полученной на большом корпуседанных. В общем случае задача кластеризации заключается в разбиениимножества экземпляров на группы таким образом, что экземпляры внутриодной группы были максимально схожи между собой, при этом экземпляры изразных групп максимально различны.

Задачу кластеризации иллюстрируетследующий пример, где выполняется объединение точек в группы наосновании их расположения.Рисунок 22: Задача кластеризацииВ случае с кластеризацией лексики, точками-экземплярами являютсяотдельные лексемы или их значения. К задаче построения признакового85пространства существует несколько подходов, но все их объединяетпредположение о том, что значение лексемы так или иначе выражается черезмножество её возможных контекстов.

Наиболее простой вариант подобногопространства строится на основе частоты совместной встречаемости даннойлексемы с другими лексемами. Однако было предложено множествоальтернативных способов представления, которые позволяют автоматическигруппировать лексемы-признаки в соответствии с их распределением наисходном корпусе [Blei, Ng, Jordan, 2012; Gabrilovich, Markovitch, 2007; Mikolov идр., 2013]. После того как лексемы или значения представлены в видеэкземпляров и описаны в терминах выбранного признакового пространства,мы можем выполнить кластеризацию этих точек и объединить их в группы наосновании семантической близости.

Полный обзор существующих методовкластеризации выходит за рамки задач этой работы, однако мы считаемуместнымрассмотретьдванаиболеераспространённыхподходаккластеризации: плоскую кластеризацию, при которой лексемы распределяютсяпо непересекающимся кластерам, и иерархическую кластеризацию, прикоторой кластеры организованы в иерархию.Классическимпредставителемсемействаалгоритмовплоскойкластеризации является метод k-средних [MacQueen, 1967]. Принцип работыэтого алгоритма состоит в том чтобы подобрать центры кластеров такимобразом, чтобы минимизировать суммарное квадратичное отклонение точеккластеров от этих центров.Приинициализацииалгоритмоввыбираетсяkслучайныхточекпризнакового пространства – центров кластеров – и оставшиеся точки(исходные экземпляры) разделяются на кластеры в зависимости от того, ккакой из инициирующих k точек они ближе расположены.

После этого длякаждого из k кластеров вычисляется центр масс на основе всех входящих в неготочек, и этот центр масс объявляется новым "центром кластера". Эти действия86повторяются до того момента, когда очередное обновление центров масс неприводит к изменениям.К недостаткам этого подхода относят зависимость результата отслучайного выбора центров кластеров при инициализации и необходимостьуказать целевое число кластеров k (что в случае с кластеризацией лексикипредставляется затруднительным).Классический представитель алгоритмов иерархической кластеризации –аггломеративный алгоритм [Sibson, 1973].

Суть этого алгоритма состоит в том,что два наиболее схожих между собой кластера объединяются на каждомновом шаге в один. Изначально каждая точка признакового пространстваявляется отдельным кластером. Для каждой пары точек мы вычисляем ихсходство с помощью одной из стандартных мер близости векторов (например,косинусного расстояния) и объединяем наиболее близкие точки в кластер. Этапроцедура повторяется, причём для кластеров при вычислении сходстваиспользуется центр кластера.

Процедура останавливается, когда все точкиоказываются объединены в один кластер. Результат аггломеративнойкластеризации – разбиение точек на группы, организованные в иерархию.Сложность с использованием данного подхода в задачах, подобных нашей,состоит в том, что одной метки кластера для слова недостаточно и необходимокаким-то образом передавать в классификатор информацию об иерархическихотношениях внутри множества кластеров. В то же время, как и в случае стезаурусами, при нахождении оптимального порога отсечения и группировкиоказывается возможным получить разбиение лексики на осмысленные классы,которые могут использоваться при автоматической разметке актантов.Всвязистем,чтоучётиерархическихотношенийтребуетдополнительного моделирования, в данном исследовании мы остановиливыбор на плоской кластеризации, которая приписывает каждой лемме толькоодин семантический класс.

Поскольку изначальное число кластеров для87плоскойкластеризацииопределитьтрудно,мыиспользуемнепараметрический графовый алгоритм кластеризации Chinese Whispers,предложенный в [Biemann, 2006a]. Нам не известно о случаях примененияэтого алгоритма для решения указанной задачи в русском языке, однако мысчитаем полученные нами результаты обнадёживающими, что поддерживаетсяи высоким качеством результатов, полученных для аналогичной задачи наанглийском материале.

Поскольку выбранный нами алгоритм появилсясравнительно недавно и используется не очень широко, представляетсяразумным коротко остановиться на общих принципах его работы. Это кажетсятем более уместным, что выбранный нами алгоритм достаточно прост иинтуитивно понятен.Chinese Whispers является алгоритмом кластеризации графов. Суть егодемонстрирует следующий пример. Допустим, что нам дан граф, состоящий изузлов и ненаправленных взвешенных связей между ними. Задача состоит в том,чтобы сгруппировать узлы на основании этих связей. Для простотыпредположим, что веса всех связей равны единице.Рисунок 23: Пример графаНа этапе инициализации каждый из узлов графа получает уникальнуюметку кластера.88Рисунок 24: Граф после инициализацииЗатем в ходе каждой итерации каждый узел голосует за свою меткукластера с силой, равной весу связи.

Таким образом для каждого узла меткаего кластера определяется суммой голосов за каждую из меток соседствующихузлов. Порядок обхода узлов определяется случайно в начале каждойитерации, в случае неоднозначностей решение принимается случайно.Представим, что в определенный момент времени граф оказался в следующейконфигурации, и в настоящий момент выполняется голосование за метку дляузла 5.Рисунок 25: Шаг кластеризации: голосование89В результате голосования, метка 9 получает два голоса, т.к. эту меткуимеет два узла, связанных с узлом 5.

За метку 1 голосует только один узел,таким образом, метка рассматриваемого узла будет изменена с 5 на 9.Более формально алгоритм может быть представлен следующимобразом:Инициализация: для каждого узла ∈ : () = Покаестьизменения:длякаждогопорядке( )устанавливаетсявысокимрангомсредисоседейкакузла ∈ вслучайномкласссграфе.внаиболееПринеоднозначности класс выбирается случайно.В результате, по истечении определённого числа итераций, достигаетсяоптимальное жёсткое разделение графа на кластеры. Количество итерацийопределяется эмпирически, но авторы метода заявляют, что для достиженияоптимального разбиения графа требуется всего несколько итераций, и после 10итераций разбиение меняется незначительно или не меняется вовсе [Biemann,2006a].

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.