Диссертация (1100480), страница 21

Файл №1100480 Диссертация (Автоматическая разметка семантических ролей в русском языке) 21 страницаДиссертация (1100480) страница 212019-03-132019-03-13СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 21)

Это обстоятельство, как мы считаем, частично ответственно заприоритет точности над полнотой в нашей системе: в случаях, когда путь отпредиката к актанту совпадает, это является очень существенным доводом впользу присвоения актанту соответствующей роли. В противном же случае рольможет быть присвоена на основании других семантических и синтаксических146свойств, однако вес этих свойств относительно невелик, и в большинствеслучаев классификатор минимизирует риск и присваивает потенциальномуактанту роль "None". Свойство "путь" в нашей системе берёт на себя оченьбольшую смысловую нагрузку, т.к.

кроме непосредственно синтаксическихотношенийрегистрируеттакжедистантныеотношения,возникающие,например, в случаях, когда носитель роли находится в соседней клаузе.Предположим, что в тренировочной выборке содержится следующеепредложение:Иван хочет купить автомобиль, чтобы ездить на нём в деревню.Пример 14: Проблема разреженности путиЗдесь путь от целевого предиката до актанта проходит через другойпредикат (“хотеть” и “купить”), и в результате система обучается реагироватьна данное значение свойства "путь" приписанием соответствующего классаактанту.Приэтомвдругомслучае,аналогичномсточкизрениякореферентности именных групп, система распознает уже другой путь:Иван был бы рад купить автомобиль, чтобы ездить на нём в деревню.Пример 15: Проблема разреженности путиТаким образом, если представить, что наш обучающий корпус состоялтолько из предложений первого типа, а наши тестовые данные содержатпредложения второго типа, эти вторые предложения не могут бытьпроанализированы правильно на основании синтаксиса, т.к.

система не может"абстрагировать" пути до уровня, на котором эти пути были бы эквивалентны.Данная проблема может быть решена путём включения в систему компонента147анализа кореферентности или же более гибкого моделирования пути. В нашемслучае мы предприняли попытку "генерализации" пути методом усеченияпутей до средней длины по корпусу.

Таким образом мы лишаем системувозможности использовать длинные и нестандартные пути на этапе обучения истимулируемиспользованиедругихсвойств,например,семантикипредполагаемого актанта или его падежа. Как показывают наши результаты,такая стратегия является успешной, и три лучших системы на полных наборахсвойств, а также две лучших системы на синтаксических свойствах используютименно короткий путь вместо полного. Мы считаем, что более эффективнаягенерализация пути, например, на основе вероятностного моделированияпоследовательностей связей, могли бы помочь улучшить этот результат исделать свойство "путь" менее разреженным и более содержательным.Следует отдельно отметить проблему, возникающую при наличии вобучающих и тестовых выборках предложений с эллипсисом, см.

например,Пример 16: Имплицитное заполнение роли6:∅ Плутала улицами , переулками , выбежала к трамваю номер восемь.Пример 16: Имплицитное заполнение ролиВ этом случае свойство "путь" может быть правильно определено толькоесли синтаксический анализатор поддерживает нулевые элементы, что,насколько нам известно, встречается достаточно редко по причине высокойвычислительной сложности моделей, которые допускают существованиенулевых элементов.На фоне успешной работы конфигураций, основанных на синтаксическихсвойствах,полностьюсемантическиеконфигурациидемонстрируютзначительно худшее качество работы.

По-видимому, это связано в первуюочередь с тем, что в отсутствие информации о синтаксисе оказывается148сложным провести границу между представителями классов. Классы актантовоказываются в данном случае практически неотличимы от класса отсутсвияроли с точки зрения свойств, и у классификатора нет возможности провестиразграничение между классами на основе только лишь лексической ичастеречной информации. В то же время, используя отличные от путисинтаксические свойства, можно обучить систему, всё ещё превосходящую покачеству классификатор на основе большинства В Таблица 14: Лучшиеконфигурации без использования свойства "путь представлены пять лучшихконфигураций по F1-мере, в которых не используется свойство "путь" наосновании данных первого этапа оценки:FeaturesPRFAccVform,POS,finncase,lemma,cluster-nouns,case0.5740.4760.4910.925Vform,POS,finncase,lemma,cluster-all,case0.5740.4760.4910.925Vform,POS,finncase,lemma,prep_lemma,cluster-nouns,case0.5720.4750.4900.925Vform,POS,finncase,lemma,prep_lemma,cluster-all,case0.5720.4750.4900.925Voice,vform,POS,finncase,lemma,prep_lemma,cluster-all,case0.5680.4750.4890.924baseline0.3310.3560.3430.928Таблица 14: Лучшие конфигурации без использования свойства "путь"Как показывает Таблица 14, включение в данные дополнительнойинформации о падежном оформлении и морфологических характеристикахглагола позволяет эффективно использовать семантические свойства.Отдельного упоминания заслуживает свойство "кластер", которое,вопреки нашим ожиданиям, по результатам экспериментов не оказываетсколько-нибудь значительного влияния на качество классификации (и дажедемонстрирует небольшую отрицательную корреляцию со значениями Fмеры).

Напомним, что кластер слова в нашем случае определяется с помощью149модели на основе алгоритма Chinese Whispers, построенной на данных избольшого корпуса русскоязычных текстов. Существует по крайней мере трипроблемы, с которыми мы сталкиваемся при использовании кластеризации внашей системе.Во-первых, кластеризация основана на распределении слов из внешнегоисточника, тексты в котором принадлежат к другой предметной области,нежели материал FrameBank (в основном это новостные тексты, в то время какFrameBank основан на текстах из литературных источников).

В результате этогонекоторые распределения слов и сходства между словами, на основаниикоторых строится наш граф, могут быть неточны. По этой же причине нашакластеризация не полностью покрывает лексику документов FrameBank. Длякластеризации, включающей все части речи, покрытыми оказывается 70% слови 42% словоупотреблений, в то время как кластеризация на основесуществительных покрывает лишь 20% слов и 37% словоупотреблений.

Мысчитаем, что это связано с различиями в исходных данных, использованных дляпостроения кластеров и для создания корпуса FrameBank. В случаях, когдакластер для слова не найден, слово не получает метки кластера. Такоеотсутствиекластераможетоказатьсязначимымдляклассификатора:предположим, что все слова-актанты в тренировочном корпусе имели пустуюметку кластера, а некоторые слова, которые актантами не являлись, наоборотполучили такую метку.

В этом случае для классификатора станет значимымотсутствие кластера, что может привести к падению качества классификации.Другаясложность,такжесвязаннаяснеполнымсоответствиемпредметной области, на текстах из которой была построена кластеризация, ипредметной области FrameBank – проблема лексической неоднозначности.Поскольку снятие лексической неоднозначности не производится ни в данныхFrameBank, ни в данных, на основе которых построена кластеризация, внекоторых ситуациях слову может быть приписан неправильный кластер из-за150несоответствиязначенийсловоупотреблениявкорпусеFrameBankитезаурусного входа. Если бы тезаурус и корпус FrameBank принадлежали кодной предметной области, данный эффект мог бы быть частично сглажендействием эффекта "одного значения на дискурс" ("one sense per discourse",[Gale, Church, Yarowsky, 1992]), согласно которому в рамках одной предметнойобласти вариативность в значениях слов значительно падает, однако в нашемслучае это не так.Наконец,нашакластеризациястрадаетотизлишнейфрагментированности: при высокой точности кластеров, т.е.

их внутреннейоднородности, некоторые очевидно связанные слова оказываются помещены вразные кластеры, как в следующем примере.Таблица 15: Проблемы кластеризацииВрезультатеподобнойчрезмернойспецифичностиоказываетсяневозможным установить связь между словами из первой группы и словами извторой группы на этапе применения системы.Указанные выше проблемы кластеризации, как нам кажется, могут бытьрешены путём включения в систему компонента разрешения лексическойнеоднозначности, извлечения тезауруса из более близкого по содержаниюисточника, а также доработки процедуры кластеризации. В целом хотелось быотметить, что требования к качеству лексических свойств оказываютсядостаточно высокими: для нормального функционирования этих свойствтребуется и высокая степень лексического покрытия целевого корпуса, и151совпадения предметной области (что гарантировало бы покрытие в планезначений слов), и высокий уровень генерализации значений.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.