Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 21
Описание файла
Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 21 страницы из PDF
Это обстоятельство, как мы считаем, частично ответственно заприоритет точности над полнотой в нашей системе: в случаях, когда путь отпредиката к актанту совпадает, это является очень существенным доводом впользу присвоения актанту соответствующей роли. В противном же случае рольможет быть присвоена на основании других семантических и синтаксических146свойств, однако вес этих свойств относительно невелик, и в большинствеслучаев классификатор минимизирует риск и присваивает потенциальномуактанту роль "None". Свойство "путь" в нашей системе берёт на себя оченьбольшую смысловую нагрузку, т.к.
кроме непосредственно синтаксическихотношенийрегистрируеттакжедистантныеотношения,возникающие,например, в случаях, когда носитель роли находится в соседней клаузе.Предположим, что в тренировочной выборке содержится следующеепредложение:Иван хочет купить автомобиль, чтобы ездить на нём в деревню.Пример 14: Проблема разреженности путиЗдесь путь от целевого предиката до актанта проходит через другойпредикат (“хотеть” и “купить”), и в результате система обучается реагироватьна данное значение свойства "путь" приписанием соответствующего классаактанту.Приэтомвдругомслучае,аналогичномсточкизрениякореферентности именных групп, система распознает уже другой путь:Иван был бы рад купить автомобиль, чтобы ездить на нём в деревню.Пример 15: Проблема разреженности путиТаким образом, если представить, что наш обучающий корпус состоялтолько из предложений первого типа, а наши тестовые данные содержатпредложения второго типа, эти вторые предложения не могут бытьпроанализированы правильно на основании синтаксиса, т.к.
система не может"абстрагировать" пути до уровня, на котором эти пути были бы эквивалентны.Данная проблема может быть решена путём включения в систему компонента147анализа кореферентности или же более гибкого моделирования пути. В нашемслучае мы предприняли попытку "генерализации" пути методом усеченияпутей до средней длины по корпусу.
Таким образом мы лишаем системувозможности использовать длинные и нестандартные пути на этапе обучения истимулируемиспользованиедругихсвойств,например,семантикипредполагаемого актанта или его падежа. Как показывают наши результаты,такая стратегия является успешной, и три лучших системы на полных наборахсвойств, а также две лучших системы на синтаксических свойствах используютименно короткий путь вместо полного. Мы считаем, что более эффективнаягенерализация пути, например, на основе вероятностного моделированияпоследовательностей связей, могли бы помочь улучшить этот результат исделать свойство "путь" менее разреженным и более содержательным.Следует отдельно отметить проблему, возникающую при наличии вобучающих и тестовых выборках предложений с эллипсисом, см.
например,Пример 16: Имплицитное заполнение роли6:∅ Плутала улицами , переулками , выбежала к трамваю номер восемь.Пример 16: Имплицитное заполнение ролиВ этом случае свойство "путь" может быть правильно определено толькоесли синтаксический анализатор поддерживает нулевые элементы, что,насколько нам известно, встречается достаточно редко по причине высокойвычислительной сложности моделей, которые допускают существованиенулевых элементов.На фоне успешной работы конфигураций, основанных на синтаксическихсвойствах,полностьюсемантическиеконфигурациидемонстрируютзначительно худшее качество работы.
По-видимому, это связано в первуюочередь с тем, что в отсутствие информации о синтаксисе оказывается148сложным провести границу между представителями классов. Классы актантовоказываются в данном случае практически неотличимы от класса отсутсвияроли с точки зрения свойств, и у классификатора нет возможности провестиразграничение между классами на основе только лишь лексической ичастеречной информации. В то же время, используя отличные от путисинтаксические свойства, можно обучить систему, всё ещё превосходящую покачеству классификатор на основе большинства В Таблица 14: Лучшиеконфигурации без использования свойства "путь представлены пять лучшихконфигураций по F1-мере, в которых не используется свойство "путь" наосновании данных первого этапа оценки:FeaturesPRFAccVform,POS,finncase,lemma,cluster-nouns,case0.5740.4760.4910.925Vform,POS,finncase,lemma,cluster-all,case0.5740.4760.4910.925Vform,POS,finncase,lemma,prep_lemma,cluster-nouns,case0.5720.4750.4900.925Vform,POS,finncase,lemma,prep_lemma,cluster-all,case0.5720.4750.4900.925Voice,vform,POS,finncase,lemma,prep_lemma,cluster-all,case0.5680.4750.4890.924baseline0.3310.3560.3430.928Таблица 14: Лучшие конфигурации без использования свойства "путь"Как показывает Таблица 14, включение в данные дополнительнойинформации о падежном оформлении и морфологических характеристикахглагола позволяет эффективно использовать семантические свойства.Отдельного упоминания заслуживает свойство "кластер", которое,вопреки нашим ожиданиям, по результатам экспериментов не оказываетсколько-нибудь значительного влияния на качество классификации (и дажедемонстрирует небольшую отрицательную корреляцию со значениями Fмеры).
Напомним, что кластер слова в нашем случае определяется с помощью149модели на основе алгоритма Chinese Whispers, построенной на данных избольшого корпуса русскоязычных текстов. Существует по крайней мере трипроблемы, с которыми мы сталкиваемся при использовании кластеризации внашей системе.Во-первых, кластеризация основана на распределении слов из внешнегоисточника, тексты в котором принадлежат к другой предметной области,нежели материал FrameBank (в основном это новостные тексты, в то время какFrameBank основан на текстах из литературных источников).
В результате этогонекоторые распределения слов и сходства между словами, на основаниикоторых строится наш граф, могут быть неточны. По этой же причине нашакластеризация не полностью покрывает лексику документов FrameBank. Длякластеризации, включающей все части речи, покрытыми оказывается 70% слови 42% словоупотреблений, в то время как кластеризация на основесуществительных покрывает лишь 20% слов и 37% словоупотреблений.
Мысчитаем, что это связано с различиями в исходных данных, использованных дляпостроения кластеров и для создания корпуса FrameBank. В случаях, когдакластер для слова не найден, слово не получает метки кластера. Такоеотсутствиекластераможетоказатьсязначимымдляклассификатора:предположим, что все слова-актанты в тренировочном корпусе имели пустуюметку кластера, а некоторые слова, которые актантами не являлись, наоборотполучили такую метку.
В этом случае для классификатора станет значимымотсутствие кластера, что может привести к падению качества классификации.Другаясложность,такжесвязаннаяснеполнымсоответствиемпредметной области, на текстах из которой была построена кластеризация, ипредметной области FrameBank – проблема лексической неоднозначности.Поскольку снятие лексической неоднозначности не производится ни в данныхFrameBank, ни в данных, на основе которых построена кластеризация, внекоторых ситуациях слову может быть приписан неправильный кластер из-за150несоответствиязначенийсловоупотреблениявкорпусеFrameBankитезаурусного входа. Если бы тезаурус и корпус FrameBank принадлежали кодной предметной области, данный эффект мог бы быть частично сглажендействием эффекта "одного значения на дискурс" ("one sense per discourse",[Gale, Church, Yarowsky, 1992]), согласно которому в рамках одной предметнойобласти вариативность в значениях слов значительно падает, однако в нашемслучае это не так.Наконец,нашакластеризациястрадаетотизлишнейфрагментированности: при высокой точности кластеров, т.е.
их внутреннейоднородности, некоторые очевидно связанные слова оказываются помещены вразные кластеры, как в следующем примере.Таблица 15: Проблемы кластеризацииВрезультатеподобнойчрезмернойспецифичностиоказываетсяневозможным установить связь между словами из первой группы и словами извторой группы на этапе применения системы.Указанные выше проблемы кластеризации, как нам кажется, могут бытьрешены путём включения в систему компонента разрешения лексическойнеоднозначности, извлечения тезауруса из более близкого по содержаниюисточника, а также доработки процедуры кластеризации. В целом хотелось быотметить, что требования к качеству лексических свойств оказываютсядостаточно высокими: для нормального функционирования этих свойствтребуется и высокая степень лексического покрытия целевого корпуса, и151совпадения предметной области (что гарантировало бы покрытие в планезначений слов), и высокий уровень генерализации значений.