Диссертация (1100480), страница 6
Текст из файла (страница 6)
В 2007 и 2008году были проведены соревнования CoNLL 2007 и 2008, посвящённые задачеавтоматическогосинтаксическогоисемантическогоанализакакдляанглийского, так и других языков. На нескольких работах, представленных наэтих соревнованиях, мы хотели бы остановиться подробнее.Исследование, описанное в работе Х. Льюис и Л. Маркес [Lluís, Màrquez,2008] развивает идею, предложенную в [Haghighi, Toutanova, Manning, 2008].32Авторы предлагают систему, которая на основе тренировочных данныхобучается одновременно выполнять синтаксический парсинг и автоматическуюразметку актантов. Система состоит из пяти компонентов: предобработка,предварительныйсинтаксическийанализ,идентификацияпредиката,финальный синтаксический и семантический парсинг и постобработка.
На этапепредобработки из корпусных данных извлекаются стандартные для задачсинтаксического анализа свойства. На этапе предварительного синтаксическогоанализа к данным применяется парсер с целью снабдить компонентклассификации актантов синтаксическими свойствами. Затем в предложениях спомощью бинарного SVM-классификатора и набора эвристик выделяютсяцелевые предикаты. После этого к данным снова применяется парсер, но наэтот раз обученный с использованием комбинированных синтактикосемантических меток. В результате работы этого парсера для каждогопредложения строится два дерева: синтаксическое и семантическое. Затем, наэтапе постобработки, предикату приписывается значение, при котором ролиоказываются максимально заполнены (своего рода снятие лексическойнеоднозначности, но выполненное не в начале анализа, а в конце). Системапоказала конкурентоспособные результаты по автоматической классификацииактантов при стабильных результатах синтаксического анализа, однако авторыотмечают ухудшение качества при анализе именных предикатов.Другая работа, о которой мы хотели бы рассказать в рамках нашегообзора – исследование Р.
Йоханссон и П. Нюг [Johansson, Nugues, 2007],которые одними из первых стали использовать синтаксис зависимостей дляавтоматическойразметкиактантов,доказалисостоятельностьипродемонстрировали удобство этого подхода на примере работы с данными изкорпуса FrameNet. Это одна из классических и наиболее цитируемыхсовременных публикаций по автоматической разметке и классификацииактантов.
Авторы опираются на теоретический аппарат теории связывания33[Mel’čuk, 1988] и определяют задачу автоматической разметки актантов какзадачу моделирования семантико-синтаксического интерфейса предиката. Длясинтаксического анализа исходных предложений авторы обучили модель дляпарсера MaltParser [Nivre, Hall, Nilsson, 2006] на конвертированном в форматдеревьев зависимостей корпусе Penn Treebank [Marcus, Santorini, Marcinkiewicz,1993]. Далее они применили обученную модель к корпусу примеров FrameNet,в котором, в отличие от PropBank, отсутствует синтаксическая разметка. Спомощью набора эвристик основанная на отрезках текста разметка быласпроецирована на узлы деревьев зависимостей.
Для снятия неоднозначностина уровне предикатов авторы использовали набор эвристик и классификатор наоснове SVM, в результате чего каждому предикату из тестового корпусаприписывалось значение из FrameNet. После того как значение предикатаопределено, выполняется обнаружение и классификация актантов. В обоихслучаях авторы используют классификатор на основе метода опорных векторовсо стандартным набором свойств (отметим, что синтаксические свойства теперьизвлекаютсяиздеревьевзависимостей,анесоставляющих).Ролиприписываются актантам независимо, т.е. глобальной оптимизации непроизводится. Эта работа была предложена в рамках соревнования SemEval2007, посвящённого автоматической классификации актантов на основе данныхFrameNet, и продемонстрировала результаты, сопоставимые с системами наоснове синтаксиса непосредственных составляющих.
Авторы обращаютвнимание на ряд трудностей, связанных со свойством "путь" и нанетривиальность соответствий между синтаксическим и семантическимпредставлениями текста.34I.4 Современные системыСовременныесистемыавтоматическойклассификацииактантовопираются на более сложные методы, в которых информация о структурезадачииособенностяхсемантическогопредставлениякодируетсянепосредственно в модели. В качестве примера такой системы можнопривести систему SEMAFOR [Das и др., 2010]. Все рассмотренные нами ранеесистемыпредставляютсобойпоследовательностьнезависимыхклассификаторов: процесс обработки состоит из нескольких этапов, которые взависимости от конкретной конфигурации могут включать в себя поискцелевого предиката, определение значения предиката (при использованииPropBank) или фрейма (при использовании FrameNet), а также обнаружение иклассификациюактантов.Одинизнедостатковтакогоподхода—невозможность использовать информацию о присвоении ролей на этапеидентификации актантов.
В системе SEMAFOR идентификация и классификацияактантов выполняются одновременно. Система SEMAFOR получает на входрезультаты предобработки исходных данных морфологическим анализатором,модулем снятия неоднозначности на основе WordNet [Fellbaum, 1998] ипарсером деревьев зависимостей MST [McDonald, Lerman, Pereira, 2006]. Далеена основе извлечённых свойств происходит обучение двух классификаторов:одного для определения фрейма, и одного – для идентификации иклассификации актантов. Обнаружение и классификация актантов, в отличие отболее ранних работ, выполняются одновременно.
Авторам удалось превзойтипо качеству предыдущие разработки для классификации актантов на основеFrameNet. Система SEMAFOR до сих пор совершенствуется, подробный отчёт оработе системы, а также обзор конкурирующих подходов можно найти вработе [Das, 2010].35В рамках данного обзора мы рассматривали преимущественно системы,разработанные для английского языка.
Как мы уже ранее упоминали, насегодняшний день английский язык действительно наиболее разработан врелевантном для SRL отношении: доступно множество ресурсов дляпредобработки, а также корпуса, размеченные по семантическим ролям ипредикатам. Для других языков, при наличии обучающих данных, используютсяподходысхожиесописаннымивыше,акачествоавтоматическойклассификации актантов, как правило, оказывается сопоставимым илинесколько ниже, чем для английского языка. Основная сложность приразработке подобных систем состоит в зависимости от аннотированногоресурса: разметка по семантическим ролям – крайне трудозатратный и плохоформализуемый процесс, и даже наличие подобного корпуса для того илииного языка не гарантирует качественной работы обученных систем на новыхданных.Этапроблемаобычноизвестнакакпроблемадоменнойспецифичности SRL.Длярешенияпроблемыдоменнойспецифичностивобластиавтоматической разметки семантических ролей в последние годы былопредложено несколько подходов, которые позволяют уменьшить объёмтренировочных данных, требуемый для обучения системы, или вовсеизбавиться от необходимости в таких данных за счёт использования методовобучения без учителя.Так, Х.
Фюстенау и М. Лапата в работе [Furstenau, Lapata, 2011]предлагаюттехникусинтаксическихпроекцииграфовнааннотацийосновеспомощьюцелочисленноговыравниваниялинейногопрограммирования. Общий принцип работы их системы состоит в следующем:корпус примеров FrameNet (исходный корпус) и некоторый другой большой, ноне размеченный целевой корпус анализируются с помощью синтаксическогопарсера. Затем для каждого предложения из корпуса FrameNet в целевом36корпусе находится предложение-кандидат на проекцию. Эта операция можетбыть выполнена на основе леммы предиката или с использованием болеесложногомеханизмаснятиялексическойнеоднозначности.Далеесинтаксические деревья исходного и целевого предложений фильтруются спомощьюэвристикиподвергаютсявыравниваниюнаоснованиисинтаксического и лексического сходства между узлами.
Выравниваниепроизводится с помощью целочисленного линейного программирования иимеет своей целью максимизировать сходство между графами. Поле того каквыравнивание выполнено, семантическая разметка из исходного графатривиальнымобразомпереноситсянацелевойграф.Полученныйрасширенный набор данных (FrameNet плюс целевой корпус, обогащённыйролями) может использоваться для обучения системы.В качестве примера системы обучения без учителя хотелось быупонямуть решение, выполненное на основе графовой кластеризации, котороебыло предложено в работе [Lang, Lapata, 2011]. Авторы предлагают обработатьисходный корпус, не содержащий семантической разметки, синтаксическиманализатором и расположить все актанты для каждого предиката на графе.Узлами графа будут являться употребления актантов в тексте, а рёбрами –отношения сходства между актантами, которые вычисляются на основелексического и синтаксического сходства.
К построенному таким образом графупрменяется алгоритм непараметрической графовой кластеризации ChineseWhispers [Biemann, 2006a], в результате работы которого граф оказываетсяразбит на группы сходных между собой узлов-актантов, которые и объявляютсясемантическими ролями для данного предиката.Успех применения данного метода, как и многих других методовобучения без учителя применительно к высокоуровневым задачам, сильнозависит от качества предобработки корпуса и от моделей лексическогосходства.
В качестве альтернативного примера формулировки автоматической37разметки актантов как задачи непараметрической кластеризации можноупомянуть успешную работу [Titov, Klementiev, 2012], в которой для решенияиспользовалась байесовская сеть со скрытыми переменными.Как уже упоминалось, автоматическая разметка актантов – ресурсоёмкаязадача, для решения которой требуется качественная предварительнаяобработка текстов и большие объёмы аннотированных данных. Несмотря на то,что наша система принадлежит к классическим системам обучения с учителем,кажется важным отметить потенциал современных методов, которыенаправленынауменьшениезависимостиSRLкакпредобработки, так и от объёмов тренировочных корпусов.38отрезультатовI.5 Автоматическая разметка актантов и русскийязыкНа сегодняшний день практически не имеется публикаций, посвященныхрешению задачи автоматической классификации актантов на русскомматериале.Единственная известная нам реализация данной задачи на основемашинного обучения [Смирнов, Shelmanov, 2014] скорее относится к методамчастичного обучения с учителем.