Диссертация (1137507), страница 6
Текст из файла (страница 6)
Затем в предложениях спомощью бинарного SVM-классификатора и набора эвристик выделяютсяцелевые предикаты. После этого к данным снова применяется парсер, но наэтот раз обученный с использованием комбинированных синтактикосемантических меток. В результате работы этого парсера для каждогопредложения строится два дерева: синтаксическое и семантическое. Затем, наэтапе постобработки, предикату приписывается значение, при котором ролиоказываются максимально заполнены (своего рода снятие лексическойнеоднозначности, но выполненное не в начале анализа, а в конце). Системапоказала конкурентоспособные результаты по автоматической классификацииактантов при стабильных результатах синтаксического анализа, однако авторыотмечают ухудшение качества при анализе именных предикатов.Другая работа, о которой мы хотели бы рассказать в рамках нашегообзора – исследование Р.
Йоханссон и П. Нюг [Johansson, Nugues, 2007],которые одними из первых стали использовать синтаксис зависимостей дляавтоматическойразметкиактантов,доказалисостоятельностьипродемонстрировали удобство этого подхода на примере работы с данными изкорпуса FrameNet. Это одна из классических и наиболее цитируемыхсовременных публикаций по автоматической разметке и классификацииактантов.
Авторы опираются на теоретический аппарат теории связывания33[Mel’čuk, 1988] и определяют задачу автоматической разметки актантов какзадачу моделирования семантико-синтаксического интерфейса предиката. Длясинтаксического анализа исходных предложений авторы обучили модель дляпарсера MaltParser [Nivre, Hall, Nilsson, 2006] на конвертированном в форматдеревьев зависимостей корпусе Penn Treebank [Marcus, Santorini, Marcinkiewicz,1993]. Далее они применили обученную модель к корпусу примеров FrameNet,в котором, в отличие от PropBank, отсутствует синтаксическая разметка. Спомощью набора эвристик основанная на отрезках текста разметка быласпроецирована на узлы деревьев зависимостей.
Для снятия неоднозначностина уровне предикатов авторы использовали набор эвристик и классификатор наоснове SVM, в результате чего каждому предикату из тестового корпусаприписывалось значение из FrameNet. После того как значение предикатаопределено, выполняется обнаружение и классификация актантов. В обоихслучаях авторы используют классификатор на основе метода опорных векторовсо стандартным набором свойств (отметим, что синтаксические свойства теперьизвлекаютсяиздеревьевзависимостей,анесоставляющих).Ролиприписываются актантам независимо, т.е. глобальной оптимизации непроизводится.
Эта работа была предложена в рамках соревнования SemEval2007, посвящённого автоматической классификации актантов на основе данныхFrameNet, и продемонстрировала результаты, сопоставимые с системами наоснове синтаксиса непосредственных составляющих. Авторы обращаютвнимание на ряд трудностей, связанных со свойством "путь" и нанетривиальность соответствий между синтаксическим и семантическимпредставлениями текста.34I.4 Современные системыСовременныесистемыавтоматическойклассификацииактантовопираются на более сложные методы, в которых информация о структурезадачииособенностяхсемантическогопредставлениякодируетсянепосредственно в модели. В качестве примера такой системы можнопривести систему SEMAFOR [Das и др., 2010].
Все рассмотренные нами ранеесистемыпредставляютсобойпоследовательностьнезависимыхклассификаторов: процесс обработки состоит из нескольких этапов, которые взависимости от конкретной конфигурации могут включать в себя поискцелевого предиката, определение значения предиката (при использованииPropBank) или фрейма (при использовании FrameNet), а также обнаружение иклассификациюактантов.Одинизнедостатковтакогоподхода—невозможность использовать информацию о присвоении ролей на этапеидентификации актантов.
В системе SEMAFOR идентификация и классификацияактантов выполняются одновременно. Система SEMAFOR получает на входрезультаты предобработки исходных данных морфологическим анализатором,модулем снятия неоднозначности на основе WordNet [Fellbaum, 1998] ипарсером деревьев зависимостей MST [McDonald, Lerman, Pereira, 2006]. Далеена основе извлечённых свойств происходит обучение двух классификаторов:одного для определения фрейма, и одного – для идентификации иклассификации актантов. Обнаружение и классификация актантов, в отличие отболее ранних работ, выполняются одновременно. Авторам удалось превзойтипо качеству предыдущие разработки для классификации актантов на основеFrameNet.
Система SEMAFOR до сих пор совершенствуется, подробный отчёт оработе системы, а также обзор конкурирующих подходов можно найти вработе [Das, 2010].35В рамках данного обзора мы рассматривали преимущественно системы,разработанные для английского языка. Как мы уже ранее упоминали, насегодняшний день английский язык действительно наиболее разработан врелевантном для SRL отношении: доступно множество ресурсов дляпредобработки, а также корпуса, размеченные по семантическим ролям ипредикатам. Для других языков, при наличии обучающих данных, используютсяподходысхожиесописаннымивыше,акачествоавтоматическойклассификации актантов, как правило, оказывается сопоставимым илинесколько ниже, чем для английского языка.
Основная сложность приразработке подобных систем состоит в зависимости от аннотированногоресурса: разметка по семантическим ролям – крайне трудозатратный и плохоформализуемый процесс, и даже наличие подобного корпуса для того илииного языка не гарантирует качественной работы обученных систем на новыхданных.Этапроблемаобычноизвестнакакпроблемадоменнойспецифичности SRL.Длярешенияпроблемыдоменнойспецифичностивобластиавтоматической разметки семантических ролей в последние годы былопредложено несколько подходов, которые позволяют уменьшить объёмтренировочных данных, требуемый для обучения системы, или вовсеизбавиться от необходимости в таких данных за счёт использования методовобучения без учителя.Так, Х.
Фюстенау и М. Лапата в работе [Furstenau, Lapata, 2011]предлагаюттехникусинтаксическихпроекцииграфовнааннотацийосновеспомощьюцелочисленноговыравниваниялинейногопрограммирования. Общий принцип работы их системы состоит в следующем:корпус примеров FrameNet (исходный корпус) и некоторый другой большой, ноне размеченный целевой корпус анализируются с помощью синтаксическогопарсера. Затем для каждого предложения из корпуса FrameNet в целевом36корпусе находится предложение-кандидат на проекцию. Эта операция можетбыть выполнена на основе леммы предиката или с использованием болеесложногомеханизмаснятиялексическойнеоднозначности.Далеесинтаксические деревья исходного и целевого предложений фильтруются спомощьюэвристикиподвергаютсявыравниваниюнаоснованиисинтаксического и лексического сходства между узлами.
Выравниваниепроизводится с помощью целочисленного линейного программирования иимеет своей целью максимизировать сходство между графами. Поле того каквыравнивание выполнено, семантическая разметка из исходного графатривиальнымобразомпереноситсянацелевойграф.Полученныйрасширенный набор данных (FrameNet плюс целевой корпус, обогащённыйролями) может использоваться для обучения системы.В качестве примера системы обучения без учителя хотелось быупонямуть решение, выполненное на основе графовой кластеризации, котороебыло предложено в работе [Lang, Lapata, 2011]. Авторы предлагают обработатьисходный корпус, не содержащий семантической разметки, синтаксическиманализатором и расположить все актанты для каждого предиката на графе.Узлами графа будут являться употребления актантов в тексте, а рёбрами –отношения сходства между актантами, которые вычисляются на основелексического и синтаксического сходства.
К построенному таким образом графупрменяется алгоритм непараметрической графовой кластеризации ChineseWhispers [Biemann, 2006a], в результате работы которого граф оказываетсяразбит на группы сходных между собой узлов-актантов, которые и объявляютсясемантическими ролями для данного предиката.Успех применения данного метода, как и многих других методовобучения без учителя применительно к высокоуровневым задачам, сильнозависит от качества предобработки корпуса и от моделей лексическогосходства. В качестве альтернативного примера формулировки автоматической37разметки актантов как задачи непараметрической кластеризации можноупомянуть успешную работу [Titov, Klementiev, 2012], в которой для решенияиспользовалась байесовская сеть со скрытыми переменными.Как уже упоминалось, автоматическая разметка актантов – ресурсоёмкаязадача, для решения которой требуется качественная предварительнаяобработка текстов и большие объёмы аннотированных данных.
Несмотря на то,что наша система принадлежит к классическим системам обучения с учителем,кажется важным отметить потенциал современных методов, которыенаправленынауменьшениезависимостиSRLкакпредобработки, так и от объёмов тренировочных корпусов.38отрезультатовI.5 Автоматическая разметка актантов и русскийязыкНа сегодняшний день практически не имеется публикаций, посвященныхрешению задачи автоматической классификации актантов на русскомматериале.Единственная известная нам реализация данной задачи на основемашинного обучения [Смирнов, Shelmanov, 2014] скорее относится к методамчастичного обучения с учителем.
Авторы опираются на реляционноситуационную модель текста [Осипов, Смирнов, Тихомиров, 2008]. В рамкахэтой модели актантами являются именные группы, а роль каждого участникаопределяется его семантическим классом, предложным оформлением ипадежом. Ролевой инвентарь содержит около 60 семантических ролейабстрактного типа, например, "Агенс", "Пациенс" и т.д.В рассматриваемой работе авторы описывают и оценивают две системы.Первая из них основана на правилах, и с помощью морфосинтаксическихшаблонов способна распознавать семантические роли в новых текстах.
Наэтапепредобработкиисходноепредложениеобрабатываетсяморфологическим и синтаксическим анализатором, затем с помощьюэвристических правил выбираются целевые предикаты и предположительныеактанты, а затем с помощью правил и простых трансформаций актантамприписываются роли. На этапе постобработки производится оптимизациярезультатов и выбор значения предиката с помощью целочисленноголинейного программирования.Вторая система представляет больший интерес в контексте нашей задачи.Общая идея предложенного подхода состоит в следующем. С помощью тех жесемантических правил предлагается разметить синтаксический корпус русского39языка СинТагРус, а затем обучить синтаксический парсер MaltParser, используянабор смешанных семантико-синтаксических меток отношений (наподобиетого как это было сделано в [Samuelsson и др., 2008]).