Диссертация (1137507), страница 5
Текст из файла (страница 5)
Подобное разделение Гилдеа и Журафски мотивировалитем, что для решения этих задач используются различные наборы свойств,которые определяют решение классификатора. В качестве свойств дляобучения использовались свойства на основе синтаксиса (тип составляющей,позиция относительно предиката, путь до предиката в дереве составляющих) исемантики (лемма для терминальных узлов, значение слова на основетезауруса). Авторы отмечают роль синтаксиса в автоматической классификацииактантов, а также указывают, что использование внешних семантическихресурсов повышает полноту системы, позволяя ей работать со словами,которые не представлены в обучающем корпусе.27I.3 История автоматической разметки актантовРабота Д. Гилдеа и Д.
Журафски, посвящённая автоматическомуизвлечению семантических ролей, вызвала большой резонанс в научномсообществе, и задача semantic role labeling стала одной из центральных задачавтоматической обработки языка на следующие годы. На сегодняшний деньсистемыавтоматическойдемонстрируютвысокоеразметкикачествоактантовработы.дляВанглийскогопоследниегодыязыкафокусисследований в этой области сместился в сторону систем автоматическойклассификации актантов на основе частичного обучения с учителем и системобучения без учителя.
Ниже мы рассмотрим основные этапы развитияподходов к задаче автоматической разметке семантических ролей и подробнееостановимся на некоторых системах, которые кажутся нам ключевыми,представляют интерес с точки зрения нашей работы или же кажутся полезнымив контексте развития автоматической обработки актантов для русского языка.Параллельно с работой Д. Гилдеа и Д. Журафски, посвящённойавтоматической разметке актантов с использованием ролей FrameNet, увиделасвет работа Д.
Гилдеа и М. Палмер [Gildea, Palmer, 2002], посвящённаяразметке семантических ролей на основе корпуса PropBank с сопоставимымирезультатами.В 2004 и 2005 годах в рамках конференции CoNLL были проведенысоревнования по автоматической разметке актантов [Carreras, Marquez, 2005].В рамках соревнований автоматическая разметка актантов производилась наматериале английского языка с использованием синтаксиса непосредственныхсоставляющих. В качестве исходных данных использовался корпус PropBank, вкоторомкаждомупредложениюсопоставленаразметкапредикатно-специфическими ролями.
Корпус PropBank имеет ряд особенностей, которые28сделали его более привлекательным для исследований по автоматическойразметке актантов на ранних этапах. Во-первых, PropBank создан на основесинтаксического корпуса, другими словами, обучающая выборка, полученнаяиз PropBank уже включает в себя вручную размеченные синтаксическиедеревья. Это избавило участников соревнований от необходимости включать всистему внешний парсер, и значительно упростило задачу в целом, посколькукачество автоматической разметки актантов в большой степени зависит откачествасинтаксическогоанализа.Во-вторых,семантическаяразметкаPropBank опирается на синтаксис и в том отношении, что границысемантических аннотаций в целом совпадают с границами групп.
Иначе говоря,для участников соревнований снималась задача соотнесения семантическойразметки с единицами уровня синтаксиса. Таким образом, задача semantic rolelabeling на совернованиях CoNLL 2004 и 2005 состояла в обнаружении иклассификации синтаксических групп, которые относятся к актантам того илииного предиката.Лучший результат на соревновании CoNLL-2005 продемонстрироваласистема В. Пуньяканок [Koomen и др., 2005] с F1-мерой равной 79.44.Архитектура предложенной в этой работе системы состоит из трёх модулей:идентификации актантов, присвоения ролей и дополнительного модуляглобальной оптимизации. На этапе идентификации актантов производитсябинарная классификация синтаксических групп на основании стандартногонабора свойств. В результате этой классификации для каждого узла исходногодерева составляющих принимается решение о том, является ли он актантомвыбранного предиката-цели.
На этапе присвоения ролей каждый узел,выбранный в качестве актанта, получает класс – семантическую роль иззаранее заданного набора (который включает в себя роли для данногопредиката, а также специальный класс None, обозначающий отсутствие роли).Классификация на обоих этапах производилась с помощью алгоритма SNOW29(вариация нейронных сетей, [Roth, 1998]). Наконец, на этапе глобальнойоптимизации решения классификаторов дополнительно обрабатываются спомощью метода целочисленного программирования.
В результате этоговыбирается комбинация решений, при которой актанты не пересекаются, длякаждого предиката каждая роль заполняется только один раз и полученнаякомбинация максимизирует суммарный вес классов. Следует отметить, чторассматриваемая система одной из первых использовала дополнительныймодуль глобальной оптимизации.Другая интересная работа, также представленная в рамках CoNLL-2005 –исследование М. Сурдеану и Дж. Турмо [Surdeanu, Turmo, 2005], посвящённоесравнению качества работы систем SRL на основе полного и частичногосинтаксического разбора. На тот момент существовало два основных подхода ксинтаксической предобработке данных для автоматической классификацииактантов.
В первом случае в качестве синтаксической информации системепередавалось полное дерево непосредственных составляющих. Интуитивнотакой подход кажется правильным, т.к. система получает больше информациина вход, однако на практике из-за ошибок синтаксического анализатораинформация о синтаксической структуре могла быть сильно искажена, чтоотрицательно влияло на результат работы системы. В качестве альтернативногорешения предлагалось использовать частичный синтаксический анализ,который разбивал бы клаузу на последовательность синтаксически цельныхотрезков (chunks) [Pradhan и др., 2005].
Работа М. Сурдеану и Дж. Турмопоказала,чтонесмотрянаошибкисинтаксическогоанализатора,использование полного синтаксического анализа позволяет получить лучшиеили по крайней мере сопоставимые результаты. В качестве классификатораиспользовался AdaBoost-ансамбль [Schapire, 1999] на основе одноуровневыхдеревьев принятия решений.
Классификация производилось независимо длякаждой роли, т. е. без использования модуля глобальной оптимизации.30Работа [Pradhan и др., 2005] демонстрирует альтернативный подход, вкотором semantic role labeling интерпретируется как задача сегментации. Длярешения задачи авторы использовали классификатор на основе методаопорныхвекторов(SupportVectorMachine,SVM),предварительнотрансформировав исходные данные с использованием BIO-нотации [Ramshaw,Marcus, 1995], в которой слова текста размечаются как начинающиесемантическую роль (Begin), находящиеся внутри роли (Inside) и завершающиероль (Outside).
Подобный подход, при котором автоматическая разметкаактантов интерпретируется как задача сегментации, был также применён вработе [Màrquez и др., 2005], которая целиком посвящена этому вопросу исодержит более детальный анализ поведения BIO-классификаторов взависимости от выбора метода сегментации и синтаксической структуры, наоснове которой проводится сегментация.Наконец, кажется важным упомянуть работу [Ngai и др., 2004], в которойавторы произвели сравнение пяти наиболее популярных на тот момент врамках SRL методов машинного обучения: бустинга на основе деревьевпринятия решений, метода опорных векторов, метода на основе нейронныхсетей SNOW, классификаторов на основе максимальной энтропии, а такжесписков правил. Также авторы оценили результаты комбинирования этихклассификаторов с помощью набора эвристик. Наилучшие результаты показалакомбинация метода опорных векторов, максимальной энтропии и бустинга наосноведеревьевпринятиярешений.Чтокасаетсяиндивидуальныхклассификаторов, авторы отмечают, что SVM лидирует по точности в ущербполноте, а наиболее оптимальное сочетание точности и полноты достигаетсяпри использовании бустинга и деревьев принятия решений.В последующий период были предприняты попытки как улучшитьсуществующие результаты для английского языка, так и разработать системыавтоматической классификации актантов для других языков.
В ходе этих31исследований выяснилось, что синтаксис непосредственных составляющихнедостаточно удобен для представления синтаксической информации в языкахсосвободнымпорядкомсловипадежныммаркированием.Былопродемонстрировано, что синтаксис деревьев зависимостей в таких случаяхобладает большей описательной силой [Johansson, Nugues, 2007; 2008].Кроме того, было показано, что связь между задачами синтаксического иповерхностногосемантическогоанализа—двусторонняя:нетолькоавтоматическая разметка актантов опирается на синтаксис, но и наоборот,синтаксический анализ может быть выполнен с лучшим качеством, еслипредоставить системе данные о семантических ролях. Один из первыхподходов, в котором синтаксический и семантический анализ оказываютсявзаимозависимы, был предложен в 2008 году в работе [Haghighi, Toutanova,Manning, 2008].
Авторы использовали классификатор на основе максимальнойэнтропиисостандартнымнепосредственныхнаборомсоставляющих,свойстводнаконаосновевместодеревьевединственногосинтаксического представления классификация актантов выполнялась наранжированном наборе синтаксических разборов, полученных автоматически.Длякаждогоизвариантовразборапроизводиласьавтоматическаяклассификация актантов, и затем выбирался разбор, для которого суммарнаяуверенность синтаксического парсера и SRL-компонента была максимальной.Указанные выше тенденции привели к появлению нового типа систем,которые основывались на синтаксисе деревьев зависимостей. В 2007 и 2008году были проведены соревнования CoNLL 2007 и 2008, посвящённые задачеавтоматическогосинтаксическогоисемантическогоанализакакдляанглийского, так и других языков.
На нескольких работах, представленных наэтих соревнованиях, мы хотели бы остановиться подробнее.Исследование, описанное в работе Х. Льюис и Л. Маркес [Lluís, Màrquez,2008] развивает идею, предложенную в [Haghighi, Toutanova, Manning, 2008].32Авторы предлагают систему, которая на основе тренировочных данныхобучается одновременно выполнять синтаксический парсинг и автоматическуюразметку актантов. Система состоит из пяти компонентов: предобработка,предварительныйсинтаксическийанализ,идентификацияпредиката,финальный синтаксический и семантический парсинг и постобработка. На этапепредобработки из корпусных данных извлекаются стандартные для задачсинтаксического анализа свойства. На этапе предварительного синтаксическогоанализа к данным применяется парсер с целью снабдить компонентклассификации актантов синтаксическими свойствами.