Диссертация (1100480), страница 5
Текст из файла (страница 5)
Задача машинного обучения – на основании трерировочного набораэкземпляров, для которых значение класса известно, построить решающуюфункцию, которая будет приписывать метку класса новым экземплярам.26Поскольку для машинного обучения необходимы размеченные вручнуюданные, создание подобных систем стало возможным лишь после того, какпоявились наборы обучающих данных FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005], NomBank [Meyers, 2007] и другие.Одной из первых публикаций, посвящённых автоматической обработкеактантов в её современном виде, стала статья Д.
Журафски и Д. Гилдеа [Gildea,Jurafsky, 2000]. Эта работа во многом определила путь, по которому сталоразвиваться рассматриваемое направление. Автоматическая разметка актантовбыла сформулирована как задача классификации, в которой отрезкамисходного предложения требуется приписать семантические метки или роли.Работа была выполнена для английского языка на основе корпуса FrameNet идеревьевнепосредственныхсоставляющих.Авторыразделилизадачуавтоматической разметки актантов на два этапа: определение актантов, т. е.синтаксических групп, которые так или иначе относятся в выбранномупредикату, и классификацию актантов, при которой выбранным группамприписываются роли.
Подобное разделение Гилдеа и Журафски мотивировалитем, что для решения этих задач используются различные наборы свойств,которые определяют решение классификатора. В качестве свойств дляобучения использовались свойства на основе синтаксиса (тип составляющей,позиция относительно предиката, путь до предиката в дереве составляющих) исемантики (лемма для терминальных узлов, значение слова на основетезауруса). Авторы отмечают роль синтаксиса в автоматической классификацииактантов, а также указывают, что использование внешних семантическихресурсов повышает полноту системы, позволяя ей работать со словами,которые не представлены в обучающем корпусе.27I.3 История автоматической разметки актантовРабота Д.
Гилдеа и Д. Журафски, посвящённая автоматическомуизвлечению семантических ролей, вызвала большой резонанс в научномсообществе, и задача semantic role labeling стала одной из центральных задачавтоматической обработки языка на следующие годы. На сегодняшний деньсистемыавтоматическойдемонстрируютвысокоеразметкикачествоактантовработы.дляВанглийскогопоследниегодыязыкафокусисследований в этой области сместился в сторону систем автоматическойклассификации актантов на основе частичного обучения с учителем и системобучения без учителя.
Ниже мы рассмотрим основные этапы развитияподходов к задаче автоматической разметке семантических ролей и подробнееостановимся на некоторых системах, которые кажутся нам ключевыми,представляют интерес с точки зрения нашей работы или же кажутся полезнымив контексте развития автоматической обработки актантов для русского языка.Параллельно с работой Д. Гилдеа и Д. Журафски, посвящённойавтоматической разметке актантов с использованием ролей FrameNet, увиделасвет работа Д. Гилдеа и М. Палмер [Gildea, Palmer, 2002], посвящённаяразметке семантических ролей на основе корпуса PropBank с сопоставимымирезультатами.В 2004 и 2005 годах в рамках конференции CoNLL были проведенысоревнования по автоматической разметке актантов [Carreras, Marquez, 2005].В рамках соревнований автоматическая разметка актантов производилась наматериале английского языка с использованием синтаксиса непосредственныхсоставляющих.
В качестве исходных данных использовался корпус PropBank, вкоторомкаждомупредложениюсопоставленаразметкапредикатно-специфическими ролями. Корпус PropBank имеет ряд особенностей, которые28сделали его более привлекательным для исследований по автоматическойразметке актантов на ранних этапах. Во-первых, PropBank создан на основесинтаксического корпуса, другими словами, обучающая выборка, полученнаяиз PropBank уже включает в себя вручную размеченные синтаксическиедеревья. Это избавило участников соревнований от необходимости включать всистему внешний парсер, и значительно упростило задачу в целом, посколькукачество автоматической разметки актантов в большой степени зависит откачествасинтаксическогоанализа.Во-вторых,семантическаяразметкаPropBank опирается на синтаксис и в том отношении, что границысемантических аннотаций в целом совпадают с границами групп.
Иначе говоря,для участников соревнований снималась задача соотнесения семантическойразметки с единицами уровня синтаксиса. Таким образом, задача semantic rolelabeling на совернованиях CoNLL 2004 и 2005 состояла в обнаружении иклассификации синтаксических групп, которые относятся к актантам того илииного предиката.Лучший результат на соревновании CoNLL-2005 продемонстрироваласистема В. Пуньяканок [Koomen и др., 2005] с F1-мерой равной 79.44.Архитектура предложенной в этой работе системы состоит из трёх модулей:идентификации актантов, присвоения ролей и дополнительного модуляглобальной оптимизации. На этапе идентификации актантов производитсябинарная классификация синтаксических групп на основании стандартногонабора свойств.
В результате этой классификации для каждого узла исходногодерева составляющих принимается решение о том, является ли он актантомвыбранного предиката-цели. На этапе присвоения ролей каждый узел,выбранный в качестве актанта, получает класс – семантическую роль иззаранее заданного набора (который включает в себя роли для данногопредиката, а также специальный класс None, обозначающий отсутствие роли).Классификация на обоих этапах производилась с помощью алгоритма SNOW29(вариация нейронных сетей, [Roth, 1998]).
Наконец, на этапе глобальнойоптимизации решения классификаторов дополнительно обрабатываются спомощью метода целочисленного программирования. В результате этоговыбирается комбинация решений, при которой актанты не пересекаются, длякаждого предиката каждая роль заполняется только один раз и полученнаякомбинация максимизирует суммарный вес классов. Следует отметить, чторассматриваемая система одной из первых использовала дополнительныймодуль глобальной оптимизации.Другая интересная работа, также представленная в рамках CoNLL-2005 –исследование М. Сурдеану и Дж.
Турмо [Surdeanu, Turmo, 2005], посвящённоесравнению качества работы систем SRL на основе полного и частичногосинтаксического разбора. На тот момент существовало два основных подхода ксинтаксической предобработке данных для автоматической классификацииактантов. В первом случае в качестве синтаксической информации системепередавалось полное дерево непосредственных составляющих. Интуитивнотакой подход кажется правильным, т.к. система получает больше информациина вход, однако на практике из-за ошибок синтаксического анализатораинформация о синтаксической структуре могла быть сильно искажена, чтоотрицательно влияло на результат работы системы. В качестве альтернативногорешения предлагалось использовать частичный синтаксический анализ,который разбивал бы клаузу на последовательность синтаксически цельныхотрезков (chunks) [Pradhan и др., 2005].
Работа М. Сурдеану и Дж. Турмопоказала,чтонесмотрянаошибкисинтаксическогоанализатора,использование полного синтаксического анализа позволяет получить лучшиеили по крайней мере сопоставимые результаты. В качестве классификатораиспользовался AdaBoost-ансамбль [Schapire, 1999] на основе одноуровневыхдеревьев принятия решений. Классификация производилось независимо длякаждой роли, т. е. без использования модуля глобальной оптимизации.30Работа [Pradhan и др., 2005] демонстрирует альтернативный подход, вкотором semantic role labeling интерпретируется как задача сегментации.
Длярешения задачи авторы использовали классификатор на основе методаопорныхвекторов(SupportVectorMachine,SVM),предварительнотрансформировав исходные данные с использованием BIO-нотации [Ramshaw,Marcus, 1995], в которой слова текста размечаются как начинающиесемантическую роль (Begin), находящиеся внутри роли (Inside) и завершающиероль (Outside). Подобный подход, при котором автоматическая разметкаактантов интерпретируется как задача сегментации, был также применён вработе [Màrquez и др., 2005], которая целиком посвящена этому вопросу исодержит более детальный анализ поведения BIO-классификаторов взависимости от выбора метода сегментации и синтаксической структуры, наоснове которой проводится сегментация.Наконец, кажется важным упомянуть работу [Ngai и др., 2004], в которойавторы произвели сравнение пяти наиболее популярных на тот момент врамках SRL методов машинного обучения: бустинга на основе деревьевпринятия решений, метода опорных векторов, метода на основе нейронныхсетей SNOW, классификаторов на основе максимальной энтропии, а такжесписков правил.
Также авторы оценили результаты комбинирования этихклассификаторов с помощью набора эвристик. Наилучшие результаты показалакомбинация метода опорных векторов, максимальной энтропии и бустинга наосноведеревьевпринятиярешений.Чтокасаетсяиндивидуальныхклассификаторов, авторы отмечают, что SVM лидирует по точности в ущербполноте, а наиболее оптимальное сочетание точности и полноты достигаетсяпри использовании бустинга и деревьев принятия решений.В последующий период были предприняты попытки как улучшитьсуществующие результаты для английского языка, так и разработать системыавтоматической классификации актантов для других языков. В ходе этих31исследований выяснилось, что синтаксис непосредственных составляющихнедостаточно удобен для представления синтаксической информации в языкахсосвободнымпорядкомсловипадежныммаркированием.Былопродемонстрировано, что синтаксис деревьев зависимостей в таких случаяхобладает большей описательной силой [Johansson, Nugues, 2007; 2008].Кроме того, было показано, что связь между задачами синтаксического иповерхностногосемантическогоанализа—двусторонняя:нетолькоавтоматическая разметка актантов опирается на синтаксис, но и наоборот,синтаксический анализ может быть выполнен с лучшим качеством, еслипредоставить системе данные о семантических ролях.
Один из первыхподходов, в котором синтаксический и семантический анализ оказываютсявзаимозависимы, был предложен в 2008 году в работе [Haghighi, Toutanova,Manning, 2008]. Авторы использовали классификатор на основе максимальнойэнтропиисостандартнымнепосредственныхнаборомсоставляющих,свойстводнаконаосновевместодеревьевединственногосинтаксического представления классификация актантов выполнялась наранжированном наборе синтаксических разборов, полученных автоматически.Длякаждогоизвариантовразборапроизводиласьавтоматическаяклассификация актантов, и затем выбирался разбор, для которого суммарнаяуверенность синтаксического парсера и SRL-компонента была максимальной.Указанные выше тенденции привели к появлению нового типа систем,которые основывались на синтаксисе деревьев зависимостей.