Диссертация (1137507), страница 5

Файл №1137507 Диссертация (Автоматическая разметка семантических ролей в русском языке) 5 страницаДиссертация (1137507) страница 52019-05-202019-05-20СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 5)

Подобное разделение Гилдеа и Журафски мотивировалитем, что для решения этих задач используются различные наборы свойств,которые определяют решение классификатора. В качестве свойств дляобучения использовались свойства на основе синтаксиса (тип составляющей,позиция относительно предиката, путь до предиката в дереве составляющих) исемантики (лемма для терминальных узлов, значение слова на основетезауруса). Авторы отмечают роль синтаксиса в автоматической классификацииактантов, а также указывают, что использование внешних семантическихресурсов повышает полноту системы, позволяя ей работать со словами,которые не представлены в обучающем корпусе.27I.3 История автоматической разметки актантовРабота Д. Гилдеа и Д.

Журафски, посвящённая автоматическомуизвлечению семантических ролей, вызвала большой резонанс в научномсообществе, и задача semantic role labeling стала одной из центральных задачавтоматической обработки языка на следующие годы. На сегодняшний деньсистемыавтоматическойдемонстрируютвысокоеразметкикачествоактантовработы.дляВанглийскогопоследниегодыязыкафокусисследований в этой области сместился в сторону систем автоматическойклассификации актантов на основе частичного обучения с учителем и системобучения без учителя.

Ниже мы рассмотрим основные этапы развитияподходов к задаче автоматической разметке семантических ролей и подробнееостановимся на некоторых системах, которые кажутся нам ключевыми,представляют интерес с точки зрения нашей работы или же кажутся полезнымив контексте развития автоматической обработки актантов для русского языка.Параллельно с работой Д. Гилдеа и Д. Журафски, посвящённойавтоматической разметке актантов с использованием ролей FrameNet, увиделасвет работа Д.

Гилдеа и М. Палмер [Gildea, Palmer, 2002], посвящённаяразметке семантических ролей на основе корпуса PropBank с сопоставимымирезультатами.В 2004 и 2005 годах в рамках конференции CoNLL были проведенысоревнования по автоматической разметке актантов [Carreras, Marquez, 2005].В рамках соревнований автоматическая разметка актантов производилась наматериале английского языка с использованием синтаксиса непосредственныхсоставляющих. В качестве исходных данных использовался корпус PropBank, вкоторомкаждомупредложениюсопоставленаразметкапредикатно-специфическими ролями.

Корпус PropBank имеет ряд особенностей, которые28сделали его более привлекательным для исследований по автоматическойразметке актантов на ранних этапах. Во-первых, PropBank создан на основесинтаксического корпуса, другими словами, обучающая выборка, полученнаяиз PropBank уже включает в себя вручную размеченные синтаксическиедеревья. Это избавило участников соревнований от необходимости включать всистему внешний парсер, и значительно упростило задачу в целом, посколькукачество автоматической разметки актантов в большой степени зависит откачествасинтаксическогоанализа.Во-вторых,семантическаяразметкаPropBank опирается на синтаксис и в том отношении, что границысемантических аннотаций в целом совпадают с границами групп.

Иначе говоря,для участников соревнований снималась задача соотнесения семантическойразметки с единицами уровня синтаксиса. Таким образом, задача semantic rolelabeling на совернованиях CoNLL 2004 и 2005 состояла в обнаружении иклассификации синтаксических групп, которые относятся к актантам того илииного предиката.Лучший результат на соревновании CoNLL-2005 продемонстрироваласистема В. Пуньяканок [Koomen и др., 2005] с F1-мерой равной 79.44.Архитектура предложенной в этой работе системы состоит из трёх модулей:идентификации актантов, присвоения ролей и дополнительного модуляглобальной оптимизации. На этапе идентификации актантов производитсябинарная классификация синтаксических групп на основании стандартногонабора свойств. В результате этой классификации для каждого узла исходногодерева составляющих принимается решение о том, является ли он актантомвыбранного предиката-цели.

На этапе присвоения ролей каждый узел,выбранный в качестве актанта, получает класс – семантическую роль иззаранее заданного набора (который включает в себя роли для данногопредиката, а также специальный класс None, обозначающий отсутствие роли).Классификация на обоих этапах производилась с помощью алгоритма SNOW29(вариация нейронных сетей, [Roth, 1998]). Наконец, на этапе глобальнойоптимизации решения классификаторов дополнительно обрабатываются спомощью метода целочисленного программирования.

В результате этоговыбирается комбинация решений, при которой актанты не пересекаются, длякаждого предиката каждая роль заполняется только один раз и полученнаякомбинация максимизирует суммарный вес классов. Следует отметить, чторассматриваемая система одной из первых использовала дополнительныймодуль глобальной оптимизации.Другая интересная работа, также представленная в рамках CoNLL-2005 –исследование М. Сурдеану и Дж. Турмо [Surdeanu, Turmo, 2005], посвящённоесравнению качества работы систем SRL на основе полного и частичногосинтаксического разбора. На тот момент существовало два основных подхода ксинтаксической предобработке данных для автоматической классификацииактантов.

В первом случае в качестве синтаксической информации системепередавалось полное дерево непосредственных составляющих. Интуитивнотакой подход кажется правильным, т.к. система получает больше информациина вход, однако на практике из-за ошибок синтаксического анализатораинформация о синтаксической структуре могла быть сильно искажена, чтоотрицательно влияло на результат работы системы. В качестве альтернативногорешения предлагалось использовать частичный синтаксический анализ,который разбивал бы клаузу на последовательность синтаксически цельныхотрезков (chunks) [Pradhan и др., 2005].

Работа М. Сурдеану и Дж. Турмопоказала,чтонесмотрянаошибкисинтаксическогоанализатора,использование полного синтаксического анализа позволяет получить лучшиеили по крайней мере сопоставимые результаты. В качестве классификатораиспользовался AdaBoost-ансамбль [Schapire, 1999] на основе одноуровневыхдеревьев принятия решений.

Классификация производилось независимо длякаждой роли, т. е. без использования модуля глобальной оптимизации.30Работа [Pradhan и др., 2005] демонстрирует альтернативный подход, вкотором semantic role labeling интерпретируется как задача сегментации. Длярешения задачи авторы использовали классификатор на основе методаопорныхвекторов(SupportVectorMachine,SVM),предварительнотрансформировав исходные данные с использованием BIO-нотации [Ramshaw,Marcus, 1995], в которой слова текста размечаются как начинающиесемантическую роль (Begin), находящиеся внутри роли (Inside) и завершающиероль (Outside).

Подобный подход, при котором автоматическая разметкаактантов интерпретируется как задача сегментации, был также применён вработе [Màrquez и др., 2005], которая целиком посвящена этому вопросу исодержит более детальный анализ поведения BIO-классификаторов взависимости от выбора метода сегментации и синтаксической структуры, наоснове которой проводится сегментация.Наконец, кажется важным упомянуть работу [Ngai и др., 2004], в которойавторы произвели сравнение пяти наиболее популярных на тот момент врамках SRL методов машинного обучения: бустинга на основе деревьевпринятия решений, метода опорных векторов, метода на основе нейронныхсетей SNOW, классификаторов на основе максимальной энтропии, а такжесписков правил. Также авторы оценили результаты комбинирования этихклассификаторов с помощью набора эвристик. Наилучшие результаты показалакомбинация метода опорных векторов, максимальной энтропии и бустинга наосноведеревьевпринятиярешений.Чтокасаетсяиндивидуальныхклассификаторов, авторы отмечают, что SVM лидирует по точности в ущербполноте, а наиболее оптимальное сочетание точности и полноты достигаетсяпри использовании бустинга и деревьев принятия решений.В последующий период были предприняты попытки как улучшитьсуществующие результаты для английского языка, так и разработать системыавтоматической классификации актантов для других языков.

В ходе этих31исследований выяснилось, что синтаксис непосредственных составляющихнедостаточно удобен для представления синтаксической информации в языкахсосвободнымпорядкомсловипадежныммаркированием.Былопродемонстрировано, что синтаксис деревьев зависимостей в таких случаяхобладает большей описательной силой [Johansson, Nugues, 2007; 2008].Кроме того, было показано, что связь между задачами синтаксического иповерхностногосемантическогоанализа—двусторонняя:нетолькоавтоматическая разметка актантов опирается на синтаксис, но и наоборот,синтаксический анализ может быть выполнен с лучшим качеством, еслипредоставить системе данные о семантических ролях. Один из первыхподходов, в котором синтаксический и семантический анализ оказываютсявзаимозависимы, был предложен в 2008 году в работе [Haghighi, Toutanova,Manning, 2008].

Авторы использовали классификатор на основе максимальнойэнтропиисостандартнымнепосредственныхнаборомсоставляющих,свойстводнаконаосновевместодеревьевединственногосинтаксического представления классификация актантов выполнялась наранжированном наборе синтаксических разборов, полученных автоматически.Длякаждогоизвариантовразборапроизводиласьавтоматическаяклассификация актантов, и затем выбирался разбор, для которого суммарнаяуверенность синтаксического парсера и SRL-компонента была максимальной.Указанные выше тенденции привели к появлению нового типа систем,которые основывались на синтаксисе деревьев зависимостей. В 2007 и 2008году были проведены соревнования CoNLL 2007 и 2008, посвящённые задачеавтоматическогосинтаксическогоисемантическогоанализакакдляанглийского, так и других языков.

На нескольких работах, представленных наэтих соревнованиях, мы хотели бы остановиться подробнее.Исследование, описанное в работе Х. Льюис и Л. Маркес [Lluís, Màrquez,2008] развивает идею, предложенную в [Haghighi, Toutanova, Manning, 2008].32Авторы предлагают систему, которая на основе тренировочных данныхобучается одновременно выполнять синтаксический парсинг и автоматическуюразметку актантов. Система состоит из пяти компонентов: предобработка,предварительныйсинтаксическийанализ,идентификацияпредиката,финальный синтаксический и семантический парсинг и постобработка. На этапепредобработки из корпусных данных извлекаются стандартные для задачсинтаксического анализа свойства. На этапе предварительного синтаксическогоанализа к данным применяется парсер с целью снабдить компонентклассификации актантов синтаксическими свойствами.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomaticheskaja-razmetka-semanticheskih-rolej-v-russkom-jazyke.rar

Автоматическая разметка семантических ролей в русском языке

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.