Автореферат (1100479), страница 2
Текст из файла (страница 2)
Глава IV подводит итоги проведённого исследования. Заключениезавершает работу.Основное содержание работыВо Введении приводится общее описание исследовательской задачи, указываютсяосновные методы решения задачи и возникающие при этом сложности. Также даётсяобоснование актуальности выбранной темы, её научной новизны, теоретической ипрактической значимости.Глава IТеория семантических ролей и автоматическая разметка актантовВ теоретическом отношении автоматическая разметка актантов опирается натеорию семантических ролей.
Глава I посвящена истории и современному состояниютеории семантических ролей и автоматической разметки актантов.Понятиесемантическойроли,котороеиспользуетсявсовременнойавтоматической обработке актантов, основывается на работах Ч. Филлмора, которыйввёл понятие семантической роли в современный лингвистический дискурс, и Дж.Грубера,которыйотношения.оперировалконцептуальносхожимпонятиемтематическогоКлассическая теория семантических ролей, предложенная Филлмором,постулирует наличие инвентаря семантических ролей, обладающих следующимисвойствами: Полнота и уникальность - каждый аргумент глагола имеет ровно однусемантическую роль Единственность заполнения - роль может быть заполнена только один раз Независимость и атомарность - cемантическая роль имеет категориальнуюприроду и не может быть разделена на компоненты.7Классический инвентарь семантических ролей включает в себя такие роли какАгенс, Пациенс, Бенефактив, Инструмент, Экспериенцер, Стимул и др.
В ходедальнейших исследований семантических ролей выяснилось, однако, что этот инвентарьобладает ограниченными описательными возможностями и что ни одно из указанныхвыше свойств не является абсолютным.На сегодняшний день существует три основных подхода к созданию инвентарясемантических ролей. Первый подход использует наиболее дробное представлениеролей, в котором роли являются предикатно-специфическими, т.е. уникальными длякаждого предиката: например, у глагола "убивать" будут представлены роли "тот, ктоубивает", "тот, кого убивают", "орудие убийства" и т.д.
На другом конце спектранаходятся подходы, опирающиеся на максимально обобщённые роли Актора иПретерпевающего:этиролиотвечаютзабольшуюдолювариативностивсинтаксическом поведении аргументов, и использование крупных ролей открываетвозможности для генерализации, недоступные для более "дробных" инвентарей, в то жевремя понижая внутреннюю семантическую однородность ролей. Наконец, в серединеспектра находятся классические ролевые инвентари наподобие предложенного Ч.Филлмором.В контексте автоматической разметки актантов наибольшую популярность имеютподходы на основе предикатно-специфических ролей.Приматериаломэкспертнойданногоразметкекорпусадиссертационногопримеровисследования,FrameBank,послужившегоиспользуетсяформализм,разработанный в рамках Московской семантической школы.
Исходя из того, что понятиеактантавМСШипонятиепредикатно-специфичнойсемантическойролифункционально близки, мы ставим перед собой задачу автоматической разметкиактантов - или автоматической разметки семантических ролей, и в дальнейшемиспользуем два этих понятия как взаимозаменяемые, хотя с теоретической точки зренияэто не совсем соответствует действительности.
При разработке системы автоматческойразметки актантов мы опираемся на характеристики семантических ролей, которыетрадиционно используются в Semantic Role Labeling, и моделируем синтаксическое8оформлениеактантов,ограниченияналексическоезаполнениевалентностей,устойчивость к трансформациям и ограничение на единственность заполнения роли.Главасодержитисторическийобзорсистемавтоматическойразметкисемантических ролей для английского языка.Параллельно с уже упомянутой выше работой Д. Гилдеа и Д.
Журафски,посвящённой автоматической разметке актантов с использованием ролей FrameNet,увидела свет работа Д. Гилдеа и М. Палмер7, посвящённая разметке семантическихролей на основе корпуса PropBank с сопоставимыми результатами. В 2004 и 2005 годах врамках конференции CoNLL были проведены соревнования по автоматической разметкеактантов. В рамках соревнований автоматическая разметка актантов производилась наматериалеанглийскогоязыкасиспользованиемсинтаксисанепосредственныхсоставляющих. В качестве исходных данных системам был предложен корпус PropBank.Лучший результат на соревновании CoNLL-2005 продемонстрировала система В.Пуньяканок8. Архитектура этой системы состоит из трёх модулей: идентификацииактантов, присвоения ролей и дополнительного модуля глобальной оптимизации наосновецелочисленногопрограммирования.Другаяинтереснаяработа,такжепредставленная в рамках CoNLL-2005, - исследование М.
Сурдеану и Дж. Турмо9,посвящённое сравнению качества работы систем SRL на основе полного и частичногосинтаксического разбора. Эта работа продемонстрировала, что, несмотря на ошибкисинтаксическогоанализатора,использованиеполногосинтаксическогоанализапозволяет получить лучшие или по крайней мере сопоставимые результаты. Работа С.Прадхан и др.10 демонстрирует альтернативный подход, в котором Semantic RoleLabeling интерпретируется как задача сегментации.7 Gildea D., Palmer M. The necessity of parsing for predicate argument recognition // Proceedings of the 40th AnnualMeeting of the Association for Computational Linguistics — 2002. — № July — С.
239–246.8 Koomen, P., Punyakanok, V., Roth, D., & Yih, W. (2005). Generalized inference with multiple semantic role labelingsystems. Proceedings of the Ninth Conference on Computational Natural Language Learning, 181–184.9 Surdeanu, M., & Turmo, J. (2005). Semantic role labeling using complete syntactic analysis // CONLL '05 Proceedings ofthe Ninth Conference on Computational Natural Language Learning10 Pradhan, S., Hacioglu, K., Ward, W., Martin, J. H., & Jurafsky, D.
(2005). Semantic role chunking combiningcomplementary syntactic views. Proceedings of the Ninth Conference on Computational Natural Language Learning CONLL ’05,9В последующий период были предприняты попытки как улучшить существующиерезультаты для английского языка, так и разработать системы автоматическойклассификации актантов для других языков. В ходе этих исследований выяснилось, чтосинтаксис непосредственных составляющих недостаточно удобен для представлениясинтаксической информации в языках со свободным порядком слов и падежныммаркированием. Было продемонстрировано, что синтаксис деревьев зависимостей втаких случаях обладает большей описательной силой.Кроме того, было показано, что связь между задачами синтаксического иповерхностного семантического анализа — двусторонняя: не только автоматическаяразметка актантов опирается на синтаксис, но и наоборот, синтаксический анализ можетбыть выполнен с лучшим качеством, если предоставить системе данные о семантическихролях.
Один из первых подходов, в котором синтаксический и семантический анализоказываются взаимозависимы, был предложен уже в 2005 году в работе К. Тутановой иК. Маннинга11. Авторы использовали классификатор на основе максимальной энтропиисо стандартным набором свойств на основе деревьев непосредственных составляющих,однако вместо единственного синтаксического представления классификация актантоввыполняласьнаранжированномнаборесинтаксическихразборов,полученныхавтоматически.Указанные выше тенденции привели к появлению нового типа систем, которыеосновывались на синтаксисе деревьев зависимостей. В 2007 и 2008 году были проведенысоревнованияCoNLL2007и2008,посвящённыезадачеавтоматическогосинтаксического и семантического анализа как для английского, так и других языков.Современные системы автоматической классификации актантов опираются наболее сложные методы, в которых информация о структуре задачи и особенностяхсемантического представления кодируется непосредственно в модели.
В качествепримера такой системы можно привести систему SEMAFOR 12. Все рассмотренные намиранее системы представляют собой последовательность независимых классификаторов.11 Haghighi, A., Toutanova, K., & Manning, C. (2005). A joint model for semantic role labeling. Proceedings of the NinthConference on Computational Natural Language Learning - CONLL ’05,12 Das, D. (2014). Statistical Models for Frame-Semantic Parsing.
Proceedings of Frame Semantics in NLP: A Workshop inHonor of Chuck Fillmore (1929-2014), (2007), 26–2910Один из недостатков такого подхода — невозможность использовать информацию оприсвоенииролейнаэтапеидентификацииактантов.ВсистемеSEMAFORидентификация и классификация актантов выполняются одновременно.На сегодняшний день практически не имеется публикаций, посвященныхрешению задачи автоматической классификации актантов на русском материале.Единственная известная нам реализация данной задачи на основе машинного обученияИ. Смирнова и А.
Шелманова13 относится к методам частичного обучения с учителем ине использует корпус с разметкой по семантическим ролям. Также для русского языкасуществует несколько систем на основе правил14 и систем извлечения фактов, в томчисле позволяющих генерировать шаблоны описания событий на основе большихмассивов неразмеченных данных15.Глава IIСистема автоматической разметки актантов для русского языкаВ Главе II приводится подробное описание системы автоматической разметкиактантов для русского языка, разработанной в ходе диссертационного исследования.Подробно рассматриваются использованные в системе методы машинного обучения,лингвистические свойства, на основе которых происходит классификация, а также рядтехнических решений, использованных при создании системы и работе с исходнымиданными.
Глава включает в себя несколько разделов.Раздел 1 посвящен обзору различных подходов к решению задачи автоматическойразметки актантов, выбору оптимального подхода и обоснованию этого выбора.13 Смирнов, И. В., Шелманов, A. O. (2014). Методы установления семантических ролей для текстов на русскомязыке // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международнойконференции «Диалог» (Бекасово, 4 — 8 июня 2014 г.).
— Москва: РГГУ, 2014. — С. 607–619.14 Анисимович, К. В., Дружкин, К. Ю., Зуев, К. А., & Петрова, М. А. (2012). Синтаксический И Семантический Парсер,Основанный На Лингвистических Технологиях Abbyy Compreno. Международная конференция по компьютернойлингвистике «Диалог-2012»15 Котельников, Д. С., & Лукашевич, Н. В. (2012). Итерационное извлечение шаблонов описания событий поновостным кластерам. Труды 14-й Всероссийской научной конференции «Электронные библиотеки:перспективные методы и технологии, электронные коллекции» — RCDL-2012, Переславль-Залесский, Россия, 15-18октября 2012 г.11Предложеннаявдиссертационномисследованиисистемаосновананапредикатно-специфических ролях, т.к.