Автореферат (1137506), страница 2
Текст из файла (страница 2)
Заключениезавершает работу.Основное содержание работыВо Введении приводится общее описание исследовательской задачи, указываютсяосновные методы решения задачи и возникающие при этом сложности. Также даётсяобоснование актуальности выбранной темы, её научной новизны, теоретической ипрактической значимости.Глава IТеория семантических ролей и автоматическая разметка актантовВ теоретическом отношении автоматическая разметка актантов опирается натеорию семантических ролей. Глава I посвящена истории и современному состояниютеории семантических ролей и автоматической разметки актантов.Понятиесемантическойроли,котороеиспользуетсявсовременнойавтоматической обработке актантов, основывается на работах Ч.
Филлмора, которыйввёл понятие семантической роли в современный лингвистический дискурс, и Дж.Грубера,которыйотношения.оперировалконцептуальносхожимпонятиемтематическогоКлассическая теория семантических ролей, предложенная Филлмором,постулирует наличие инвентаря семантических ролей, обладающих следующимисвойствами: Полнота и уникальность - каждый аргумент глагола имеет ровно однусемантическую роль Единственность заполнения - роль может быть заполнена только один раз Независимость и атомарность - cемантическая роль имеет категориальнуюприроду и не может быть разделена на компоненты.7Классический инвентарь семантических ролей включает в себя такие роли какАгенс, Пациенс, Бенефактив, Инструмент, Экспериенцер, Стимул и др. В ходедальнейших исследований семантических ролей выяснилось, однако, что этот инвентарьобладает ограниченными описательными возможностями и что ни одно из указанныхвыше свойств не является абсолютным.На сегодняшний день существует три основных подхода к созданию инвентарясемантических ролей.
Первый подход использует наиболее дробное представлениеролей, в котором роли являются предикатно-специфическими, т.е. уникальными длякаждого предиката: например, у глагола "убивать" будут представлены роли "тот, ктоубивает", "тот, кого убивают", "орудие убийства" и т.д. На другом конце спектранаходятся подходы, опирающиеся на максимально обобщённые роли Актора иПретерпевающего:этиролиотвечаютзабольшуюдолювариативностивсинтаксическом поведении аргументов, и использование крупных ролей открываетвозможности для генерализации, недоступные для более "дробных" инвентарей, в то жевремя понижая внутреннюю семантическую однородность ролей. Наконец, в серединеспектра находятся классические ролевые инвентари наподобие предложенного Ч.Филлмором.В контексте автоматической разметки актантов наибольшую популярность имеютподходы на основе предикатно-специфических ролей.Приматериаломэкспертнойданногоразметкекорпусадиссертационногопримеровисследования,FrameBank,послужившегоиспользуетсяформализм,разработанный в рамках Московской семантической школы.
Исходя из того, что понятиеактантавМСШипонятиепредикатно-специфичнойсемантическойролифункционально близки, мы ставим перед собой задачу автоматической разметкиактантов - или автоматической разметки семантических ролей, и в дальнейшемиспользуем два этих понятия как взаимозаменяемые, хотя с теоретической точки зренияэто не совсем соответствует действительности. При разработке системы автоматческойразметки актантов мы опираемся на характеристики семантических ролей, которыетрадиционно используются в Semantic Role Labeling, и моделируем синтаксическое8оформлениеактантов,ограниченияналексическоезаполнениевалентностей,устойчивость к трансформациям и ограничение на единственность заполнения роли.Главасодержитисторическийобзорсистемавтоматическойразметкисемантических ролей для английского языка.Параллельно с уже упомянутой выше работой Д.
Гилдеа и Д. Журафски,посвящённой автоматической разметке актантов с использованием ролей FrameNet,увидела свет работа Д. Гилдеа и М. Палмер7, посвящённая разметке семантическихролей на основе корпуса PropBank с сопоставимыми результатами. В 2004 и 2005 годах врамках конференции CoNLL были проведены соревнования по автоматической разметкеактантов. В рамках соревнований автоматическая разметка актантов производилась наматериалеанглийскогоязыкасиспользованиемсинтаксисанепосредственныхсоставляющих.
В качестве исходных данных системам был предложен корпус PropBank.Лучший результат на соревновании CoNLL-2005 продемонстрировала система В.Пуньяканок8. Архитектура этой системы состоит из трёх модулей: идентификацииактантов, присвоения ролей и дополнительного модуля глобальной оптимизации наосновецелочисленногопрограммирования.Другаяинтереснаяработа,такжепредставленная в рамках CoNLL-2005, - исследование М. Сурдеану и Дж. Турмо9,посвящённое сравнению качества работы систем SRL на основе полного и частичногосинтаксического разбора.
Эта работа продемонстрировала, что, несмотря на ошибкисинтаксическогоанализатора,использованиеполногосинтаксическогоанализапозволяет получить лучшие или по крайней мере сопоставимые результаты. Работа С.Прадхан и др.10 демонстрирует альтернативный подход, в котором Semantic RoleLabeling интерпретируется как задача сегментации.7 Gildea D., Palmer M. The necessity of parsing for predicate argument recognition // Proceedings of the 40th AnnualMeeting of the Association for Computational Linguistics — 2002. — № July — С.
239–246.8 Koomen, P., Punyakanok, V., Roth, D., & Yih, W. (2005). Generalized inference with multiple semantic role labelingsystems. Proceedings of the Ninth Conference on Computational Natural Language Learning, 181–184.9 Surdeanu, M., & Turmo, J. (2005).
Semantic role labeling using complete syntactic analysis // CONLL '05 Proceedings ofthe Ninth Conference on Computational Natural Language Learning10 Pradhan, S., Hacioglu, K., Ward, W., Martin, J. H., & Jurafsky, D. (2005). Semantic role chunking combiningcomplementary syntactic views. Proceedings of the Ninth Conference on Computational Natural Language Learning CONLL ’05,9В последующий период были предприняты попытки как улучшить существующиерезультаты для английского языка, так и разработать системы автоматическойклассификации актантов для других языков.
В ходе этих исследований выяснилось, чтосинтаксис непосредственных составляющих недостаточно удобен для представлениясинтаксической информации в языках со свободным порядком слов и падежныммаркированием. Было продемонстрировано, что синтаксис деревьев зависимостей втаких случаях обладает большей описательной силой.Кроме того, было показано, что связь между задачами синтаксического иповерхностного семантического анализа — двусторонняя: не только автоматическаяразметка актантов опирается на синтаксис, но и наоборот, синтаксический анализ можетбыть выполнен с лучшим качеством, если предоставить системе данные о семантическихролях.
Один из первых подходов, в котором синтаксический и семантический анализоказываются взаимозависимы, был предложен уже в 2005 году в работе К. Тутановой иК. Маннинга11. Авторы использовали классификатор на основе максимальной энтропиисо стандартным набором свойств на основе деревьев непосредственных составляющих,однако вместо единственного синтаксического представления классификация актантоввыполняласьнаранжированномнаборесинтаксическихразборов,полученныхавтоматически.Указанные выше тенденции привели к появлению нового типа систем, которыеосновывались на синтаксисе деревьев зависимостей. В 2007 и 2008 году были проведенысоревнованияCoNLL2007и2008,посвящённыезадачеавтоматическогосинтаксического и семантического анализа как для английского, так и других языков.Современные системы автоматической классификации актантов опираются наболее сложные методы, в которых информация о структуре задачи и особенностяхсемантического представления кодируется непосредственно в модели.
В качествепримера такой системы можно привести систему SEMAFOR 12. Все рассмотренные намиранее системы представляют собой последовательность независимых классификаторов.11 Haghighi, A., Toutanova, K., & Manning, C. (2005). A joint model for semantic role labeling. Proceedings of the NinthConference on Computational Natural Language Learning - CONLL ’05,12 Das, D. (2014). Statistical Models for Frame-Semantic Parsing. Proceedings of Frame Semantics in NLP: A Workshop inHonor of Chuck Fillmore (1929-2014), (2007), 26–2910Один из недостатков такого подхода — невозможность использовать информацию оприсвоенииролейнаэтапеидентификацииактантов.ВсистемеSEMAFORидентификация и классификация актантов выполняются одновременно.На сегодняшний день практически не имеется публикаций, посвященныхрешению задачи автоматической классификации актантов на русском материале.Единственная известная нам реализация данной задачи на основе машинного обученияИ.