Автореферат (Автоматическая разметка семантических ролей в русском языке)
Описание файла
Файл "Автореферат" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст из PDF
На правах рукописиКузнецов Илья ОлеговичАвтоматическая разметка семантических ролейв русском языке10.02.21 — Прикладная и математическая лингвистикаАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата филологических наукМосква - 2016Работа выполнена в Школе лингвистики факультета гуманитарных наук Научноисследовательского университета Высшая школа экономики.Научный руководитель:кандидат филологических наукдоцент Школы лингвистики факультетагуманитарных наук НИУ ВШЭБонч-Осмоловская Анастасия АлександровнаОфициальные оппоненты:Соловьев Валерий Дмитриевичдоктор физико-математических наук,профессор Казанского федеральногоуниверситетаИомдин Леонид Лейбовичкандидат филологических наук,ведущий научный сотрудник Лаборатории №15Института проблем передачи информации РАНВедущая организация:Институт проблем информатикиРоссийской академии наукФедерального исследовательского центра"Информатика и управление" Российскойакадемии наукЗащита состоится 11 мая 2016 года в 16:00 часов на заседании диссертационного советаД 501.001.24 при Московском государственном университете имени М.В.
Ломоносовапо адресу: 119991, г. Москва, ГСП-1, Ленинские горы, МГУ имени М.В. Ломоносова, 1-йучебный корпус, филологический факультет.С диссертацией можно ознакомиться в научной библиотеке Московскогогосударственного университета имени М. В. Ломоносова.Автореферат разослан 9 марта 2016 года.Учёный секретарьдиссертационного советадоктор филологических наукА.
М. БеловОбщая характеристика исследованияОбъект предложенного диссертационного исследования - автоматическаяразметка актантов методами машинного обучения для русского языка. Автоматическаяразметка семантических ролей, или автоматическая разметка актантов (Semantic RoleLabeling, SRL) - одно из приоритетных направлений в современной автоматическойобработке языка. Это тип высокоуровневого анализа текста, при котором для исходноготекста на естественном языке порождается поверхностная интерпретация на основетеории семантических ролей.Предположим, что дано предложение на естественном языке, и в этомпредложении выбран некоторый предикат (например, глагол). Задача автоматическойразметки актантов состоит в том, чтобы найти в предложении именные группы,обозначающие участников описанной предикатом ситуаци (актанты) и приписать имсемантические роли.
Так, например, предложение "Пётр купил яблоко за 5 рублей"будет проанализировано следующим образом:[Пётр]Покупатель купил [яблоко]Товар за [5 рублей]ЦенаАвтоматическая разметка актантов отличается от синтаксического парсинга, в ходекоторого анализу подвергается грамматика, а не семантика высказывания, и от полногосемантического анализа, т.к. работа всегда производится на уровне предложения, исистемы не используют правил логического вывода. Анализ текста в терминахсемантических ролей позволяет сравнительно небольшимиусилиями получитьдополнительный уровень абстракции, описывающий семантику текста. Информация осемантических ролях может быть затем использована для извлечения фактов, длямашинного перевода, в вопросно-ответных системах, а также, потенциально, в любойсистеме автоматической обработки языка, которая так или иначе опирается насемантическую информацию.3Автоматическая разметка актантов в современном понимании возникла в начале2000-х годов и была описана в работах Д.
Журафски и Д. Гилдеа 1. Теоретическойосновой для направления послужила теория семантических ролей Ч. Филлмора2.Прикладным основанием экспериментов в этой области можно считать построенные набазе теории Филлмора лексико-грамматические ресурсы: в первую очередь, это моделиFrameNet3, PropBank4 и VerbNet5.Традиционно автоматическая обработка актантовопирается на ряд синтаксических, морфологических и лексических признаков дляпринятия решения о том, какую роль следует приписать выбранному участникуситуации.
Так, например, в работе Д. Гилдеа и Д. Журафски для этого использовалсяпуть в дереве составляющих от предиката до выбранной именной группы, залог глагола,кластер лексемы, выражающей участника, и др. Для того чтобы получить доступ к этимсвойствам, требуется предварительно произвести морфологический анализ текста,лемматизацию, синтаксический анализ и т.д.
Создание систем, которые выполняли быподобный анализ, – отдельная и сложная задача, и для большинства языков подобныесистемы отсутствуют. Кроме того, для автоматической разметки актантов методамимашинного обучения требуется создать обучающий корпус примеров, размеченных посемантическим ролям. Создание такого корпуса – также крайне трудоёмкая задача.В последние годы было проведено множество исследований по автоматическойобработке текстов для русского языка. Однако, несмотря на общую популярность, темаавтоматической разметки актантов почти не исследовалась на русском материале, иодной из причин этого было отсутствие обучающего и тестового корпуса с разметкой посемантическим ролям и доступных инструментов предварительной обработки текста.
На1 Gildea, D., Jurafsky, D. (2000). Automatic labeling of semantic roles. Proceedings of the 38th Annual Meeting onAssociation for Computational Linguistics - ACL ’00, (1972), 512–5202 Fillmore, C. J. (1968). The Case for Case. In E. Bach & R. T. Harms (Eds.), Universals in Linguistic Theory (pp. 0–88). NewYork: Holt, Rinehart and Winston.3 C. F. Baker, Fillmore, C.
J., and Lowe, J. B., “The Berkeley FrameNet project”, in COLING-ACL '98: Proceedings of theConference, Montreal, Canada, 1998, pp. 86-90.4 Palmer M, Kingsbury P, Gildea D (2005). "The Proposition Bank: An Annotated Corpus of Semantic Roles". ComputationalLinguistics 31 (1): 71–106.5 Schuler, K. K. (2005).
VerbNet: A Broad-Coverage, Comprehensive Verb Lexicon. Dissertation Abstracts International, B:Sciences and Engineering, 66(6).4сегодняшний день активно разрабатывается ресурс FrameBank6, один из компонентовкоторого представляет собой корпус с необходимой для нашей задачи разметкой. Врамках диссертационного исследования мы разработали систему автоматическойразметки актантов, опираясь на промежуточную версию этого ресурса.
Подобной работына материале FrameBank ранее не проводилось.Цель представленного исследования – разработать и описать системуавтоматической разметки актантов и детально изучить результаты её работы, выяснитьвклад различных лингвистических свойств и других параметров задачи в качествоклассификации. В рамках исследования мы выделяем следующие подзадачи: Интегрировать доступные ресурсы предобработки в цепочку, которая позволитобогатить исходный корпус FrameBank морфологической и синтаксическойинформацией Произвести фильтрацию корпуса примеров FrameBank, обеспечив тем самымвысокое качество обучающих и тестовых данных Разработать модель для классификации актантов на основе деревьев зависимостейи лингвистических свойств, в т.ч.
специфичных для русского языка Разработать модуль глобальной оптимизации, который обеспечивает выполнениеограничений, накладываемых теорией семантических ролей Оценить качество работы полученной системы на изолированной тестовойвыборке. Оценить вклад лингвистических свойств и других параметров задачи вкачество работы системы. Выработать рекомендации по дальнейшему развитию системы и корпусаFrameBank.В качестве материала исследования мы используем корпус примеров FrameBank,а также на построенные на основе этого корпуса модели. Автоматическая разметкаактантов для русского языка – одно из наименее развитых направлений в6 Lyashevskaya, O., Kashkin, E.
(2015). FrameBank: A Database of Russian Lexical Constructions for the "Deep" Parsing ofRussian. Analysis of Images, Social Networks and Texts. 4th International Conference, AIST 2015, Yekaterinburg, Russia,April 9–11, 2015, Revised Selected Papers, 542.5автоматической обработке текста, что, учитывая большое прикладное значение этойзадачи, объясняет её актуальность. Научная новизна работы состоит в том, что ранееподобных исследований на русском материале не проводилось. Предложенноеисследование – первый опыт применения систем на основе машинного обучения ккорпусу примеров FrameBank. Ряд частных решений также применяется к русскомуязыку впервые, кроме того, это первое известное нам полноценное описание подобнойсистемы, достаточно подробное для успешной реимплементации и усовершенствованияпредложенного метода.Теоретическая значимость исследования состоит в оценке вклада различныхлингвистических свойств в качество работы классификатора.
Система опирается на рядсвойств, в т.ч. на путь в дереве зависимостей, падеж актанта, предлог, которымоформлен актант, лемму и кластер актанта и др. Наш анализ демонстрирует важностьсинтаксических свойств для автоматической разметки актантов в русском языке. Рольлексических свойств оказывается второстепенной, и мы подробно рассматриваемвозможные причины такого поведения системы. Для русского языка подобноеисследование проводится впервые.Практическая значимость исследования состоит в подробном качественном иколичественном анализе результатов работы системы. Кроме того, работа содержитдетальное описание компонентов системы, а также ряд рекомендаций для дальнейшихэкспериментальных исследований в этой области.Апробацияработы.Основныеположенияисследованияиполученныерезультаты были представлены на конференциях «Анализ Изображений, Сетей иТекстов» (АИСТ-2013), Analysis of Images, Social Networks and Texts (AIST-2015) наМеждународной конференции «Диалог» (2013).
Также по материалам исследованиябыло опубликовано три статьи в журнале «Научно-техническая информация» (2012 и2013 гг.).Структура диссертации. Диссертация состоит из введения, четырёх глав,заключенияибиблиографии.ГлаваIпосвященатеоретическимосновамавтоматической разметки актантов, а также истории этого направления. Глава IIсодержит описание разработанной системы автоматической разметки актантов. Глава6III посвящена процедуре оценки качества работы системы и описанию полученныхрезультатов.