Автореферат (Автоматическая разметка семантических ролей в русском языке)

PDF-файл Автореферат (Автоматическая разметка семантических ролей в русском языке) Филология (31153): Диссертация - Аспирантура и докторантураАвтореферат (Автоматическая разметка семантических ролей в русском языке) - PDF (31153) - СтудИзба2019-03-13СтудИзба

Описание файла

Файл "Автореферат" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиКузнецов Илья ОлеговичАвтоматическая разметка семантических ролейв русском языке10.02.21 — Прикладная и математическая лингвистикаАВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата филологических наукМосква - 2016Работа выполнена в Школе лингвистики факультета гуманитарных наук Научноисследовательского университета Высшая школа экономики.Научный руководитель:кандидат филологических наукдоцент Школы лингвистики факультетагуманитарных наук НИУ ВШЭБонч-Осмоловская Анастасия АлександровнаОфициальные оппоненты:Соловьев Валерий Дмитриевичдоктор физико-математических наук,профессор Казанского федеральногоуниверситетаИомдин Леонид Лейбовичкандидат филологических наук,ведущий научный сотрудник Лаборатории №15Института проблем передачи информации РАНВедущая организация:Институт проблем информатикиРоссийской академии наукФедерального исследовательского центра"Информатика и управление" Российскойакадемии наукЗащита состоится 11 мая 2016 года в 16:00 часов на заседании диссертационного советаД 501.001.24 при Московском государственном университете имени М.В.

Ломоносовапо адресу: 119991, г. Москва, ГСП-1, Ленинские горы, МГУ имени М.В. Ломоносова, 1-йучебный корпус, филологический факультет.С диссертацией можно ознакомиться в научной библиотеке Московскогогосударственного университета имени М. В. Ломоносова.Автореферат разослан 9 марта 2016 года.Учёный секретарьдиссертационного советадоктор филологических наукА.

М. БеловОбщая характеристика исследованияОбъект предложенного диссертационного исследования - автоматическаяразметка актантов методами машинного обучения для русского языка. Автоматическаяразметка семантических ролей, или автоматическая разметка актантов (Semantic RoleLabeling, SRL) - одно из приоритетных направлений в современной автоматическойобработке языка. Это тип высокоуровневого анализа текста, при котором для исходноготекста на естественном языке порождается поверхностная интерпретация на основетеории семантических ролей.Предположим, что дано предложение на естественном языке, и в этомпредложении выбран некоторый предикат (например, глагол). Задача автоматическойразметки актантов состоит в том, чтобы найти в предложении именные группы,обозначающие участников описанной предикатом ситуаци (актанты) и приписать имсемантические роли.

Так, например, предложение "Пётр купил яблоко за 5 рублей"будет проанализировано следующим образом:[Пётр]Покупатель купил [яблоко]Товар за [5 рублей]ЦенаАвтоматическая разметка актантов отличается от синтаксического парсинга, в ходекоторого анализу подвергается грамматика, а не семантика высказывания, и от полногосемантического анализа, т.к. работа всегда производится на уровне предложения, исистемы не используют правил логического вывода. Анализ текста в терминахсемантических ролей позволяет сравнительно небольшимиусилиями получитьдополнительный уровень абстракции, описывающий семантику текста. Информация осемантических ролях может быть затем использована для извлечения фактов, длямашинного перевода, в вопросно-ответных системах, а также, потенциально, в любойсистеме автоматической обработки языка, которая так или иначе опирается насемантическую информацию.3Автоматическая разметка актантов в современном понимании возникла в начале2000-х годов и была описана в работах Д.

Журафски и Д. Гилдеа 1. Теоретическойосновой для направления послужила теория семантических ролей Ч. Филлмора2.Прикладным основанием экспериментов в этой области можно считать построенные набазе теории Филлмора лексико-грамматические ресурсы: в первую очередь, это моделиFrameNet3, PropBank4 и VerbNet5.Традиционно автоматическая обработка актантовопирается на ряд синтаксических, морфологических и лексических признаков дляпринятия решения о том, какую роль следует приписать выбранному участникуситуации.

Так, например, в работе Д. Гилдеа и Д. Журафски для этого использовалсяпуть в дереве составляющих от предиката до выбранной именной группы, залог глагола,кластер лексемы, выражающей участника, и др. Для того чтобы получить доступ к этимсвойствам, требуется предварительно произвести морфологический анализ текста,лемматизацию, синтаксический анализ и т.д.

Создание систем, которые выполняли быподобный анализ, – отдельная и сложная задача, и для большинства языков подобныесистемы отсутствуют. Кроме того, для автоматической разметки актантов методамимашинного обучения требуется создать обучающий корпус примеров, размеченных посемантическим ролям. Создание такого корпуса – также крайне трудоёмкая задача.В последние годы было проведено множество исследований по автоматическойобработке текстов для русского языка. Однако, несмотря на общую популярность, темаавтоматической разметки актантов почти не исследовалась на русском материале, иодной из причин этого было отсутствие обучающего и тестового корпуса с разметкой посемантическим ролям и доступных инструментов предварительной обработки текста.

На1 Gildea, D., Jurafsky, D. (2000). Automatic labeling of semantic roles. Proceedings of the 38th Annual Meeting onAssociation for Computational Linguistics - ACL ’00, (1972), 512–5202 Fillmore, C. J. (1968). The Case for Case. In E. Bach & R. T. Harms (Eds.), Universals in Linguistic Theory (pp. 0–88). NewYork: Holt, Rinehart and Winston.3 C. F. Baker, Fillmore, C.

J., and Lowe, J. B., “The Berkeley FrameNet project”, in COLING-ACL '98: Proceedings of theConference, Montreal, Canada, 1998, pp. 86-90.4 Palmer M, Kingsbury P, Gildea D (2005). "The Proposition Bank: An Annotated Corpus of Semantic Roles". ComputationalLinguistics 31 (1): 71–106.5 Schuler, K. K. (2005).

VerbNet: A Broad-Coverage, Comprehensive Verb Lexicon. Dissertation Abstracts International, B:Sciences and Engineering, 66(6).4сегодняшний день активно разрабатывается ресурс FrameBank6, один из компонентовкоторого представляет собой корпус с необходимой для нашей задачи разметкой. Врамках диссертационного исследования мы разработали систему автоматическойразметки актантов, опираясь на промежуточную версию этого ресурса.

Подобной работына материале FrameBank ранее не проводилось.Цель представленного исследования – разработать и описать системуавтоматической разметки актантов и детально изучить результаты её работы, выяснитьвклад различных лингвистических свойств и других параметров задачи в качествоклассификации. В рамках исследования мы выделяем следующие подзадачи: Интегрировать доступные ресурсы предобработки в цепочку, которая позволитобогатить исходный корпус FrameBank морфологической и синтаксическойинформацией Произвести фильтрацию корпуса примеров FrameBank, обеспечив тем самымвысокое качество обучающих и тестовых данных Разработать модель для классификации актантов на основе деревьев зависимостейи лингвистических свойств, в т.ч.

специфичных для русского языка Разработать модуль глобальной оптимизации, который обеспечивает выполнениеограничений, накладываемых теорией семантических ролей Оценить качество работы полученной системы на изолированной тестовойвыборке. Оценить вклад лингвистических свойств и других параметров задачи вкачество работы системы. Выработать рекомендации по дальнейшему развитию системы и корпусаFrameBank.В качестве материала исследования мы используем корпус примеров FrameBank,а также на построенные на основе этого корпуса модели. Автоматическая разметкаактантов для русского языка – одно из наименее развитых направлений в6 Lyashevskaya, O., Kashkin, E.

(2015). FrameBank: A Database of Russian Lexical Constructions for the "Deep" Parsing ofRussian. Analysis of Images, Social Networks and Texts. 4th International Conference, AIST 2015, Yekaterinburg, Russia,April 9–11, 2015, Revised Selected Papers, 542.5автоматической обработке текста, что, учитывая большое прикладное значение этойзадачи, объясняет её актуальность. Научная новизна работы состоит в том, что ранееподобных исследований на русском материале не проводилось. Предложенноеисследование – первый опыт применения систем на основе машинного обучения ккорпусу примеров FrameBank. Ряд частных решений также применяется к русскомуязыку впервые, кроме того, это первое известное нам полноценное описание подобнойсистемы, достаточно подробное для успешной реимплементации и усовершенствованияпредложенного метода.Теоретическая значимость исследования состоит в оценке вклада различныхлингвистических свойств в качество работы классификатора.

Система опирается на рядсвойств, в т.ч. на путь в дереве зависимостей, падеж актанта, предлог, которымоформлен актант, лемму и кластер актанта и др. Наш анализ демонстрирует важностьсинтаксических свойств для автоматической разметки актантов в русском языке. Рольлексических свойств оказывается второстепенной, и мы подробно рассматриваемвозможные причины такого поведения системы. Для русского языка подобноеисследование проводится впервые.Практическая значимость исследования состоит в подробном качественном иколичественном анализе результатов работы системы. Кроме того, работа содержитдетальное описание компонентов системы, а также ряд рекомендаций для дальнейшихэкспериментальных исследований в этой области.Апробацияработы.Основныеположенияисследованияиполученныерезультаты были представлены на конференциях «Анализ Изображений, Сетей иТекстов» (АИСТ-2013), Analysis of Images, Social Networks and Texts (AIST-2015) наМеждународной конференции «Диалог» (2013).

Также по материалам исследованиябыло опубликовано три статьи в журнале «Научно-техническая информация» (2012 и2013 гг.).Структура диссертации. Диссертация состоит из введения, четырёх глав,заключенияибиблиографии.ГлаваIпосвященатеоретическимосновамавтоматической разметки актантов, а также истории этого направления. Глава IIсодержит описание разработанной системы автоматической разметки актантов. Глава6III посвящена процедуре оценки качества работы системы и описанию полученныхрезультатов.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5168
Авторов
на СтудИзбе
438
Средний доход
с одного платного файла
Обучение Подробнее