Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 2

PDF-файл Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 2 Филология (31154): Диссертация - Аспирантура и докторантураДиссертация (Автоматическая разметка семантических ролей в русском языке) - PDF, страница 2 (31154) - СтудИзба2019-03-13СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.

Просмотр PDF-файла онлайн

Текст 2 страницы из PDF

В ходе процедуры синтаксического разборапредложения слова объединяются в синтаксические группы (в случае анализа втерминах непосредственных составляющих) или между ними устанавливаютсясинтаксические связи (в случае, если парсер опирается на формализм деревьевзависимостей). Несмотря на наличие определенных корреляций междусемантическими ролями и синтаксическим оформлением участников ситуации,эти явления не эквивалентны и относятся к разным уровням языковой модели.Синтаксический анализ – строгая процедура, которая опирается на грамматикуязыка и в большинстве случаев подразумевает единственный правильныйрезультат анализа. Автоматическая разметка актантов — гораздо болеесубъективная задача, в которой большую роль играет интерпретация ситуациичеловеком.6В то же время следует понимать, что автоматическая разметка актантов –это не полный семантический анализ, т.к.

работа всегда производится науровне предложения, и системы не используют правил логического вывода.Результат автоматической разметки актантов — не полное семантическоепредставление исходного предложения, а в большей степени поверхностныйрефлекс этого семантического представления, который, несмотря на своюнеполноту, оказывается полезен при решении ряда прикладных задач.Важность выбранной нами темы связана в первую очередь с тем, что анализтекста в терминах семантических ролей позволяет сравнительно небольшимиусилиями получить дополнительный уровень абстракции, описывающийсемантику текста.

Информация о семантических ролях может быть затемиспользована для извлечения фактов [Christensen, Soderland, Etzioni, 2010],машинного перевода [Liu, Gildea, 2010], в вопросно-ответных системах [Shen,Lapata, 2007], а также, потенциально, в любой системе автоматическойобработки языка, которая так или иначе опирается на семантическуюинформацию.Автоматическая разметка актантов в современном понимании возникла вначале 2000х годов [Gildea, Jurafsky, 2000]. Теоретической основой длянаправления послужила теория семантических ролей Ч.

Филлмора [Fillmore,1968]. Прикладным основанием экспериментов в этой области можно считатьпостроенные на базе теории Филлмора лексико-грамматические ресурсы: и еёответвления (в первую очередь, модели FrameNet [Baker, Fillmore, Lowe, 1998],PropBank [Palmer, Gildea, Kingsbury, 2005] и VerbNet [Schuler, 2005]). Теориясемантических ролей описывает ролевые инвентари и задаёт общуюсемантическую модель, на основе которой производится анализ ситуаций.Первые системы автоматической разметки актантов были созданы дляанглийского языка, который на тот момент обладал наиболее обширнымиресурсами и развитой инфраструктурой. Со временем ресурсы стали7создаваться и для других языков, однако английский язык до сих пор сохраняетпервенство в плане качества разрабатываемых систем и их применения вреальныхприложениях.Историческимногиеметодыавтоматическойобработки языка были созданы на базе английского и затем перенесены надругие языки.

В то же время по очевидным причинам прямой перенос методови систем между языками невозможен: каждый язык обладает уникальнымиособенностями,значительнойизачастуюмодификации,дажеиспользуемыепреждечемалгоритмыаналогичныйтребуютанглийскомуинструмент сможет быть использован для других языков. Среди яркихпримеров таких отличий – автоматический анализ морфологии, который дляанглийского языка сводится к определению частей речи и успешновыполняется с помощью простейших моделей, в то время как для языков сбогатой морфологией требуется анализ и снятие неоднозначности насимвольном уровне. Другой пример – синтаксический анализ, который ванглийском языке в первую очередь опирается на порядок слов и части речи,однако в языках со свободным порядком слов и развитым элилпсисом длярешения этой задачи требуются значительно более сложные и гибкие модели.Было неоднократно продемонстрировано, что системы автоматическойразметки актантов также теряют в качестве при переносе на другой язык[Björkelund, Hafdell, Nugues, 2009].

В дальнейшем для отсылки к этой проблемемы будем использовать понятие языковой специфичности.Другая причина, по которой системы автоматического выделенияглагольных актантов для языков, отличных от английского, отстают отанглийских систем – доступность ресурсов. Исторически первые системыавтоматической разметки актантов были основаны на правилах [Hirst, 1988].Эти системы сильно отличались от современных, т.к. были ориентированы наанализ текстов из узких предметных областей и оперировали специфичными8наборами семантических ролей, которые зачастую были мотивированыприкладными задачами, а не лингвистической теорией.Большинство современных систем SRL основаны на машинном обучениис учителем: система автоматически обучается выполнять задачу на основеразмеченного корпуса примеров.

Создание такого корпуса – крайнетрудоёмкая задача, и подобные ресурсы существуют лишь для ограниченногочисла языков. Для обозначения комплекса проблем, связанных с недостаткомресурсов, мы будем использовать понятие ресурсозависимости.В последние годы было проведено множество исследований поавтоматической обработке текстов для русского языка. Так, в 2010 году прошлосоревнование морфологических анализаторов [Ляшевская и др., 2010] в 2012 –соревнование синтаксических парсеров [Толдова и др., 2012], в 2014 –соревнование систем разрешения анафоры [Toldova и др., 2014].Несмотря на общую популярность, тема автоматической разметкиактантов почти не исследовалась на русском материале, и одной из причинэтого было отсутствие обучающего и тестового корпуса. Единственнымподходящим ресурсом для русского языка на сегодняшний день являетсяFrameBank, один из компонентов которого представляет собой корпус снеобходимой для нашей задачи разметкой.

Помимо корпуса, ресурс включаетвсебяописаниеконструкцийсразличнымиглаголамиидругуюлексикографическую информацию (подробнее см. [Ляшевская, Кузнецова,2009]). В рамках диссертационного исследования мы разработали системуавтоматической разметки актантов, опираясь на промежуточную версию этогоресурса. Подобной работы на материале FrameBank ранее не проводилось.Объект нашего исследования – автоматическая разметка актантов дляметодами машинного обучения для русского языка.

Цель исследования –разработать и описать систему автоматической разметки актантов и детальноизучить результаты её работы, выяснить вклад различных лингвистических9свойств и других параметров задачи в качество классификации. В качествематериала исследование опирается на корпус примеров FrameBank, а также напостроенные на основе этого корпуса модели. Автоматическая разметкаактантов для русского языка – одно из наименее развитых направлений вавтоматической обработке текста, что, учитывая большое прикладное значениеэтой задачи, объясняет её актуальность.

Научная новизна работы состоит в том,что ранее подобных исследований на русском материале не проводилось.Предложенное исследование – первый опыт применения систем на основемашинного обучения к корпусу примеров FrameBank. Ряд частных решенийтакже применяется к русскому языку впервые, кроме того, это первоеизвестное нам полноценное описание подобной системы, достаточноподробноедляуспешнойреимплементациииусовершенствованияпредложенного метода. Теоретическая значимость исследования состоит воценке вклада различных лингвистических свойств в качество работыклассификатора. Мы предлагаем и подробно анализируем ряд свойств,которые по причинам типологического характера не могут быть использованына английском материале и потому почти не представлены в литературе.Практическая значимость исследования состоит в подробном качественном иколичественном анализе результатов работы системы.

Кроме того, работасодержитдетальноеописаниекомпонентовсистемы,атакжерядрекомендаций по усовершенствованию ресурса, основанных на нашем опыте,которые помогут усвершенствовать ресурс и сделать исследования на егооснове более доступными.Диссертация состоит из введения, четырёх глав, заключения ибиблиографии. В Главе Iзадача автоматической разметки семантическихролей рассматривается в исторической перспективе.

Как упоминалось выше,автоматическаяразметкаактантов–однаизнаболеетеоретическивовлеченных задач в автоматической обработке языка, и кажется разумным10подробно остановиться на теоретической стороне задачи, чтобы мотивироватьрешения и ограничения, которые мы принимаем на этапе практическойреализации системы. Также глава содержит обзор и историю развитияподходов к автоматическому выделению семантических ролей, начиная отпервых работ, опубликованных в начале 2000-х годов, и заканчивая наиболеесовременными системами на основе частичного обучения с учителем иобучения без учителя.

Глава II посвящена описанию разработанной системы.Глава III рассказывает в метриках и процедуре оценки качества, а такжесодержит анализ результатов работы системы. Глава IV подводит итоги работыи определяет дальнейшие пути развития автоматической разметки актантов исопутствующих ресурсов применительно к русскому языку на основанииприобретённого нами опыта.11I.

Теория семантических ролей иавтоматическая разметкаактантовI.1 Теоретические основыВтеоретическомопираетсянатеориюотношенииавтоматическаясемантическихролей.обработкаактантовИсторическипонятиесемантической роли в том или ином виде присутствовало в большинствелингвистических теорий, однако несмотря на то, что этот концепт, как правило,интуитивно понятен, и существование семантических ролей не подвергаетсясомнению, до сих пор ведутся споры о том, как именно следует определятьсемантическую роль, каков инвентарь этих ролей, каково место семантическихролей в системе языка и какие функции они выполняют. Поэтому прежде чемперейти к непосредственно решению задачи автоматической обработкиактантов, кажется уместным ненадолго остановиться на теории семантическихролей, истории её развития и современных направлениях исследований вданной области.12Традиционно первым упоминанием семантических ролей принятосчитать систему падежей kāraka, предложенную Панини для описанияграмматики санскрита [Misra, 1966].

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5209
Авторов
на СтудИзбе
430
Средний доход
с одного платного файла
Обучение Подробнее