Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 12

PDF-файл Диссертация (Автоматическая разметка семантических ролей в русском языке), страница 12 Филология (31154): Диссертация - Аспирантура и докторантураДиссертация (Автоматическая разметка семантических ролей в русском языке) - PDF, страница 12 (31154) - СтудИзба2019-03-13СтудИзба

Описание файла

Файл "Диссертация" внутри архива находится в папке "Автоматическая разметка семантических ролей в русском языке". PDF-файл из архива "Автоматическая разметка семантических ролей в русском языке", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.

Просмотр PDF-файла онлайн

Текст 12 страницы из PDF

Затем каждый из натренированных классификаторовприменяется к новому экземпляру, и выбирается класс, получившийнаибольший вес.Рисунок 14: Классификация методом "один против всех"Альтернативныйспособприведениязадачимультиклассовойклассификации к задаче бинарной классификации – "каждый против каждого".В этом случае для каждой пары классов строится отдельный классификатор (всумме ( − 1)/2 классификаторов для классов), и результаты работы этихклассификаторов используются для ранжирования меток классов для каждоговходного экземпляра.

Несмотря на то, что в данном случае требуется построитьбольше классификаторов, для обучения каждого из них используется меньшеданных, а решающие функции зачастую оказываются более надёжными. Крометого, данный метод позволяет получить информацию о ранжировании.74Рисунок 15: Классификация методом "каждый против каждого"На практике выбор того или иного метода зависит от параметров задачии от технических возможностей.

В нашем исследовании мы остановились наклассификации "один против всех", но это связано в первую очередь сособенностями имплементации нашей системы, а не с характеристикамизадачи, в контексте которой, впрочем, мы не видим очевидных преимуществиспользования попарной классификации над выбранным нами методом.В заключение хочется отметить, что существует множество алгоритмовклассификации, которые могут быть применены к задаче автоматическойразметки актантов. В рамках настоящего исследования мы стремились сделать75систему максимально простой и при этом содержащей все необходимыекомпоненты и не проводили детального сравнения результатов работыразличных классификаторов на наших данных.

Одним из конкурирующихподходов при выборе алгоритма классификации в нашем случае были деревьяпринятия решений, преимущество которых состоит в том, что полученныемодели могут быть легко интерпретированы человеком. На практикеоказалось, что наши исходные данные содержат неточности, и деревьяпринятия решений работают на них неэффективно. Подбор и оптимизацияклассификатора безусловно имеют большое значение для задач, связанных смашинным обучением, однако поскольку основания выбора классификаторалишь косвенно связаны с лингвистическими задачами исследования, этапроблематика осталась за рамками настоящей работы. Существенно болеезначимым с точки зрения лингвистических оснований решения поставленнойзадачи является проблема выбора тех свойств, которые используются дляобучения системы.

Именно этому вопросу и будет посвящен следующийраздел.II.3.4 Свойства для обученияВ качестве свойств, используемых для представления объекта, мыиспользуем свойства, традиционно применяемые в системах автоматическойклассификации актантов на основе машинного обучения.

Каждый узел деревазависимостей мы описываем в терминах восьми свойств, объединённых в двегруппы: синтаксические и семантические свойства. Остановимся на нихподробнее.76Синтаксические свойстваЗадачасинтаксическихсвойств–предоставитьклассификаторуинформацию о месте узла в синтаксическом дереве зависимостей и обиндивидуальных синтаксических характеристиках узла, которые могут бытьполезны для определения его семантической роли.Свойство "путь" (Path)Данное свойство мы определяем как путь от целевого предиката крассматриваемому узлу в дереве зависимостей.

Путь задаётся в терминахсинтаксических отношений, а также направления этих отношений. Например,рассмотрим предложение "Петя работает на заводе".Здесь "работать" является целевым предикатом конструкции. Путь отпредиката к узлу "завод" будет состоять из двух связей с метками "2-компл"(второе комплетивное отношение) и "предл" (зависимость от предлога) или,более кратко, [2-компл, предл].

Вся структура представлена в виде деревазависимостей на Рис. 16:Рисунок 16: Дерево зависимостейПосколькусемантическиеактантыневсегдасоответствуютсинтаксическим, путь от предиката до его семантического актанта может иметьсущественную длину и выходить за пределы клаузы. Тем не менее, следует77отметить, что поскольку граф зависимостей по определению является деревом,оказывается возможным проложить путь между двумя любыми узлами дерева,в крайнем случае, для этого используется абстрактный корневой узел ROOT.Путь – одно из самых важных и проблемных свойств в автоматическойразметке актантов, и мы подробно остановимся на его особенностях ниже.Свойство "падеж" (Case / FinnCase)Русский язык использует падеж для маркирования синтаксических связеймежду предикатом и его синтаксическими аргументами.

Несмотря на то, чтосемантические аргументы не всегда соответствуют синтаксическим, какправило,свойство"Падеж"предоставляетклассификаторуважнуюдополнительную информацию о маркировании выбранного узла. Например,Рисунок 17: Дерево зависимостей без именованных отношенийВ случае с падежным маркированием глагольных аргументов в русскомязыке, часто оказывается, что значение имеет не столько сам падеж слова,сколько комбинация предлога и падежа, которую мы далее будем именовать"финским падежом" и которой посвящён отдельный раздел.78Рисунок 18: Дерево зависимостей с указанием "финского падежа"Следует дополнительно отметить, что значимость свойств "падеж" и"финский падеж" возрастает в случае, если деревья зависимостей дляобучающих и тестовых данных получены автоматически.

Это происходитпотому, что задача автоматического синтаксического анализа оказывается вцелом сложнее, чем задача морфологического анализа, а качество работысинтаксических парсеров в целом ниже, чем качество морфологическиханализаторов. В этой связи свойства, основанные на падеже, оказываютсяболее надёжными и дают классификатору возможность принять правильноерешение даже в тех случаях, когда синтаксическое дерево для тренировочногоили тестового предложения было построено неверно.Семантические свойстваДанная группа свойств отражает семантические характеристики лексемы,представленной в узле. Одно из свойств семантических ролей состоит в том,что они заполняются близкими по своим семантическим свойствам актантами.Действительно, можно представить себе случаи, когда даже одной тольколексической информации о классах слов было бы достаточно для правильноинтерпретации предложения в терминах семантических ролей.

Рассмотримследующий пример:79Рисунок 19: Представление на основе лексемПри условии, что нам известны семантические ограничения назаполнение ролей (в эксплицитной форме или в форме модели), даже приотсутствии информации о порядке слов и падежном маркировании. мы можемоднозначно установить, что “Петя” является покупателем, “яблоко” – товаром,“рынок” – местом, а “рубль” – ценой.На практике такие примеры встречаются нечасто.

Кроме того,семантическая модель, которая позволила бы производить такой анализ вобщем случае, отличается от традиционных моделей, построенных попринципу тезауруса, т.к. опирается на более тонкие, часто предикатноспецифичные различия между лексемами. В любом случае, семантическиехарактеристики лексемы имеют большое значение для классификацииактантов и традиционно входят в список наиболее важных для этой задачисвойств.Свойство "Лемма"Построение семантических моделей для описания ограничений назаполнение ролей – нетривиальная процедура. Однако приписание роли наосновании буквального совпадения лексем в тренировочном и тестовом80предложении – достаточно надёжная и точная эвристика.

Поскольку нашасистема не использует механизмов автоматического снятия лексическойнеоднозначности, и поскольку данный тип неоднозначности не снят в исходныхданных, мы используем лемму слова, т.е. его начальную форму, например,“покупателям” → “покупатель”, “синего” → “синий” и т.д.Свойство "Кластер"Описание семантики актантов в терминах лемм позволяет добитьсявысокой точности при совпадении леммы, однако ведёт к потерям в полноте,т.к. буквальное совпадение лемм в общем случае маловероятно. Для того,чтобы смягчить этот эффект, как правило, используется внешний ресурс,содержащий, в том числе, обобщенную информацию как о леммах изтренировочного набора, так и о леммах из тестовых предложений: это можетбыть метка значения (как, например, в тезаурусах) или метка кластера.

Такимобразом, все леммы объединяются в определенные группы по семантическойблизости значений. В нашем исследовании мы использовали разбиениелексики на кластеры, автоматически полученное на большом объёме текстовыхданных с помощью метода дистрибутивного семантического анализа [Harris,1954; Mikolov и др., 2013]. Таким образом, вместо того, чтобы сравниватьконкретные леммы их обучающего и тестового корпуса, мы можем сравнить ихсемантические кластеры, и при совпадении класса считать слова сходными.Выбранныйметодирезультатыкластеризациибудутспециальнорассматриваться ниже, здесь же ограничимся примером использованиякластеров при генерации свойств узла. На Рис.

20 показано то, как кластерыслов дают возможность расширения лексических свойств лемм, влияющих наидентификацию ролевой принадлежности узла.81Рисунок 20: Представление на основе лексем с информацией о кластерахСвойство "Часть речи"Наконец, для описания узла мы используем его часть речи. Решение отом, чтобы считать это свойство семантическим, а не синтаксическим, можетпоказаться спорным, однако с нашей точки зрения, в рамках задачи semanticrole labeling для русского языка частеречная принадлежность слова несётскорее семантическую, нежели синтаксическую нагрузку. В английском языкепадеж в общем случае недоступен, и часть речи играет важную роль в томчисле в качестве "подстраховки" в случае сбоев синтаксического парсера.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5301
Авторов
на СтудИзбе
416
Средний доход
с одного платного файла
Обучение Подробнее