Главная » Просмотр файлов » Диссертация

Диссертация (1137507), страница 12

Файл №1137507 Диссертация (Автоматическая разметка семантических ролей в русском языке) 12 страницаДиссертация (1137507) страница 122019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 12)

В нашем исследовании мы остановились наклассификации "один против всех", но это связано в первую очередь сособенностями имплементации нашей системы, а не с характеристикамизадачи, в контексте которой, впрочем, мы не видим очевидных преимуществиспользования попарной классификации над выбранным нами методом.В заключение хочется отметить, что существует множество алгоритмовклассификации, которые могут быть применены к задаче автоматическойразметки актантов. В рамках настоящего исследования мы стремились сделать75систему максимально простой и при этом содержащей все необходимыекомпоненты и не проводили детального сравнения результатов работыразличных классификаторов на наших данных. Одним из конкурирующихподходов при выборе алгоритма классификации в нашем случае были деревьяпринятия решений, преимущество которых состоит в том, что полученныемодели могут быть легко интерпретированы человеком. На практикеоказалось, что наши исходные данные содержат неточности, и деревьяпринятия решений работают на них неэффективно.

Подбор и оптимизацияклассификатора безусловно имеют большое значение для задач, связанных смашинным обучением, однако поскольку основания выбора классификаторалишь косвенно связаны с лингвистическими задачами исследования, этапроблематика осталась за рамками настоящей работы. Существенно болеезначимым с точки зрения лингвистических оснований решения поставленнойзадачи является проблема выбора тех свойств, которые используются дляобучения системы. Именно этому вопросу и будет посвящен следующийраздел.II.3.4 Свойства для обученияВ качестве свойств, используемых для представления объекта, мыиспользуем свойства, традиционно применяемые в системах автоматическойклассификации актантов на основе машинного обучения. Каждый узел деревазависимостей мы описываем в терминах восьми свойств, объединённых в двегруппы: синтаксические и семантические свойства.

Остановимся на нихподробнее.76Синтаксические свойстваЗадачасинтаксическихсвойств–предоставитьклассификаторуинформацию о месте узла в синтаксическом дереве зависимостей и обиндивидуальных синтаксических характеристиках узла, которые могут бытьполезны для определения его семантической роли.Свойство "путь" (Path)Данное свойство мы определяем как путь от целевого предиката крассматриваемому узлу в дереве зависимостей. Путь задаётся в терминахсинтаксических отношений, а также направления этих отношений. Например,рассмотрим предложение "Петя работает на заводе".Здесь "работать" является целевым предикатом конструкции.

Путь отпредиката к узлу "завод" будет состоять из двух связей с метками "2-компл"(второе комплетивное отношение) и "предл" (зависимость от предлога) или,более кратко, [2-компл, предл]. Вся структура представлена в виде деревазависимостей на Рис. 16:Рисунок 16: Дерево зависимостейПосколькусемантическиеактантыневсегдасоответствуютсинтаксическим, путь от предиката до его семантического актанта может иметьсущественную длину и выходить за пределы клаузы.

Тем не менее, следует77отметить, что поскольку граф зависимостей по определению является деревом,оказывается возможным проложить путь между двумя любыми узлами дерева,в крайнем случае, для этого используется абстрактный корневой узел ROOT.Путь – одно из самых важных и проблемных свойств в автоматическойразметке актантов, и мы подробно остановимся на его особенностях ниже.Свойство "падеж" (Case / FinnCase)Русский язык использует падеж для маркирования синтаксических связеймежду предикатом и его синтаксическими аргументами.

Несмотря на то, чтосемантические аргументы не всегда соответствуют синтаксическим, какправило,свойство"Падеж"предоставляетклассификаторуважнуюдополнительную информацию о маркировании выбранного узла. Например,Рисунок 17: Дерево зависимостей без именованных отношенийВ случае с падежным маркированием глагольных аргументов в русскомязыке, часто оказывается, что значение имеет не столько сам падеж слова,сколько комбинация предлога и падежа, которую мы далее будем именовать"финским падежом" и которой посвящён отдельный раздел.78Рисунок 18: Дерево зависимостей с указанием "финского падежа"Следует дополнительно отметить, что значимость свойств "падеж" и"финский падеж" возрастает в случае, если деревья зависимостей дляобучающих и тестовых данных получены автоматически.

Это происходитпотому, что задача автоматического синтаксического анализа оказывается вцелом сложнее, чем задача морфологического анализа, а качество работысинтаксических парсеров в целом ниже, чем качество морфологическиханализаторов. В этой связи свойства, основанные на падеже, оказываютсяболее надёжными и дают классификатору возможность принять правильноерешение даже в тех случаях, когда синтаксическое дерево для тренировочногоили тестового предложения было построено неверно.Семантические свойстваДанная группа свойств отражает семантические характеристики лексемы,представленной в узле. Одно из свойств семантических ролей состоит в том,что они заполняются близкими по своим семантическим свойствам актантами.Действительно, можно представить себе случаи, когда даже одной тольколексической информации о классах слов было бы достаточно для правильноинтерпретации предложения в терминах семантических ролей.

Рассмотримследующий пример:79Рисунок 19: Представление на основе лексемПри условии, что нам известны семантические ограничения назаполнение ролей (в эксплицитной форме или в форме модели), даже приотсутствии информации о порядке слов и падежном маркировании. мы можемоднозначно установить, что “Петя” является покупателем, “яблоко” – товаром,“рынок” – местом, а “рубль” – ценой.На практике такие примеры встречаются нечасто.

Кроме того,семантическая модель, которая позволила бы производить такой анализ вобщем случае, отличается от традиционных моделей, построенных попринципу тезауруса, т.к. опирается на более тонкие, часто предикатноспецифичные различия между лексемами. В любом случае, семантическиехарактеристики лексемы имеют большое значение для классификацииактантов и традиционно входят в список наиболее важных для этой задачисвойств.Свойство "Лемма"Построение семантических моделей для описания ограничений назаполнение ролей – нетривиальная процедура.

Однако приписание роли наосновании буквального совпадения лексем в тренировочном и тестовом80предложении – достаточно надёжная и точная эвристика. Поскольку нашасистема не использует механизмов автоматического снятия лексическойнеоднозначности, и поскольку данный тип неоднозначности не снят в исходныхданных, мы используем лемму слова, т.е. его начальную форму, например,“покупателям” → “покупатель”, “синего” → “синий” и т.д.Свойство "Кластер"Описание семантики актантов в терминах лемм позволяет добитьсявысокой точности при совпадении леммы, однако ведёт к потерям в полноте,т.к. буквальное совпадение лемм в общем случае маловероятно.

Для того,чтобы смягчить этот эффект, как правило, используется внешний ресурс,содержащий, в том числе, обобщенную информацию как о леммах изтренировочного набора, так и о леммах из тестовых предложений: это можетбыть метка значения (как, например, в тезаурусах) или метка кластера. Такимобразом, все леммы объединяются в определенные группы по семантическойблизости значений. В нашем исследовании мы использовали разбиениелексики на кластеры, автоматически полученное на большом объёме текстовыхданных с помощью метода дистрибутивного семантического анализа [Harris,1954; Mikolov и др., 2013].

Таким образом, вместо того, чтобы сравниватьконкретные леммы их обучающего и тестового корпуса, мы можем сравнить ихсемантические кластеры, и при совпадении класса считать слова сходными.Выбранныйметодирезультатыкластеризациибудутспециальнорассматриваться ниже, здесь же ограничимся примером использованиякластеров при генерации свойств узла. На Рис.

20 показано то, как кластерыслов дают возможность расширения лексических свойств лемм, влияющих наидентификацию ролевой принадлежности узла.81Рисунок 20: Представление на основе лексем с информацией о кластерахСвойство "Часть речи"Наконец, для описания узла мы используем его часть речи. Решение отом, чтобы считать это свойство семантическим, а не синтаксическим, можетпоказаться спорным, однако с нашей точки зрения, в рамках задачи semanticrole labeling для русского языка частеречная принадлежность слова несётскорее семантическую, нежели синтаксическую нагрузку.

В английском языкепадеж в общем случае недоступен, и часть речи играет важную роль в томчисле в качестве "подстраховки" в случае сбоев синтаксического парсера. Внашей системе эту роль играет падежное маркирование, часть речи же несётболее семантизированную нагрузку и служит, в частности, для разграниченияимён существительных, наречий и сентенциальных актантов.Итак, мы рассмотрели в общих чертах свойства, которые применяются внашей системе для описания экземпляров.

На основании этих свойств82классификатор принимает решение о том, какую семантическую роль (или еёотсутствие) приписать каждому рассматриваемому узлу. Влияние каждого изэтих свойств на результат классификации, было установлено в ходеэкспериментов. Ниже мы хотели бы подробнее остановиться на несколькихсвойствах, которые, на наш взгляд, представляют интерес вне зависимости отих вклада в качество работы системы в нашей имплементации.II.3.5 Кластеризация лексикиЛексическая информация играет важную роль в автоматическойклассификации актантов и потому должна быть учтена в свойствах,используемыхлексическойдляописанияинформации–экземпляров.этоПростейшийнепосредственноспособлеммаучётаслова,представленного целевым узлом.

Характеристики

Тип файла
PDF-файл
Размер
3,77 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматическая разметка семантических ролей в русском языке
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6374
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее