Диссертация (1137507), страница 20

Файл №1137507 Диссертация (Автоматическая разметка семантических ролей в русском языке) 20 страницаДиссертация (1137507) страница 202019-05-202019-05-20СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 20)

Отметим, однако, чтонаилучший результат достигается при использовании лишь подмножества всехдоступных свойств. Для того чтобы оценить вклад отдельных свойств в качествоработы классификатора, был рассчитан показатель корреляции каждого из этихсвойств с показателями качества. Соответствующая таблица приводится ниже:136СвойствоFPRPOS0.0240.0200.026Lemma0.0940.1480.075Cluster-0.0050.022-0.015Case0.0550.0590.060Finncase0.0080.0110.007Vform0.0060.0070.008Prep_lemma0.0250.0260.026Voice-0.004-0.010-0.002Path0.5720.5510.576ShortPath40.5740.5430.583Таблица 10: Корреляция свойств с качеством работы системыКак видно из Табл.

10, наиболее высокой корреляцией средииндивидуальных свойств обладают свойства "короткий путь" и "путь".Небольшой положительный вклад вносят также свойства "лемма", "падеж","финский падеж", "часть речи" и "предложная лемма". Влияние свойства"кластер" на F-меру крайне незначительно. Также мы проанализировали вкладв качество работы классификатора комбинаций свойств. Ниже мы приводимданные по коэффициенту корреляции единичных свойств и пар с показателямикачества классификатора (приведены конфигурации с наиболее высокимкоэффициеном корреляции):137СвойствоFPRShortPath40.5740.5430.583Path0.5720.5510.576Cluster+shortPath40.3890.3720.392Cluster+path0.3890.3780.387Case+shortPath0.3500.3300.359Case+path0.3490.3350.353POS+shortPath40.3470.3270.353POS+path0.3460.3310.349Prep_lemma+shortPath40.3460.3270.351Prep_lemma+path0.3450.3320.347Таблица 11: Корреляция пар свойств с качеством работы системыКак мы можем видеть, вклад свойств, основанных на пути, всё ещё оченьвелик, однако полезными оказываются и комбинации этих свойств синформацией о кластере и частеречной принадлежности слова.Ниже мы еще остановимся на вопросах, связанных с влиянием свойства"путь" и незначительностью вклада кластеризации в итоговый результатработы системы, а сейчас перейдём к описанию результатов второго этапаоценки качества, в ходе которого мы определили вклад ILP-оптимизации, атакже влияние размеров выборки и соотношения объёмов тренировочных итестовых данных на качество классификации.III.3.2 Влияние глобальной оптимизации, размера тестовойвыбоки и ограничения на частоту конструкцииНа данном этапе пять лучших конфигураций свойств для каждого изклассов свойств были проанализированы с точки зрения влияния ILP138оптимизации,ограниченияначастотувстречаемостиконструкцииисоотношения тестовой и тренировочной выборок на итоговое качество работысистемы.

В ходе тестирования измерялось качество системы на следующихкомбинациях параметров ILP: да/нет Размер тестовой выборки (tts): 0.1, 0.2, 0.3, 0.4, 0.5 Порог отсечения по количеству примеров (thr): 10, 20, 30, 40Всегобылопротестировано600конфигурацийсистемы.Топ-10наилучших результатов приводится в следующей Табл. 12:Features + ILP + thr + ttsPRFAccvform,finncase,prep_lemma,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7990.7440.7600.958vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7440.7580.957vform,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7430.7570.957vform,finncase,prep_lemma,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7960.7330.7550.958vform,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7940.7310.7520.957vform,finncase,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7990.7310.7520.959voice,vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7930.7360.7510.956vform,finncase,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7350.7510.958vform,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7950.7350.7500.957vform,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7970.7290.7500.958Таблица 12: Результаты глобальной оптимизации и влияние размера тестовойвыборки.Как видно из таблицы, ожидаемо лучшие результаты демонстрируютсистемы, для которых доступно наибольшее количество тренировочныхданных, с набором свойств, показавшим также лучшие результаты на первомэтапе тестирования.

Несколько неожиданным является тот факт, что ILP139оптимизация не всегда приводит к повышению качества в терминах F-меры.Для того, чтобы более наглядно проиллюстрировать эффект ILP-оптимизации,обратимся к следующим графикам, демонстрирующим профиль качестваработысистемыпривключённойиотключённойILP-оптимизациисоответственно.Рисунок 40: Профиль конфигураций системы с (красный цвет) и без (зелёныйцвет) глобальной оптимизацииКакмыможемвидеть,вцеломILP-оптимизацияоказываетнезначительный эффект на качество работы системы. В этой связи, однако,хочется отметить следующее обстоятельство. Для того, чтобы вывод системыбыл формально верным, нам необходимо использовать ILP-оптимизацию или140другой механизм, который обеспечит единственность заполнения каждойроли.

В этом контексте тот факт, что ILP-оптимизация не оказывает негативноговлияния на качество, а в некоторых случаях улучшает его, является безусловноположительным обстоятельством. Так, например, мы можем видеть, что ILPоптимизация сглаживает падение качества при отказе от свойств на основепути, которое мы уже наблюдали ранее.Теперь обратимся к зависимости качества работы от ограничения начастоту встречаемости конструкции.

Эту зависимость иллюстрирует следующийграфик:Рисунок 41: Зависимость качества работы системы от ограничения на частотуконструкции141Как мы видим, конструкции, для которых доступно большее числоданных, стабильно демонстрируют лучшее качество работы системы, чтовполне ожидаемо.Наконец,рассмотримзависимостькачестваработысистемысоотношения объёмов тестовой и тренировочной выборок.Рисунок 42: Зависимость качества работы системы от размера тестовойвыборки142отМы можем наблюдать, что качество работы систем с большим объёмомтренировочных данных ожидаемо выше независимо от ограничения на частотувстречаемости конструкции.

Отметим, однако, что разница по качеству междудолей тестовых данных 0.2-0.5 невелика. Это явление представляетопределённый интерес. По-видимому, объяснением в данном случае являетсянекоторое количество неточностей в наших тренировочных и тестовых данных:в случае, когда тестовые данные содержат ошибки разметки, иногдаклассификатору оказывается "выгодно" иметь большее количество тестовыхданных, т.к. таким образом уменьшается процент случайных ошибок,связанных с разметкой и проекцией разметки на синтаксические узлы.

Вкачестве иллюстрации рассмотрим следующие примеры из тестовогоподкорпуса для конструкции “исчезнуть 1.1”:A.Роль региональных лидеров при Путине резко снизилась , политическиепартии тоже резко пошли на убыль , СМИ[X] вообще исчезли .B.Красивый люд[X] давно исчез .C.Вся группа[X] , бесшумно скрывшаяся в непроглядной темени , пропала ,исчезла , и следы её замыл дождь .D.Вот чай[X] хороший совсем исчез .Пример 12: Случайные ошибки как причина повышения качества сувеличением тестовой выборки.

Красным цветом отмечены случаи, в которых,согласно алгоритму оценки, система приписала неправильную рольКак можно видеть из Пример 12: Случайные ошибки как причинаповышения качества с увеличением тестовой выборки12, система частосрабатывает правильно, однако в случаях C и D результат системы, хотя иправильный, не совпадает с экспертной разметкой.

В случае небольшихтестовых выборок повышается вероятность того, что доля предложений с143ошибочной разметкой в тестовых данных возрастёт, а формальное качествоработы системы, обучившейся правильному концепту, понизится.В завершение описания результатов работы системы кажется уместнымпривести матрицу корреляции значений tts, thr и ilp с качеством работысистемы, так же, как мы делали это для отдельных свойств и их комбинаций напервом этапе:FPRILP0.0250.0210.012thr0.1630.2250.164tts-0.0580.003-0.079Таблица 13: Корреляция параметров с качеством работы системыЗначения коэффициентов корреляции показывают, что ILP-оптимизацияоказывает незначительный положительный эффект на качество.

Качество такжерастёт с увеличением ограничения на частоту конструкции и незначительнопадает при увеличении доли тестовой выборки в общем объёме данных.144III.4 Обсуждение результатовИтак, результаты оценки системы позволяют нам сделать следующиевыводы:1.Наилучшиерезультатыдостигаютсяприиспользованиикомбинированных семантико-синтаксических наборов свойств, однако исинтаксических свойств зачастую оказывается достаточно для достижениякачества, близкого к максимальному. Особое значение имеет свойство “путь”,которое во многом определяет результат классификации в случаях, когда оновключено в признаковый набор. При этом ограничение длины пути оказываетположительный эффект на качество классификации.2. Семантические свойства в изоляции показывают менее высокиерезультаты, однако даже в этом случае качество работы системы превосходитбазовый классификатор, выделяющий класс большинства.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomaticheskaja-razmetka-semanticheskih-rolej-v-russkom-jazyke.rar

Автоматическая разметка семантических ролей в русском языке

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.