Диссертация (1100480), страница 20

Файл №1100480 Диссертация (Автоматическая разметка семантических ролей в русском языке) 20 страницаДиссертация (1100480) страница 202019-03-132019-03-13СтудИзба

Автоматическая разметка семантических ролей в русском языке

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 20)

В ходе тестирования измерялось качество системы на следующихкомбинациях параметров ILP: да/нет Размер тестовой выборки (tts): 0.1, 0.2, 0.3, 0.4, 0.5 Порог отсечения по количеству примеров (thr): 10, 20, 30, 40Всегобылопротестировано600конфигурацийсистемы.Топ-10наилучших результатов приводится в следующей Табл. 12:Features + ILP + thr + ttsPRFAccvform,finncase,prep_lemma,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7990.7440.7600.958vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7440.7580.957vform,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7430.7570.957vform,finncase,prep_lemma,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7960.7330.7550.958vform,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7940.7310.7520.957vform,finncase,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7990.7310.7520.959voice,vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7930.7360.7510.956vform,finncase,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7350.7510.958vform,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7950.7350.7500.957vform,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7970.7290.7500.958Таблица 12: Результаты глобальной оптимизации и влияние размера тестовойвыборки.Как видно из таблицы, ожидаемо лучшие результаты демонстрируютсистемы, для которых доступно наибольшее количество тренировочныхданных, с набором свойств, показавшим также лучшие результаты на первомэтапе тестирования.

Несколько неожиданным является тот факт, что ILP139оптимизация не всегда приводит к повышению качества в терминах F-меры.Для того, чтобы более наглядно проиллюстрировать эффект ILP-оптимизации,обратимся к следующим графикам, демонстрирующим профиль качестваработысистемыпривключённойиотключённойILP-оптимизациисоответственно.Рисунок 40: Профиль конфигураций системы с (красный цвет) и без (зелёныйцвет) глобальной оптимизацииКакмыможемвидеть,вцеломILP-оптимизацияоказываетнезначительный эффект на качество работы системы. В этой связи, однако,хочется отметить следующее обстоятельство. Для того, чтобы вывод системыбыл формально верным, нам необходимо использовать ILP-оптимизацию или140другой механизм, который обеспечит единственность заполнения каждойроли. В этом контексте тот факт, что ILP-оптимизация не оказывает негативноговлияния на качество, а в некоторых случаях улучшает его, является безусловноположительным обстоятельством.

Так, например, мы можем видеть, что ILPоптимизация сглаживает падение качества при отказе от свойств на основепути, которое мы уже наблюдали ранее.Теперь обратимся к зависимости качества работы от ограничения начастоту встречаемости конструкции. Эту зависимость иллюстрирует следующийграфик:Рисунок 41: Зависимость качества работы системы от ограничения на частотуконструкции141Как мы видим, конструкции, для которых доступно большее числоданных, стабильно демонстрируют лучшее качество работы системы, чтовполне ожидаемо.Наконец,рассмотримзависимостькачестваработысистемысоотношения объёмов тестовой и тренировочной выборок.Рисунок 42: Зависимость качества работы системы от размера тестовойвыборки142отМы можем наблюдать, что качество работы систем с большим объёмомтренировочных данных ожидаемо выше независимо от ограничения на частотувстречаемости конструкции.

Отметим, однако, что разница по качеству междудолей тестовых данных 0.2-0.5 невелика. Это явление представляетопределённый интерес. По-видимому, объяснением в данном случае являетсянекоторое количество неточностей в наших тренировочных и тестовых данных:в случае, когда тестовые данные содержат ошибки разметки, иногдаклассификатору оказывается "выгодно" иметь большее количество тестовыхданных, т.к. таким образом уменьшается процент случайных ошибок,связанных с разметкой и проекцией разметки на синтаксические узлы.

Вкачестве иллюстрации рассмотрим следующие примеры из тестовогоподкорпуса для конструкции “исчезнуть 1.1”:A.Роль региональных лидеров при Путине резко снизилась , политическиепартии тоже резко пошли на убыль , СМИ[X] вообще исчезли .B.Красивый люд[X] давно исчез .C.Вся группа[X] , бесшумно скрывшаяся в непроглядной темени , пропала ,исчезла , и следы её замыл дождь .D.Вот чай[X] хороший совсем исчез .Пример 12: Случайные ошибки как причина повышения качества сувеличением тестовой выборки.

Красным цветом отмечены случаи, в которых,согласно алгоритму оценки, система приписала неправильную рольКак можно видеть из Пример 12: Случайные ошибки как причинаповышения качества с увеличением тестовой выборки12, система частосрабатывает правильно, однако в случаях C и D результат системы, хотя иправильный, не совпадает с экспертной разметкой. В случае небольшихтестовых выборок повышается вероятность того, что доля предложений с143ошибочной разметкой в тестовых данных возрастёт, а формальное качествоработы системы, обучившейся правильному концепту, понизится.В завершение описания результатов работы системы кажется уместнымпривести матрицу корреляции значений tts, thr и ilp с качеством работысистемы, так же, как мы делали это для отдельных свойств и их комбинаций напервом этапе:FPRILP0.0250.0210.012thr0.1630.2250.164tts-0.0580.003-0.079Таблица 13: Корреляция параметров с качеством работы системыЗначения коэффициентов корреляции показывают, что ILP-оптимизацияоказывает незначительный положительный эффект на качество.

Качество такжерастёт с увеличением ограничения на частоту конструкции и незначительнопадает при увеличении доли тестовой выборки в общем объёме данных.144III.4 Обсуждение результатовИтак, результаты оценки системы позволяют нам сделать следующиевыводы:1.Наилучшиерезультатыдостигаютсяприиспользованиикомбинированных семантико-синтаксических наборов свойств, однако исинтаксических свойств зачастую оказывается достаточно для достижениякачества, близкого к максимальному. Особое значение имеет свойство “путь”,которое во многом определяет результат классификации в случаях, когда оновключено в признаковый набор.

При этом ограничение длины пути оказываетположительный эффект на качество классификации.2. Семантические свойства в изоляции показывают менее высокиерезультаты, однако даже в этом случае качество работы системы превосходитбазовый классификатор, выделяющий класс большинства. Интерес вызываетсвойство "кластер", которое в нашем случае не оказывает почти никакогоположительного эффекта на классификацию.3.ILPоказываетнезначительныйположительныйэффектнаклассификацию, и эффект оптимизации наблюдается наиболее отчётливо вслучаях, когда исходное качество было невелико.4. Ограничение на частоту конструкции и увеличение объёма тестовыхданных ожидаемо приводят к повышению качества работы системы.Первые два наблюдения представляют особый интерес, и ниже мыостановимся на них подробнее.Результаты оценки наборов свойств показывают, что наилучшиекомбинации свойств в той или иной форме включают в себя синтаксическоесвойство "путь".

Это обстоятельство имеет как положительные, так иотрицательные стороны. С одной стороны, мы видим, что свойство "путь"145обладает хорошей предсказательной способностью. Это происходит не впоследнююочередьблагодарясинтаксическомуформализму,использованному в корпусе СинТагРус, который включает в себя специальныеотношения для связей предикатов с их синтаксическими актантами.Соответствие между семантическими и синтаксическими актантами не всегдаоднозначно.

Так, в следующем примере акант “Велосипедист” не являетсясинтаксическим субъектом глагола “соблюдать” в поверхностном деревезависимостей, однако является его семантическим актантом.Велосипедист должен быть осторожным, внимательным и строгособлюдать все правила уличного движения .Пример 13: Различие между семантическими и синтаксическимиактантамиВ то же время совпадение синтаксического отношения может служитьнадёжным индикатором для соответствующего отношения семантического.Следует отметить, что поскольку обучение и тестирование системыпроизводится на основе автоматического синтаксического анализа, подобная"точность"свойстваможетоказыватьиотрицательныйэффектнаклассификацию в случаях ошибок парсера. Свойство "путь" приобретаетвысокий вес, и несоответствие пути в тестовом предложении может статьслишком весомым аргументом в пользу неприсвоения роли выбранномуактанту.

Характеристики

Тип файла

PDF-файл

Размер

3,77 Mb

Материал

Автоматическая разметка семантических ролей в русском языке

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов диссертации

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.