Диссертация (1137507), страница 20
Текст из файла (страница 20)
Отметим, однако, чтонаилучший результат достигается при использовании лишь подмножества всехдоступных свойств. Для того чтобы оценить вклад отдельных свойств в качествоработы классификатора, был рассчитан показатель корреляции каждого из этихсвойств с показателями качества. Соответствующая таблица приводится ниже:136СвойствоFPRPOS0.0240.0200.026Lemma0.0940.1480.075Cluster-0.0050.022-0.015Case0.0550.0590.060Finncase0.0080.0110.007Vform0.0060.0070.008Prep_lemma0.0250.0260.026Voice-0.004-0.010-0.002Path0.5720.5510.576ShortPath40.5740.5430.583Таблица 10: Корреляция свойств с качеством работы системыКак видно из Табл.
10, наиболее высокой корреляцией средииндивидуальных свойств обладают свойства "короткий путь" и "путь".Небольшой положительный вклад вносят также свойства "лемма", "падеж","финский падеж", "часть речи" и "предложная лемма". Влияние свойства"кластер" на F-меру крайне незначительно. Также мы проанализировали вкладв качество работы классификатора комбинаций свойств. Ниже мы приводимданные по коэффициенту корреляции единичных свойств и пар с показателямикачества классификатора (приведены конфигурации с наиболее высокимкоэффициеном корреляции):137СвойствоFPRShortPath40.5740.5430.583Path0.5720.5510.576Cluster+shortPath40.3890.3720.392Cluster+path0.3890.3780.387Case+shortPath0.3500.3300.359Case+path0.3490.3350.353POS+shortPath40.3470.3270.353POS+path0.3460.3310.349Prep_lemma+shortPath40.3460.3270.351Prep_lemma+path0.3450.3320.347Таблица 11: Корреляция пар свойств с качеством работы системыКак мы можем видеть, вклад свойств, основанных на пути, всё ещё оченьвелик, однако полезными оказываются и комбинации этих свойств синформацией о кластере и частеречной принадлежности слова.Ниже мы еще остановимся на вопросах, связанных с влиянием свойства"путь" и незначительностью вклада кластеризации в итоговый результатработы системы, а сейчас перейдём к описанию результатов второго этапаоценки качества, в ходе которого мы определили вклад ILP-оптимизации, атакже влияние размеров выборки и соотношения объёмов тренировочных итестовых данных на качество классификации.III.3.2 Влияние глобальной оптимизации, размера тестовойвыбоки и ограничения на частоту конструкцииНа данном этапе пять лучших конфигураций свойств для каждого изклассов свойств были проанализированы с точки зрения влияния ILP138оптимизации,ограниченияначастотувстречаемостиконструкцииисоотношения тестовой и тренировочной выборок на итоговое качество работысистемы.
В ходе тестирования измерялось качество системы на следующихкомбинациях параметров ILP: да/нет Размер тестовой выборки (tts): 0.1, 0.2, 0.3, 0.4, 0.5 Порог отсечения по количеству примеров (thr): 10, 20, 30, 40Всегобылопротестировано600конфигурацийсистемы.Топ-10наилучших результатов приводится в следующей Табл. 12:Features + ILP + thr + ttsPRFAccvform,finncase,prep_lemma,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7990.7440.7600.958vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7440.7580.957vform,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7430.7570.957vform,finncase,prep_lemma,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7960.7330.7550.958vform,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7940.7310.7520.957vform,finncase,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7990.7310.7520.959voice,vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7930.7360.7510.956vform,finncase,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7350.7510.958vform,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7950.7350.7500.957vform,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7970.7290.7500.958Таблица 12: Результаты глобальной оптимизации и влияние размера тестовойвыборки.Как видно из таблицы, ожидаемо лучшие результаты демонстрируютсистемы, для которых доступно наибольшее количество тренировочныхданных, с набором свойств, показавшим также лучшие результаты на первомэтапе тестирования.
Несколько неожиданным является тот факт, что ILP139оптимизация не всегда приводит к повышению качества в терминах F-меры.Для того, чтобы более наглядно проиллюстрировать эффект ILP-оптимизации,обратимся к следующим графикам, демонстрирующим профиль качестваработысистемыпривключённойиотключённойILP-оптимизациисоответственно.Рисунок 40: Профиль конфигураций системы с (красный цвет) и без (зелёныйцвет) глобальной оптимизацииКакмыможемвидеть,вцеломILP-оптимизацияоказываетнезначительный эффект на качество работы системы. В этой связи, однако,хочется отметить следующее обстоятельство. Для того, чтобы вывод системыбыл формально верным, нам необходимо использовать ILP-оптимизацию или140другой механизм, который обеспечит единственность заполнения каждойроли.
В этом контексте тот факт, что ILP-оптимизация не оказывает негативноговлияния на качество, а в некоторых случаях улучшает его, является безусловноположительным обстоятельством. Так, например, мы можем видеть, что ILPоптимизация сглаживает падение качества при отказе от свойств на основепути, которое мы уже наблюдали ранее.Теперь обратимся к зависимости качества работы от ограничения начастоту встречаемости конструкции.
Эту зависимость иллюстрирует следующийграфик:Рисунок 41: Зависимость качества работы системы от ограничения на частотуконструкции141Как мы видим, конструкции, для которых доступно большее числоданных, стабильно демонстрируют лучшее качество работы системы, чтовполне ожидаемо.Наконец,рассмотримзависимостькачестваработысистемысоотношения объёмов тестовой и тренировочной выборок.Рисунок 42: Зависимость качества работы системы от размера тестовойвыборки142отМы можем наблюдать, что качество работы систем с большим объёмомтренировочных данных ожидаемо выше независимо от ограничения на частотувстречаемости конструкции.
Отметим, однако, что разница по качеству междудолей тестовых данных 0.2-0.5 невелика. Это явление представляетопределённый интерес. По-видимому, объяснением в данном случае являетсянекоторое количество неточностей в наших тренировочных и тестовых данных:в случае, когда тестовые данные содержат ошибки разметки, иногдаклассификатору оказывается "выгодно" иметь большее количество тестовыхданных, т.к. таким образом уменьшается процент случайных ошибок,связанных с разметкой и проекцией разметки на синтаксические узлы.
Вкачестве иллюстрации рассмотрим следующие примеры из тестовогоподкорпуса для конструкции “исчезнуть 1.1”:A.Роль региональных лидеров при Путине резко снизилась , политическиепартии тоже резко пошли на убыль , СМИ[X] вообще исчезли .B.Красивый люд[X] давно исчез .C.Вся группа[X] , бесшумно скрывшаяся в непроглядной темени , пропала ,исчезла , и следы её замыл дождь .D.Вот чай[X] хороший совсем исчез .Пример 12: Случайные ошибки как причина повышения качества сувеличением тестовой выборки.
Красным цветом отмечены случаи, в которых,согласно алгоритму оценки, система приписала неправильную рольКак можно видеть из Пример 12: Случайные ошибки как причинаповышения качества с увеличением тестовой выборки12, система частосрабатывает правильно, однако в случаях C и D результат системы, хотя иправильный, не совпадает с экспертной разметкой.
В случае небольшихтестовых выборок повышается вероятность того, что доля предложений с143ошибочной разметкой в тестовых данных возрастёт, а формальное качествоработы системы, обучившейся правильному концепту, понизится.В завершение описания результатов работы системы кажется уместнымпривести матрицу корреляции значений tts, thr и ilp с качеством работысистемы, так же, как мы делали это для отдельных свойств и их комбинаций напервом этапе:FPRILP0.0250.0210.012thr0.1630.2250.164tts-0.0580.003-0.079Таблица 13: Корреляция параметров с качеством работы системыЗначения коэффициентов корреляции показывают, что ILP-оптимизацияоказывает незначительный положительный эффект на качество.
Качество такжерастёт с увеличением ограничения на частоту конструкции и незначительнопадает при увеличении доли тестовой выборки в общем объёме данных.144III.4 Обсуждение результатовИтак, результаты оценки системы позволяют нам сделать следующиевыводы:1.Наилучшиерезультатыдостигаютсяприиспользованиикомбинированных семантико-синтаксических наборов свойств, однако исинтаксических свойств зачастую оказывается достаточно для достижениякачества, близкого к максимальному. Особое значение имеет свойство “путь”,которое во многом определяет результат классификации в случаях, когда оновключено в признаковый набор. При этом ограничение длины пути оказываетположительный эффект на качество классификации.2. Семантические свойства в изоляции показывают менее высокиерезультаты, однако даже в этом случае качество работы системы превосходитбазовый классификатор, выделяющий класс большинства.