Диссертация (1100480), страница 19
Текст из файла (страница 19)
Эти меры усредняются по всем ролям, и полученный результат считаетсярезультатом работы системы для выбранной конструкции. Затем значения мерусредняются ещё раз по всем конструкциям, и полученные средние дляточности, полноты и F-меры в дальнейшем считаются "качеством работысистемы в данной конфигурации". Подобная группировка, хотя может напервый взгляд показаться излишней, позволяет снизить влияние классабольшинства (в случае с усреднением по ролям) и частотных конструкций (вслучае с усреднением по конструкциям) на общий результат. Кроме того, притакой группировке мы можем вычислить не только среднее, но и стандартноеотклонение мер качества по конструкциям, что позволяет оценить разбросзначений метрик для различных конструкций.Поскольку для работы системы необходимо установить все параметры,на первом этапе оценки мы используем значения частотного фильтра исоотношения тренировочной и тестовой выборок по умолчанию (минимальнаячастота 20 и соотношение выборок 40/60 соответственно) и не используем ILP129оптимизацию.
Следующая схема демонстрирует структуру нашей процедурыоценки в графическом виде:Рисунок 37: Процедура оценки качества130III.3 РезультатыДанный раздел представляет собой краткий обзор результатов работысистемы, полученных с помощью описанной ранее процедуры оценки.
Следуетподчеркнуть тот факт, что наша процедура оценки отличается от наиболеераспространённой в области автоматической классификации актантов. Так,большинство исследователей оценивают свои системы на основе качествавыделения собственно ролевых показателей. Другими словами, при оценкерассчитывается точность, полнота и F-мера только для узлов, содержащихметку роли, отрицательный класс же, т.е. токены, которые не содержатролевой метки как в экспертной, так и в автоматической разметке,игнорируется. Мы полагаем, что выбор данной процедуры оценки связан страдиционным делением задачи на идентификацию актантов и классификациюактантов. При такой постановке задачи отдельно измеряется качествоидентификации, а затем, зачастую исходя из того, что идентификация былавыполнена верно, т.е. на "идеальных" актантах, производится оценкаправильности распределения актантов по ролям.
В то время как при такойпостановке задачи оценка только на основании ролевых узлов может бытьоправданной, в случае, когда идентификация и классификация актантоввыполняется одновременно, кажется более правильным включать в оценку и"пустой"классNone.Действительно,этотклассявляетсянаиболеемногочисленным, однако с точки зрения задачи классификации он ничем неотличается от остальных классов, и потому, на наш взгляд, неправильноисключать его из сравнения, несмотря на то, что это может привести кнекоторому "завышению" показателей по сравнению с традиционнымметодом.131С целью создать у читателя объективное представление о качествеработы нашей системы, при изложении результатов первого этапа оценки мыдополнительно приводим результат базовой системы (baseline), котораяголосует за класс большинства.Данный раздел состоит из двух частей, соответствующих двум этапамоценки качества, описанным выше.
Задача первого этапа оценки – определить,использование каких свойств и комбинаций свойств даёт наилучшиерезультаты с точки зрения качества работы системы. Задача второго этапа –оценить влияние ограничения на частоту конструкции, соотношения размеровтренировочной и тестовой выборок, а также эффект от ILP-оптимизации.Следует отметить, что одно из отрицательных свойств классификаторов наоснове методов опорных векторов – сложность интерпретации результатов иневозможность визуализировать модель в случае многоразмерных данных.При оценки влияния конкретных параметров мы будем опираться накоэффициенты корреляции значений параметров с итоговыми показателямикачества.
Напомним, что наша система имеет следующие параметры, которыемы будем варьировать в рамках экспериментов: features – набор свойств tts – соотношение тренировочной и тестовой выборок, а именно, долятестовых данных в общем объёме thr – частотная граница отсечения конструкций ilp – использование ILP cluster – метод кластеризацииРезультат оценки качества работы системы первого этапа будутдополнительно сопоставлены с значениями для "традиционных" метрик, атакже с результат "базовой" системы, которая всегда голосует за классбольшинства (класс None).132III.3.1 Влияние свойств на классификацию узловДля оценки вклада индивидуальных свойств и их комбинаций в качествоработы системы остальные параметры системы были зафиксированы назначениях по умолчанию: при этом не производится ILP-оптимизация,частотный фильтр на конструкции устанавливается равным 20, соотношениетестовой и тренировочной выборок составляет 40/60.Система была запущена на каждой из возможных комбинаций свойств итипов кластеров (в случаях, когда свойство "кластер" используется), результатыбыли усреднены по конструкциям в соответствии с описанной ранеепроцедурой, и для каждой из комбинаций были получены средние значения атакже квадратные отклонения (standard deviation, std) для метрик P, R, F1, Acc, атакже для метрик на основе ролей (role-P, role-R, role-F, role-Acc).
Всего на этомэтапе было проанализировано 1535 конфигураций системы. Мы сгруппировалирезультатыпосоответствиисиспользованнымописаннымв конфигурацияхранееразделениемклассамнасвойстввсемантическиеисинтаксические свойства. Ниже в Табл. 7-9 приводятся пять лучшихконфигураций системы, основанных только на синтаксических, только насемантических и на полных наборах свойств.Все свойстваFeaturesPRFAccVoice,POS,finncase,prep_lemma,case,shortPath40.7590.6670.6950.950Vform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Voice,vform,POS,finncase,lemma,prep_lemma,path,case,shortPath40.7540.6680.6940.950Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950baseline0.3310.3560.3430.928Таблица 7: Лучшие конфигурации системы, все свойства;здесь и далее приводятся средние значения133Только синтаксические свойстваFeaturesPRFAccVform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950Vform,prep_lemma,path,case,shortPath40.7610.6670.6930.950Voice,vform,prep_lemma,case,shortPath40.7620.6660.6920.950baseline0.3310.3560.3430.928Таблица 8: Лучшие конфигурации системы, синтаксические свосйтваТолько семантические свойстваFeaturesPRFAccPOS,lemma,cluster-all0.5140.4240.4330.925POS,lemma,cluster-nouns0.5140.4240.4330.925Lemma,cluster-all0.5130.4220.4310.925Lemma,cluster-nouns0.5130.4220.4310.925POS,lemma0.5210.4200.4290.926baseline0.3310.3560.3430.928Таблица 9: Лучшие конфигурации системы, семантические свойстваКак мы можем наблюдать, формально наилучшие показатели качествадостигаются при использовании семантических и синтаксических свойств,однако использование только синтаксических свойств позволяет добитьсясхожих результатов.
В то же время системы, основанные только насемантических свойствах, демонстрируют значительно худшее качествоработы,впрочем, всёравнопревосходяклассификатор.134покачествунашбазовыйСледующие графики позволяют оценить профиль результатов работынашей системы отдельно для показателей точности, полноты и F-меры. По оси расположены системы в порядке убывания F-меры, а по оси – значениясоответствующей метрики.
Как можно видеть из графика на Рис. 38, качествосистем остаётся достаточно стабильным и варьируется лишь незначительно доопределённого момента, а затем резко падает. Этот момент соответствуетотключению свойств, связанных с путём в дереве зависимостей. В целомможно отметить, что система имеет приоритет точности над полнотой.Рисунок 38: Профиль конфигураций системыНиже также приводится график квадратичных отклонений для значенийточности, полноты и F-меры (см.
Рис. 39). Как видно из графика, исключениесвойств, связанных с синтаксическим путем, не только приводит к падению135точности и полноты системы, но и влечет за собой значительный разброспоказателей точности по конструкциям.Рисунок 39: Профиль квадратичных отклоненийНаиболееуспешнымиявляютсясистемы,натренированныенакомбинациях из полного и синтаксического наборов. Отметим, однако, чтонаилучший результат достигается при использовании лишь подмножества всехдоступных свойств.
Для того чтобы оценить вклад отдельных свойств в качествоработы классификатора, был рассчитан показатель корреляции каждого из этихсвойств с показателями качества. Соответствующая таблица приводится ниже:136СвойствоFPRPOS0.0240.0200.026Lemma0.0940.1480.075Cluster-0.0050.022-0.015Case0.0550.0590.060Finncase0.0080.0110.007Vform0.0060.0070.008Prep_lemma0.0250.0260.026Voice-0.004-0.010-0.002Path0.5720.5510.576ShortPath40.5740.5430.583Таблица 10: Корреляция свойств с качеством работы системыКак видно из Табл. 10, наиболее высокой корреляцией средииндивидуальных свойств обладают свойства "короткий путь" и "путь".Небольшой положительный вклад вносят также свойства "лемма", "падеж","финский падеж", "часть речи" и "предложная лемма".
Влияние свойства"кластер" на F-меру крайне незначительно. Также мы проанализировали вкладв качество работы классификатора комбинаций свойств. Ниже мы приводимданные по коэффициенту корреляции единичных свойств и пар с показателямикачества классификатора (приведены конфигурации с наиболее высокимкоэффициеном корреляции):137СвойствоFPRShortPath40.5740.5430.583Path0.5720.5510.576Cluster+shortPath40.3890.3720.392Cluster+path0.3890.3780.387Case+shortPath0.3500.3300.359Case+path0.3490.3350.353POS+shortPath40.3470.3270.353POS+path0.3460.3310.349Prep_lemma+shortPath40.3460.3270.351Prep_lemma+path0.3450.3320.347Таблица 11: Корреляция пар свойств с качеством работы системыКак мы можем видеть, вклад свойств, основанных на пути, всё ещё оченьвелик, однако полезными оказываются и комбинации этих свойств синформацией о кластере и частеречной принадлежности слова.Ниже мы еще остановимся на вопросах, связанных с влиянием свойства"путь" и незначительностью вклада кластеризации в итоговый результатработы системы, а сейчас перейдём к описанию результатов второго этапаоценки качества, в ходе которого мы определили вклад ILP-оптимизации, атакже влияние размеров выборки и соотношения объёмов тренировочных итестовых данных на качество классификации.III.3.2 Влияние глобальной оптимизации, размера тестовойвыбоки и ограничения на частоту конструкцииНа данном этапе пять лучших конфигураций свойств для каждого изклассов свойств были проанализированы с точки зрения влияния ILP138оптимизации,ограниченияначастотувстречаемостиконструкцииисоотношения тестовой и тренировочной выборок на итоговое качество работысистемы.