Диссертация (1137507), страница 19
Текст из файла (страница 19)
Всоответствии с выбранным методом машинного обучения, в процессе работысистема тренирует множество классификаторов типа “один против всех”,каждый из которых должен быть оценен в терминах точности, полноты и Fмеры. Поскольку такой большой объём данных интерпретировать трудно, былииспользованы усреднённые меры, процедура расчёта которых, несмотря насвою простоту, нуждается в эксплицитном описании.Предложения исходного корпуса были сгруппированы в зависимости оттого, какую конструкцию они описывают. Каждый из полученных подкорпусовв свою очередь случайным образом разбивается на тестовую и тренировочную128выборки. Затем, с использованием тренировочной выборки производитсяобучение классификаторов типа "один против всех" для каждой роли.
Прииспользовании системы на тестовых данных каждый экземпляр передаётсякаждому из бинарных классификаторов, которые, в свою очередь, возвращаютвес – меру "уверенности" классификатра в том, что данный экземплярпринадлежит к его классу. Затем система выбирает класс с наибольшим весоми приписывает его экземпляру.
В случае с ILP-постобработкой выбор классовпроизводится путём решения LP-задачи оптимизации и максимизируетсуммарную "уверенность" классификатора на всём предложении. В любомслучае, в результате применения системы каждый экземпляр (узел деревазависимостей) входного предложения получает одну из ролевых меток. Наосновании этих данных для каждой роли рассчитывается точность, полнота и Fмера. Эти меры усредняются по всем ролям, и полученный результат считаетсярезультатом работы системы для выбранной конструкции. Затем значения мерусредняются ещё раз по всем конструкциям, и полученные средние дляточности, полноты и F-меры в дальнейшем считаются "качеством работысистемы в данной конфигурации". Подобная группировка, хотя может напервый взгляд показаться излишней, позволяет снизить влияние классабольшинства (в случае с усреднением по ролям) и частотных конструкций (вслучае с усреднением по конструкциям) на общий результат.
Кроме того, притакой группировке мы можем вычислить не только среднее, но и стандартноеотклонение мер качества по конструкциям, что позволяет оценить разбросзначений метрик для различных конструкций.Поскольку для работы системы необходимо установить все параметры,на первом этапе оценки мы используем значения частотного фильтра исоотношения тренировочной и тестовой выборок по умолчанию (минимальнаячастота 20 и соотношение выборок 40/60 соответственно) и не используем ILP129оптимизацию.
Следующая схема демонстрирует структуру нашей процедурыоценки в графическом виде:Рисунок 37: Процедура оценки качества130III.3 РезультатыДанный раздел представляет собой краткий обзор результатов работысистемы, полученных с помощью описанной ранее процедуры оценки. Следуетподчеркнуть тот факт, что наша процедура оценки отличается от наиболеераспространённой в области автоматической классификации актантов. Так,большинство исследователей оценивают свои системы на основе качествавыделения собственно ролевых показателей. Другими словами, при оценкерассчитывается точность, полнота и F-мера только для узлов, содержащихметку роли, отрицательный класс же, т.е.
токены, которые не содержатролевой метки как в экспертной, так и в автоматической разметке,игнорируется. Мы полагаем, что выбор данной процедуры оценки связан страдиционным делением задачи на идентификацию актантов и классификациюактантов. При такой постановке задачи отдельно измеряется качествоидентификации, а затем, зачастую исходя из того, что идентификация былавыполнена верно, т.е. на "идеальных" актантах, производится оценкаправильности распределения актантов по ролям. В то время как при такойпостановке задачи оценка только на основании ролевых узлов может бытьоправданной, в случае, когда идентификация и классификация актантоввыполняется одновременно, кажется более правильным включать в оценку и"пустой"классNone.Действительно,этотклассявляетсянаиболеемногочисленным, однако с точки зрения задачи классификации он ничем неотличается от остальных классов, и потому, на наш взгляд, неправильноисключать его из сравнения, несмотря на то, что это может привести кнекоторому "завышению" показателей по сравнению с традиционнымметодом.131С целью создать у читателя объективное представление о качествеработы нашей системы, при изложении результатов первого этапа оценки мыдополнительно приводим результат базовой системы (baseline), котораяголосует за класс большинства.Данный раздел состоит из двух частей, соответствующих двум этапамоценки качества, описанным выше.
Задача первого этапа оценки – определить,использование каких свойств и комбинаций свойств даёт наилучшиерезультаты с точки зрения качества работы системы. Задача второго этапа –оценить влияние ограничения на частоту конструкции, соотношения размеровтренировочной и тестовой выборок, а также эффект от ILP-оптимизации.Следует отметить, что одно из отрицательных свойств классификаторов наоснове методов опорных векторов – сложность интерпретации результатов иневозможность визуализировать модель в случае многоразмерных данных.При оценки влияния конкретных параметров мы будем опираться накоэффициенты корреляции значений параметров с итоговыми показателямикачества.
Напомним, что наша система имеет следующие параметры, которыемы будем варьировать в рамках экспериментов: features – набор свойств tts – соотношение тренировочной и тестовой выборок, а именно, долятестовых данных в общем объёме thr – частотная граница отсечения конструкций ilp – использование ILP cluster – метод кластеризацииРезультат оценки качества работы системы первого этапа будутдополнительно сопоставлены с значениями для "традиционных" метрик, атакже с результат "базовой" системы, которая всегда голосует за классбольшинства (класс None).132III.3.1 Влияние свойств на классификацию узловДля оценки вклада индивидуальных свойств и их комбинаций в качествоработы системы остальные параметры системы были зафиксированы назначениях по умолчанию: при этом не производится ILP-оптимизация,частотный фильтр на конструкции устанавливается равным 20, соотношениетестовой и тренировочной выборок составляет 40/60.Система была запущена на каждой из возможных комбинаций свойств итипов кластеров (в случаях, когда свойство "кластер" используется), результатыбыли усреднены по конструкциям в соответствии с описанной ранеепроцедурой, и для каждой из комбинаций были получены средние значения атакже квадратные отклонения (standard deviation, std) для метрик P, R, F1, Acc, атакже для метрик на основе ролей (role-P, role-R, role-F, role-Acc).
Всего на этомэтапе было проанализировано 1535 конфигураций системы. Мы сгруппировалирезультатыпосоответствиисиспользованнымописаннымв конфигурацияхранееразделениемклассамнасвойстввсемантическиеисинтаксические свойства. Ниже в Табл. 7-9 приводятся пять лучшихконфигураций системы, основанных только на синтаксических, только насемантических и на полных наборах свойств.Все свойстваFeaturesPRFAccVoice,POS,finncase,prep_lemma,case,shortPath40.7590.6670.6950.950Vform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Voice,vform,POS,finncase,lemma,prep_lemma,path,case,shortPath40.7540.6680.6940.950Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950baseline0.3310.3560.3430.928Таблица 7: Лучшие конфигурации системы, все свойства;здесь и далее приводятся средние значения133Только синтаксические свойстваFeaturesPRFAccVform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950Vform,prep_lemma,path,case,shortPath40.7610.6670.6930.950Voice,vform,prep_lemma,case,shortPath40.7620.6660.6920.950baseline0.3310.3560.3430.928Таблица 8: Лучшие конфигурации системы, синтаксические свосйтваТолько семантические свойстваFeaturesPRFAccPOS,lemma,cluster-all0.5140.4240.4330.925POS,lemma,cluster-nouns0.5140.4240.4330.925Lemma,cluster-all0.5130.4220.4310.925Lemma,cluster-nouns0.5130.4220.4310.925POS,lemma0.5210.4200.4290.926baseline0.3310.3560.3430.928Таблица 9: Лучшие конфигурации системы, семантические свойстваКак мы можем наблюдать, формально наилучшие показатели качествадостигаются при использовании семантических и синтаксических свойств,однако использование только синтаксических свойств позволяет добитьсясхожих результатов.
В то же время системы, основанные только насемантических свойствах, демонстрируют значительно худшее качествоработы,впрочем, всёравнопревосходяклассификатор.134покачествунашбазовыйСледующие графики позволяют оценить профиль результатов работынашей системы отдельно для показателей точности, полноты и F-меры. По оси расположены системы в порядке убывания F-меры, а по оси – значениясоответствующей метрики. Как можно видеть из графика на Рис. 38, качествосистем остаётся достаточно стабильным и варьируется лишь незначительно доопределённого момента, а затем резко падает.
Этот момент соответствуетотключению свойств, связанных с путём в дереве зависимостей. В целомможно отметить, что система имеет приоритет точности над полнотой.Рисунок 38: Профиль конфигураций системыНиже также приводится график квадратичных отклонений для значенийточности, полноты и F-меры (см. Рис. 39). Как видно из графика, исключениесвойств, связанных с синтаксическим путем, не только приводит к падению135точности и полноты системы, но и влечет за собой значительный разброспоказателей точности по конструкциям.Рисунок 39: Профиль квадратичных отклоненийНаиболееуспешнымиявляютсясистемы,натренированныенакомбинациях из полного и синтаксического наборов.