Диссертация (1137507), страница 18
Текст из файла (страница 18)
Ключевым элементом оценки качестваявляется матрица ошибок (confusion matrix), которая отражает количествоправильных и неправильных срабатываний классификатора на тестовыхданных. В случае бинарной классификации матрица выглядит следующимобразом:predicted\actual+-+True positive (TP)False positive (FP)-False negative (FN)True negative (TN)Таблица 5: Структура матрицы ошибокМатрица может быть расширена и для общего случая, где число классовбольше 2.Наиболеепримитивныйметодоценкикачестваклассификациизаключается в подсчёте числа правильных срабатываний классификатораотносительно общего числа срабатываний, или true positive rate (TPR): = /( + )В паре с этим показателем используется показатель false negative rate(FNR): = /( + )122Гибридом этих двух показателей является мера аккуратности4 (Accuracy,ACC), которая вычисляется для случая бинарной классификации как = ( + )/( + + + )Эта мера отражает общее качество работы классификатора и частоиспользуется в исследованиях по машинному обучению.
Тем не менее, длязадач нашего исследования она подходит не очень хорошо. Как мы помним,наша формулировка задачи SRL подразумевает классификацию экземпляров посемантическим ролям. В случае отсутствия роли экземпляр получаетспециальныую метку класса None. Это так называемый класс большинства, икачество работы классификатора, определяющего этот класс, будет взначительной степени определять наш показатель аккуратности. Представимсебе следующую матрицу ошибок:predicted\actual+-+TP = 2FP = 2-FN = 5TN = 100Таблица 6: Пример матрицы ошибокКак мы можем видеть, при расчёте аккуратности качество работымалочисленного положительного класса фактически нивелируется качествомработы негативного класса-большинства. В результате этого при измененииклассификатора изменения аккуратности (при условии, что класс-большинствовыделяется стабильно хорошо) будут незначительными, и система, которая невыделяет4семантическихролейвообще,окажетсявполнеМы намеренно не используем здесь термин точность, чтобы избежать неоднознаности: точностью вданной работе мы называем меру precision123конкурентоспособной с точки зрения этой метрики, что не соответствует нашимнамерениям.Для того чтобы избежать проблем, связанных с классом-большинством,используются меры точность (Precision, P) и полнота (Recall, R).
Точностьпоказывает долю правильно классифицированных объектов данного класса вобщей выдаче системы. Полнота отражает долю объектов выбранного класса,обраруженных системой. Мера F1 представляет собой гармоническое среднееточности и полноты и призвана объединить эти два показателя в один такимобразом, чтобы невозможно было завысить качество работы системы путёмзавышения точности в ущерб полноте и наоборот (что произошло бы, если бымы использовали, например, среднее арифметическое точности и полноты): + = + 21 =+=Эти меры вычисляются отдельно для каждого класса, и затем полученныепоказатели усредняются по всем классам.
Такое усреднение называется макросредним и противопоставляется микро-среднему, при котором числоправильных и неправильных срабатываний системы сначала суммируется повсем классам, а затем на основании этих величин вычисляются показателикачества. Таким образом, при использовании макро-усреднения влияниекласса-большинства на общую оценку качества работы классификаторауменьшается пропорционально количеству классов.Вопрос о том, как именно следует оценивать качество работы системавтоматической разметки актантов, является нетривиальным. В ряде работ,посвящённых проблеме автоматического выделения семантических ролей,разметка актантов производится в два этапа, каждый из которых подвергается124отдельнойоценке.Напервомэтапевычисляетсякачествоработыклассификатора, определяющего, является ли узел или отрезок текста актантомилинет.Затемнаоснованииэтихданныхопределяетсякачествораспределения актантов по ролям.
Поскольку в нашем случае эти операциивыполняются одновременно, мы считаем, что выбранный нами метод оценкиявляется объективным и соответствует принятым в области машинногообучения стандартам. Качество класса-большинства, несмотря на взвешиваниеоценок, всё ещё оказывает большое влияние на конечный результатклассификации,однаковнашейформулировкезадачиспособностьклассификатора правильно присваивать метку отсутствия роли не менее важна,чем способность присваивать ту или иную семантическую роль.
При сравнениирезультатов работы различных конфигураций классификатора мы приводимтакже данные для "наивной" системы, которая всегда выбирает классбольшинство (т.е. в нашем случае класс None). Это позволяет составитьпредставление о качестве, получаемом при использовании наиболее простойстратегии, а также оценить вклад класса-большинства в общее качество работысистемы.125III.2 Процедура оценкиКак уже упоминалось ранее, при оценке работы системы мы преследуемдве цели. Во-первых, с помощью метрик качества мы хотим определить общеекачество работы системы на тестовых данных. Несмотря на то, что оценка,полученная таким образом, не является абсолютно точной, она позволяетполучить хотя бы приблизительное непредвзятое представление о том,насколько хорошо система выполняет поставленную задачу, а также вперспективе позволяет сравнивать системы между собой.
Во-вторых, в ходеоценки мы хотим определить вклад отдельных свойств, а также иныхпараметров системы в качество классификации и затем, путём экспертногоанализа, определить достоинства и недостатки отдельных свойств ипараметров, от значений которых зависит конкретная конфигурация системы ирезультаты её работы. Остановимся на этих параметрах подробнее.
Первый инаиболее очевидный из них – это набор свойств, используемых системой. Всегов системе представлено девять свойств, условно разделённых на две группы:семантические и синтаксические. С учётом модификаций свойств "путь" и"кластер" список выглядит следующим образом: синтаксические свойстваo путь (path)o короткий путь (shortPath4)o падеж (case)o финский падеж (finncase)o форма глагола (vform)o залог (voice) семантические свойстваo лемма (lemma)126o кластер (cluster)o часть речи (POS)Каждое свойство по отдельности делает вклад в качество работыклассификатора, и наиболее тривиальным способом оценить важность каждогоиз свойств было бы произвести обучение с использованием только этогосвойства и сравнить результаты.
Сложность, однако, состоит в том, чтонекоторые свойства адекватно описывают класс только в комбинации, врезультате чего изолированное тестирование свойств не дает возможностиполностью оценить их значимость. В связи с этим в нашей работе мыанализируемкачествоработыклассификаторадлявсехвозможныхкомбинаций свойств. Использование такого подхода позволяет оценитькачество и вклад каждой комбинации и определить, какие свойства хорошоработают в связке, а какие при комбинировании мешают классификаторупостроитьадекватнуюцелевуюфункцию.Всегопритакомподходенеобходимо протестировать 29 комбинаций.Еще одним параметром, влияющим на качество работы системы,является метод кластеризации, который используется при порождениисвойства "кластер".
При построении кластеров мы используем две различныхконфигурации: в первом случае при создании графа используются толькоимена существительные, во втором – все слова, доступные в исходной модели.Данный параметр релевантен только в случаях, когда свойство "кластер"включено в набор для тестирования.Поскольку добавление каждого бинарного параметра удваивает числоэкспериментов, которые необходимо провести, было принято решениепроизводить оценку системы в два этапа. Тестирование качества работы сиспользованием описанных выше конфигураций составляет первый этапоценки системы, на котором основной целью является оценка вкладаотдельных свойств и их комбинаций в общее качество работы классификатора.127По результатам первого этапа были выбраны пять лучших конфигурацийсистемы в терминах F-меры для каждой из трёх групп свойств: синтаксических,семантическихиихкомбинации.Полученныепятнадцатьлучшихконфигураций были протестированы более детально на втором этапе оценки.На втором этапе оценивался вклад модуля постобработки на основелинейного программирования в качество работы системы.
Действительно,несмотря на то, что вывод нашей системы без участия этого модуля формальнонекорректен, это не мешает нам оценивать её качество с помощью выбранныхметрик. Тем не менее, кажется разумным предположить, что использованиемодуля постобработки не только приводит вывод системы в соответствие сформальными требованиями, но и может повысить качество работы системыза счёт дополнительной оптимизации результатов на уровне предложения (доэтого момента система работает только на уровне отдельных узлов в деревезависимостей).Кроме того, на втором этапе оценивается влияние частотного порога исоотношения размеров тренировочной и тестовой выборок на результатклассификации.Рассмотрим более подробно то, каким именно образом рассчитывалисьзначения метрик качества для каждой из приведённых конфигураций.