Автореферат (1137506), страница 4
Текст из файла (страница 4)
Общая формулировка задачи для случая сдвумя переменными приводится ниже.Максимизировать:11 11 + 12 12 + 21 21 + 22 22 + ∅1 ∅1 + ∅2 ∅2С учётом ограничений:“каждый узел получает одну роль”11 + 21 + ∅1 = 112 + 22 + ∅2 = 1“каждая роль заполняется максимум один раз”11 + 12 ≤ 121 + 22 ≤ 1Сформулированная таким образом задача поступает в модуль целочисленногопрограммирования,которыйвыбираетзначенияпеременных,удовлетворяющиеуказанным требованиям.Раздел 5 Главы II посвящён техническим особенностям имплементации системы.Для русского языка не существует общепринятого единого набора инструментовпредварительной обработки текста, и значительная часть усилий в ходе подготовки кисследованию была затрачена на поиск и интеграцию различных компонентовавтоматической обработки текста. Раздел перечисляет использованные компоненты исодержит множество технических деталей и рекомендаций, которые могут упроститьразработку аналогичных систем в будущем.Глава IIIЭкспериментальная оценка и результатыГлава III посвящена экспериментальной оценке качества разработанной системы.Для задач машинного обучения эта область хорошо разработана и существует рядстандартных параметров, по которым можно определить, насколько хорошо работает17система.
В рамках диссертационного исследования оценка качества выполнялась наосновании тестовой выборки. В наиболее интересных случаях был произведёнэкспертный анализ результатов.При количественной оценке работы системы в работе используются мерыточность (Precision, P), полнота (Recall, R) и F-мера.= + = + 1 =2+Эти показатели вычисляются отдельно для каждого класса, и затем полученныепоказатели усредняются по всем классам.В ходе оценки предложения исходного корпуса были сгруппированы взависимости от того, какую конструкцию они описывают. Каждый из полученныхподкорпусов в свою очередь случайным образом разбивается на тестовую итренировочнуювыборки.Затем,сиспользованиемтренировочнойвыборкипроизводится обучение классификаторов типа "один против всех" для каждой роли.
Прииспользовании системы на тестовых данных каждый экземпляр передаётся каждому избинарных классификаторов, которые, в свою очередь, возвращают вес - меру“уверенности” классификатра в том, что данный экземпляр принадлежит к его классу.Затем система выбирает класс с наибольшим весом и приписывает его экземпляру. Вслучае с ILP-постобработкой выбор классов производится путём решения LP-задачиоптимизации и максимизирует суммарную "уверенность" классификатора на всёмпредложении. В любом случае, в результате применения системы каждый экземпляр(узел дерева зависимостей) входного предложения получает одну из ролевых меток.
Наосновании этих данных для каждой роли рассчитывается точность, полнота и F-мера.Эти меры усредняются по всем ролям, и полученный результат считается результатомработы системы для выбранной конструкции. Затем значения мер усредняются ещё разпо всем конструкциям, и полученные средние для точности, полноты и F-меры вдальнейшем считаются "качеством работы системы в данной18конфигурации".Следующая схема демонстрирует структуру использованной процедуры оценки вграфическом виде:За описанием процедуры оценки качества следует описание полученныхрезультатов.
Для оценки вклада индивидуальных свойств и их комбинаций в качествоработы системы остальные параметры системы были зафиксированы на значениях поумолчанию: при этом не производится ILP-оптимизация, частотный фильтр наконструкции устанавливается равным 20, соотношение тестовой и тренировочнойвыборок составляет 40/60. Ниже приводятся пять лучших конфигураций системы,основанных только на синтаксических, только на семантических и на полных наборахсвойств.Табл.
1: ТОП-5 конфигураций системы, все свойстваFeaturesPRFAccVoice,POS,finncase,prep_lemma,case,shortPath40.7590.6670.6950.950Vform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Voice,vform,POS,finncase,lemma,prep_lemma,path,case,shortPath40.7540.6680.6940.95019Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950baseline0.3310.3560.3430.928Табл. 2: ТОП-5 конфигураций системы, синтаксические свойстваFeaturesPRFAccVform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950Vform,prep_lemma,path,case,shortPath40.7610.6670.6930.950Voice,vform,prep_lemma,case,shortPath40.7620.6660.6920.950baseline0.3310.3560.3430.928Табл.
3: ТОП-5 конфигураций системы, семантические свойстваFeaturesPRFAccPOS,lemma,cluster-all0.5140.4240.4330.925POS,lemma,cluster-nouns0.5140.4240.4330.925Lemma,cluster-all0.5130.4220.4310.925Lemma,cluster-nouns0.5130.4220.4310.925POS,lemma0.5210.4200.4290.926baseline0.3310.3560.3430.928Формально наилучшие показатели качества достигаются при использованиисемантических и синтаксических свойств, однако использование только синтаксическихсвойств позволяет добиться схожих результатов. В то же время системы, основанныетолько на семантических свойствах, демонстрируют значительно худшее качествоработы, впрочем, всё равно превосходя по качеству базовый классификатор.
В главесодержится подробный анализ причин данного поведения системы.На втором этапе оценки пять лучших конфигураций свойств для каждого изклассов свойств были проанализированы с точки зрения влияния ILP-оптимизации,20ограничения на частоту встречаемости конструкции и соотношения тестовой итренировочной выборок на итоговое качество работы системы.
В ходе тестированияизмерялось качество системы на следующих комбинациях параметров:o ILP: да/нетo Размер тестовой выборки (tts): 0.1, 0.2, 0.3, 0.4, 0.5o Ограничение на частоту встречаемости, минимум (thr): 10, 20, 30, 40Всего было протестировано 600 конфигураций системы. Топ-10 наилучших результатовприводится в следующей таблице:Табл. 4: ТОП-10 наилучших конфигураций системы (с учетом доп. параметров)Features + ILP + thr + ttsPRFAccvform,finncase,prep_lemma,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7990.7440.7600.958vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7440.7580.957vform,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7430.7570.957vform,finncase,prep_lemma,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7960.7330.7550.958vform,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7940.7310.7520.957vform,finncase,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7990.7310.7520.959voice,vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7930.7360.7510.956vform,finncase,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7350.7510.958vform,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7950.7350.7500.957vform,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7970.7290.7500.958Как видно из таблицы, ожидаемо лучшие результаты демонстрируют системы, длякоторых доступно наибольшее количество тренировочных данных, с набором свойств,показавшим также лучшие результаты на первом этапе тестирования.
Нескольконеожиданным является тот факт, что ILP-оптимизация не всегда приводит к повышениюкачества в терминах F-меры. Качество работы систем с большим объёмомтренировочных данных ожидаемо выше независимо от ограничения на частотувстречаемости конструкции. Отметим, однако, что разница в результатах междуразмерами тестовой выборки 0.2 и 0.5 невелика. Отчасти это объясняется наличием21неточностей в использованных тренировочных и тестовых данных: в случае, когдатестовые данные содержат ошибки разметки, иногда классификатору оказывается"выгодно" иметь большее количество тестовых данных, т.к.
таким образом уменьшаетсяпроцент случайных ошибок, связанных с разметкой и проекцией разметки насинтаксические узлы.Результаты оценки системы позволяют нам сделать следующие выводы:1. Наилучшие результаты достигаются при использовании комбинированныхсемантико-синтаксических наборов свойств, однако и синтаксических свойств зачастуюоказывается достаточно для достижения качества, близкого к максимальному. Особоезначение имеет свойство “синтаксический путь от предиката”, которое во многомопределяет результат классификации в случаях, когда оно включено в признаковыйнабор. При этом ограничение длины пути оказывает положительный эффект на качествоклассификации.2.
Семантические свойства в изоляции показывают менее высокие результаты,однако даже в этом случае качество работы системы превосходит базовыйклассификатор, выделяющий класс большинства. Интерес вызывает свойство "кластер",которое в нашем случае не оказывает почти никакого положительного эффекта наклассификацию.3.
Модуль глобальной оптимизации оказывает незначительный положительныйэффект на классификацию, и эффект оптимизации наблюдается наиболее отчётливо вслучаях, когда исходное качество было невелико.4. Ограничение на частоту конструкции и увеличение объёма тестовых данныхожидаемо приводят к повышению качества работы системы.Первые два наблюдения представляют особый интерес и рассматриваются в главеболее подробно.Глава IVВыводыГлаваIVподводититогидиссертационногоисследованияисодержитрекомендации по дальнейшим исследованиям в выбранной области.