Автореферат (1100479), страница 4
Текст из файла (страница 4)
В рамках диссертационного исследования оценка качества выполнялась наосновании тестовой выборки. В наиболее интересных случаях был произведёнэкспертный анализ результатов.При количественной оценке работы системы в работе используются мерыточность (Precision, P), полнота (Recall, R) и F-мера.= + = + 1 =2+Эти показатели вычисляются отдельно для каждого класса, и затем полученныепоказатели усредняются по всем классам.В ходе оценки предложения исходного корпуса были сгруппированы взависимости от того, какую конструкцию они описывают.
Каждый из полученныхподкорпусов в свою очередь случайным образом разбивается на тестовую итренировочнуювыборки.Затем,сиспользованиемтренировочнойвыборкипроизводится обучение классификаторов типа "один против всех" для каждой роли. Прииспользовании системы на тестовых данных каждый экземпляр передаётся каждому избинарных классификаторов, которые, в свою очередь, возвращают вес - меру“уверенности” классификатра в том, что данный экземпляр принадлежит к его классу.Затем система выбирает класс с наибольшим весом и приписывает его экземпляру.
Вслучае с ILP-постобработкой выбор классов производится путём решения LP-задачиоптимизации и максимизирует суммарную "уверенность" классификатора на всёмпредложении. В любом случае, в результате применения системы каждый экземпляр(узел дерева зависимостей) входного предложения получает одну из ролевых меток. Наосновании этих данных для каждой роли рассчитывается точность, полнота и F-мера.Эти меры усредняются по всем ролям, и полученный результат считается результатомработы системы для выбранной конструкции. Затем значения мер усредняются ещё разпо всем конструкциям, и полученные средние для точности, полноты и F-меры вдальнейшем считаются "качеством работы системы в данной18конфигурации".Следующая схема демонстрирует структуру использованной процедуры оценки вграфическом виде:За описанием процедуры оценки качества следует описание полученныхрезультатов.
Для оценки вклада индивидуальных свойств и их комбинаций в качествоработы системы остальные параметры системы были зафиксированы на значениях поумолчанию: при этом не производится ILP-оптимизация, частотный фильтр наконструкции устанавливается равным 20, соотношение тестовой и тренировочнойвыборок составляет 40/60. Ниже приводятся пять лучших конфигураций системы,основанных только на синтаксических, только на семантических и на полных наборахсвойств.Табл.
1: ТОП-5 конфигураций системы, все свойстваFeaturesPRFAccVoice,POS,finncase,prep_lemma,case,shortPath40.7590.6670.6950.950Vform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Voice,vform,POS,finncase,lemma,prep_lemma,path,case,shortPath40.7540.6680.6940.95019Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950baseline0.3310.3560.3430.928Табл.
2: ТОП-5 конфигураций системы, синтаксические свойстваFeaturesPRFAccVform,prep_lemma,case,shortPath40.7650.6660.6940.951Vform,finncase,prep_lemma,case,shortPath40.7640.6670.6940.950Vform,finncase,prep_lemma,path,case,shortPath40.7610.6670.6940.950Vform,prep_lemma,path,case,shortPath40.7610.6670.6930.950Voice,vform,prep_lemma,case,shortPath40.7620.6660.6920.950baseline0.3310.3560.3430.928Табл. 3: ТОП-5 конфигураций системы, семантические свойстваFeaturesPRFAccPOS,lemma,cluster-all0.5140.4240.4330.925POS,lemma,cluster-nouns0.5140.4240.4330.925Lemma,cluster-all0.5130.4220.4310.925Lemma,cluster-nouns0.5130.4220.4310.925POS,lemma0.5210.4200.4290.926baseline0.3310.3560.3430.928Формально наилучшие показатели качества достигаются при использованиисемантических и синтаксических свойств, однако использование только синтаксическихсвойств позволяет добиться схожих результатов.
В то же время системы, основанныетолько на семантических свойствах, демонстрируют значительно худшее качествоработы, впрочем, всё равно превосходя по качеству базовый классификатор. В главесодержится подробный анализ причин данного поведения системы.На втором этапе оценки пять лучших конфигураций свойств для каждого изклассов свойств были проанализированы с точки зрения влияния ILP-оптимизации,20ограничения на частоту встречаемости конструкции и соотношения тестовой итренировочной выборок на итоговое качество работы системы. В ходе тестированияизмерялось качество системы на следующих комбинациях параметров:o ILP: да/нетo Размер тестовой выборки (tts): 0.1, 0.2, 0.3, 0.4, 0.5o Ограничение на частоту встречаемости, минимум (thr): 10, 20, 30, 40Всего было протестировано 600 конфигураций системы.
Топ-10 наилучших результатовприводится в следующей таблице:Табл. 4: ТОП-10 наилучших конфигураций системы (с учетом доп. параметров)Features + ILP + thr + ttsPRFAccvform,finncase,prep_lemma,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7990.7440.7600.958vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7440.7580.957vform,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7430.7570.957vform,finncase,prep_lemma,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7960.7330.7550.958vform,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7940.7310.7520.957vform,finncase,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7990.7310.7520.959voice,vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7930.7360.7510.956vform,finncase,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7350.7510.958vform,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7950.7350.7500.957vform,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7970.7290.7500.958Как видно из таблицы, ожидаемо лучшие результаты демонстрируют системы, длякоторых доступно наибольшее количество тренировочных данных, с набором свойств,показавшим также лучшие результаты на первом этапе тестирования.
Нескольконеожиданным является тот факт, что ILP-оптимизация не всегда приводит к повышениюкачества в терминах F-меры. Качество работы систем с большим объёмомтренировочных данных ожидаемо выше независимо от ограничения на частотувстречаемости конструкции. Отметим, однако, что разница в результатах междуразмерами тестовой выборки 0.2 и 0.5 невелика. Отчасти это объясняется наличием21неточностей в использованных тренировочных и тестовых данных: в случае, когдатестовые данные содержат ошибки разметки, иногда классификатору оказывается"выгодно" иметь большее количество тестовых данных, т.к. таким образом уменьшаетсяпроцент случайных ошибок, связанных с разметкой и проекцией разметки насинтаксические узлы.Результаты оценки системы позволяют нам сделать следующие выводы:1.
Наилучшие результаты достигаются при использовании комбинированныхсемантико-синтаксических наборов свойств, однако и синтаксических свойств зачастуюоказывается достаточно для достижения качества, близкого к максимальному. Особоезначение имеет свойство “синтаксический путь от предиката”, которое во многомопределяет результат классификации в случаях, когда оно включено в признаковыйнабор.
При этом ограничение длины пути оказывает положительный эффект на качествоклассификации.2. Семантические свойства в изоляции показывают менее высокие результаты,однако даже в этом случае качество работы системы превосходит базовыйклассификатор, выделяющий класс большинства. Интерес вызывает свойство "кластер",которое в нашем случае не оказывает почти никакого положительного эффекта наклассификацию.3. Модуль глобальной оптимизации оказывает незначительный положительныйэффект на классификацию, и эффект оптимизации наблюдается наиболее отчётливо вслучаях, когда исходное качество было невелико.4.
Ограничение на частоту конструкции и увеличение объёма тестовых данныхожидаемо приводят к повышению качества работы системы.Первые два наблюдения представляют особый интерес и рассматриваются в главеболее подробно.Глава IVВыводыГлаваIVподводититогидиссертационногоисследованияисодержитрекомендации по дальнейшим исследованиям в выбранной области. Проведённый22анализ демонстрирует важность синтаксических свойств для автоматической разметкиактантов, а также важность соответствия исходной и целевой предметной областей прииспользовании дистрибутивных моделей для учёта лексического сходства актантов.Полученные результаты также демонстрируют, что глобальная оптимизация являетсяважным шагом в автоматической обработке актантов.Наши выводы о возможных альтернативных подходах к решению задачиавтоматической разметки актатнов в русском языке можно условно разделить на тригруппы.
Первая группа выводов связана с решениями, которые находятся в руслеиспользуемых в работе подходов и так или иначе могли бы способствовать развитию иулучшениюразработаннойсистемы.Мыостанавливаемсянаперспективахиспользования классификаторов на основе интерпретируемых моделей, на возможныхмодификациях использованных в работе свойств и усовершенствованиях модуляглобальной оптимизации. Вторая группа выводов касается проблемы использованияметодов обучения без учителя для решения задач автоматической семантическойразметки актантов применительно к русскому материалу.