Диссертация (1100480), страница 20
Текст из файла (страница 20)
В ходе тестирования измерялось качество системы на следующихкомбинациях параметров ILP: да/нет Размер тестовой выборки (tts): 0.1, 0.2, 0.3, 0.4, 0.5 Порог отсечения по количеству примеров (thr): 10, 20, 30, 40Всегобылопротестировано600конфигурацийсистемы.Топ-10наилучших результатов приводится в следующей Табл. 12:Features + ILP + thr + ttsPRFAccvform,finncase,prep_lemma,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7990.7440.7600.958vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7440.7580.957vform,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7430.7570.957vform,finncase,prep_lemma,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7960.7330.7550.958vform,path,case,shortPath4__ilp_True__thr_40__tts_0.10.7940.7310.7520.957vform,finncase,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7990.7310.7520.959voice,vform,finncase,path,case,shortPath4__ilp_False__thr_40__tts_0.10.7930.7360.7510.956vform,finncase,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7960.7350.7510.958vform,prep_lemma,case,shortPath4__ilp_False__thr_40__tts_0.10.7950.7350.7500.957vform,prep_lemma,case,shortPath4__ilp_True__thr_40__tts_0.10.7970.7290.7500.958Таблица 12: Результаты глобальной оптимизации и влияние размера тестовойвыборки.Как видно из таблицы, ожидаемо лучшие результаты демонстрируютсистемы, для которых доступно наибольшее количество тренировочныхданных, с набором свойств, показавшим также лучшие результаты на первомэтапе тестирования.
Несколько неожиданным является тот факт, что ILP139оптимизация не всегда приводит к повышению качества в терминах F-меры.Для того, чтобы более наглядно проиллюстрировать эффект ILP-оптимизации,обратимся к следующим графикам, демонстрирующим профиль качестваработысистемыпривключённойиотключённойILP-оптимизациисоответственно.Рисунок 40: Профиль конфигураций системы с (красный цвет) и без (зелёныйцвет) глобальной оптимизацииКакмыможемвидеть,вцеломILP-оптимизацияоказываетнезначительный эффект на качество работы системы. В этой связи, однако,хочется отметить следующее обстоятельство. Для того, чтобы вывод системыбыл формально верным, нам необходимо использовать ILP-оптимизацию или140другой механизм, который обеспечит единственность заполнения каждойроли. В этом контексте тот факт, что ILP-оптимизация не оказывает негативноговлияния на качество, а в некоторых случаях улучшает его, является безусловноположительным обстоятельством.
Так, например, мы можем видеть, что ILPоптимизация сглаживает падение качества при отказе от свойств на основепути, которое мы уже наблюдали ранее.Теперь обратимся к зависимости качества работы от ограничения начастоту встречаемости конструкции. Эту зависимость иллюстрирует следующийграфик:Рисунок 41: Зависимость качества работы системы от ограничения на частотуконструкции141Как мы видим, конструкции, для которых доступно большее числоданных, стабильно демонстрируют лучшее качество работы системы, чтовполне ожидаемо.Наконец,рассмотримзависимостькачестваработысистемысоотношения объёмов тестовой и тренировочной выборок.Рисунок 42: Зависимость качества работы системы от размера тестовойвыборки142отМы можем наблюдать, что качество работы систем с большим объёмомтренировочных данных ожидаемо выше независимо от ограничения на частотувстречаемости конструкции.
Отметим, однако, что разница по качеству междудолей тестовых данных 0.2-0.5 невелика. Это явление представляетопределённый интерес. По-видимому, объяснением в данном случае являетсянекоторое количество неточностей в наших тренировочных и тестовых данных:в случае, когда тестовые данные содержат ошибки разметки, иногдаклассификатору оказывается "выгодно" иметь большее количество тестовыхданных, т.к. таким образом уменьшается процент случайных ошибок,связанных с разметкой и проекцией разметки на синтаксические узлы.
Вкачестве иллюстрации рассмотрим следующие примеры из тестовогоподкорпуса для конструкции “исчезнуть 1.1”:A.Роль региональных лидеров при Путине резко снизилась , политическиепартии тоже резко пошли на убыль , СМИ[X] вообще исчезли .B.Красивый люд[X] давно исчез .C.Вся группа[X] , бесшумно скрывшаяся в непроглядной темени , пропала ,исчезла , и следы её замыл дождь .D.Вот чай[X] хороший совсем исчез .Пример 12: Случайные ошибки как причина повышения качества сувеличением тестовой выборки.
Красным цветом отмечены случаи, в которых,согласно алгоритму оценки, система приписала неправильную рольКак можно видеть из Пример 12: Случайные ошибки как причинаповышения качества с увеличением тестовой выборки12, система частосрабатывает правильно, однако в случаях C и D результат системы, хотя иправильный, не совпадает с экспертной разметкой. В случае небольшихтестовых выборок повышается вероятность того, что доля предложений с143ошибочной разметкой в тестовых данных возрастёт, а формальное качествоработы системы, обучившейся правильному концепту, понизится.В завершение описания результатов работы системы кажется уместнымпривести матрицу корреляции значений tts, thr и ilp с качеством работысистемы, так же, как мы делали это для отдельных свойств и их комбинаций напервом этапе:FPRILP0.0250.0210.012thr0.1630.2250.164tts-0.0580.003-0.079Таблица 13: Корреляция параметров с качеством работы системыЗначения коэффициентов корреляции показывают, что ILP-оптимизацияоказывает незначительный положительный эффект на качество.
Качество такжерастёт с увеличением ограничения на частоту конструкции и незначительнопадает при увеличении доли тестовой выборки в общем объёме данных.144III.4 Обсуждение результатовИтак, результаты оценки системы позволяют нам сделать следующиевыводы:1.Наилучшиерезультатыдостигаютсяприиспользованиикомбинированных семантико-синтаксических наборов свойств, однако исинтаксических свойств зачастую оказывается достаточно для достижениякачества, близкого к максимальному. Особое значение имеет свойство “путь”,которое во многом определяет результат классификации в случаях, когда оновключено в признаковый набор.
При этом ограничение длины пути оказываетположительный эффект на качество классификации.2. Семантические свойства в изоляции показывают менее высокиерезультаты, однако даже в этом случае качество работы системы превосходитбазовый классификатор, выделяющий класс большинства. Интерес вызываетсвойство "кластер", которое в нашем случае не оказывает почти никакогоположительного эффекта на классификацию.3.ILPоказываетнезначительныйположительныйэффектнаклассификацию, и эффект оптимизации наблюдается наиболее отчётливо вслучаях, когда исходное качество было невелико.4. Ограничение на частоту конструкции и увеличение объёма тестовыхданных ожидаемо приводят к повышению качества работы системы.Первые два наблюдения представляют особый интерес, и ниже мыостановимся на них подробнее.Результаты оценки наборов свойств показывают, что наилучшиекомбинации свойств в той или иной форме включают в себя синтаксическоесвойство "путь".
Это обстоятельство имеет как положительные, так иотрицательные стороны. С одной стороны, мы видим, что свойство "путь"145обладает хорошей предсказательной способностью. Это происходит не впоследнююочередьблагодарясинтаксическомуформализму,использованному в корпусе СинТагРус, который включает в себя специальныеотношения для связей предикатов с их синтаксическими актантами.Соответствие между семантическими и синтаксическими актантами не всегдаоднозначно.
Так, в следующем примере акант “Велосипедист” не являетсясинтаксическим субъектом глагола “соблюдать” в поверхностном деревезависимостей, однако является его семантическим актантом.Велосипедист должен быть осторожным, внимательным и строгособлюдать все правила уличного движения .Пример 13: Различие между семантическими и синтаксическимиактантамиВ то же время совпадение синтаксического отношения может служитьнадёжным индикатором для соответствующего отношения семантического.Следует отметить, что поскольку обучение и тестирование системыпроизводится на основе автоматического синтаксического анализа, подобная"точность"свойстваможетоказыватьиотрицательныйэффектнаклассификацию в случаях ошибок парсера. Свойство "путь" приобретаетвысокий вес, и несоответствие пути в тестовом предложении может статьслишком весомым аргументом в пользу неприсвоения роли выбранномуактанту.