Автореферат (Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)), страница 3
Описание файла
Файл "Автореферат" внутри архива находится в папке "Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)". PDF-файл из архива "Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Даннаягипотеза рассматривается как очевидно приоритетная на основании множестваобъективных и субъективных предположений исследователей проблемы, но,при этом, не являющихся безусловно определяющими.Альтернативная гипотеза, первый вариант H1 – автором являетсяМанессье. Гипотеза основана на ряде фактов: тесное переплетение текстов двухпродолжений в манускрипте Т, географические, диалектные и временные рамкиих написания, сюжетное дополнение друг друга и др.Альтернативная гипотеза, второй вариант H2 – автором ЧП являетсянекий неизвестный автор или коллектив переписчиков.Вторая глава исследования посвящена изучению методологическихоснов и обзору методов атрибуции.
В первых разделах главы основноевнимание уделяется инидивидуальному стилю как центральному понятиютеории атрибуции. Принцип системности и взаимосвязи элементов лежит воснове определения стиля автора, открывая возможность для выявленияколичественных характеристик текста и лингвостилистических особенностейавторского инварианта. Влияние внешних сознательных факторов принаписании конкретного произведения приводит к тому, что лексикофразеологическийистилистическийуровниподвергаютсяразличнымизменениям, в том числе, и в целях имитации. Применение формальноколичественных методов с целью выявления подсознательных и независимыхособенностейколичественномуиндивидуальногоизмерению,авторскогоминимизируетстиля,даннуюподдающихсяпроблему.Такиеособенности могут быть выявлены посредством синтаксического анализа.Отбор и составление в единое целое синтаксических конструкций связаны сформированием и выражением актов сознания и мышления, характеризующих15индивидуальный авторский стиль.
Синтаксический анализ охватывает всеуровни языка, в то время как анализ только лишь лексического и, вместе с тем,фразеологическогоуровней,недостаточноэффективенвсвязисизбирательностью лексики и стилистических приёмов в зависимости от жанра ицелей писателя. Исключением можно считать рифмованные пары слов, вчастности, в средневековых стихотворных произведениях, так как слова вассонансе составляли неотъемлемую часть эпических текстов, и любоеизменение в них влекло за собой необходимость правок существенных частейтекста.
Это исключение легло в основу применённого в четвёртой главе методаатрибуцииприпомощирифмованныхпар,концепциякоторогосформировалась в сотрудничестве с профессором Université Rennes 2 К.Ферлампен-Аше.Третийичетвёртыйразделывторойглавыпосвященыобзоруквантитативно-лингвистических исследований различных уровней текста, атакже теоретическому аспекту и практическому применению математическихметодов атрибуции. Практически для всех современных методов решениезадачи установления авторства текста разделяется на два принципиальныхэтапа: стилеметрическая параметризация текста и математико-статистическаяобработка параметризованного текста.
В работе использованы два наборапараметров. Первый основан на предложенном М. А. Марусенко наборепервичных параметров и синтаксическом методе параметризации текстов,второй - на методе параметризации рифмованных строк, включающий в себякомпозицию лексических, синтаксических параметров и параметров рифм(виды и типы рифм, часть речи, к которой относится рифмованное слово, ичлен предложения, которым является рифмованное слово). Всего в работе былоприменено четыре метода:1. Метод с использованием теории распознавания образов2. Метод с использованием наивного классификатора Байеса3. Метод аггломеративной иерархической кластеризации4. Методкластеризации,основанныйнакритерииСёренсена-16Чекановского.Проверка атрибуционной гипотезы четырьмя указанными методамиосуществлена в третьей главе «Атрибуция «Четвёртого продолжения» сиспользованием параметров описания старофранцузского языка».В априорный алфавит классов включены два априорных класса: Ω1 –«Роман о Фиалке» (Жербер де Монтрёй) и Ω2 – «Продолжение Манессье».Атрибутируемый класс «Неизвестный автор» обозначен как Ω3 – «Четвёртоепродолжение».На первом этапе применения всех вышеуказанных методов былоосуществлено формирование параметрического пространства из 48 параметров,релевантных для старофранцузского языка, входящих в список первичныхпараметров, предложенных М.А.
Марусенко. Далее, была снижена размерностьпараметрическогопространстваинформативныеиинформативныхпараметровпутёмразделениянеинформативные.былаДляпараметровформированияпримененасхемананабораБонгардасдвухступенчатым свёртыванием параметрического пространства, в результатечего параметрическое пространство было свёрнуто до четырёхмерного, а витоговыйнаборпараметроввошлипараметрыX18(числоимёнприлагательных), X29 (число слов в косвенном падеже), X35 (числооднородных групп дополнений глагола) и X52 (число членов группсуществительных).Для определения координат исследуемых объектов в пространствеинформативных параметров был использован метод выборочного обследованияисследуемыхтекстов,цельюкоторогоявляетсяснижениеобъёмаподготовительной работы по определению значений параметров, с сохранениемвысокой точности оценки объектов.
Результирующие объёмы выбороксоставили 1583 предложения для класса Ω2 «Продолжение Манессье», 829 дляклассаΩ1«РоманаоФиалке»,минимальныйатрибутируемому объекту составил 1104 предложения.объёмвыборкипо17Дальнейшиедействияиндивидуальнывкаждомизчетырёхиспользуемых методов.
Для метода, основанного на теории распознаванияобразов, применена двухступенчатая процедура классификации, включающая всебядетерминированнуюивероятностнуюклассификации.Вдетерминированном алгоритме используется в качестве решающего правила tкритерий Стьюдента.Атрибутируемый объект относится к эталонному классу в том случае,когда значение критерия меньше критического по всему параметрическомупространству.
Классификационная процедура является итеративной, на каждомшаге происходит попытка классификации объектов, а после каждого шага –уточнение классов.В данном случае остановка алгоритма произошла на нулевой итерации,автором был признан Манессье.Длядополнительнойпроверкиполученныхрезультатовпоследетерминированного был запущен и вероятностный алгоритм, при которомзадача классификации атрибутируемого объекта решается путём определениярасстояния между его координатами и координатами эталонов априорныхклассов.
В качестве меры сходства в этом случае использовалось Евклидоворасстояние.Так как в данном случае априорных классов всего два, то решающееправило сформулировано как.Соответственно, порезультатам работы вероятностного алгоритма «Четвёртое продолжение»атрибутируется Манессье с вероятностью ~ 0.6.При атрибуции с использованием критерия Сёренсена-Чекановского (СЧ)в качестве меры близости использован критерий Сёренсена для случаядескриптивных множеств (индекс Брэя-Кёртиса). Коэффициент СЧ принимаетзначения от 0 до 1: 1 – два объекта полностью совпадают, и 0 – полностью несовпадают.18Для применения критерия Чекановского матрица исходных данныхсформирована следующим образом: каждый вариант сочетания параметровX18, X29, X35 и X52 представлен как одно из значений исследуемого класса, аколичество таких сочетаний в выборке – как количество наблюдений,соответствующих этому значению.Критерий в этом случае определяется по следующей формуле,где числитель представляет собой удвоенную сумму минимальныхзначений количества наблюдений каждого сочетания X18, X29, X35 и X52 изобоих классов, а знаменатель - сумму всех количеств наблюдений по каждомуклассу.
Результаты, полученные данным методом, представлены в таблице 1.Таблица 1Значения коэффициента Сёренсена-Чекановского для априорных классови атрибутируемого объекта«Четвёртое продолжение», Р1«Роман о Фиалке», Ω10,509«Продолжение Манессье», Ω20,536Полученный результат дополнительно подтверждает гипотезу о том, чтоавтором ЧП является Манессье.Вероятностный (наивный) классификатор Байеса, основанный на теоремеБайеса, широко применяется в задачах, связанных с обработкой текстов. Егоиспользование в данной работе обусловлено эффективностью процессаобучения по сравнению с другими, более сложными классификаторами,простотойреализациииэффективностьюпосравнениюсдругимиклассификаторами на небольших корпусах текстов, что особенно важно висследуемом случае.Задача атрибуции при использовании данного метода решается какопределение наиболее вероятного класса для исследуемого текста, для этого19Байесовский классификатор использует оценку апостериорного максимума.Формула принадлежности класса тексту х имеет вид:(3)где– безусловная вероятность появления текста класса a в массиветекстов, а– произведение вероятностей каждого слова, входящегов текст.Разработанное для реализации классификатора программное обеспечениепроизводит обучение классификатора на обучающей выборке, а на второмэтапе - атрибуцию тестовой выборки.
Для оценки качества обученияиспользована простая численная метрика, представляющая собой отношениеколичества корректно атрибутированных текстов к общему размеру обучающейвыборки. Максимальное значение метрики достигается для параметра X29,поэтому он использован для проведения атрибуции на тестовых выборках. Врезультате тестирования классификатора на различных вариантах разбиенияклассифицируемыхобъектовнатекстыбылиполученырезультаты,атрибутирующие класс Ω3 автору.Метод с использованием алгоритма иерархической кластеризациивыделяется среди прочих методов, использованных в данной работе, тем, что непредполагает попарного сравнения априорных классов и атрибутируемогообъекта.
В процессе проведения атрибуции априорный класс и атрибутируемыеобъекты были разбиты на множество кластеров меньшей размерности. Накаждом этапе метода определялась наиболее близкая пара кластеров иобъединялась до тех пор, пока не был сформирован единый кластер.Разработанное для выполнения данной процедуры программное обеспечениепозволяет производить кластеризацию с использованием различных метрикопределения близости и размеров кластера, при этом выводы о принадлежностиатрибутируемого объекта тому или иному априорному классу делались наоснованиивизуальнойоценкидендрограммобъединениякластеров.Дендрограмма для метрики «Евклидово расстояние» и размера кластера в 100предложений представлена на рисунке 1.20Рисунок 1. Метрика «Евклидово расстояние», размер кластера 100Дендрограммы для кластеризации с различными метриками и размерамикластера дают близкие по характеру результаты, атрибутируя «Четвёртоепродолжение» Манессье.В четвёртой главе «Атрибуция с использованием параметризациирифмованныхметодами,строк»произведенаприменённымивпроверкатретьейглаве,атрибуционнойносгипотезыиспользованиемальтернативного подхода к формированию параметрического пространства припомощи параметризации рифмованных строк.