Автореферат (1148551), страница 3

Файл №1148551 Автореферат (Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)) 3 страницаАвтореферат (1148551) страница 32019-06-292019-06-29СтудИзба

Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Даннаягипотеза рассматривается как очевидно приоритетная на основании множестваобъективных и субъективных предположений исследователей проблемы, но,при этом, не являющихся безусловно определяющими.Альтернативная гипотеза, первый вариант H1 – автором являетсяМанессье. Гипотеза основана на ряде фактов: тесное переплетение текстов двухпродолжений в манускрипте Т, географические, диалектные и временные рамкиих написания, сюжетное дополнение друг друга и др.Альтернативная гипотеза, второй вариант H2 – автором ЧП являетсянекий неизвестный автор или коллектив переписчиков.Вторая глава исследования посвящена изучению методологическихоснов и обзору методов атрибуции.

В первых разделах главы основноевнимание уделяется инидивидуальному стилю как центральному понятиютеории атрибуции. Принцип системности и взаимосвязи элементов лежит воснове определения стиля автора, открывая возможность для выявленияколичественных характеристик текста и лингвостилистических особенностейавторского инварианта. Влияние внешних сознательных факторов принаписании конкретного произведения приводит к тому, что лексикофразеологическийистилистическийуровниподвергаютсяразличнымизменениям, в том числе, и в целях имитации. Применение формальноколичественных методов с целью выявления подсознательных и независимыхособенностейколичественномуиндивидуальногоизмерению,авторскогоминимизируетстиля,даннуюподдающихсяпроблему.Такиеособенности могут быть выявлены посредством синтаксического анализа.Отбор и составление в единое целое синтаксических конструкций связаны сформированием и выражением актов сознания и мышления, характеризующих15индивидуальный авторский стиль.

Синтаксический анализ охватывает всеуровни языка, в то время как анализ только лишь лексического и, вместе с тем,фразеологическогоуровней,недостаточноэффективенвсвязисизбирательностью лексики и стилистических приёмов в зависимости от жанра ицелей писателя. Исключением можно считать рифмованные пары слов, вчастности, в средневековых стихотворных произведениях, так как слова вассонансе составляли неотъемлемую часть эпических текстов, и любоеизменение в них влекло за собой необходимость правок существенных частейтекста.

Это исключение легло в основу применённого в четвёртой главе методаатрибуцииприпомощирифмованныхпар,концепциякоторогосформировалась в сотрудничестве с профессором Université Rennes 2 К.Ферлампен-Аше.Третийичетвёртыйразделывторойглавыпосвященыобзоруквантитативно-лингвистических исследований различных уровней текста, атакже теоретическому аспекту и практическому применению математическихметодов атрибуции. Практически для всех современных методов решениезадачи установления авторства текста разделяется на два принципиальныхэтапа: стилеметрическая параметризация текста и математико-статистическаяобработка параметризованного текста.

В работе использованы два наборапараметров. Первый основан на предложенном М. А. Марусенко наборепервичных параметров и синтаксическом методе параметризации текстов,второй - на методе параметризации рифмованных строк, включающий в себякомпозицию лексических, синтаксических параметров и параметров рифм(виды и типы рифм, часть речи, к которой относится рифмованное слово, ичлен предложения, которым является рифмованное слово). Всего в работе былоприменено четыре метода:1. Метод с использованием теории распознавания образов2. Метод с использованием наивного классификатора Байеса3. Метод аггломеративной иерархической кластеризации4. Методкластеризации,основанныйнакритерииСёренсена-16Чекановского.Проверка атрибуционной гипотезы четырьмя указанными методамиосуществлена в третьей главе «Атрибуция «Четвёртого продолжения» сиспользованием параметров описания старофранцузского языка».В априорный алфавит классов включены два априорных класса: Ω1 –«Роман о Фиалке» (Жербер де Монтрёй) и Ω2 – «Продолжение Манессье».Атрибутируемый класс «Неизвестный автор» обозначен как Ω3 – «Четвёртоепродолжение».На первом этапе применения всех вышеуказанных методов былоосуществлено формирование параметрического пространства из 48 параметров,релевантных для старофранцузского языка, входящих в список первичныхпараметров, предложенных М.А.

Марусенко. Далее, была снижена размерностьпараметрическогопространстваинформативныеиинформативныхпараметровпутёмразделениянеинформативные.былаДляпараметровформированияпримененасхемананабораБонгардасдвухступенчатым свёртыванием параметрического пространства, в результатечего параметрическое пространство было свёрнуто до четырёхмерного, а витоговыйнаборпараметроввошлипараметрыX18(числоимёнприлагательных), X29 (число слов в косвенном падеже), X35 (числооднородных групп дополнений глагола) и X52 (число членов группсуществительных).Для определения координат исследуемых объектов в пространствеинформативных параметров был использован метод выборочного обследованияисследуемыхтекстов,цельюкоторогоявляетсяснижениеобъёмаподготовительной работы по определению значений параметров, с сохранениемвысокой точности оценки объектов.

Результирующие объёмы выбороксоставили 1583 предложения для класса Ω2 «Продолжение Манессье», 829 дляклассаΩ1«РоманаоФиалке»,минимальныйатрибутируемому объекту составил 1104 предложения.объёмвыборкипо17Дальнейшиедействияиндивидуальнывкаждомизчетырёхиспользуемых методов.

Для метода, основанного на теории распознаванияобразов, применена двухступенчатая процедура классификации, включающая всебядетерминированнуюивероятностнуюклассификации.Вдетерминированном алгоритме используется в качестве решающего правила tкритерий Стьюдента.Атрибутируемый объект относится к эталонному классу в том случае,когда значение критерия меньше критического по всему параметрическомупространству.

Классификационная процедура является итеративной, на каждомшаге происходит попытка классификации объектов, а после каждого шага –уточнение классов.В данном случае остановка алгоритма произошла на нулевой итерации,автором был признан Манессье.Длядополнительнойпроверкиполученныхрезультатовпоследетерминированного был запущен и вероятностный алгоритм, при которомзадача классификации атрибутируемого объекта решается путём определениярасстояния между его координатами и координатами эталонов априорныхклассов.

В качестве меры сходства в этом случае использовалось Евклидоворасстояние.Так как в данном случае априорных классов всего два, то решающееправило сформулировано как.Соответственно, порезультатам работы вероятностного алгоритма «Четвёртое продолжение»атрибутируется Манессье с вероятностью ~ 0.6.При атрибуции с использованием критерия Сёренсена-Чекановского (СЧ)в качестве меры близости использован критерий Сёренсена для случаядескриптивных множеств (индекс Брэя-Кёртиса). Коэффициент СЧ принимаетзначения от 0 до 1: 1 – два объекта полностью совпадают, и 0 – полностью несовпадают.18Для применения критерия Чекановского матрица исходных данныхсформирована следующим образом: каждый вариант сочетания параметровX18, X29, X35 и X52 представлен как одно из значений исследуемого класса, аколичество таких сочетаний в выборке – как количество наблюдений,соответствующих этому значению.Критерий в этом случае определяется по следующей формуле,где числитель представляет собой удвоенную сумму минимальныхзначений количества наблюдений каждого сочетания X18, X29, X35 и X52 изобоих классов, а знаменатель - сумму всех количеств наблюдений по каждомуклассу.

Результаты, полученные данным методом, представлены в таблице 1.Таблица 1Значения коэффициента Сёренсена-Чекановского для априорных классови атрибутируемого объекта«Четвёртое продолжение», Р1«Роман о Фиалке», Ω10,509«Продолжение Манессье», Ω20,536Полученный результат дополнительно подтверждает гипотезу о том, чтоавтором ЧП является Манессье.Вероятностный (наивный) классификатор Байеса, основанный на теоремеБайеса, широко применяется в задачах, связанных с обработкой текстов. Егоиспользование в данной работе обусловлено эффективностью процессаобучения по сравнению с другими, более сложными классификаторами,простотойреализациииэффективностьюпосравнениюсдругимиклассификаторами на небольших корпусах текстов, что особенно важно висследуемом случае.Задача атрибуции при использовании данного метода решается какопределение наиболее вероятного класса для исследуемого текста, для этого19Байесовский классификатор использует оценку апостериорного максимума.Формула принадлежности класса тексту х имеет вид:(3)где– безусловная вероятность появления текста класса a в массиветекстов, а– произведение вероятностей каждого слова, входящегов текст.Разработанное для реализации классификатора программное обеспечениепроизводит обучение классификатора на обучающей выборке, а на второмэтапе - атрибуцию тестовой выборки.

Для оценки качества обученияиспользована простая численная метрика, представляющая собой отношениеколичества корректно атрибутированных текстов к общему размеру обучающейвыборки. Максимальное значение метрики достигается для параметра X29,поэтому он использован для проведения атрибуции на тестовых выборках. Врезультате тестирования классификатора на различных вариантах разбиенияклассифицируемыхобъектовнатекстыбылиполученырезультаты,атрибутирующие класс Ω3 автору.Метод с использованием алгоритма иерархической кластеризациивыделяется среди прочих методов, использованных в данной работе, тем, что непредполагает попарного сравнения априорных классов и атрибутируемогообъекта.

В процессе проведения атрибуции априорный класс и атрибутируемыеобъекты были разбиты на множество кластеров меньшей размерности. Накаждом этапе метода определялась наиболее близкая пара кластеров иобъединялась до тех пор, пока не был сформирован единый кластер.Разработанное для выполнения данной процедуры программное обеспечениепозволяет производить кластеризацию с использованием различных метрикопределения близости и размеров кластера, при этом выводы о принадлежностиатрибутируемого объекта тому или иному априорному классу делались наоснованиивизуальнойоценкидендрограммобъединениякластеров.Дендрограмма для метрики «Евклидово расстояние» и размера кластера в 100предложений представлена на рисунке 1.20Рисунок 1. Метрика «Евклидово расстояние», размер кластера 100Дендрограммы для кластеризации с различными метриками и размерамикластера дают близкие по характеру результаты, атрибутируя «Четвёртоепродолжение» Манессье.В четвёртой главе «Атрибуция с использованием параметризациирифмованныхметодами,строк»произведенаприменённымивпроверкатретьейглаве,атрибуционнойносгипотезыиспользованиемальтернативного подхода к формированию параметрического пространства припомощи параметризации рифмованных строк.

Характеристики

Тип файла

PDF-файл

Размер

569,76 Kb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

lingvisticheskie-metody-opredelenija-avtorstva-srednevekovyh-tekstov-na-materiale-francuzskogo-romana-xiii-veka-prodolzhenie-persevalja.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.