Диссертация (1148552), страница 19

Файл №1148552 Диссертация (Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)) 19 страницаДиссертация (1148552) страница 192019-06-292019-06-29СтудИзба

Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 19)

Атрибуция с помощью детерминированного алгоритмаДетерминированная атрибуция проводилась в четырёхмерном пространствеклассификации с применением уже использовавшегося ранее критерия t-критерияСтьюдента (формула 3.1.) в качестве решающего правила. Аналогично расчётам вразделе 3.4. будет использоваться критическое значение критерия, равное 1.96 исоответствующее уровню значимости α = 0,05.Для обеспечения большей точности классификации используется алгоритмклассификации в одномерном пространстве с помощью t-критерия, а решение опринадлежности объекта к классу принимается только в том случае, когда во всехизмерениях существуют плоскости, разделяющие исследуемые объекты.В соответствии с [173, с.135] применение такой методики позволяет обеспечитьразбиение объектов на непересекающиеся классы. Можно говорить, что если значениекритерия для пары объектов не превышает данную величину по какому-либо изпараметров, то по этому параметру отсутствует статистически существенная разницамежду этими двумя объектами.Атрибутируемый объект относится к эталонному классу в том случае, когдазначение критерия меньше критического по всему параметрическому пространству.Для отнесения объекта к классу необходимо выполнение условия [там же, с.135]:А, ∈ Ω , набл.≤ = ̅̅̅̅̅̅1.

. n{, ∈ Ω , набл.≤ = ̅̅̅̅̅̅1. . n(3.13.)Классификационная процедура является итеративной, на каждом шагепроисходит попытка классификации объектов, а после каждого шага – уточнениесостава и мощности классов. Значения координат эталонов классов на каждом шагеопределяются в соответствии с физическим смыслом по формулам [174, с. 60] (3.14),(3.15):110̅ = (̅̅̅1 + ̅̅̅2 + ⋯ + ̅̅̅)/(3.14.)2̅̅̅2̅ = ∑ (3.15.)∑Координаты эталонов классов на 0-ой итерации приведены в таблице 3.11.Таблица 3.11Координаты эталонов классов на 0-й итерацииКлассПараметрx̅SΩ1X181,0221,277X294,3043,355X350,1440,371X523,3674,337X181,2961,363X295,4293,744X350,1280,355X524,0614,987Ω2Координаты атрибутируемого класса определены аналогичным образом иприведены в таблице 3.12Таблица 3.12Координаты атрибутируемого класса Ω3КлассПараметрx̅SΩ3X181,2721,401X295,3844,160X350,1620,408X524,6135,563На 0-й итерации работа детерминированного алгоритма для класса «Роман оФиалке», Ω1 даёт следующие результаты, см.

таблица 3.13:111Таблица 3.13Работа детерминированного алгоритма на 0-й итерации для классов Ω1 и Ω2Класс Ω1Класс Ω3КритерийСтьюдента tПараметрx̅Sx̅SX181,0221,2781,2731,4021,322999X294,3043,3555,3844,1602,020773X350,1440,3710,1620,4080,337153X523,3674,3374,6135,5641,76691Класс Ω2Класс Ω3КритерийСтьюдента tПараметрx̅Sx̅SX181,2956411,3627199411,2726451,4016468950,117634X295,4289323,7438308825,3840584,1604111830,080177X350,1282380,3545283120,1621380,4082231680,626989X524,0606444,9866643484,6132255,5638460690,739585Поскольку не существует более двух параметров, по которым атрибутируемыйобъект принадлежал бы к разным классам, то можно утверждать, что автором«Четвёртого продолжения» является Манессье.

Остановка итерационного алгоритмапроизошла на 0-ой итерации.3.8. Атрибуция с помощью вероятностного алгоритмаНесмотрянато,чтосработалдетерминированныйалгоритм,длядополнительной проверки результатов, полученных в разделе 3.7, была проведена112атрибуция с использованием вероятностного алгоритма. Задача классификацииатрибутируемого объекта решается путём определения расстояния между егокоординатами и координатами эталонов априорных классов. Для определениярасстояния необходимо предварительно определить используемую меру сходства. Вкачестве меры сходства может использоваться расстояние между двумя объектами.Существует множество различных метрик расстояний, но большинство из нихявляются частным случаем специального класса метрических функций расстояний,известных как метрика Миньковского [175, с.

158], определяемых по формуле: =(∑=1| 1− | ) (3.15.)Одним из таких частных случаев является Евклидово расстояние, дляопределения которого r (константа Миньковского) равна 2:2 1 = (∑=1| − | )2 (3.16.)Евклидово расстояние представляет собой геометрическое расстояние вмногомерном пространстве и может рассчитываться как по исходным, так и постандартизированным данным.При p = 1 метрика Миньковского даёт так называемое «манхэттенскоерасстояние», которое является суммой разности по координатам: = ∑=1| − |) (3.17.)Преимуществом использования евклидова расстояния является независимостьрасстояния от направления осей, а недостатком – повышенное влияние отдельныхвыбросов, так как их вклад возводится в квадрат.Сходство двух объектов обратно пропорционально данной величине: чемменьше расстояние между объектами, тем ближе они друг к другу.

Таким образом,задача классификации сводится к задаче поиска минимального расстояния отатрибутируемого объекта до эталонных классов.113Для формирования исходной матрицы данных берутся средние значениякаждого параметра для каждого класса, а по ним, в свою очередь, строятся средниезначения и стандартные отклонения, см.

таблица 3.16.Таблица 3.16Исходная матрица данныхПараметрХ18Х29Х35Х52Х̅Х̅Х̅Х̅1,2735,3840,1624,6131,0224,3040,1443,3671,2965,4290,1284,061̅1,1975,0390,1454,014σi0,1240,5200,0140,510«Четвёртоепродолжение», Ω3«Роман о Фиалке»,Ω1«ПродолжениеМанессье», Ω2Для классификации с помощью вероятностного алгоритма необходимопредварительно построить матрицы расстояний между объектами.

В качествеисходных данных для построения матриц используются преобразованные кстандартному виду исходные матрицы данных. Элементами матрицы расстоянийявляются евклидовы расстояния между атрибутируемым объектом и эталонамиаприорных классов.Таблица приводится к стандартизированному виду, в соответствии с формулой(3.2.), при котором средние значения всех параметров равны нулю, а дисперсия равнаединице, с использованием среднего значения и выборочной дисперсии каждого114параметра, и вычислением на их основании элементов стандартизированной матрицыX, см.

таблица 3.17.Таблица 3.17Матрица данных, приведенная к стандартизированному видуПараметрХ18Х29Х35Х520,6120,6641,2621,176-1,410-1,413-0,079-1,2680,7980,750-1,1830,092̅0,000,000,000,00σi1111«Четвёртоепродолжение», Ω3«Роман о Фиалке», Ω1«ПродолжениеМанессье», Ω2Наконец, на основании таблицы 3.17 строится матрица евклидовых расстояниймежду априорными классами и атрибутируемым объектом:Таблица 3.18Матрица евклидовых расстояний между априорными классами и атрибутируемымобъектом«Четвёртое продолжение», Р1«Роман о Фиалке», Ω14,022«Продолжение Манессье», Ω22,682Помимо этого, для сравнения формируются матрицы «манхэттенскихрасстояний» – см. таблица 3.19.115Таблица 3.19Матрица «манхэттенских расстояний» между априорными классами иатрибутируемым объектом«Четвёртое продолжение», Р1«Роман о Фиалке», Ω17,884«Продолжение Манессье», Ω23,800Как видно из обеих таблиц, в данном случае два варианта определениярасстояний дают примерно одинаковую картину, и в дальнейших исследованиях дляудобства будет использоваться один из них – евклидово расстояние.Для завершения процесса классификации необходимо установить решающееправило, в соответствии с которым будет приниматься окончательное решение опринадлежности атрибутируемого объекта тому или иному классу.

Вероятностьпринадлежности j-ого объекта к k-ому классу определяется в соответствии сформулой 3.18. [176, с. 153] и рассчитывается на основании матрицы евклидовыхрасстояний−111 =(∑ ), (3.18)где dij – расстояние между j-ым объектом и i-ым классом, а djk – расстояние между jым объектом и остальными классами классификации.

Матрица вероятностейпредставлена в таблице 3.20:Таблица 3.20Матрица вероятностей принадлежности объектов априорным классам«Четвёртое продолжение», Р1«Роман о Фиалке», Ω10,400«Продолжение Манессье», Ω20,599116Так как в данном случае априорных классов всего два, то решающее правиломожет быть сформулировано как ∈ Ω , ( ∈ Ω ) > 0,5 . Соответственно, порезультатамработывероятностногоалгоритма«Четвёртоепродолжение»атрибутируется Манессье с вероятностью ~ 0.6.3.9.

Атрибуция при помощи критерия Сёренсена-ЧекановскогоПомимо уже использованных методов кластеризации, для сравнения такжеиспользуются различные меры близости, такие как, например, мера Сёренсена.Несмотря на то, что критерий Сёренсена использовался, как правило, в биологии иэкологии, существуют примеры его успешного использования для кластеризациисловарных определений. А. В. Синелёва [177] использует бинарный коэффициентсходства Сёренсена, так как имеет дело с несимметричными подмножествамисмысловых аспектов статей логического и философского словарей [там же, с.208].(3.18.)В этом случае А и В представляют собой множества аспектов, выделенных всловарных статьях по логике и философии, а n – количество элементов каждогомножества.В случае с атрибуцией текстов по набору информативных параметров,сравниваемые множества являются дескриптивными, поэтому вместо бинарногокоэффициента Сёренсена, используемого в случае, когда какой-либо признакналичествует или отсутствует, более уместно использование коэффициентаСёренсена-Чекановского, также называемого в англоязычной литературе индексомБрэя-Кёртиса, который имеет вид [178, p.

Характеристики

Тип файла

PDF-файл

Размер

5,8 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

lingvisticheskie-metody-opredelenija-avtorstva-srednevekovyh-tekstov-na-materiale-francuzskogo-romana-xiii-veka-prodolzhenie-persevalja.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.