Главная » Просмотр файлов » Диссертация

Диссертация (1148552), страница 17

Файл №1148552 Диссертация (Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)) 17 страницаДиссертация (1148552) страница 172019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 17)

Алгоритмприменения данного метода подразумевает выполнение несколькихпоследовательных этапов: 1) определение набора параметров для описанияисследуемых объектов, 2) снижение размерности параметрическогопространстваза счётопределенияинформативныхпараметров,3)определение координат рассматриваемых объектов и 4) выполнениеатрибуции с использованием детерминированного и вероятностногоалгоритмов.2. Атрибуция с использованием критериев близости – подразумевает проверкуатрибуционной гипотезы с использованием критериев сходства.

В даннойработе применяется так называемый критерий Сёренсена-Чекановского (или89«мера близости по обилию»). Для определения значения критерия такжевыполняются первые два этапа предыдущего метода, после чегопроизводится подсчёт и сравнение значений критерия для априорныхклассов и атрибутируемого объекта.3. Атрибуция с использованием вероятностных классификаторов – в качествеклассификатора используется один из самых простых и самых частоиспользуемых при обработке натуральных языков - наивный байесовскийклассификатор. Обучение и тестирование классификатора проводится накорпусе определённых значений информативных параметров, после чегопроизводится проверка атрибуционной гипотезы.4.

Атрибуциясиспользованиемиерархическойаггломеративнойкластеризации – для атрибуции строятся дендрограммы из попарнообъединяемых кластеров, сформированных из объекта атрибуции иаприорных классов и фиксируется характер и направление их объединения.Описание математического аппарата каждого из методов применительно кхарактеру решаемой задачи приведено в соответствующих разделах данной главы.3.2. Формирование параметрического пространстваТермин «параметр» в данной главе используется в соответствии сопределением, приведённым М.

А. Марусенко в [там же, с. 66]: «некоторый квантинформации о языковой структуре, который в экстремальном случае можетпредставлять самостоятельный интерес, но обычно выступает в сочетании с другимипараметрами». Адекватное формирование исходных описаний объектов являетсяодним из ключевых условий успешного решения задачи атрибуции анонимных ипсевдонимных текстов.90В соответствии со списком первичных параметров, предложенным в [там же, с.71-72],формируетсянаборпараметров,релевантныхдлясредневековогофранцузского стихотворного текста.Из списка используемых первичных параметров исключаются X38 – «числопричастных оборотов», Х39 – «число членов причастных оборотов», Х40 – «числораспространённыхпричастныхопределений»иХ41–«числочленовраспространённых причастных определений», так как они отражают грамматическиепонятия, не относящиеся к группе романских языков, соответственно, их невозможноиспользовать для французского и старофранцузского языков.Параметры X46 – «число обособленных членов» и X45 – «число членов вгруппах обособленных членов» могут быть использованы только для современногофранцузского языка или французского языка XVII – XVIII веков, в которых ужеприменялись правила пунктуации.

В случае французского языка XII века вманускриптах правила пунктуации практически отсутствовали. Несмотря на то, чтоподсчёт параметров осуществляется по современным изданиям, в которыхпунктуация присутствует, она является результатом работы издателя, а не автора, ине может использоваться для описания авторского стиля.Полный перечень используемых параметров приведен в таблице 3.1.Таблица 3.1.Перечень используемых первичных параметровКодОписание параметрапараметраX1Число слов в простом самостоятельном предложенииX2Число элементарных предложенийX3Число главных предложенийX4Число сочинённых предложений91X5Число сочинённых предложений без спрягаемой формыглаголаX6Число подчинённых предложенийX7Число подчинённых предложений 1-й степениX8Число подчинённых предложений 2-й степениX9Число подчинённых предложений 3-й степениX10Число подчинённых предложений 4-й и высших степенейX11Число элементарных предложений без номинативногоподлежащегоX12Число подчинённых предложений без спрягаемой формыглаголаX13Число вставных предложенийX14Число охватывающих предложенийX15Число слов 1-й группы (знаменательных)X16Число слов 2-й группы (служебных)X17Число имён существительныхX18Число имён прилагательныхX19Число местоименийX20Число спрягаемых форм глаголаX21Число именных форм глаголаX22Число наречийX23Число предлоговX24Число союзовX25Число подчинительных союзовX26Число сочинительных союзовX27Число предикативовX28Число слов в именительном падеже92X29Число слов в косвенном падежеX30Число подлежащихX31Число местоимений-подлежащихX32Число групп однородных членовX33Число членов однородных группX34Число однородных сказуемыхX35Число однородных групп дополнений глаголаX40Число качественных прилагательных и определительныхприлагательныхX41Число причастий – согласованных определенийX42Число несогласованных определенийX43Число существительных – несогласованных определенийX46Число абсолютных оборотовX47Число членов абсолютных оборотовX48Число инфинитивных оборотовX49Число членов инфинитивных оборотовX50Число минимальных групп существительныхX51Число групп существительныхX52Число членов групп существительныхX53Число знаменательных слов в группах существительныхX54Число служебных слов в группах существительныхПервичные параметры определяются по чёткому алгоритму.

Алгоритм длякаждого из параметров приведён в таблице Приложения 1.933.3. Формирование априорного алфавита классовВ данной работе в априорный алфавит классов включаются два априорныхкласса: Ω1 – Жербер де Монтрёй и Ω2 – Манессье. К сожалению, существует толькодва текста, которые можно с уверенностью отнести к данным классам: «Роман оФиалке» и «Продолжение Манессье». В соответствии с этим, для удобствадальнейшего описания названия априорных классов преобразуются в Ω1 – «Роман оФиалке» и Ω2 – «Продолжение Манессье». Атрибутируемый класс «Неизвестныйавтор» будет обозначаться как Ω3 – «Четвёртое продолжение». Здесь и далееальтернативное название «Четвёртого продолжения» – «Продолжение Жербера» - небудет использоваться, для того чтобы избежать путаницы в понятиях.

Состав имощность априорных классов приведены в таблице 3.2.Таблица 3.2Состав и структура классовКлассСостав классаМощностьОбъём класса, NклассаΩ1 – «Роман оФиалке»Ω2«Романо119011240013565Фиалке»–«Третье«ПродолжениепродолжениеМанессье»илипродолжениеМанессье»Ω3–«Четвёртое«Четвёртоепродолжениепродолжение»или94ПродолжениеЖербера»Необходимо принять во внимание тот факт, что во всех классах учитываютсятолько предложения авторского текста, не содержащие прямую речь.3.4.

Определение информативных параметровВ параметрическое пространство исследуемых объектов были включены 48параметров из априорного словаря параметров, которые, в той или иной степени,могут коррелировать друг с другом, что объясняется наличием связей междупараметрами различных уровней лингвистического анализа.

Наличие таких связейрассматривается в работах И. П. Севбо (зависимость между длиной пути в графе иколичеством слов во фразе), В. Фукса (зависимость между числом слов, секций исуммой значений рангов в предложении), М. А. Марусенко и других исследователей[162, с. 78-80; 164, с.337; 165, с. 167]. Использование в процессе атрибуции большогоколичества коррелирующих между собой параметров приводит к сложностям прианализе объектов и возможному искажению результатов.Таким образом, для успешного выполнения применяемой на первом этапеисследования процедуры атрибуции необходимо предварительно провести процедуруснижения размерности параметрического пространства, то есть разделить параметрына информативные и неинформативные.

Информативными параметрами будутсчитаться такие параметры, которые были бы в наименьшей степени связаны междусобой и в наибольшей – с параметрами, не вошедшими в список информативных.Для решения этой задачи в параметрическое пространство были включены 48параметров из априорного словаря параметров, а из априорных классов Ω1 и Ω2 были95сформированы две прикидочные случайные выборки объёмом в 100 предложений,описанные на языке априорных параметров.Результаты эксперимента были объединены в объектно-признаковые матрицы = { }, = 1, ; = 1, где n = 48 – это число априорных параметров, N = 100 – объём выборки, аэлемент zij представляет собой значение, которое принимает i-ый параметр в j-омпредложении.

Средние значения и стандартные отклонения значений априорныхпараметров на классах Ω1 и Ω2 приведены в таблицах 3.3. и 3.4.Таблица 3.3Статистические характеристики распределений параметров, класс Ω1(«Роман оФиалке»)Параметр̅SX13,5406,002X21,7301,523X30,7200,766X40,6001,044X50,0300,171X60,7600,965X70,6400,746X80,1100,345X90,0100,100X100,0000,000X111,6101,091X120,0000,000X130,1200,356X140,1200,356X1510,0705,31796X164,1502,855X172,6802,131X180,9601,188X191,7301,595X202,3301,400X210,3800,693X221,3401,622X231,2501,167X241,3001,474X250,4800,659X260,8501,048X270,3000,659X281,6201,716X294,2003,101X300,5900,830X310,5100,718X320,5200,703X332,3403,424X340,4401,076X350,2000,426X400,7600,900X410,0100,100X420,1200,383X430,1100,373X460,0000,000X470,0000,000X480,0000,00097X490,0000,000X501,6101,607X510,8900,898X523,3603,973X532,5602,865X540,7501,321Таблица 3.4СтатистическиехарактеристикираспределенияΩ2(«Продолжение Манессье»)Параметр̅SX12,7504,823X22,1501,513X31,2000,974X40,3800,789X50,0000,000X61,1901,107X70,9600,864X80,1700,403X90,0600,278X100,0100,100X111,8901,278X120,0200,200X130,0600,239X140,0600,239X1512,7305,722X165,0002,734параметров,класс98X172,9101,770X181,5001,508X192,5602,110X202,8501,486X210,3400,623X221,7901,585X231,8501,373X241,6101,550X250,9001,068X260,7100,868X270,3400,714X282,3402,066X295,6603,131X301,4501,158X310,8300,985X320,5200,745X331,9902,725X340,4600,958X350,0800,273X401,0101,176X410,0100,100X420,2100,478X430,0800,307X460,0000,000X470,0000,000X480,0300,223X490,0800,58099X501,7701,286X511,1501,132X524,7004,704X533,6503,569X541,0301,417Для формирования набора информативных параметров была применена схемаБонгарда с двухступенчатым свёртыванием параметрического пространства [166, с.241].

Данная схема включает в себя два этапа: этап определения релевантных инерелевантных параметров для различения априорных классов и этап свёртыванияпараметрического пространства на подмножестве информативных параметров.Для определения релевантных параметров на первом этапе схемы Бонгардаиспользовался t-критерий Стьюдента, вычисляемый по формуле 3.1:=|̅̅̅1 − ̅̅̅|2121/222;(3.1. )( + )12где ̅̅̅̅1 и ̅̅̅2 − это средние значения, 12 и 22 – стандартные отклонения, а1 и 2 – размеры выборок.Для отнесения параметра к числу релевантных значение критерия должно бытьбольше критического значения 1,96, соответствующего уровню значимости 0,05.Параметры X46 и X47 были исключены из рассмотрения как имеющие тольконулевые значения (не встретились в выборке).

Характеристики

Список файлов диссертации

Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6392
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее