Главная » Просмотр файлов » Диссертация

Диссертация (1148552), страница 16

Файл №1148552 Диссертация (Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)) 16 страницаДиссертация (1148552) страница 162019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

Соответственно, можно предположить, что излюбленныесинтаксическиеконструкцииавтора,определяющиепринципвзаимногорасположения слов, несущих смысловую нагрузку, обладают теми же полезнымисвойствами: отсутствием зависимости от темы текста и сложностью фальсификации.Использование методов обработки естественного языка позволяет зачастуюавтоматизировать процесс такой параметризации, однако в данной работе этосвойство не используется по двум основным причинам: на данный моментотсутствует убедительно функционирующий парсер старофранцузского языка длятребуемых параметров, а кроме того, даже для тех языков, для которых такие парсерысуществуют, точный результат невозможно достигнуть, не вызывая искаженияисходных данных.Среди отчественных исследователей синтаксических структур, внёсшихзначительный вклад в теорию атрибуции, можно выделить, в первую очередь, И.

П.Севбо [140] и Г.Я. Мартыненко [141], изучавших синтаксический анализ на основании82теории графов, и М. А. Марусенко [142], изучавшего анализ корреляций различныхсинтаксических конструкций.Среди зарубежных учёных необходимо отметить Х. Бааена, Х. Ван Хальтерна иФ. Твиди [143], использовавших для атрибуции автора извлечение правил замены извручную разобранного текста.

Позднее, М. Гамон [144] и Е. Стамататос [145]использовали для тех же целей парсеры для английского и новогреческого языковсоответственно.Кроме вышеперечисленного, можно использовать параметризацию при помощиразбора частей речи, речевых оборотов и даже синтаксических ошибок.Символическая параметризацияПри такой параметризации текст рассматривается как набор символов. Наборпараметров может включать в себя не только частоту букв, но и цифр, знаковпрепинания, регистров и прочего.

Метод примечателен максимальной простотойпроведенияпараметризацииивнекоторыхслучаях[146]даётвполнеудовлетворительные результаты.Альтернативным подходом является использование символьных n-грамм иопределение частоты их вхождения в текст. Этот подход позволяет дополнительноотследить лексическую и контекстную информацию, использование пунктуации ирегистров. Кроме того, он удобен для использования с языками, не имеющимиразделителей между словами (китайский, японский). Эффективность данного методаподтверждена многими работами по атрибуции, в том числе [147] с «ЗапискамиФедералиста», Р.

Форсайт и Д. Холмс [148] убедились в более высокойэффективности данного метода по сравнению с лексической параметризацией.Прочие методы параметризацииКроме вышеперечисленного, но существенно реже, используются и другиеметоды параметризации, в том числе, семантический (предъявляются слишком83высокие требования к парсеру текста), а также методы, основанные напараметризации авторских ошибок, и некоторые другие.В данной работе используется два различных набора параметров.

Первыйосновывается на предложенном М. А. Марусенко [Error! Reference source not found.]наборе первичных параметров и синтаксическом методе параметризации текстов.Второй, основанный на методе параметризации рифмованных строк, включает в себякомпозицию лексических, синтаксических параметров и параметров рифм.Параметры рифм включают в себя набор общепринятых характеристик рифмованногофранцузского языка в зависимости от их определённых свойств.

Подробнее описаниевыбора параметров изложено в главах III и IV соответственно.2.4.2. Математические методы решения задач атрибуцииСовременные математические методы обработки параметризированных текстовс целью решения задачи определения авторства также разделяются на две основныегруппы:1. Методы, основанные на аппарате многомерного статистического анализа2. Методы, основанные на машинном обученииМетоды, основанные на использовании многомерного статистического анализа,включают в себя следующие:Теория распознавания образовМетод был впервые применён М. А. Марусенко в исследовании «Атрибуцияанонимных и псевдонимных литературных произведений методами теориираспознавания образов». Параметризация текста осуществляется при помощи наборапервичных параметров, предложенных в его работе, с последующим снижением84размерностипараметрическогопространстваивыделениеминформативныхпараметров. Более подробно метод рассмотрен в главе III.Анализ главных компонентВпервые успешно использован в задачах атрибуции авторских текстов Дж.Бёрроузом [149] к определению авторства по частоте слов.

Идея заключалась ввизуализации разниц между текстами, написанными разными авторами, путёмпроецирования многомерных векторов частот слов на двумерное подпространство,охваченное двумя главными компонентами. Если удаётся добиться значительнойразницы между двумя документами, написанными двумя разными авторами, то новыетексты определяются путём определения минимального расстояния между ними иэталонными текстами. Позднее, этот подход, и так же успешно, был применён вработе Дж. Бинонго и М. Смита [150].Линейный дискриминантный анализИспользуется для нахождения линейных комбинаций признаков, наилучшимобразом разделяющих два или более класса объектов.

Полученная комбинация можетиспользоваться в качестве линейного классификатора или для сокращенияразмерности пространства перед классификациейЭнтропийный подходДанный подход применялся, в том числе, И. О. Тарнопольской [151] дляатрибуции «Синопсиса», сочинения, созданного в Киево-Печёрской лавре в XVIIвеке, и включал в себя определение матрицы парной встречаемости на основаниисимволической параметризации текста и использование её в качестве исходнойинформации для определения диаграммной энтропии. Атрибуция авторстваопределялась на основании равенства коэффициентов диаграммной энтропии уодного автора.85Прочие методыАналогично могут использоваться подходы, основанные на использованиипрочих классификаторов, марковских цепей, кластерном анализе и др.Методы, основанные на машинном обучении, включают в себя:1.

Наивный классификатор БайесаМетод применяется в данной работе и основан на применении теоремы Байеса,позволяющаярассчитатьвероятностьнаступлениякакого-либособытия.Классификатор позволяет определить наиболее вероятный класс, к которомупринадлежит документ, с ипользованием оценки апостериорного максимума.Наиболее вероятный класс обладает максимальной вероятностью. При этом документявляется так называемым «мешком слов», вероятности которых условно не зависятдруг от друга и от контекста. Метод подробно рассмотрен в главе IV.2.

Нейронные сетиОдин из наиболее известных методов. Его использование начиналось сприменения механизма нейронных сетей к небольшому набору функциональных словв качестве параметров в [152, 153 и др.]. Более поздние исследования, в том числеGraham T.2 и [154] уже использовали нейронные сети на широком спектре возможныхпараметров.3. Метод опорных векторовДанный метод использовался, в том числе, в работах [155, 156, 157] ипредставляет собой линейный классификатор, использующий перевод исходныхвекторов в пространство повышенной размерности, и поиск разделяющейгиперплоскости с максимальным зазором.4. Метод k ближайших соседей2Полный список статей автора по указанной тематике см. http://www.uoguelph.ca/~gwtaylor/gwtaylor_cv.pdf86Метод применялся исследователями [158, 159, 160] и основан на том, чтоатрибутируемый класс присваивается тому классу, который наиболее распространёнсреди соседей атрибутируемого класса.Методы, основанные на кластерном анализе, включают, в том числе,следующие:1.

Метод аггломеративной иерархической кластеризацииДанный метод был применён, в том числе, в работе [161] и основыван напоследовательном объединении отдельных кластеров в один большой кластер, путёмопределения кластеров, находящихся на минимальном расстоянии друг от друга.2. Метод, основанный на кластеризации при помощи критерия СёренсенаДанный метод использовался в исследовании [162]. Для определения близостикластеров применяется бинарный критерий Сёренсена.2.5.

Выводы к Главе 2Детальное изучение истории развития и принципов построения методоватрибуции анонимных и псевдонимных текстов позволило определить набор средствдля решения поставленной задачи атрибуции «Четвёртого продолжения» Цикла оГраале.В данную работу включены четыре метода из следующих групп, указанных в2.4.2:1. Методы, основанные на использовании многомерного статистическогоанализа87Из данной группы был взят метод с использованием теории распознаванияобразов.2. Методы машинного обученияИзданнойгруппыбылвзятметодсиспользованиемнаивногоклассификатора Байеса.3. Методы, основанные на кластерном анализеИз данной группы были взяты методы аггломеративной иерархическойкластеризации и метод кластеризации, основанный на критерии Сёренсена.Метод, основанный на теории распознавания образов, является наиболеесовершенным методом многомерного статистического анализа, тогда как наивныйклассификатор Байеса удобен простотой реализации и обучения, а также достаточноэффективен в использовании.

Кроме них, используется метод, основанный наприменении критерия сходства Сёренсена, наименее затратный в реализации из всехвышеперечисленных, и метод аггломеративной иерархической кластеризации, нетребующий наличия обучающих выборок.Для повышения надёжности параметризации априорных и атрибутируемыхклассов целесообразно использовать два различных подхода: подход, основанный наанализе синтаксических структур текста, и смешанный лексикосинтаксическийподход, основанный на параметризации рифмованных строк. Кроме того, длярифмованных строк используется инновационный подход к параметризации,основанный на особенностях формирования рифм.

Более подробно данный подходосвещён в главе IV.Последовательноеприменениеуказанныхметодоватрибуциикпараметризированным априорным и атрибутируемым классам позволит, помимособственно решения задачи определения автора, также сравнивать и оценивать ихэффективность и выработать рекомендации по особенностям их использования.88ГЛАВА 3. АТРИБУЦИЯ «ЧЕТВЁРТОГО ПРОДОЛЖЕНИЯ» СИСПОЛЬЗОВАНИЕМ ПАРАМЕТРОВ ОПИСАНИЯ СТАРОФРАНЦУЗСКОГОЯЗЫКА3.1. Постановка задачиВ данной главе решается задача практической проверки атрибуционнойгипотезы, сформулированной в первой главе, с использованием различныхматематическихметодовклассификации.Длярешениязадачиатрибуцииприменяются три различных метода:1. Атрибуция с использованием теории распознавания образов – в соответствиис определением автора метода, М. А Марусенко, – «в общем случаепредставляетсобойзадачупреобразованиявходнойинформации,представляемой некоторыми параметрами распознаваемых объектов, ввыходную информацию, представляющую собой заключение о том, к какомуклассу принадлежит рассматриваемый объект» [163, с.106].

Характеристики

Список файлов диссертации

Лингвистические методы определения авторства средневековых текстов (на материале французского романа XIII века Продолжение Персеваля)
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6390
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее