Диссертация (1137487), страница 13

Файл №1137487 Диссертация (Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)) 13 страницаДиссертация (1137487) страница 132019-05-202019-05-20СтудИзба

Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 13)

Как показано в главе 1, многие исследователи рассматривалипрямую речь как важнейшее проявление художественного персонажа, в котором его/еехарактер выражается непосредственно, а «присутствие автора» минимально. Вместе с темпрямая речь оказывается подходящим объектом для количественного исследования: вклассическом (домодернистском) романе реплики героев не смешиваются с авторскимнарративом, у них практически всегда есть однозначные границы, позволяющиеосуществить разметку. Описанные в главе 1 исследования [Burrows, 1987], [DeForest,Jonson, 2001], [Rybicki, 2006], [Culpeper, 2014], [Hoover, 2017] показывают, что получаемыена основе такой разметки количественные характеристики прямой речи позволяютпостроить измеряемую геометрическую модель пространства персонажей (character space).Расстояния между персонажами в таких моделях оказываются не бессмысленны — взависимости от выбранных текстовых параметров речи (доля личных местоимений, доля49латинизмов/германизмов и т.д.) они отражают различные содержательные свойствасистемы персонажей.

Ограничением метода является объем прямой речи, однако в крупныхформах, таких как роман, количество реплик исчисляется тысячами. В результате именно вроманестановятсявозможнымиколичественныеподходыксистематизациихудожественных типов и характеров на основе объективных данных.В настоящей диссертации метод количественного анализа прямой речи применяется дляпостроения и исследования модели системы персонажей книги «Война и мир».

Главасостоит из трех разделов. В первом разделе описываются два метода анализа прямой речиперсонажей, примененные в диссертации. Во втором разделе производится анализ ипостроение системы персонажей с опорой на два описанных метода. В третьем разделеобсуждаются результаты анализа.2.1. Методы количественного анализа прямой речи персонажей2.1.1. Стилеметрический метод на основе частотностей словПервый метод, примененный для исследования речи персонажей, относится к методамстатистической атрибуции авторства.

Он был впервые детально описан в [Burrows, 2002]под названием Delta и с тех пор стал одним из стандартов в сфере атрибуции икомпьютерной стилистики. Метод Delta опирается на частотности отдельных слов, такжевозможно применять его к цепочкам (N-граммам) из нескольких слов или символовзаданной длины.

При использовании Delta каждый текст представляется в виде векторанормализованных частотностей слов или N-грамм. Таким образом все тексты становятсяточками в многомерном пространстве. Далее в этом пространстве вычисляется расстояниемежду векторами — для каждой пары текстов становится возможным измерить «близость»на основе распределения частотностей.За последние годы метод Delta доказал свою эффективность на материале разныхлитературных жанров, эпох и культур. Сам автор метода в [Burrows, 2002]продемонстрировал его возможности на корпусе текстов 25 английских поэтов эпохиРеставрации. Так, метод Delta смог безошибочно определить Джона Мильтона как автора«Потерянного рая», опираясь на прочие произведения того же поэта.

Затем Delta былаапробирована и на прозе, продемонстрировав высокое качество определения авторства накорпусе из 102 романов 59 американских и британских авторов [Hoover, 2004]. Помимотекстов на английском языке, метод Delta успешно применялся к древнеанглийскому(Garcia, Martin, 2007), средненидерландскому [Dalen-Oskam, Zundert, 2007], польскому[Eder, Rybicki, 2009], немецкому [Jannidis, Lauer, 2014]. В [Eder, 2011] осуществленсравнительный анализ качества определения авторства методом Delta на разных языках:английском, немецком, французском, латыни, польском и венгерском.

Авторы пришли к50выводу, что Delta демонстрирует лучшие показатели в языках с менее богатой морфологией(английский, немецкий), однако падение качества в языках с развитой морфологией(латынь, польский) не является значительным. В работе [Скоринкин, Бонч-Осмоловская,2016] были впервые опубликованы результаты апробации метода Delta на материалерусских художественных текстов.

Авторы осуществили эксперимент по определениюавторства сначала 4, а затем 8 русских романов второй половины XIX века, принадлежащихЛ. Н. Толстому, Ф. М. Достоевскому, И. С. Тургеневу. В первом эксперименте метод Deltaопределил авторство всех 4 текстов безошибочно, во втором – корректно атрибутировал 7из 8 романов.Для нашей работы особенно важно, что сфера применения метода Delta и другиханалогичных методов (основанных на сопоставлении векторов частотностей слов) неограничивается вопросами атрибуции. Экспериментально доказано, что на распределениечастотностей слов влияет не только авторство (так называемый «авторский сигнал» [Telloet al., 2017]), но и другие факторы [Rybicki, 2017]. Так, в корпусе произведений одногоавтора наиболее сильные различия могут обнаруживаться между текстами различныхжанров [Rybicki, 2017] или хронологических периодов [Stamou, 2008].

В связи с этим методв последние годы используют для различных задач компьютерной стилистики:исследования переводов (сравнения различных переводов одного текста [Rybicki, 2006],сопоставления перевода и оригинала [Hołobut et al., 2017]), диахронического анализаизменения стиля у одного автора [Reeve, 2018], авторского двуязычия [Nisioi, Dinu, 2013],исследования гендерных [Rybicki, 2016], жанровых [Schöch, 2013], [Al-Yahya, 2018] и иныхразличий.

Отдельную небольшую группу работ составляют исследования, где стилеметрияприменяется к речи отдельных персонажей, — эти работы ([Rybicki, 2006], [Hoover, 2017])уже были описаны в разделе 1.2.2 главы 1. Таким образом, стилеметрия можетрассматриваться как метод сравнительного анализа текста, подходящий для разных задачза пределами текстологии и стилистики, в том числе и для задач моделирования системыперсонажей.В качестве программной реализации метода Delta в работе используется библиотека stylo[Eder et al., 2016] для языка программирования R. Библиотека stylo позволяет осуществлятьстилеметрический анализ текстов с применением метода Delta, а также его дальнейшихвариантов и усовершенствований. Библиотека содержит четыре основные функции: stylo,classify, oppose и rolling delta.

В настоящем исследовании используются две функции —stylo и classify.Функция stylo осуществляет анализ стилистической близости текстов. Принимая на входнабор текстов (корпус), функция выдает в качестве результата количественные показателистилистической близости текстов друг к другу, вычисленные с применением выбранного51метода (помимо Delta и её модификаций доступны стандартные геометрические метрики:косинусная близость, евклидово расстояния, манхэттенское расстояние). Для наглядногографического представления результатов используются различные методы сниженияразмерности (метод главных компонент, многомерное шкалирование, стохастическоевложение соседей) и кластеризации (иерархический кластерный анализ, консенсусноефилогенетическое дерево).Также функция stylo может выдавать в качестве результата таблицу частотностей слов илисимвольных n-грамм в каждом тексте и список слов или символьных n-грамм,использованных при расчете стилистической близости.Функция classify предназначена непосредственно для экспериментов по определениюавторства или иных задач стилистической классификации текстов на основе обучающейвыборки.

На вход эта функция получает два набора текстов — обучающую и тестовуювыборки. Результатом работы функции classify становится классификация текстов изтестовой выборки на основе выбранной пользователем метрики близости.Процедура применения Delta для определения авторства текста выглядит так:1. Для всего тренировочного корпуса вычисляется N наиболее частотных слов;сохраняется частотность каждого.2.

Далее для каждого слова в каждом тексте в обеих выборках вычисляется zпоказатель (стандартный показатель, z-score) – отклонение частотностей для данноготекста от среднего по корпусу, измеряемое в количестве стандартных отклонений ивычисляемое по формуле=#$&'Где x — частотность для данного текста, µ — средняя частотность по корпусу, σ —стандартное отклонение.3. Z-показатели текстов из тестовой выборки сравниваются с z-показателямитренировочной4. обнаруживается текст из тренировочной, наиболее близкий классифицируемому.Его автор и объявляется автором классифицируемого текста.Из шага 4 следует, что определение авторства на основе Delta устроено так же, как алгоритмклассификации на основе метода k ближайших соседей.

Признаками в случае Deltaвыступают частотности слов. В зависимости от типа и размера текстов в Delta можетиспользоваться разное количество частотных слов, допустима фильтрация списка отнекоторых стоп-слов, к примеру, личных местоимений. При этом, поскольку сравниваютсяне частотности, а оценка их отклонения, каждое из N наиболее частотных слов вноситодинаковый по весу вклад в совокупную оценку.52Основная проблема стилеметрических подходов, основанных на сопоставлении векторовчастотностей слов, — неоднозначность результатов и сложность их содержательнойинтерпретации. Эксперименты подтверждают, что стилеметрия при наличии достаточногообъема данных способна отделить стиль одного автора от другого, выделить жанровыестилистические различия.

Характеристики

Тип файла

PDF-файл

Размер

12,61 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

semanticheskaja-razmetka-hudozhestvennyh-tekstov-dlja-kolichestvennyh-issledovanij-v-filologii-na-primere-romana-vojna-i-mir-l.n.-tolstogo.rar

Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н

Summary_Скоринкин_14.12.2018.pdf

Диссертация.pdf

Описание.txt

Резюме_Скоринкин_14.12.2018.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.