Диссертация (1137487), страница 14

Файл №1137487 Диссертация (Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)) 14 страницаДиссертация (1137487) страница 142019-05-202019-05-20СтудИзба

Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 14)

Однако интерпретация результатов стилеметрического анализабывает затруднительной, особенно когда речь не идет о контролируемых экспериментах сопределением авторства. Не всегда можно объяснить, какое значение имеют численновыраженные расстояния между текстами, получаемые при помощи стилеметрии. В связи сэтим в качестве альтернативы мы применяем собственный метод количественного анализапрямой речи персонажей, принципиально отличный от стилеметрии: он не зависитнапрямую от лексического состава текста, и позволяет оценить манеру говорения в отрывеот содержания реплик (которое в стилеметрии неизбежно оказывает влияние, особенно вкоротких текстах).2.1.2. Метод комплексной оценки нелексических параметров прямой речиВ предлагаемом нами подходе признаками речи персонажа становятся не частотностинаиболее часто употребляемых слов, а набор нелексических характеристик.

Этихарактеристики подобраны с целью формализовать различия между героями в их манереговорить: сложно — или просто, с обильными восклицаниями — или спокойно, прерывистои резко — или гладко, «по-письменному». При чтении «Войны и мира» можно заметить,что стили речи персонажей различны по своей экспрессии, непосредственности,темпераменту. Например, чрезвычайно жива и непосредственна речь Ростовых, вособенности Наташи, Пети и графа Ильи Андреевича:1) Соня! что ты?..

Что, что с тобой? У-у-у!.. [Толстой, 1979: c. 85]2) Сейчас, сейчас, не ходи, папа! [Толстой, 1980 (a): c. 205]3) Ничего, маменька, право, ничего, так [Толстой, 1980 (a): c. 290]4) Что? Кому?.. Шутишь! [Толстой, 1980 (a): c. 65]5) Николушка... письмо... ранен... бы...

был... ma chère... ранен... голубчик мой...графинюшка... в офицеры произведен... слава богу... Графинюшке как сказать?..[Толстой, 1979: c. 298]6) Пе... Петя... Поди, поди, она... она... зовет.. [Толстой, 1981: c. 186]7) Я, я... я поеду с вами! [Толстой, 1981: c. 150]8) Видела? Видела? Что видела? [Толстой, 1980 (a): c. 300]Эта речь отчетливо звучащая, в ней много живой эмоции текущего момента (о «жизнитолько в настоящем» как идеологии семьи Ростовых см. [Clay, 1998: с. 43]).

Такие репликиразительно отличаются, например, от речи князя Василия, напоминающей стиль вежливогописьма:539) Я думаю,— сказал князь, улыбаясь,— что, ежели бы вас послали вместо нашегомилого Винценгероде, вы бы взяли приступом согласие прусского короля. Вытак красноречивы. Вы дадите мне чаю? [Толстой, 1979: c. 10]10) Я спрашиваю у тебя, когда ты получил письмо от Болконского,— повторяеттретий раз князь Василий.— Как ты рассеян, мой милый.

[Толстой, 1979: c. 267]11) Ежели бы знали, что вы этого хотите, праздник бы отменили,— сказал князь, попривычке, как заведенные часы, говоря вещи, которым он и не хотел, чтобыверили. [Толстой, 1979: c. 8]В этой речи нет того количества междометий и обрывов, как в речи Ростовых, затообращают на себя внимание избыточная синтаксическая полнота конструкций («яспрашиваю у тебя», «ежели бы вас послали… вы бы взяли», «вы не знаете, что вы делаете»)и обилие подчиненных предложений.

Характерно, что эта манера сложной устнописьменной речи не покидает князя Василия и в эмоциональные моменты:12) Помните, что вы будете отвечать за все последствия,— строго сказал князьВасилий,— вы не знаете, что вы делаете. [Толстой, 1979: c. 108]Опираясь на предложенную в диссертации разметку, мы можем перейти от интуитивногоанализа отдельных примеров к статистическому исследованию, охватывающему всю речькаждого исследуемого персонажа. Для статистического анализа речь каждого персонажабыла представлена в виде пяти количественных параметров (т.е.

пятимерного вектора):● Доля восклицательных реплик● Доля вопросительных реплик● Доля знаков препинания в репликах (отношение числа знаков препинания к числуслов)● Частотность дискурсивных маркеров (в первую очередь частиц и междометий)● Читабельность текста (readability), рассчитанная на основе 5 наиболее известныхметрик при помощи API сайта http://ru.readability.io/: индекс Флеша-Кинкэйда,индекс Колман-Лиау, метрика SMOG, Automatic Readability Index, формула ДэйлаЧэлла. Эти метрики опираются на среднюю длину слова (подсчет числа слогов) ипредложения в тексте.Указанные параметры не зависят ни от содержания (лексического состава7), ни от объемапрямой речи персонажа.

При этом их интерпретируемость представляется нам болеевысокой, чем интерпретируемость расстояний между текстами на основе метрики Delta.Долю восклицаний мы рассматриваем как наиболее очевидный показатель эмоциональнойокрашенности реплики (ср.

соображения В. В. Виноградова на эту тему в композиционном7Формула Дэйла-Чэлла предполагает использование словаря простых слов и измеряет ихсоотношение со сложными; однако она является лишь одно из пяти метрик.54анализе Жития протопопа Аввакума [Виноградов, 1980]). Доля знаков препинанияотражаетстепень«прерывистости»реплик,обилиявнихостановок,общейфрагментарности, свойственной живой и непосредственной устной речи.

Дискурсивныемаркеры также свойственны устной речи в большей мере, чем письменной. Метрикачитабельности отражает сложность текста для восприятия. В данном случае мыпредполагаем, что устная речь, подобная речи Ростовых в примерах 1–8 выше, окажетсяболее простой с точки зрения показателей читабельности, чем синтаксически усложненнаяречь, образцы которой представлены в примерах 9–12.2.1 Применение методов для моделирования системы персонажейВ этом разделе производится анализ системы персонажей «Войны и мира» при помощидвух методов, описанных в разделе 1 выше: стилеметрического и основанного нанелексических признаках прямой речи.

Речь каждого персонажа для исследования былаизвлечена из размеченного текста произведения и представлена в виде отдельногодокумента. Затем для каждого документа (т.е. для каждого персонажа) вычислялисьпоказатели Delta (т.е. создавалась таблица относительных частотностей слов) и наборнелексических параметров, приведенный в разделе 2.1.2 выше. Для анализа и визуализацииполученных таким образом показателей применялся единый набор стандартныхстатистических методов из области многомерного анализа (multivariate statistics): методглавных компонент (PCA) на основе матриц ковариации и корреляции, многомерноешкалирование (MDS), иерархическая кластеризация.

Метод главных компонент имногомерное шкалирование являются методами снижения размерности, то есть позволяютотобразить пространство из множества признаков таким образом, чтобы при переносе надвумерную плоскость расстояния между точками максимально достоверно отображалиисходные расстояния между объектами в исходном многомерном признаковомпространстве. Метод иерархической кластеризации позволяет сгруппировать множествообъектов в набор кластеров (подмножеств) по общему сходству признаков. Группировкапроизводится на основе матрицы сходства между объектами; например, если объектхарактеризуется как вектор в некотором многомерном пространстве, матрица сходстваможет хранить евклидовы расстояния между всеми парами объектов.2.1.1 Подбор количественных параметров для стилеметрииОграничением метода Delta и аналогичных количественных подходов являетсячувствительность к размеру текста.

Анализ источников показывает, что стилеметрия невыработала универсального критерия определения минимального объема, который должениметь текст для включения в исследование. В [Burrows, 2002] показано, как успешностьопределения автора при помощи Delta падает с сокращением длины произведения. На55текстах, содержащих свыше 2000 словоупотреблений, Delta показывала точность до 95%,при этом в 100% случаев верный автор оказывался в числе 5 наиболее вероятныхкандидатов; в корпусе текстов, содержащих менее 500 словоупотреблений, точность падаладо 25-27%, настоящий автор оказывался в первой пятерке наиболее вероятных лишь в 67%случаев.

В итоге автор предлагает порог в 1500 слов как минимум для стилеметрическогоанализа. Во многих последующих исследованиях в качестве порога принят объем в 1000слов [Juola, Baayen, 2005], [Jockers et. al, 2008]. Руководствуясь ими, мы такжеограничиваемся в данной главе анализом тех персонажей, чей совокупный объемпроизнесенной прямой речи превышает 1000 словоупотреблений. Подсчет показывает, чтотаких персонажей 16: Андрей Болконский, Пьер Безухов, Наташа Ростова, Николай Ростов,Марья Болконская, Василий Курагин, старый князь Николай Болконский, Денисов,Наполеон, граф Илья Ростов, Кутузов, графиня Наталья Ростова, Долохов, А.

М. Друбецкая,А. П. Шерер, капитан Рамбаль. Наполеон был исключен нами из списка исследуемыхперсонажей по двум причинам. Во-первых, его речь в значительной мере представлена нафранцузском языке, а во-вторых, как показал В. Б. Шкловский в [Шкловский, 1928: c. 142,170], Л. Н. Толстой во многих случаях заимствовал её целиком из различных историческихисточников, которыми пользовался при написании «Войны и мира». Таким образом,речевой портрет Наполеона является произведением Л.

Н. Толстого в меньшей степени,чем остальные персонажи, но представляет собой частичную компиляцию. Речь Рамбаля,целиком написанная по-французски, также была исключена. В результате объектомисследования стали 14 оставшихся персонажей.Второй вопрос, который необходимо было решить, касался длины списка наиболеечастотных слов, который следовало использовать для анализа. В первой работе сприменением Delta использовалось от 40 до 150 наиболее частотных слов [Burrows, 2002].В позднейших работах показано, что для больших произведений лучшие результаты сточки зрения корректного определения авторства дают показатели в 300-800 слов, однакоуниверсального числа не существует: оптимальные параметры оказываются разными наразных корпусах.

В связи с этим в рамках диссертационного исследования был проведенпредварительный эксперимент с целью определить оптимальную длину списка дляматериала нашего исследования, то есть непосредственно для 14 документов, содержащихвсе реплики исследуемых в данной главе персонажей.Эксперимент был принципиально схож с опытами по атрибуции авторства.

Речь,принадлежащая одному персонажу, рассматривалась как аналог корпуса произведенийодного автора. При помощи модуля генерации случайных чисел random в языке Pythonреплики каждого персонажа были случайным образом разделены на две сопоставимые поразмеру коллекции — обучающую и тестовую. Далее при помощи функции classify56программного пакета stylo (описан выше) производилась классификация документов втестовой коллекции с использованием списка слов различной длины (от 10 до 150 наиболеечастотных слов). Результаты эксперимента представлены на графике на рис.

9:Рис. 9. Результаты эксперимента по определению авторства для набора реплик 14персонажей со списками частотных слов различной длиныКак видно из рис. 9, наиболее успешная классификация была осуществлена на основе 130наиболее частотных слов. В дальнейшем список из 130 наиболее частотных словиспользовался для построения системы персонажей «Войны и мира» при помощистилеметрии.Немаловажным побочным итогом эксперимента стали общие высокие показателиклассификации. Суммарно за 15 итераций (от 10 до 150 слов с шагом 10 слов) Deltaкорректно определила автора реплик в тестовой выборке в 151 из 210 случаев, чтосоставляет 71,9%. Для задачи 14-классовой классификации, где случайный результат былбы на уровне 7%, такое качество определения автора может считаться высоким.Визуализироватьвысокуюточностьклассификацииречиперсонажейпозволяетиерархическая кластеризация.

Характеристики

Тип файла

PDF-файл

Размер

12,61 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

semanticheskaja-razmetka-hudozhestvennyh-tekstov-dlja-kolichestvennyh-issledovanij-v-filologii-na-primere-romana-vojna-i-mir-l.n.-tolstogo.rar

Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н

Summary_Скоринкин_14.12.2018.pdf

Диссертация.pdf

Описание.txt

Резюме_Скоринкин_14.12.2018.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.