Диссертация (1137487), страница 14
Текст из файла (страница 14)
Однако интерпретация результатов стилеметрического анализабывает затруднительной, особенно когда речь не идет о контролируемых экспериментах сопределением авторства. Не всегда можно объяснить, какое значение имеют численновыраженные расстояния между текстами, получаемые при помощи стилеметрии. В связи сэтим в качестве альтернативы мы применяем собственный метод количественного анализапрямой речи персонажей, принципиально отличный от стилеметрии: он не зависитнапрямую от лексического состава текста, и позволяет оценить манеру говорения в отрывеот содержания реплик (которое в стилеметрии неизбежно оказывает влияние, особенно вкоротких текстах).2.1.2. Метод комплексной оценки нелексических параметров прямой речиВ предлагаемом нами подходе признаками речи персонажа становятся не частотностинаиболее часто употребляемых слов, а набор нелексических характеристик.
Этихарактеристики подобраны с целью формализовать различия между героями в их манереговорить: сложно — или просто, с обильными восклицаниями — или спокойно, прерывистои резко — или гладко, «по-письменному». При чтении «Войны и мира» можно заметить,что стили речи персонажей различны по своей экспрессии, непосредственности,темпераменту. Например, чрезвычайно жива и непосредственна речь Ростовых, вособенности Наташи, Пети и графа Ильи Андреевича:1) Соня! что ты?..
Что, что с тобой? У-у-у!.. [Толстой, 1979: c. 85]2) Сейчас, сейчас, не ходи, папа! [Толстой, 1980 (a): c. 205]3) Ничего, маменька, право, ничего, так [Толстой, 1980 (a): c. 290]4) Что? Кому?.. Шутишь! [Толстой, 1980 (a): c. 65]5) Николушка... письмо... ранен... бы...
был... ma chère... ранен... голубчик мой...графинюшка... в офицеры произведен... слава богу... Графинюшке как сказать?..[Толстой, 1979: c. 298]6) Пе... Петя... Поди, поди, она... она... зовет.. [Толстой, 1981: c. 186]7) Я, я... я поеду с вами! [Толстой, 1981: c. 150]8) Видела? Видела? Что видела? [Толстой, 1980 (a): c. 300]Эта речь отчетливо звучащая, в ней много живой эмоции текущего момента (о «жизнитолько в настоящем» как идеологии семьи Ростовых см. [Clay, 1998: с. 43]).
Такие репликиразительно отличаются, например, от речи князя Василия, напоминающей стиль вежливогописьма:539) Я думаю,— сказал князь, улыбаясь,— что, ежели бы вас послали вместо нашегомилого Винценгероде, вы бы взяли приступом согласие прусского короля. Вытак красноречивы. Вы дадите мне чаю? [Толстой, 1979: c. 10]10) Я спрашиваю у тебя, когда ты получил письмо от Болконского,— повторяеттретий раз князь Василий.— Как ты рассеян, мой милый.
[Толстой, 1979: c. 267]11) Ежели бы знали, что вы этого хотите, праздник бы отменили,— сказал князь, попривычке, как заведенные часы, говоря вещи, которым он и не хотел, чтобыверили. [Толстой, 1979: c. 8]В этой речи нет того количества междометий и обрывов, как в речи Ростовых, затообращают на себя внимание избыточная синтаксическая полнота конструкций («яспрашиваю у тебя», «ежели бы вас послали… вы бы взяли», «вы не знаете, что вы делаете»)и обилие подчиненных предложений.
Характерно, что эта манера сложной устнописьменной речи не покидает князя Василия и в эмоциональные моменты:12) Помните, что вы будете отвечать за все последствия,— строго сказал князьВасилий,— вы не знаете, что вы делаете. [Толстой, 1979: c. 108]Опираясь на предложенную в диссертации разметку, мы можем перейти от интуитивногоанализа отдельных примеров к статистическому исследованию, охватывающему всю речькаждого исследуемого персонажа. Для статистического анализа речь каждого персонажабыла представлена в виде пяти количественных параметров (т.е.
пятимерного вектора):● Доля восклицательных реплик● Доля вопросительных реплик● Доля знаков препинания в репликах (отношение числа знаков препинания к числуслов)● Частотность дискурсивных маркеров (в первую очередь частиц и междометий)● Читабельность текста (readability), рассчитанная на основе 5 наиболее известныхметрик при помощи API сайта http://ru.readability.io/: индекс Флеша-Кинкэйда,индекс Колман-Лиау, метрика SMOG, Automatic Readability Index, формула ДэйлаЧэлла. Эти метрики опираются на среднюю длину слова (подсчет числа слогов) ипредложения в тексте.Указанные параметры не зависят ни от содержания (лексического состава7), ни от объемапрямой речи персонажа.
При этом их интерпретируемость представляется нам болеевысокой, чем интерпретируемость расстояний между текстами на основе метрики Delta.Долю восклицаний мы рассматриваем как наиболее очевидный показатель эмоциональнойокрашенности реплики (ср.
соображения В. В. Виноградова на эту тему в композиционном7Формула Дэйла-Чэлла предполагает использование словаря простых слов и измеряет ихсоотношение со сложными; однако она является лишь одно из пяти метрик.54анализе Жития протопопа Аввакума [Виноградов, 1980]). Доля знаков препинанияотражаетстепень«прерывистости»реплик,обилиявнихостановок,общейфрагментарности, свойственной живой и непосредственной устной речи.
Дискурсивныемаркеры также свойственны устной речи в большей мере, чем письменной. Метрикачитабельности отражает сложность текста для восприятия. В данном случае мыпредполагаем, что устная речь, подобная речи Ростовых в примерах 1–8 выше, окажетсяболее простой с точки зрения показателей читабельности, чем синтаксически усложненнаяречь, образцы которой представлены в примерах 9–12.2.1 Применение методов для моделирования системы персонажейВ этом разделе производится анализ системы персонажей «Войны и мира» при помощидвух методов, описанных в разделе 1 выше: стилеметрического и основанного нанелексических признаках прямой речи.
Речь каждого персонажа для исследования былаизвлечена из размеченного текста произведения и представлена в виде отдельногодокумента. Затем для каждого документа (т.е. для каждого персонажа) вычислялисьпоказатели Delta (т.е. создавалась таблица относительных частотностей слов) и наборнелексических параметров, приведенный в разделе 2.1.2 выше. Для анализа и визуализацииполученных таким образом показателей применялся единый набор стандартныхстатистических методов из области многомерного анализа (multivariate statistics): методглавных компонент (PCA) на основе матриц ковариации и корреляции, многомерноешкалирование (MDS), иерархическая кластеризация.
Метод главных компонент имногомерное шкалирование являются методами снижения размерности, то есть позволяютотобразить пространство из множества признаков таким образом, чтобы при переносе надвумерную плоскость расстояния между точками максимально достоверно отображалиисходные расстояния между объектами в исходном многомерном признаковомпространстве. Метод иерархической кластеризации позволяет сгруппировать множествообъектов в набор кластеров (подмножеств) по общему сходству признаков. Группировкапроизводится на основе матрицы сходства между объектами; например, если объектхарактеризуется как вектор в некотором многомерном пространстве, матрица сходстваможет хранить евклидовы расстояния между всеми парами объектов.2.1.1 Подбор количественных параметров для стилеметрииОграничением метода Delta и аналогичных количественных подходов являетсячувствительность к размеру текста.
Анализ источников показывает, что стилеметрия невыработала универсального критерия определения минимального объема, который должениметь текст для включения в исследование. В [Burrows, 2002] показано, как успешностьопределения автора при помощи Delta падает с сокращением длины произведения. На55текстах, содержащих свыше 2000 словоупотреблений, Delta показывала точность до 95%,при этом в 100% случаев верный автор оказывался в числе 5 наиболее вероятныхкандидатов; в корпусе текстов, содержащих менее 500 словоупотреблений, точность падаладо 25-27%, настоящий автор оказывался в первой пятерке наиболее вероятных лишь в 67%случаев.
В итоге автор предлагает порог в 1500 слов как минимум для стилеметрическогоанализа. Во многих последующих исследованиях в качестве порога принят объем в 1000слов [Juola, Baayen, 2005], [Jockers et. al, 2008]. Руководствуясь ими, мы такжеограничиваемся в данной главе анализом тех персонажей, чей совокупный объемпроизнесенной прямой речи превышает 1000 словоупотреблений. Подсчет показывает, чтотаких персонажей 16: Андрей Болконский, Пьер Безухов, Наташа Ростова, Николай Ростов,Марья Болконская, Василий Курагин, старый князь Николай Болконский, Денисов,Наполеон, граф Илья Ростов, Кутузов, графиня Наталья Ростова, Долохов, А.
М. Друбецкая,А. П. Шерер, капитан Рамбаль. Наполеон был исключен нами из списка исследуемыхперсонажей по двум причинам. Во-первых, его речь в значительной мере представлена нафранцузском языке, а во-вторых, как показал В. Б. Шкловский в [Шкловский, 1928: c. 142,170], Л. Н. Толстой во многих случаях заимствовал её целиком из различных историческихисточников, которыми пользовался при написании «Войны и мира». Таким образом,речевой портрет Наполеона является произведением Л.
Н. Толстого в меньшей степени,чем остальные персонажи, но представляет собой частичную компиляцию. Речь Рамбаля,целиком написанная по-французски, также была исключена. В результате объектомисследования стали 14 оставшихся персонажей.Второй вопрос, который необходимо было решить, касался длины списка наиболеечастотных слов, который следовало использовать для анализа. В первой работе сприменением Delta использовалось от 40 до 150 наиболее частотных слов [Burrows, 2002].В позднейших работах показано, что для больших произведений лучшие результаты сточки зрения корректного определения авторства дают показатели в 300-800 слов, однакоуниверсального числа не существует: оптимальные параметры оказываются разными наразных корпусах.
В связи с этим в рамках диссертационного исследования был проведенпредварительный эксперимент с целью определить оптимальную длину списка дляматериала нашего исследования, то есть непосредственно для 14 документов, содержащихвсе реплики исследуемых в данной главе персонажей.Эксперимент был принципиально схож с опытами по атрибуции авторства.
Речь,принадлежащая одному персонажу, рассматривалась как аналог корпуса произведенийодного автора. При помощи модуля генерации случайных чисел random в языке Pythonреплики каждого персонажа были случайным образом разделены на две сопоставимые поразмеру коллекции — обучающую и тестовую. Далее при помощи функции classify56программного пакета stylo (описан выше) производилась классификация документов втестовой коллекции с использованием списка слов различной длины (от 10 до 150 наиболеечастотных слов). Результаты эксперимента представлены на графике на рис.
9:Рис. 9. Результаты эксперимента по определению авторства для набора реплик 14персонажей со списками частотных слов различной длиныКак видно из рис. 9, наиболее успешная классификация была осуществлена на основе 130наиболее частотных слов. В дальнейшем список из 130 наиболее частотных словиспользовался для построения системы персонажей «Войны и мира» при помощистилеметрии.Немаловажным побочным итогом эксперимента стали общие высокие показателиклассификации. Суммарно за 15 итераций (от 10 до 150 слов с шагом 10 слов) Deltaкорректно определила автора реплик в тестовой выборке в 151 из 210 случаев, чтосоставляет 71,9%. Для задачи 14-классовой классификации, где случайный результат былбы на уровне 7%, такое качество определения автора может считаться высоким.Визуализироватьвысокуюточностьклассификацииречиперсонажейпозволяетиерархическая кластеризация.