Диссертация (1137487), страница 13
Текст из файла (страница 13)
Как показано в главе 1, многие исследователи рассматривалипрямую речь как важнейшее проявление художественного персонажа, в котором его/еехарактер выражается непосредственно, а «присутствие автора» минимально. Вместе с темпрямая речь оказывается подходящим объектом для количественного исследования: вклассическом (домодернистском) романе реплики героев не смешиваются с авторскимнарративом, у них практически всегда есть однозначные границы, позволяющиеосуществить разметку. Описанные в главе 1 исследования [Burrows, 1987], [DeForest,Jonson, 2001], [Rybicki, 2006], [Culpeper, 2014], [Hoover, 2017] показывают, что получаемыена основе такой разметки количественные характеристики прямой речи позволяютпостроить измеряемую геометрическую модель пространства персонажей (character space).Расстояния между персонажами в таких моделях оказываются не бессмысленны — взависимости от выбранных текстовых параметров речи (доля личных местоимений, доля49латинизмов/германизмов и т.д.) они отражают различные содержательные свойствасистемы персонажей.
Ограничением метода является объем прямой речи, однако в крупныхформах, таких как роман, количество реплик исчисляется тысячами. В результате именно вроманестановятсявозможнымиколичественныеподходыксистематизациихудожественных типов и характеров на основе объективных данных.В настоящей диссертации метод количественного анализа прямой речи применяется дляпостроения и исследования модели системы персонажей книги «Война и мир».
Главасостоит из трех разделов. В первом разделе описываются два метода анализа прямой речиперсонажей, примененные в диссертации. Во втором разделе производится анализ ипостроение системы персонажей с опорой на два описанных метода. В третьем разделеобсуждаются результаты анализа.2.1. Методы количественного анализа прямой речи персонажей2.1.1. Стилеметрический метод на основе частотностей словПервый метод, примененный для исследования речи персонажей, относится к методамстатистической атрибуции авторства.
Он был впервые детально описан в [Burrows, 2002]под названием Delta и с тех пор стал одним из стандартов в сфере атрибуции икомпьютерной стилистики. Метод Delta опирается на частотности отдельных слов, такжевозможно применять его к цепочкам (N-граммам) из нескольких слов или символовзаданной длины.
При использовании Delta каждый текст представляется в виде векторанормализованных частотностей слов или N-грамм. Таким образом все тексты становятсяточками в многомерном пространстве. Далее в этом пространстве вычисляется расстояниемежду векторами — для каждой пары текстов становится возможным измерить «близость»на основе распределения частотностей.За последние годы метод Delta доказал свою эффективность на материале разныхлитературных жанров, эпох и культур. Сам автор метода в [Burrows, 2002]продемонстрировал его возможности на корпусе текстов 25 английских поэтов эпохиРеставрации. Так, метод Delta смог безошибочно определить Джона Мильтона как автора«Потерянного рая», опираясь на прочие произведения того же поэта.
Затем Delta былаапробирована и на прозе, продемонстрировав высокое качество определения авторства накорпусе из 102 романов 59 американских и британских авторов [Hoover, 2004]. Помимотекстов на английском языке, метод Delta успешно применялся к древнеанглийскому(Garcia, Martin, 2007), средненидерландскому [Dalen-Oskam, Zundert, 2007], польскому[Eder, Rybicki, 2009], немецкому [Jannidis, Lauer, 2014]. В [Eder, 2011] осуществленсравнительный анализ качества определения авторства методом Delta на разных языках:английском, немецком, французском, латыни, польском и венгерском.
Авторы пришли к50выводу, что Delta демонстрирует лучшие показатели в языках с менее богатой морфологией(английский, немецкий), однако падение качества в языках с развитой морфологией(латынь, польский) не является значительным. В работе [Скоринкин, Бонч-Осмоловская,2016] были впервые опубликованы результаты апробации метода Delta на материалерусских художественных текстов.
Авторы осуществили эксперимент по определениюавторства сначала 4, а затем 8 русских романов второй половины XIX века, принадлежащихЛ. Н. Толстому, Ф. М. Достоевскому, И. С. Тургеневу. В первом эксперименте метод Deltaопределил авторство всех 4 текстов безошибочно, во втором – корректно атрибутировал 7из 8 романов.Для нашей работы особенно важно, что сфера применения метода Delta и другиханалогичных методов (основанных на сопоставлении векторов частотностей слов) неограничивается вопросами атрибуции. Экспериментально доказано, что на распределениечастотностей слов влияет не только авторство (так называемый «авторский сигнал» [Telloet al., 2017]), но и другие факторы [Rybicki, 2017]. Так, в корпусе произведений одногоавтора наиболее сильные различия могут обнаруживаться между текстами различныхжанров [Rybicki, 2017] или хронологических периодов [Stamou, 2008].
В связи с этим методв последние годы используют для различных задач компьютерной стилистики:исследования переводов (сравнения различных переводов одного текста [Rybicki, 2006],сопоставления перевода и оригинала [Hołobut et al., 2017]), диахронического анализаизменения стиля у одного автора [Reeve, 2018], авторского двуязычия [Nisioi, Dinu, 2013],исследования гендерных [Rybicki, 2016], жанровых [Schöch, 2013], [Al-Yahya, 2018] и иныхразличий.
Отдельную небольшую группу работ составляют исследования, где стилеметрияприменяется к речи отдельных персонажей, — эти работы ([Rybicki, 2006], [Hoover, 2017])уже были описаны в разделе 1.2.2 главы 1. Таким образом, стилеметрия можетрассматриваться как метод сравнительного анализа текста, подходящий для разных задачза пределами текстологии и стилистики, в том числе и для задач моделирования системыперсонажей.В качестве программной реализации метода Delta в работе используется библиотека stylo[Eder et al., 2016] для языка программирования R. Библиотека stylo позволяет осуществлятьстилеметрический анализ текстов с применением метода Delta, а также его дальнейшихвариантов и усовершенствований. Библиотека содержит четыре основные функции: stylo,classify, oppose и rolling delta.
В настоящем исследовании используются две функции —stylo и classify.Функция stylo осуществляет анализ стилистической близости текстов. Принимая на входнабор текстов (корпус), функция выдает в качестве результата количественные показателистилистической близости текстов друг к другу, вычисленные с применением выбранного51метода (помимо Delta и её модификаций доступны стандартные геометрические метрики:косинусная близость, евклидово расстояния, манхэттенское расстояние). Для наглядногографического представления результатов используются различные методы сниженияразмерности (метод главных компонент, многомерное шкалирование, стохастическоевложение соседей) и кластеризации (иерархический кластерный анализ, консенсусноефилогенетическое дерево).Также функция stylo может выдавать в качестве результата таблицу частотностей слов илисимвольных n-грамм в каждом тексте и список слов или символьных n-грамм,использованных при расчете стилистической близости.Функция classify предназначена непосредственно для экспериментов по определениюавторства или иных задач стилистической классификации текстов на основе обучающейвыборки.
На вход эта функция получает два набора текстов — обучающую и тестовуювыборки. Результатом работы функции classify становится классификация текстов изтестовой выборки на основе выбранной пользователем метрики близости.Процедура применения Delta для определения авторства текста выглядит так:1. Для всего тренировочного корпуса вычисляется N наиболее частотных слов;сохраняется частотность каждого.2.
Далее для каждого слова в каждом тексте в обеих выборках вычисляется zпоказатель (стандартный показатель, z-score) – отклонение частотностей для данноготекста от среднего по корпусу, измеряемое в количестве стандартных отклонений ивычисляемое по формуле=#$&'Где x — частотность для данного текста, µ — средняя частотность по корпусу, σ —стандартное отклонение.3. Z-показатели текстов из тестовой выборки сравниваются с z-показателямитренировочной4. обнаруживается текст из тренировочной, наиболее близкий классифицируемому.Его автор и объявляется автором классифицируемого текста.Из шага 4 следует, что определение авторства на основе Delta устроено так же, как алгоритмклассификации на основе метода k ближайших соседей.
Признаками в случае Deltaвыступают частотности слов. В зависимости от типа и размера текстов в Delta можетиспользоваться разное количество частотных слов, допустима фильтрация списка отнекоторых стоп-слов, к примеру, личных местоимений. При этом, поскольку сравниваютсяне частотности, а оценка их отклонения, каждое из N наиболее частотных слов вноситодинаковый по весу вклад в совокупную оценку.52Основная проблема стилеметрических подходов, основанных на сопоставлении векторовчастотностей слов, — неоднозначность результатов и сложность их содержательнойинтерпретации. Эксперименты подтверждают, что стилеметрия при наличии достаточногообъема данных способна отделить стиль одного автора от другого, выделить жанровыестилистические различия.