Диссертация (1137487), страница 8
Текст из файла (страница 8)
Авторы исходили из предпосылки, согласно которой индивидуальный стиль речиперсонажей раскрывает «образование, социальный класс, интеллект, гендер и психическоесостояние». В качестве одного из дифференцирующих признаков речи персонажейпредложено употребление латинизмов — как маркера социального класса, образования,начитанности.
В работе показано, как высокая доля латинизмов отделяет персонажейаристократов — от представителей других социальных классов, например, моряков.Употребление латинизмов оказывается связано и с гендером: так, в парах мужей и женболее высокой долей латинизмов обладает мужчина. Латинизмы в речи персонажей Остиноказываются маркерами начитанности, «учености» — но одновременно они же выступаютпоказателямиформальнойречи,высокомерногоаристократическогоснобизма,неискренности и обмана. Так, чрезвычайно латинизирована речь мистера Дарси в начале«Гордости и предубеждения». К концу романа, когда мистер Дарси женится на ЭлизабетБеннет, доля латинизмов в его речи падает на 9 процентных пунктов. Высока долялатинизмов в случаях, когда персонаж двуличен, неискренен, что-то скрывает.
Низкая долялатинизмов может указывать не на необразованность или происхождение, а на отказ отформальностей: в речи Элизабет Беннет процент латинских заимствований резко падает вситуации стресса, когда сестра Лидия сбегает с Уикхемом. В выводах авторы указали, чтохотя обнаруженные закономерности интересны, «компьютер не заменил чтения» —высокая доля латинизмов может означать серьезность или лицемерие, образованность илиснобизм; низкая — наивность и глупость или искренность. Показатели латинизации речиперсонажа «приобретают значение только в соединении с суждением человека» [DeForest,Johnson, 2001]. Таким образом, работа продемонстрировала ограничения компьютерногоанализа художественных персонажей, в целом не преодоленные и сегодня.В этой работе также практически не обсуждалась разметка — авторы ограничилисьссылкой на другого исследователя, который предоставил данные. Указано также, чторазметка была переведена на язык SGML (предок языка структурированной разметкиXML).
Разметка не была опубликована и недоступна для других исследований.В духе описанного выше исследования [Burrows, 1987] сделана работа [Rybicki, 2006]. Вэтой работе исследовалась речь персонажей исторической трилогии Генрика Сенкевича. Вчастности, на основе статистики по наиболее частотным словам с применением методаDelta [Burrows, 2002] автору удалось выделить группу схоже говорящих персонажей,представляющих собой польскую шляхту и противопоставленных украинским казакам,27шведам, женским персонажам и др. Разметка в работе не обсуждалась в принципе,процедура предобработки текстов никак не пояснена.В [Hoover et al., 2014] исследовались наиболее характерные слова в речи героев пьесУильяма Шекспира. Такими словами считаются те лексемы, которые персонаж употребляетзначимо чаще, чем все остальные персонажи, то есть фактически используется стандартныйподход выделения ключевых слов в документе, являющемся частью некоторого корпуса.
Вчастности, в главе [Culpeper, 2014] показана относительно высокая частотностьупотребления Джульеттой союза «если» (‘if’), причем анализ этих употребленийпоказывает, что они действительно отражают озабоченность героини гипотетическимисобытиями в будущем.Предобработка и разметка в этом исследовании обсуждается более подробно.
Здесьописана реализованная для исследования система расстановки тегов, т.е. машиночитаемыхграниц для участков текста. Система опирается на конкретный список имен персонажей уШекспира и отделяет речь от самого имени и сценических ремарок. В драматическом текстетакой логики в общем случае оказывается достаточно для выделения и идентификациитекстов реплик. Размеченные тексты, использованные в исследовании, не опубликованы.В [Hoover, 2017] исследованы различия в репликах персонажей повести «СобакаБаскервилей». Реплики персонажей А. Конан-Дойла здесь использованы в первую очередькак материал для совершенствования методов стилеметрии в задачах разделения«микростилей»5 внутри одного произведения.
В работе показано, что речевые стилиперсонажей «Собака Баскервилей» достаточно надежно различимы при помощистатистического анализа. Разметка текста не опубликована и не обсуждалась — отмеченолишь, что «процесс извлечения и отделения речи персонажей — сложная и трудоемкаязадача». В работе приведена ссылка на разработанные автором исследования Excelтаблицы со встроенными макросами, которые позволяют «частично автоматизироватьпроцесс».
Однако в действительности указанный инструмент требует загрузки ужеразмеченного текста.Итак, мы рассмотрели немногие заметные работы, в которых свойства персонажеймоделировались с помощью количественного анализа их прямой речи. Рассмотренныеработы использовали для анализа стилеметрические подходы, т.е. сравнивали частотностьи дистрибуцию словоформ. В результате исследователям удалось выделить группыпохожих или же наоборот противопоставленных персонажей, а также выявить лексическиепласты, являющиеся значимыми характеристиками создаваемых речевых образов.Основной проблемой является выделение материала для анализа из основного текста, т.е.5Помимо собственно прямой речи персонажей, в [Hoover, 2017] исследуются и другие варианты микростиля— тексты с несколькими рассказчиками, эпистолярные произведения и др.28разграничение речи и нарратива.
Исследователи не публикуют разметку, что затрудняетвоспроизведение исследований. Создание разметки также практически не обсуждается —исключением является лишь работа, посвященная более простому в компьютернойобработке драматическому тексту.1.2.2 Компьютерное моделирование персонажей при помощи сетевого анализаНельзя утверждать, что моделирование персонажей в виде сети (графа) — достижениекомпьютерной эпохи. Графическое изображение связей (родственных, романтических,дружеских) между персонажами — один из традиционных вспомогательных инструментовчитателя при работе с произведениями крупных форм.
Такое представление позволяеткомпактно описать систему персонажей. На рис. 2 представлена сеть персонажей драмыА. С. Пушкина«БорисГодунов»,построеннаянамиавтоматическинаосновесемантической разметки текста в TEI/XML, опубликованной электронным корпусомрусской драмы [Скоринкин и др., 2018].Рис 2.
Сеть персонажей пьесы А. С. Пушкина «Борис Годунов»Сеть отражает присутствие в произведении двух антагонистических групп (самыхкрупных) — Димитрия Самозванца с его сторонниками, главным образом поляками, и царяБориса в окружении семьи и бояр. Третьей группой, ортогональной двум, оказываютсяперсонажи из народа и сам Народ как коллективный персонаж. Существенно, что этаструктура получена фактически без обращения к содержанию — ее мог бы построить набазе текста пьесы человек, не знающий русского языка, по чисто формальным признакам.С этим связан и потенциал автоматизации сетевого анализа художественных текстов.29Важным преимуществом сетевого анализа художественного текста является возможностьопоры на математическую теорию графов.
В теории графов разработаны различныеметрики центральности элементов сети — для филолога они могут служить инструментомформальнойдифференциацииперсонажей.Конкретныеметрикицентральности,использованные в диссертации, описаны в разделе 3.1 главы 3. Также теория графовпредлагает метрики для оценки общих структурных особенностей сетей и готовыеалгоритмы выделения подгрупп (сообществ) внутри графов. Сетевой анализ даетвозможность представлять систему персонажей и их взаимодействий в структурированномвиде и при помощи инструментария теории графов раскрывать некоторые композиционныеособенности произведения.Анализ работ, посвященных сетевому анализу художественных произведений, позволяетпроследить эволюцию этого метода от технического эксперимента к полноценномуинструменту формального филологического исследования, произошедшую за последнюючетверть века.
Характерно, что одновременно складывается и стандарт работы с данными,включающий в себя прежде всего обоснование метода выделения отношений междуперсонажами и публикацию размеченных данных, позволяющих воспроизвести сеть.Изначально в работах по сетевому анализу в художественных текстах не ставилось задачифилологической интерпретации свойств и системы персонажей.
Как правило, авторамитаких работ выступали представители технических (инженерных) и социальныхдисциплин. Целью таких исследований была либо отработка техники извлечения графаперсонажей (на этом этапе работа заканчивалась), либо формальное сопоставлениелитературной сети с сетями реального мира по критериям из области социологии иантропологии. Для таких работ было свойственно разрывать связь сети с исходнымхудожественным материалом. В частности, не осуществлялась и не публиковалась разметкатекста, в лучшем случае выкладывался в открытый доступ полученный граф вмашиночитаемом формате. Позже стали появляться исследования другого типа, в которыхставилисьфилологическиезадачи:исследоватьэволюциюжанра,попытатьсяформализовать определение главного героя с опорой на сетевую модель и количественныеметоды, создать типологию персонажей. Часть таких работ последних лет опирается насемантическую разметку художественного текста.
Однако, как и в случае с исследованияречи персонажей, разметке производится для драматических текстов, но не для прозы.Первый известный нам опыт компьютерного моделирования и анализа системыхудожественных персонажей в виде графа осуществлен выдающимся теоретикомпрограммирования Дональдом Кнутом. В 1993 году Кнут опубликовал книгу Stanford30GraphBase6 [Knuth, 1993], где в числе прочего привел 5 графов, построенных на основелитературных произведений – «Илиады» Гомера, «Анны Карениной» Л. Н. Толстого,«Дэвида Копперфилда» Чарльза Диккенса, «Гекельберри Финна» Марка Твена и«Отверженных» Виктора Гюго.
Никакого собственно литературоведческого анализа Кнутне проводил: графы были нужны как материал для демонстрации программистских задач.Тем не менее автор опирался на предположение о том, что в построенных сетях «отраженсюжет произведений» [Knuth, 1993], и демонстрировал, как стандартные метрикицентральности узлов в графе позволяют выделить ядро основных персонажей.Построенные в ходе работы сети доступны исследователям до сих пор и пользуютсяпопулярностью в качестве практического и демонстрационного материала для сетевогоанализа.