Диссертация (1137487), страница 17
Текст из файла (страница 17)
Даже вкрупном произведении вроде «Войны и мира» указанный метод невозможно применить дляисследования персонажей за пределами круга наиболее «разговорчивых» фигур. То жеограничение определяет статичность метода: объем прямой речи даже основныхперсонажей «Войны и мира» недостаточен для того, чтобы исследовать при помощистилеметрии динамику изменений в их речи на протяжении развития сюжета. В связи сэтим для дальнейшего исследования системы персонажей произведения были примененыдругие методы, описанию которых посвящена глава 3 настоящей диссертации.3 Моделирование системы персонажей с помощью сетевогоанализаВ третьей главе производится моделирование системы персонажей «Война и мир» припомощи сетевого анализа.
Глава состоит из трех разделов. В первом разделе описаныметоды построения и анализа сетей персонажей, примененные в диссертации. Во второмразделе оба метода применяются для моделирования системы персонажей «Войны имира». В третьем разделе обсуждаются результаты анализа, выявленные различия иограничения методов.3.1 Метод сетевого анализа системы персонажей3.1.1 Подходы к построению сетей персонажейАвтоматическое моделирование художественных текстов с помощью сетевого методастроится на извлечения из текста двух типов элементов: узловых элементов — слов илисловосочетаний, отсылающих к исследуемым объектам (персонажам), и ребер — текстовыхэлементов, выражающих связь узловых элементов между собой.
Таким образом, длямоделирования системы персонажей с помощью сетевого метода необходимо извлечь, вопервых, языковые выражения, указывающие на персонажей произведений, а во-вторых,признаки их связанности.Как было показано в главе 1, существует два основных метода (группы методов) выделенияпризнаков связанности персонажей между собой в тексте. Первый из них опирается напростое соседство имен и иных упоминаний персонажей в тексте (далее «методсоседства»).
Как правило, в методе соседства используется текстовое окно определенной71длины: связь между персонажами устанавливается, если они были упомянуты нарасстоянии N слов друг от друга (где N выбирается каждым исследователем произвольно,но обычно в пределах от 5 до 50). Количество таких совместных упоминаний учитываетсяпри помощи весов связей: каждое последующее сближение двух персонажей повышает вессвязи между ними. Усложненные варианты метода соседства могут опираться налингвистические признаки: границы предложений и клауз, синтаксические связи внутрипредложения и т.п.Второй метод моделирует коммуникацию между персонажами: сети строятся на основеобмена репликами в диалоге (далее — «диалоговый метод»).
Этот метод особеннопопулярен при анализе драмы, так как драматический текст состоит преимущественно изреплик персонажей. Однако для прозы этот метод выглядит ограниченным — см.,например, такое наблюдение Франко Моретти: «Сети созданы из вершин и ребер;сюжетные сети — из персонажей и их речей, обращенных друг к другу. В пьесах этоработает хорошо, так как слова являются делами, а дела почти всегда словами — поэтомув целом сеть речевых актов и есть сеть действий. В романах это не так, поскольку многоеиз того, что персонаж делает, не произносится, а рассказывается, и прямая речь покрываетлишь часть сюжета — и подчас очень небольшую. Это делает трансформацию сюжета всеть намного более неточной, но эта идея слишком заманчива, чтобы от нее отказываться»[Моретти, 2016, с: 310]. С другой стороны, результаты диалогового метода могут оказатьсяболее интерпретируемыми, т.к.
за связями здесь изначально стоит семантический признак,ситуация, а не формальное совместное упоминание, как в методе соседства.В диссертационном исследовании оба метода были применены для построения сетиперсонажей «Войны и мира». Ниже на материале этой книги показано различие методов исопоставлены две альтернативные модели системы персонажей.3.1.2 Методы измерения центральности персонажейВ сетевом анализе существует большое количество метрик, определяющих центральность(важность, значимость) узла на основе его положения в структуре сети — см. напримерглаву 5 в [Wasserman, 1994].
В зависимости от выбора метрики показатель центральностиможет иметь разные интерпретации. В нашей диссертации используются три известныеметрики центральности узла:1. взвешенная степень (weighted degree)2. центральность по посредничеству, также называемая нагрузкой (betweennesscentrality)3. центральность собственного вектора (eigenvector centrality).Каждая метрика имеет особенности и отображает различные свойства узлов.
Ниже мыопишем их подробнее.723.1.2.1 Взвешенная степеньВзвешенная степень — вариант наиболее простой метрики центральности, называемойпросто степенью узла. Степень узла рассчитывается как общее число связей (т.е. реберграфа), которые есть у данного узла. Например, на рис. 22 степень узла А равна трем, астепень остальных узлов — одному.Рис. 22. Пример графа. Степень узла A равна 3, степени остальных узлов равны 1.Взвешенная степень является вариантом степени для взвешенного графа.
Во взвешенномграфе каждой связи дополнительно приписан атрибут веса. Например, для сети,построенной диалоговым методом, весом связи между персонажами A и B выступает общеечисло реплик, которыми обменялись персонажи. В сети на основе метода соседства весомявляется число совместных упоминаний (соседств) двух персонажей.Взвешенная степень рассчитывается как сумма весов всех связей, которые есть у данногоузла. На рис. 23 представлен взвешенный граф с подписанными весами связей.
Степеньузла А равна трем, взвешенная степень — 12 (1 + 1 + 10).73Рис. 23. Пример взвешенного графа. Степень узла A равна 3, взвешенная степень узла Aравна 12.Таким образом, взвешенная степень является простейшим способом оценить общееколичество и интенсивность контактов узла в сети. Ограничением этой достаточнопримитивной метрики является то, что она учитывает лишь непосредственные контактыузла; при этом никак не учитывается его положение в сети в целом. К примеру, высочайшейстепенью может обладать периферийный в контексте всей сети узел, если вокруг негособралась плотная группа связанных с ним узлов.3.1.2.2 Центральность по посредничеству (нагрузка)Более сложной метрикой является центральность по посредничеству. Эта метрика служитдля того, чтобы обнаружить «связующие» узлы, наиболее важные для общей связностивсего графа.
Формально центральность по посредничеству для некоторого узла Aизмеряется так:1. Для каждой пары узлов в графе находятся все кратчайшие пути между ними (т.е. всеварианты перемещения по ребрам графа из одного узла в другой, использующиеминимальное число ребер)2. Для каждой пары узлов в графе рассчитывается доля кратчайших путей, проходящихчерез узел А3.
Доли кратчайших путей между каждой парой узлов, проходящих через узел А,суммируютсяНа рис. 24 узел А имеет наибольшую центральность по посредничеству, хотя повзвешенной степени его обходят узлы B, C и K:74Рис. 24. Пример взвешенного графа. Центральность по посредничеству узла A равна 48,центральность по посредничеству узлов B, C, K равна 30.3.1.2.3 Центральность собственного вектораЦентральность собственного вектора является удачным компромиссом между взвешеннойстепенью узла — и центральностью по посредничеству.
Как и взвешенная степень, этаметрика измеряет не промежуточность, а собственные связи узла. Однако при этомучитывается не только количество и вес связей, но и то, какое положение в сети занимаютузлы-соседи9.Таким образом, центральность собственного вектора лучше, чем взвешенная степень,учитывает положение узла во всей сети, а не только внутри его ближайшего окружения.Высокой центральностью собственного вектора обладает такой узел, который связан с9Широко известной разновидностью центральности собственного вектора является алгоритм PageRank,использованный создателями поисковой системы Google для ранжирования сайтов на основе гиперссылок.Именно учет значимости того, насколько «весомый» сайт ссылается на данную веб-страницу, позволилGoogle качественно сортировать поисковую выдачу и бороться с недобросовестной оптимизацией.75другими «центральными» узлами.
Например, на рис. 25 центральность собственноговектора узла А будет выше, чем узла B, хотя их взвешенные степени будут совпадать.Рис. 25. Пример взвешенного графа. Центральность собственного вектора узла A равна0,694, центральность собственного вектора узла B равна 0,447.Узел А получает большую центральность собственного вектора, чем узел B, так как связанс более весомым узлом С.
Обратим внимание, что это совпадает с интуитивным ощущениембольшей близости узла А к центру сети по сравнению с узлом B, который воспринимаетсякак более «периферийный».3.1.3 Методы выделения сообществ в сетяхПомимо анализа центральностей, графы позволяют исследовать структуру сети персонажейпри помощи алгоритмов выделения сообществ (алгоритмов кластеризации). Исследователив области социальных наук еще в середине XX века обнаружили, что формальная структурасетей хорошо воспроизводит структуру человеческих групп.