Диссертация (1137487), страница 18
Текст из файла (страница 18)
Так, антрополог Уэйн Зэкэрив [Zachary, 1977] показал, как, опираясь на граф контактов в небольшой социальной группе(клубе любителей каратэ), можно построить алгоритм, которые предсказывает границы, покоторым группа разделяется в случае конфликта и распада10. Эта работа положила началомногим исследованиям на тему разделения графа на подграфы (сообщества).10Автору исследования [Zachary, 1977] повезло: исследованная им группа действительнонеожиданно распалась из-за конфликта, что и дало возможность тестировать алгоритм,сравнивая его с действительной границей раскола76В основе большинства алгоритмов лежит предположение о том, что сообществахарактеризуются большим количеством внутренних связей, т.е. представляют собой болееплотные сгустки внутри сети. В диссертации применялся алгоритм извлечения сообществ,основанный на оптимизации модулярности [Blondel et al., 2008], реализованный впрограмме Gephi [Bastian et al., 2009].
Модулярность — мера от -1 до 1, основанная насоотношении количества и веса связей внутри некоторой группы узлов графа к количествуи весу связей, идущих к другим узлам. Применяемый алгоритм определяет такоеразделение графа, которое обеспечивает оптимальную модулярность всех сообществ.Таким образом делается попытка выделить тесно связанные группы узлов.3.2 Применение методов сетевого анализа для моделирования системыперсонажей «Войны и мира»Подготовленная в рамках диссертации семантическая разметка позволяет автоматическиполучать сети персонажей с использованием обоих методов построения сетей: методасоседства и диалогового метода.
Для метода соседства необходима разметка и однозначнаяидентификация упоминаний персонажей в тексте. Выполнение этой части разметкиописано в разделе 1.3.1 выше. Для диалогового метода требуется разметка реплик соднозначным указанием адресата и адресанта сообщения. Этот слой разметки описан вразделе 1.3.2 выше.На первом этапе исследования сети строились для всего произведения целиком. Былипостроены две взвешенные сети персонажей: на основе диалогового метода (далее — Дсеть) и на основе метода соседства (далее — С-сеть). Узлами Д-сети стали все персонажи,которые хотя бы однажды выступают адресатами или адресантами прямой речи.
Узлами Ссети — однозначно идентифицированные именованные персонажи, которые хотя бы развстретились в одном предложении с другим идентифицированным персонажем.3.2.1 Центральные персонажиПолные визуализации двух сетей представлены в приложении к диссертации. Обеполученные сети имеют слишком большой размер и детализацию для непосредственноговизуального анализа.
Поэтому далее на основе сетевых метрик центральности быловыделено и исследовано ядро каждой сети. На рис. 26 представлены два подграфа,выделенные из Д-сети и С-сети соответственно. Каждый из них представляет 10 наиболеецентральных персонажей сети по метрике центральности собственного вектора.77Рис. 26. Д-сеть (слева)11 и С-сеть (справа), 10 наиболее центральных персонажей пометрике центральности собственного вектора; размер узла пропорционаленцентральности собственного вектораИз рис. 26 видно, что Д-сеть отличается от С-сети по составу центральных персонажей.
Вядре Д-сети нет военно-исторических персонажей — Кутузова, Наполеона, Александра I;вместо них туда попали Василий Курагин, графиня Ростова и Денисов.Теперь сравним ядра двух сетей, полученные с использованием других метрикцентральности — взвешенной степени (рис. 27) и центральности по посредничеству (рис.28).Рис.
27. Д-сеть (слева) и С-сеть (справа), 10 наиболее центральных персонажей по метрикевзвешенной степени; размер узла пропорционален взвешенной степени11В Д-сети отображены стрелки, т.к. этот граф является направленным — отношения адресата и адресантанесимметричны, у связей есть направления78Рис. 28. Д-сеть (слева) и С-сеть (справа), 10 наиболее центральных персонажей по метрикецентральности по посредничеству; размер узла пропорционален центральности попосредничествуВидно, что здесь результаты также отличаются. В С-сети по-прежнему меньше женщин,более центральные положения занимают военно-исторические персонажи. Кутузовобладает в С-сети наивысшей центральностью по посредничеству из всех персонажей —через него связаны множество генералов, адъютантов, и одновременно с ним пересекаютсямногие мирные персонажи.Обнаружено также, что центральность по посредничеству в обеих сетях смещает фокус всторону военных персонажей — в Д-сети только с ней оказываются в числе 10 наиболеецентральных персонажей Наполеон и Кутузов.
Взвешенная степень, напротив, присваиваетвоенно-историческим персонажами меньший вес, в том числе и в С-сети.Центральностьсобственноговекторавданномслучаеоказываетсяудачнымпромежуточным вариантом — по ней военные персонажи не оказываются совсемпериферийными, но и не выходят на самый первый план. Как уже отмечалось в разделе3.1.2 выше, с формальной точки зрения центральность собственного вектора представляетсобой компромисс между степенью и центральностью по посредничеству.
Поэтому далее вработе при визуализации сетей персонажей размер узла по умолчанию изображенпропорциональнымцентральностисобственноговектора—какнаиболеесбалансированной из используемых метрик центральности. Центральность собственноговектора принята в работе как основная центральность при анализе сетей и сравненииположения персонажей в их структуре. При использовании иной метрики центральностиэто оговаривается явно.79Удобным способом обобщить центральности в сетях является использование обратныхранговых значений. В таблице 5 для каждой метрики центральности представлен переченьиз 10 персонажей с наиболее высокими показателями центральности.
Позиция 1 в первойколонке означает первое место по указанной центральности, ранг 2 — второе место и др.Таблица 5. 10 центральных персонажей по каждой метрике в двух сетях.Д-сетьС-сетьПозицияСобст.вектораВзвеш.степеньПосредничествоСобст.вектораВзвеш.степеньПосредничество1Пьер БезуховПьер БезуховПьерБезуховПьерБезуховПьер БезуховКутузов2НиколайРостовНаташаРостоваАндрейБолконскийАндрейБолконскийНаташаРостоваПьер Безухов3АндрейБолконскийНиколайРостовНиколайРостовАлександр IНиколайРостовАлександр I4НаташаРостоваАндрейБолконскийНаташаРостоваНиколайРостовАндрейБолконскийНаполеон5МарьяБолконскаяМарьяБолконскаяКутузовграф РостовМарьяБолконскаяАндрейБолконский6графиняРостоваграфиняРостоваДенисовНаташаРостоваСоня РостоваНиколай Ростов7БорисДрубецкойДенисовНаполеонБорисДрубецкойАлександр Iграф Ростов8ДенисовСоня РостоваДолоховМарьяБолконскаяКутузовстарый князьБолконский9граф Ростовстарый князьБолконскийМарьяБолконскаяКутузовДенисовНаташа Ростова10ВасилийКурагинДолоховграф РостовНаполеонБорисДрубецкойВасилийКурагинНа основе этих списков были рассчитаны обратные ранги персонажей в двух сетях.
Ранг 10означает первое место персонажа по соответствующей метрике центральности, ранг 9 —второе место и т.п. Показатели по всем трем сетям были суммированы. Таким образом длякаждого персонажа получен его совокупный ранг в каждой сети. Совокупные рангицентральных персонажей в двух сетях представлены в диаграмме на рис.
29.80Рис. 29. Обобщенные ранги персонажей в двух сетяхИз рис. 29 видны различия в общем распределении центральностей между персонажами,уже выявленные ранее при визуальном анализе. Наибольшие различия в положении в двухсетях имеют военно-исторические персонажи — Александр I, Кутузов, Наполеон (болеевысокие центральности в С-сети). В Д-сети по сравнению с С-сетью выше позиция НаташиРостовой, графини Ростовой, Николая, Денисова, Марьи, Долохова.3.2.2 СообществаНа следующем этапе была исследована структура сообществ в обеих сетях.
С применениемалгоритма оптимизации модулярности [Blondel et al., 2008] обе сети были разделены насообщества (кластеры) персонажей. В табличном виде результаты кластеризациипредставлены в приложении. На изображениях ниже автоматическое разделение насообщества маркировано цветами.Результаты разделения одним и тем же алгоритмом с одинаковыми настройками оказалисьразличны для Д-сети и С-сети. В Д-сети деление получается достаточно дробным, смножеством групп.
Почти все крупнейшие сообщества группируются вокруг одного изглавных персонажей (рис. 30):81Рис. 30. Выделение сообществ в сети персонажей «Войны и мира», построенной на основедиалоговых взаимодействий (сообщества отмечены цветами)В С-сети, напротив, выделяются четыре крупных сообщества. Самое крупное объединяетпрактически всю военную составляющую системы персонажей: здесь русское военноекомандование (ставка и адъютанты), включая Андрея Болконского, здесь же Наполеон,здесь же «простые» военные персонажи вроде Тушина и Тимохина.
Исключениесоставляют те военные персонажи, которые попали в зону притяжения семьи Ростовых:Денисов, Долохов. Николай Ростов также оказывается в С-сети частью ростовскогокластера.82Рис. 31. Выделение сообществ в С-сети (сети персонажей «Войны и мира» на основесовместной встречаемости)Преимущество Д-сети — более точное моделирование светской части структурысообществ. Так, в отдельный кластер в Д-сети выделяются Василий Курагин, А. П. Шерери А.
М. Друбецкая — таким образом, сеть диалогов отображает здесь ту же группировки,что была получена в главе 2 диссертации на основе речевых стилей.В целом результаты извлечения сообществ в обеих сетях показывают ограничения сетевогоанализа в произведениях такого масштаба, как «Война и мир». В [Moretti, 2011] ФранкоМоретти отмечает, что формализация «Гамлета» в виде сети «превращает время впространство» и радуется тому, что «четыре часа действия» теперь можно окинутьвзглядом на одной плоскости. Однако книга Л.
Н. Толстого отличается от пьесы Шекспирабольшей протяженностью, многократными сменами места и времени действия, наличием83нескольких сюжетных линий. Сжатие произведения такого масштаба в одну статичнуюсеть неизбежно приводит к наслоениям информации из разных временных отрезков.Примеры такого наслоения хорошо видны в Д-сети в сообществах, центрами которыхоказывается один из главных героев. Так, группа, вокруг князя Андрея (в центре на рис. 30),с одной стороны, объединяет всех представителей семьи Болконских и сгруппированныхвокруг нее обитателей Лысых Гор, родового имения Болконских, — здесь архитектор князя,горничные, слуги, акушерки.