Диссертация (1137487), страница 10
Текст из файла (страница 10)
Здесь связимежду персонажами также извлечены на основе совместного появления персонажей водном предложении (с дополнительной опорой на синтаксические деревья зависимостей).Между героями устанавливалась связь, если они образуют пару «субъект-объект» под34одной вершиной либо являются конъюнктами. Кроме того, учитывались семантическиеклассы глаголов-вершин. Помимо персонажей, узлами сети становились и связанные сними топонимы (Египет, Нил, Синай, Красное море). Для оценки качества извлечения сетибыла создана ручная разметка взаимодействий между героями Пятикнижия, а также явныхуказаний на их родство между собой.
Тем не менее работа [Lee, Yeung, 2012] посвящена впервую очередь техническим аспектам извлечения и оценки качества извлеченной сети, вней лишь поверхностно затронуты вопросы анализа системы персонажей. Разметка поитогам работы не публиковалась.То же можно сказать и о работе [Bodrova, Bocharov, 2014], в которой, по-видимому, впервыеосуществлен сетевой анализ литературы на русском материале.
Для извлечения сетейперсонажей использовались лексико-синтаксические шаблоны. Протестировав свой методна текстах разных типов, авторы пришли к выводу, что подход лучше работает на большихпроизведениях, поскольку там больше вероятность эксплицитного выражения отношениймежду персонажами, а также на текстах более схематичных жанров (сказки, мифы).Разметка по итогам работы не публиковалась.В [Ardanuy, Sporleder, 2014] авторы использовали сетевые структуры, выделенные изроманов, для эксперимента по автоматическому определению жанра, а также длядемонстрации структурных различий между романами разных типов. Здесь, как и в [Elsonet al., 2010], в качестве теоретического обоснования сетевого анализа используются идеиМ. М.
Бахтина о хронотопе как единстве временного и пространственного измерений.Выражением такого единства и выступает, по мнению авторов [Ardanuy, Sporleder, 2014],сеть взаимодействия персонажей романа. Помимо статических сетей, охватывающихпроизведения целиком, здесь анализировались динамические сети, соответствующиеотдельным частям и главам.
В работе показано, как структурные свойства сети ицентральности конкретных узлов-персонажей могут отражать особенности системыперсонажей конкретного произведения. Так, сеть для романа Уильяма Теккерея «ЯрмаркаТщеславия» (имеющего подзаголовок «Роман без героя») демонстрирует отсутствие ярковыраженного единственного протагониста — в ней есть четыре сопоставимых поцентральности узла: Ребекка, Эмилия, Джордж и Родон; в то же время в сети персонажейромана Джейн Остин «Гордость и предубеждение» есть однозначный наиболеецентральный узел — главная героиня Элизабет Беннет, а вторым по центральностиперсонажем является мистер Дарси, чьи отношения с Элизабет и составляют центральнуюсюжетную линию произведения.
В фантастическом романе Герберта Уэллса «Островдоктора Моро» выделяется строго один центральный персонаж — Эдвард, от чьего лица иведется повествование. Кроме того, в работе установлено, что методы выделениясообществ в графе позволяют вычленить значимые подгруппы персонажей, тесно35связанных между собой: в сети романа «Гордость и предубеждение» это семья Беннет, кругмистера Бингли и др. Авторы также указали на проблемы использования статических сетейдля больших произведений, события которых имеют протяженность во времени ипространстве.
В таких случаях далекие друг от друга персонажи могут оказаться тесносвязаны, и для выделения более осмысленных групп предлагается использоватьдинамические сети.Метод извлечения сетей из текста описан в работе [Ardanuy, Sporleder, 2014] достаточноподробно. Авторы использовали готовый инструмент извлечения именованных сущностейдля английского языка StanfordNER, дополнив его собственной правиловой логикой дляобъединения упоминаний персонажей в кореферентные цепочки. Сети строились на основесовместных упоминаний персонажей — авторы особенно отметили, что в романахзначительная часть взаимодействия может описываться «вне диалога». В работе [Ardanuy,Sporleder, 2014] приведена оценка качества полученного выделения и идентификацииперсонажей (показатели точности, полноты и F-меры), однако разметка по итогам работыне публиковалась.В [Lee, Wong, 2016] сети извлекались из текстов Китайского буддистского канона,снабженных синтаксической разметкой.
Основанием для связи персонажей было речевоевзаимодействие, т.е. реплика от одного персонажа к другому. Связи направленные, чтопозволяет измерять входящие и исходящие степени и центральности узлов. По исходящимметрикам наиболее весомым узлом оказался Будда, который в каноне обращается к 95 из100 других персонажей. Разметка по итогам работы не публиковалась.В [Grayson et al., 2016] была предпринята попытка оптимизировать параметрыавтоматического построения сети на основе совместной встречаемости персонажей вроманах Джейн Остин и Чарльза Диккенса.
Несмотря на технический фокус работы, в нейсодержится и раздел с литературной интерпретацией: показано, как сеть выявляетаристократический, а не буржуазный характер сообществ, описываемых Остин (чтоподтверждает выводы современных исследователей творчества Остин [Hume, 2013]); каксетевой анализ высвечивает «побочные» сюжеты, которым обычно не уделяется вниманияпри исследовании романов.
Разметка по итогам работы не публиковалась.Серия публикаций [Trilcke et al., 2015], [Trilcke et al., 2016], [Fischer et al., 2017 b], [Fischeret al., 2018], подготовленная группой немецких исследователей, посвящена масштабномуисследованию сетей персонажей в корпусе немецкой драмы из 465 пьес, снабженномсемантической разметкой в TEI/XML и опубликованном в открытом доступе. Эти работыпредставляют собой наиболее успешное и продуктивное совмещение идей сетевыхисследований персонажей — с задачами и проблемами литературоведения, в частности, сизучением эволюции драмы. Работы [Trilcke et al., 2016] и [Fischer et al., 2017 b],36отталкиваясь от традиционных классификаций драматических текстов, предлагают сетевыеметрики для разделения пьес на группы по характеру взаимодействия между персонажами.В [Fischer et al., 2018] с помощью методов сетевого анализа осуществляется количественноеисследование протагонизма. В работах сочетается масштабный охват материала (465 пьес),строгая методология и наличие изначально определенных филологических задач; такоесочетание становится возможным только благодаря наличию корпуса с семантическойразметкой текстов в формате TEI/XML.Итак, мы рассмотрели работы, посвященные сетевому анализу взаимодействия персонажейв художественных произведениях.
Сеть, отражающая отношения персонажей в статике(одна на все произведения) или в динамике (несколько сетей, построенных по частямпроизведений и отражающих эволюцию отношений), предоставляет мощные инструментыдля формализации структуры произведения в целом. Центральность персонажей, плотностьсети, кластеризация сообществ являются не умозрительными заключениями, новычисляемыми параметрами, благодаря которым могут сравниваться разные тексты, илиже части одного большого текста.Важным вопросом, как уже говорилось выше, становится вопрос о принципах и качестверазметки отношений персонажей — тех данных, которые в дальнейшем ложатся в основусетевого анализа. Как показывает анализ работ, типичной практикой сегодня являетсяполучение структурированных данных о связях между персонажами напрямую из текста.Эта процедура сама по себе является сложной задачей, и исследования, выполненные такимобразом, оказываются трудновоспроизводимыми.
Воспроизводимые исследования спубликацией разметки осуществляются преимущественно на материале драмы, так как ееразметку легче автоматизировать.В нашей работе мы попытались сделать шаг в сторону повышения воспроизводимостимоделирования персонажей в прозе. В следующем разделе главы 1 представлено описаниесемантической разметки книги «Война и мир», выполненной в рамках этогодиссертационного исследования. Создание такой разметки является подготовительнымэтапом проведенного исследования, однако описание принципов выполненной разметкипредставляется достаточно важным для включения этого раздела в первую теоретическуюглаву диссертации.1.3 Моделирование персонажей при помощи TEI-разметкиВ разделе 1.2 мы показали, что современные работы по моделированию систем персонажейопираются на выделение конкретных элементов художественного текста (абзацев,предложений, именных групп и т.п.) — тех элементов, в которых как-либо проявленыдействующие лица произведения.
Выделяются непосредственно упоминания персонажей,их реплики ([DeForest, Johnson, 2001], [Hoover, 2014], [Fischer et al., 2018]), действия и37события с их участием ([Lee, Yeung, 2012], [Agarwal, 2013], [Chaturvedi et al., 2015]). Затемна основе этих данных производится анализ с применением количественных методов.С увеличением числа таких исследований все более актуальным становится вопроспубликации разметки элементов текста, на которые опирался анализ. Во-первых,выделение в художественном тексте упоминаний персонажей, их реплик и действий —сложная задача, возможности автоматизации которой ограничены, и потому самирезультаты такого структурирования текста уже представляют ценность как научныйматериал. Даже выполненная не идеально, такая разметка может быть использованапотворно, доработана, обогащена другими исследователями.
Во-вторых, публикацияисходных данных делает работу верифицируемой и воспроизводимой.Как было показано выше, ряд удачных исследований последних лет были произведены сопорой на разметку в формате TEI/XML. Международный стандарт TEI представляет собойязык структурированной разметки на основе XML (изначально — SGML), созданный в1987 году специально для кодирования текстов в гуманитарных науках. В последние годыстандарт приблизился к тому, чтобы стать действительно глобальным: на основе TEIсозданы десятки филологических и исторических цифровых коллекций на разных языках(см.
обзор в [Скоринкин, 2016]), в этом формате хранятся большие глубоко аннотированныекорпуса художественных текстов, такие как корпус Фолджеровской библиотеки Шекспира[Mowat et al., 2018], а также корпуса, созданные специально для исследования системыперсонажей [Mueller, 2014], [Fischer et al., 2017 b]. TEI предлагает инструменты дляразметки самых разных параметров текста: выходных данных, сведений об авторе,обстоятельствах публикации и источнике, лингвистической разметки, физических свойстврукописи. Среди прочего, TEI содержит и конвенции по семантической разметке текста: встандарте есть специальные теги для упоминаемых в тексте имен людей, топонимов иорганизаций, для формального выделения прямой и непрямой речи, для разметки дат.В ходе диссертационного исследования была подготовлена семантическая разметка текстакниги «Война и мир» в формате TEI.