Резюме_Скоринкин_14.12.2018 (1137489), страница 2
Текст из файла (страница 2)
Выбор конкретного метода анализа данных, получаемых из разметки, влияет на то,какие именно свойства системы персонажей будут отражены в полученной модели.Сети персонажей, построенные на основе диалогового взаимодействия, отличаютсяот тех, что были получены при помощи метода совместной встречаемости.Практическая значимость работы заключается, во-первых, в создании семантическойразметки книги «Война и мир». Разметка опубликована и доступна для использованиядругими исследователями, в т.ч.
за рубежом. Так как разметка сделана на основемеждународного формата кодирования текстов TEI, она дает возможность производитьподсчеты и манипуляции с семантическими элементами толстовского текста (персонажами,фактами речевой активности) даже без знания русского языка. Разметка содержитидентифицированные упоминания персонажей, в том числе анафорические, и репликипрямой речи персонажей с однозначным указанием адресанта и адресата. Во-вторых,подготовленные визуализации сетевой структуры персонажей могут использоваться впедагогическом процессе.
Материалы диссертации были использованы в рамкахобразовательной программы Лицея НИУ ВШЭ (2017/2018 уч. г.), в курсе по цифровымметодам в гуманитарных науках в Университете Хельсинки (2018 г.), в лекциях на школахЦентра цифровых гуманитарных исследований НИУ ВШЭ (2016–2018 гг.).Апробация работы: результаты исследования были представлены на международнойконференции молодых филологов в Тарту (Тарту, 26 апреля 2015 и 1 мая 2017),международной конференции Digital Humanities 2015 — Annual Conference of the Allianceof Digital Humanities Organizations (Сидней, 3 июля 2015), международной конференцииDigital Humanities 2016 — Annual Conference of the Alliance of Digital HumanitiesOrganizations (Краков, 13 июля 2016), международной конференции TEI Conference andMembers’ Meeting 2016 (Вена, 30 сентября 2016), международной конференции 6th AIUCDConference 2017 (Рим, 24 января 2017), международной конференции по компьютернойлингвистике и интеллектуальным технологиям «Диалог» (Москва, 30 мая 2015 и 1 июня52017г.),международнойнаучно-практическойконференции«Информационныетехнологии в гуманитарных науках» (Красноярск, 20 сентября 2017 г.), всероссийскойконференции «Естественнонаучные методы в цифровой гуманитарной среде» (Пермь, 17мая 2018 г.).
В рамках диссертационного исследования подготовлены 7 публикаций, в томчисле в изданиях, индексируемых Scopus/Web of Science — 2 публикации, в изданияхсписка ВАК (кроме Scopus/Web of Science) — 2 публикации.Работа включает в себя введение, 3 главы, заключение, библиографию и приложение.Основное содержание работыГлава 1 посвящена истории и теории построения модели персонажа художественногопроизведения, а также описанию модели разметки, осуществленной в работе. В первомразделе главы описываются подходы к анализу и формализации понятия персонажа,созданные в докомпьютерную эпоху. В этом разделе показано, что рассмотрениехудожественного персонажа как типового объекта с набором параметров (т.е. модели)возникло уже в античности — примерами являются «Поэтика» Аристотеля и «Характеры»Теофраста. У Горация как особенно важный параметр выделена речь персонажа и еесоответствие роли в произведении.
Нормативно-дидактические рекомендации античныхклассиков служили ориентиром для позднейших литературных течений, ориентированныхна античные образцы, в первую очередь для классицизма XVII–XVIII вв. В XIX векепараллельно со становлением теории литературы происходит постепенный переход отдидактизма к анализу техники и средств конструирования персонажа. В начале XX века ванализе художественного персонажа выделились два основных направления. Одно из них,которое можно условно обозначить как «формальное», рассматривало персонажа какнекоторый авторский прием или инструмент.
При этом отрицался психологизм персонажа.Персонаж рассматривался в утилитарном ключе, как средство группировки мотивов втексте.Дляформальнойшколыбылохарактернопониманиеперсонажакакнакапливающейся совокупности приемов, динамической переменной в тексте. Вдальнейшем эта идея была унаследована структурализмом, который редуцировалперсонажа до цепочки фрагментов текста.
Для Р. Барта персонаж — набор символов,объединенных именем, компактная переменная для хранения смыслов, цепочка фрагментовтекста. Хотя в дальнейшем структуралисты отошли от такого радикального пониманияперсонажа, их идеи оказались созвучны современным практикам компьютерныхисследований художественного произведения, где предполагается именно выделение втексте фрагментов на основе имени и исследование системы персонажей с опорой на эти6текстовые вхождения. Другие идеи структурализма и семиотической школы, которыеоказались актуальны для цифровых исследований литературы, — это актантные модели А.Ж. Греймаса и Ц. Тодорова, а также понимание персонажа как «пересечения структурныхфункций» с набором («парадигмой») дифференциальных признаков, предложенное Ю. М.Лотманом.Параллельно складывался альтернативный подход к анализу и построению моделиперсонажа.
В нем персонаж рассматривался как более или менее полноценная модельличности, созданная писателем и имеющая связь с личностью писателя. Так, в концепцииМ. М. Бахтина персонаж осознавался как полноценный мыслящий и нравственный субъект,носитель сознания, чувств, желаний. Также у Бахтина обнаруживается идея возникающей«автономности» персонажа. Позже с близких психологических позиций рассматривалиперсонажа многие советские литературоведы.Удачно соединить формалистские и структуралистские взгляды на героя как напоследовательность упоминаний с психологическими подходами удалось Л. Я. Гинзбург вработе «О литературном герое» [Гинзбург, 1979].
С одной стороны, Л. Я. Гинзбург —вполне в духе кумулятивных интерпретаций формалистов — определяла героя как «сериюпоследовательных явлений одного лица в пределах данного текста» [Гинзбург, 1979: c. 87].С другой стороны, понимание персонажа у Л. Я. Гинзбург не сводилось к формалистскойредукции: «литературный герой моделирует человека». С психологическими подходамиконцепцию Л. Я. Гинзбург также роднит внимание к прямой речи персонажей, ееиспользованию писателями как наиболее непосредственного приема психологическойхарактеристики персонажа.Второй раздел диссертации посвящен практикам компьютерного моделирования свойствперсонажей и системы персонажей. В этом разделе показано, как идеи докомпьютерноголитературоведения актуализируются в современных практиках компьютерного анализаперсонажа (системы персонажей).
В компьютерных исследованиях выделяются дваподхода: моделирование и анализ персонажей на основе лингвистических параметров ихпрямой речи и сетевой анализ.Работ, специально посвященных компьютерному моделированию системы персонажей,сравнительно мало. Их анализ показал, что для исследования прямой речи персонажейиспользуются стилеметрические подходы, т.е.
сравниваются частотность и дистрибуциясловоформ.Такойподходпозволяетвыделитьгруппыпохожихигруппыпротивопоставленных друг другу персонажей, а также выявить лексические пласты,являющиеся значимыми характеристиками создаваемых речевых образов. Основнойпроблемой является выделение материала для анализа из основного текста, т.е.7разграничение речи и нарратива. В большинстве случаев исследователи не публикуютразметку, что затрудняет воспроизведение исследований.
Создание разметки такжепрактически не обсуждается — исключением является лишь работа, посвященная болеепростым с точки зрения компьютерной обработки текстам драматических произведений.Сетевой анализ как способ компьютерного моделирования системы персонажей имеетсравнительно большее распространение. При этом анализ работ, посвященных сетевомуанализу художественных произведений, позволяет проследить эволюцию этого метода оттехнического эксперимента к полноценному инструменту формального филологическогоисследования.
Одновременно происходит формирование стандарта работы с данными:обоснование метода выделения отношения между персонажами и публикация данных ввиде разметки, которая дает возможность другим заинтересованным исследователямвоспроизвести построение сети и повторить анализ. В последние годы появляются работы,опирающиеся на стандартизированную семантическую разметку художественного текста.Однако, как и в случае с исследованием речи персонажей, разметке производится в первуюочередь для драматических текстов, тогда как для сетевого анализа прозаических текстовприменяются невоспроизводимые «одноразовые» эвристики.Третий раздел главы 1 описывает осуществленную в работе семантическую разметку текстакниги «Война и мир».
Разметка выполнена в соответствии с международным стандартоммашиночитаемой семантической и структурной разметки текстов TEI. Этот стандартшироко используется в гуманитарных исследованиях за рубежом, масштабно применяетсядля сохранения культурного наследия. Средствами TEI были размечены в машиночитаемомвиде два слоя текста, которые необходимы для моделирования системы персонажей припомощи предлагаемого нами метода: непосредственные наименования персонажей в тексте(в виде имен собственных, нарицательных именных групп, а также личных и возвратныхместоимений) и прямая речь персонажей. Для разметки применялась система извлеченияименованных сущностей из текста ABBYY Compreno, собранные вручную списки имен идополнительные эвристики.
По результатам проведенной оценки на случайной выборке из50 абзацев итоговая точность идентификации именованных персонажей составила 94%,итоговая полнота — 67%, итоговая F-мера (гармоническое среднее точности и полноты) —78,2%. Таким образом, в разметке есть неидентифицированные упоминания персонажей,но достаточно мало неверно идентифицированных упоминаний, что делает ее пригоднойдля дальнейшего исследования. Наличие пропущенных упоминаний, по нашимнаблюдениям, не критично, т.к. это, как правило, рядом с пропущенным находитсянесколько выявленных упоминаний того же героя.
Используемые в диссертации методы8количественного анализа в таком случае учитывали упоминание персонажа, и результат неискажался.Глава 2 посвящена исследованию системы персонажей «Войны и мира» черезколичественный анализ прямой речи с опорой на подготовленную семантическуюразметку. При этом использовались и сравнивались друг с другом два различных методаанализа прямой речи.Первый метод — Delta, [Burrows, 2002] — относится к методам стилеметрии,используемымдлястатистическойатрибуцииавторства.Методопираетсянараспределение частотностей наиболее частотных слов (лемм) в речи персонажей.