Диссертация (1137487), страница 3
Текст из файла (страница 3)
в разделе 1.2.2 главы 1 ниже). Однако такие работысосредоточены преимущественно на анализе пьес: структура драматического текстапозволяет гораздо проще извлекать из него однозначно идентифицируемые упоминанияперсонажей и факты их взаимодействия. Работы, в которых объектом исследованиястановятся прозаические тексты, часто не выходят за пределы решения задачи извлечениясети персонажей на основе текста и ее визуализации — поскольку эта задача также являетсясамостоятельной научной проблемой.8Преодолеть сложности, препятствующие развитию количественных исследованийперсонажа и системы персонажей, можно путем создания стандартизированноймашиночитаемой семантической разметки художественных текстов.
Такая разметкапозволяет хранить дополнительный смысловой слой (например, все упоминания одногоперсонажа в виде одной цепочки вне зависимости от конкретного выражения в тексте, иливсе вхождения прямой речи персонажа) без отрыва от исходного текстового материала.Этот слой является машиночитаемым, то есть может быть автоматически считан издокумента программой и переведен в однозначные структурированные данные (например,таблицу всех вхождений прямой речи с однозначной припиской каждой реплики кидентификаторупроизносящегоееперсонажа).Этопозволяетпроизводитьколичественный анализ системы персонажей без сложной предварительной подготовкиданных. Однако сегодня, несмотря на появление работ, специально направленных намоделирование персонажа и системы персонажей, данные в большинстве случаевизвлекаются напрямую из текста, с неизбежными при этом ошибками, без возможностивоспроизведения результата и уточнения разметки (работы-исключения специальноотмечены в разделах 1.2.1 и 1.2.2 главы 1), а обсуждение разметки не производится.Актуальность диссертационного исследования состоит в разработке инструментарияавтоматизированной разметки с использованием современных методов компьютернойлингвистики и демонстрации его применения для количественного исследования.
Данныйподход позволяет преодолеть описанный выше разрыв между возможностями средствавтоматическогохудожественногоанализаязыкаипроизведения.задачамифилологическогоСемантическаяисследованиямашиночитаемаяразметкахудожественного текста, предназначенная для количественных исследований системыперсонажей, предложена и осуществлена на примере книги Л. Н.
Толстого «Война и мир».Такимобразомпоказановозможноеиспользованиесовременныхинструментовкомпьютерной лингвистики и статистических методов анализа данных для исследованиясодержательных элементов художественного произведения.Объектом исследования, таким образом, является текстовая репрезентация системыперсонажей в прозаическом художественном произведении крупной формы. Предметомисследования выступают параметрические характеристики персонажей, извлекаемые изтекста с опорой на семантическую разметку.
Выбор объекта и предмета принципиальноотличает диссертацию от упомянутых выше стилеметрических работ. Выбирая в качествеобъекта систему персонажей, мы стремились приложить компьютерно-лингвистическиеинструментыканализуодногоизкомпонентовсодержанияхудожественногопроизведения, его сюжета, а не стиля.9Персонаж произведения — это, с одной стороны, сложно устроенный художественныйобраз, рукотворная модель личности, которая может быть как упрощенной (схематической,стереотипной), так и весьма сложной в своих художественных воплощениях.
В то же времядажесложныйхудожественныйобразпорождаетсявполнеконкретнойпоследовательностью упоминаний в тексте — ср. такое функциональное определениеЛ. Я. Гинзбург: «Литературный персонаж — это, в сущности, серия последовательныхпоявлений одного лица в пределах данного текста» [Гинзбург, 1979, с. 89]. Текстовыевхождения персонажа могут быть различными: варианты имени (Андрей, Андрюша,André), титулы и гоноративы (князь, сиятельство), анафорические упоминания (он, она),обращения в речи других персонажей (любезный, вы), ролевые и ситуативныехарактеристики (молодой человек, проезжающий, раненый) и др.
Однако принципиальноважно, что такие вхождения имеют явные границы и формализуемые лингвистическиепризнаки (имя собственное, личное местоимение, гоноратив) и поэтому оказываютсядоступными для разметки существующими средствами компьютерной лингвистики. Такимобразом,персонажоказываетсятемэлементомсодержанияхудожественногопроизведения, который сочетает в себе художественную сложность и глубину свозможностью автоматизированной разметки в тексте.В большом романе число вхождений одного персонажа может измеряться тысячами.«Персонаж исчезает, уступает место другим, с тем чтобы через несколько страниц опятьпоявиться и прибавить еще одно звено к наращиваемому единству. Повторяющиеся, болееили менее устойчивые признаки образуют свойства персонажа» [Гинзбург, 1979, с.
89]. Сточки зрения лингвистики текста каждое новое вхождение персонажа может бытьохарактеризовано рядом признаков, указывающих на специфику окружающего егоконтекста и грамматические (словоизменительные) свойства соответствующих лексем. Этооткрывает широкие возможности для количественного исследования персонажей.Целью диссертации была поставлена разработка и апробация метода анализа системыперсонажей художественного произведения с опорой на семантическую разметку текста.Для достижения указанной цели были решены следующие задачи:1.
Исследованытеоретическиеаспектымоделированиясистемыперсонажейхудожественного произведения, произведен анализ существующих работ.2. Осуществлена автоматическая разметка упоминаний персонажей в тексте «Войны имира». Выделенные вхождения связаны в единые кореферентные цепочки,соответствующие одному конкретному персонажу, при помощи уникальногоидентификатора персонажа.3. Осуществлена полуавтоматическая разметка прямой речи персонажей в тексте«Войны и мира».104. На основе подготовленной разметки:a. Осуществленстатистическийанализпрямойречиперсонажейсиспользованием двух различных методов, произведено сравнение методов.b. Построены сети взаимодействия персонажей с использованием двухразличных методов, произведено сравнение методов.Новизна работы заключается, во-первых, в сравнении различных методов анализа наедином материале.
Такой подход, будучи стандартным в лингвистике (например,[Panchenko et al., 2018], [Mohammad et al., 2018], [Zeman еt al., 2017]), до сих порпрактически не применялся в количественном литературоведении. В частности, вдиссертации были сопоставлены два метода анализа прямой речи персонажей (на основелексического состава реплик и нелексических характеристик) и два метода сетевогоанализа (на основе диалоговых взаимодействий и совместной встречаемости в тексте).
Вовторых, в адаптации методов современной компьютерной лингвистики (извлечениеименованных сущностей, разрешение анафоры, извлечение событий) к исследованиюхудожественного произведения на русском языке. В-третьих, в научный оборот введеныновые количественные характеристики персонажей (интенсивность взаимодействия,параметрические характеристики произносимых реплик).Выбор книги «Война и мир» в качестве материала для демонстрации предлагаемого вработе подхода объясняется, во-первых, объемом толстовского текста, который делает егоколичественное исследование осмысленным, во-вторых, вариантностью вхожденийкаждого персонажа в текст, сложностью системы персонажей и многообразием проявленийвзаимодействия ее элементов, в-третьих, общеизвестностью, которая превращаетпроизведение Л. Н.
Толстого в подходящий материал для демонстрации новых методов. Потой же причине в англоязычных исследованиях часто используется роман Джейн Остин«Гордость и предубеждение» — см. например [Burrows, 1987], [DeForest, Johnson, 2001][Ardanuy, Sporleder, 2014], [Vala et al., 2015]; ср. также пояснение формалистаВ. Б. Шкловского в статье «Искусство как прием»: «Прием остранения не специальнотолстовский. Я вел его описание на толстовском материале из соображений чистопрактических, просто потому, что материал этот всем известен». [Шкловский, 1929, c. 17]).Многие другие отечественные литературоведы в работах, затрагивающих общие вопросытеории литературы, приводили для демонстрации именно примеры из Л.
Н. Толстого.Кроме того, в целом роман XIX века является одним из хорошо исследованныхлитературных жанров, что позволяет использовать новые количественные методы какдополнительные инструменты проверки литературоведческих гипотез, высказанныхисследователями ранее.11Теоретическая значимость диссертации состоит в сравнении различных методовколичественного анализа и моделирования системы персонажей художественногопроизведения на открытом доступном для других исследователей материале (семантическиразмеченном тексте книги «Война и мир»).
Результаты сравнения позволяют говорить отом, какие именно особенности и соотношения в системе персонажей высвечивает тот илииной метод, и какие свойства он не фиксирует. Показаны ограничения ряда методов,которые ранее не учитывались или не обозначались исследователями (см. анализ работ вглаве 1).На защиту выносятся следующие положения:1. Современные средства автоматической обработки текста могут использоваться дляизвлечения и структурирования значимой информации о системе персонажейхудожественного произведения в форме семантической разметки.2.
Подготовленная разметка позволяет осуществлять анализ системы персонажей сприменением количественных методов (анализ частотностей, многофакторныйстатистический анализ, корреляционный анализ, сетевой анализ).3. Выбор конкретного метода анализа данных, получаемых из разметки, влияет на то,какие именно свойства системы персонажей будут отражены в полученной модели.Практическая значимость работы заключается, во-первых, в создании семантическойразметки текста книги «Война и мир». Разметка опубликована и доступна дляиспользования другими исследователями, в т.ч. за рубежом. Так как разметка сделана наоснове международного формата кодирования текстов TEI, она дает возможностьпроизводить подсчеты и манипуляции с семантическими элементами толстовского текста(персонажами, фактами речевой активности) даже без знания русского языка. Разметкасодержит идентифицированные упоминания персонажей, в том числе анафорические, иреплики прямой речи персонажей с однозначным указанием адресанта и адресата.
Вовторых, подготовленные визуализации сетевой структуры персонажей «Войны и мира» (см.главу 3) могут использоваться в педагогическом процессе. Так, материалы диссертациибыли использованы в рамках образовательной программы Лицея НИУ ВШЭ (2017/2018 уч.г.), в курсе по цифровым методам в гуманитарных науках в Университете Хельсинки (2018г.), в лекциях на школах Центра цифровых гуманитарных исследований НИУ ВШЭ (2016–2018 гг.).В рамках апробации результаты исследования были представлены на международных ироссийских конференциях:● Международная конференция молодых филологов в Тарту (Тарту, 26 апреля 2015).Доклад: Семантическая и структурная разметка собрания сочинений Л.Н.