Резюме_Скоринкин_14.12.2018 (Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого))
Описание файла
Файл "Резюме_Скоринкин_14.12.2018" внутри архива находится в папке "Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)". PDF-файл из архива "Семантическая разметка художественных текстов для количественных исследований в филологии (на примере романа Война и мир Л.Н. Толстого)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст из PDF
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГООБРАЗОВАНИЯ«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»»На правах рукописиСкоринкин Даниил АндреевичСЕМАНТИЧЕСКАЯ РАЗМЕТКА ХУДОЖЕСТВЕННЫХ ТЕКСТОВДЛЯ КОЛИЧЕСТВЕННЫХ ИССЛЕДОВАНИЙ В ФИЛОЛОГИИ (НАПРИМЕРЕ РОМАНА «ВОЙНА И МИР» Л. Н. ТОЛСТОГО)Резюмедиссертации на соискание ученой степеникандидата филологических наук НИУ ВШЭНаучный руководителькандидат филологических наукА. А. Бонч-ОсмоловскаяМосква 20181Общая характеристика исследованияАнализ художественных произведений с применением компьютерного моделирования иколичественных методов — актуальное направление современных филологическихисследований.
Растущая доступность текстов в цифровой форме и совершенствованиеметодов анализа текстовых данных открывают новые возможности для изучениялитературного наследия. Современные инструменты лингвистического анализа позволяютавтоматически извлекать не только грамматические, но и некоторые семантические ипрагматические свойства текста.Вместе с тем анализ современных работ в области количественного литературоведенияуказывает на наличие нерешенных проблем, которые тормозят развитие этогоперспективного направления.
В частности, большой сложностью остается извлечение изтекста чистых структурированных данных, необходимых для количественного анализа икомпьютерного моделирования. В данном случае можно говорить о том, что разныестороны художественного творчества имеют разную степень «доступности» длякомпьютерного моделирования и анализа. Так, некоторые аспекты стиля художественноготекста могут быть выражены через частотности слов, получение которых является сегоднятривиальной задачей. В связи с этим активно развивается компьютерная стилистика истилеметрия. В то же время автоматическое извлечение и масштабный количественныйанализ, например, сюжетных мотивов средствами современного автоматического анализатекстов, по-видимому, на сегодняшний день невозможны.Персонажхудожественногопроизведения занимаетнашкаледоступностидлякомпьютерного моделирования и анализа промежуточное положение.
С одной стороны,образ персонажа порождается вполне конкретной последовательностью упоминаний втексте, которую можно отграничить и проанализировать. Текстовые вхождения персонажамогут быть различными: варианты имени (Наташа, Натали, Наталья Ильинична), титулы игоноративы (графиня, сударыня), анафорические упоминания (она, он), обращения в речидругих персонажей (любезный, вы), ролевые и ситуативные характеристики (молодойчеловек, проезжающий, раненый) и др. Однако все эти вхождения имеют очевидныеграницы и конкретные лингвистические признаки (имя собственное, личное местоимение,гоноратив) — и поэтому оказываются доступными для выделения существующимисредствами компьютерной лингвистики.С другой стороны, точное извлечение из художественного текста всех упоминанийконкретного персонажа и связанных с ним признаков (прямой речи, совершаемыхдействий, взаимодействий с другими персонажами) является сложной задачей.
Проблемысвязаны с упомянутой выше вариативностью наименования персонажа, наличием2местоименной анафоры, сложностью автоматического определения авторства реплики.Характерно, что многие интересные и масштабные опыты по моделированию персонажейсегодня производятся на материале драматических текстов, где значительная частьуказанных проблем отсутствует — реплики, как правило, обозначены явно через имяперсонажа, анафора практически не используется.Решениемпроблемыхудожественныхпредставляетсятекстовспереходопоройнаканализусистемыпредварительноперсонажейподготовленнуюстандартизированную семантическую разметку.
Такая разметка позволяет хранитьдополнительный смысловой слой (например, все упоминания одного персонажа в видеодной цепочки вне зависимости от конкретного выражения в тексте, или все вхожденияпрямой речи персонажа) без отрыва от исходного текстового материала. Этот слой являетсямашиночитаемым, то есть может быть автоматически считан из документа программой ипереведен в однозначные структурированные данные (например, таблицу всех вхожденийпрямой речи с однозначной припиской каждой реплики к идентификатору произносящегоее персонажа).
Это позволяет производить количественный анализ системы персонажей безсложной предварительной подготовки данных. Однако сегодня, несмотря на появлениеработ, специально направленных на моделирование персонажа и системы персонажей,данные в большинстве случаев извлекаются напрямую из текста, с неизбежными при этомошибками, без возможности воспроизведения результата и уточнения разметки, аобсуждение разметки не производится.Диссертационное исследование посвящено созданию семантической разметки для книги«Война и мир» Л. Н. Толстого и апробации этой разметки для моделирования иколичественногоанализасистемыперсонажейпроизведения.Актуальностьдиссертационного исследования состоит в разработке инструментария автоматизированнойразметки с использованием современных методов компьютерной лингвистики идемонстрации его применения для количественного исследования.
В работе былапредпринята попытка преодолеть разрыв между возможностями средств автоматическогоанализаязыка—изадачамифилологическогоисследованияхудожественногопроизведения.Объектом исследования является текстовая репрезентация системы персонажей впрозаическом художественном произведении крупной формы. Предметом исследованиявыступают параметрические характеристики персонажей, извлекаемые из текста с опоройна семантическую разметку. Выбор объекта и предмета принципиально отличаетдиссертацию от упомянутых выше стилеметрических работ.
Выбирая в качестве объектасистемуперсонажей,мыстремилисьприложитькомпьютерно-лингвистические3инструментыканализуодногоизкомпонентовсодержанияхудожественногопроизведения, его сюжета, а не стиля.Целью диссертации была поставлена разработка и апробация метода анализа системыперсонажей художественного произведения с опорой на семантическую разметку текста.Для достижения указанной цели были решены следующие задачи:1. Исследованытеоретическиеаспектымоделированиясистемыперсонажейхудожественного произведения, произведен анализ существующих работ.2. Осуществлена автоматическая разметка упоминаний персонажей в тексте книги«Война и мир». Выделенные вхождения связаны в единые кореферентные цепочки,соответствующие одному конкретному персонажу, при помощи уникальногоидентификатора персонажа.3.
Осуществлена полуавтоматическая разметка прямой речи персонажей в текстекниги «Война и мир».4. На основе подготовленной разметки:a. Осуществленстатистическийанализпрямойречиперсонажейсиспользованием двух различных методов, произведено сравнение методов.b. Построены сети взаимодействия персонажей с использованием двухразличных методов, произведено сравнение методов.Новизна работы заключается, во-первых, в сравнении различных методов анализа наедином материале. Такой подход, будучи стандартным в лингвистике, до сих порпрактически не применялся в количественном литературоведении.
В частности, вдиссертации были сопоставлены два метода анализа прямой речи персонажей (на основелексического состава реплик и нелексических характеристик) и два метода сетевогоанализа (на основе диалоговых взаимодействий и совместной встречаемости в тексте). Вовторых, в адаптации методов современной компьютерной лингвистики (извлечениеименованных сущностей, разрешение анафоры, извлечение событий) к исследованиюхудожественного произведения на русском языке. В-третьих, в научный оборот введеныновые количественные характеристики персонажей (интенсивность взаимодействия,параметрические характеристики произносимых реплик).Теоретическая значимость диссертации состоит в сравнении различных методовколичественного анализа и моделирования системы персонажей художественногопроизведения на открытом доступном для других исследователей материале (семантическиразмеченном тексте книги «Война и мир»).
Результаты сравнения позволяют говорить отом, какие именно особенности и соотношения в системе персонажей высвечивает тот или4иной метод, и какие свойства он не фиксирует. Показаны ограничения ряда методов,которые ранее не учитывались или не проговаривались исследователями.На защиту выносятся следующие положения:1. Современные средства автоматической обработки текста могут использоваться дляизвлечения и структурирования значимой информации о системе персонажейхудожественного произведения в форме семантической разметки.2. Подготовленная разметка позволяет осуществлять анализ системы персонажей сприменением количественных методов (анализ частотностей, многофакторныйстатистический анализ, корреляционный анализ, сетевой анализ).3.