Резюме_Скоринкин_14.12.2018 (1137489)
Текст из файла
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГООБРАЗОВАНИЯ«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»»На правах рукописиСкоринкин Даниил АндреевичСЕМАНТИЧЕСКАЯ РАЗМЕТКА ХУДОЖЕСТВЕННЫХ ТЕКСТОВДЛЯ КОЛИЧЕСТВЕННЫХ ИССЛЕДОВАНИЙ В ФИЛОЛОГИИ (НАПРИМЕРЕ РОМАНА «ВОЙНА И МИР» Л. Н. ТОЛСТОГО)Резюмедиссертации на соискание ученой степеникандидата филологических наук НИУ ВШЭНаучный руководителькандидат филологических наукА. А. Бонч-ОсмоловскаяМосква 20181Общая характеристика исследованияАнализ художественных произведений с применением компьютерного моделирования иколичественных методов — актуальное направление современных филологическихисследований.
Растущая доступность текстов в цифровой форме и совершенствованиеметодов анализа текстовых данных открывают новые возможности для изучениялитературного наследия. Современные инструменты лингвистического анализа позволяютавтоматически извлекать не только грамматические, но и некоторые семантические ипрагматические свойства текста.Вместе с тем анализ современных работ в области количественного литературоведенияуказывает на наличие нерешенных проблем, которые тормозят развитие этогоперспективного направления.
В частности, большой сложностью остается извлечение изтекста чистых структурированных данных, необходимых для количественного анализа икомпьютерного моделирования. В данном случае можно говорить о том, что разныестороны художественного творчества имеют разную степень «доступности» длякомпьютерного моделирования и анализа. Так, некоторые аспекты стиля художественноготекста могут быть выражены через частотности слов, получение которых является сегоднятривиальной задачей. В связи с этим активно развивается компьютерная стилистика истилеметрия. В то же время автоматическое извлечение и масштабный количественныйанализ, например, сюжетных мотивов средствами современного автоматического анализатекстов, по-видимому, на сегодняшний день невозможны.Персонажхудожественногопроизведения занимаетнашкаледоступностидлякомпьютерного моделирования и анализа промежуточное положение.
С одной стороны,образ персонажа порождается вполне конкретной последовательностью упоминаний втексте, которую можно отграничить и проанализировать. Текстовые вхождения персонажамогут быть различными: варианты имени (Наташа, Натали, Наталья Ильинична), титулы игоноративы (графиня, сударыня), анафорические упоминания (она, он), обращения в речидругих персонажей (любезный, вы), ролевые и ситуативные характеристики (молодойчеловек, проезжающий, раненый) и др. Однако все эти вхождения имеют очевидныеграницы и конкретные лингвистические признаки (имя собственное, личное местоимение,гоноратив) — и поэтому оказываются доступными для выделения существующимисредствами компьютерной лингвистики.С другой стороны, точное извлечение из художественного текста всех упоминанийконкретного персонажа и связанных с ним признаков (прямой речи, совершаемыхдействий, взаимодействий с другими персонажами) является сложной задачей.
Проблемысвязаны с упомянутой выше вариативностью наименования персонажа, наличием2местоименной анафоры, сложностью автоматического определения авторства реплики.Характерно, что многие интересные и масштабные опыты по моделированию персонажейсегодня производятся на материале драматических текстов, где значительная частьуказанных проблем отсутствует — реплики, как правило, обозначены явно через имяперсонажа, анафора практически не используется.Решениемпроблемыхудожественныхпредставляетсятекстовспереходопоройнаканализусистемыпредварительноперсонажейподготовленнуюстандартизированную семантическую разметку.
Такая разметка позволяет хранитьдополнительный смысловой слой (например, все упоминания одного персонажа в видеодной цепочки вне зависимости от конкретного выражения в тексте, или все вхожденияпрямой речи персонажа) без отрыва от исходного текстового материала. Этот слой являетсямашиночитаемым, то есть может быть автоматически считан из документа программой ипереведен в однозначные структурированные данные (например, таблицу всех вхожденийпрямой речи с однозначной припиской каждой реплики к идентификатору произносящегоее персонажа).
Это позволяет производить количественный анализ системы персонажей безсложной предварительной подготовки данных. Однако сегодня, несмотря на появлениеработ, специально направленных на моделирование персонажа и системы персонажей,данные в большинстве случаев извлекаются напрямую из текста, с неизбежными при этомошибками, без возможности воспроизведения результата и уточнения разметки, аобсуждение разметки не производится.Диссертационное исследование посвящено созданию семантической разметки для книги«Война и мир» Л. Н. Толстого и апробации этой разметки для моделирования иколичественногоанализасистемыперсонажейпроизведения.Актуальностьдиссертационного исследования состоит в разработке инструментария автоматизированнойразметки с использованием современных методов компьютерной лингвистики идемонстрации его применения для количественного исследования.
В работе былапредпринята попытка преодолеть разрыв между возможностями средств автоматическогоанализаязыка—изадачамифилологическогоисследованияхудожественногопроизведения.Объектом исследования является текстовая репрезентация системы персонажей впрозаическом художественном произведении крупной формы. Предметом исследованиявыступают параметрические характеристики персонажей, извлекаемые из текста с опоройна семантическую разметку. Выбор объекта и предмета принципиально отличаетдиссертацию от упомянутых выше стилеметрических работ.
Выбирая в качестве объектасистемуперсонажей,мыстремилисьприложитькомпьютерно-лингвистические3инструментыканализуодногоизкомпонентовсодержанияхудожественногопроизведения, его сюжета, а не стиля.Целью диссертации была поставлена разработка и апробация метода анализа системыперсонажей художественного произведения с опорой на семантическую разметку текста.Для достижения указанной цели были решены следующие задачи:1. Исследованытеоретическиеаспектымоделированиясистемыперсонажейхудожественного произведения, произведен анализ существующих работ.2. Осуществлена автоматическая разметка упоминаний персонажей в тексте книги«Война и мир». Выделенные вхождения связаны в единые кореферентные цепочки,соответствующие одному конкретному персонажу, при помощи уникальногоидентификатора персонажа.3.
Осуществлена полуавтоматическая разметка прямой речи персонажей в текстекниги «Война и мир».4. На основе подготовленной разметки:a. Осуществленстатистическийанализпрямойречиперсонажейсиспользованием двух различных методов, произведено сравнение методов.b. Построены сети взаимодействия персонажей с использованием двухразличных методов, произведено сравнение методов.Новизна работы заключается, во-первых, в сравнении различных методов анализа наедином материале. Такой подход, будучи стандартным в лингвистике, до сих порпрактически не применялся в количественном литературоведении.
В частности, вдиссертации были сопоставлены два метода анализа прямой речи персонажей (на основелексического состава реплик и нелексических характеристик) и два метода сетевогоанализа (на основе диалоговых взаимодействий и совместной встречаемости в тексте). Вовторых, в адаптации методов современной компьютерной лингвистики (извлечениеименованных сущностей, разрешение анафоры, извлечение событий) к исследованиюхудожественного произведения на русском языке. В-третьих, в научный оборот введеныновые количественные характеристики персонажей (интенсивность взаимодействия,параметрические характеристики произносимых реплик).Теоретическая значимость диссертации состоит в сравнении различных методовколичественного анализа и моделирования системы персонажей художественногопроизведения на открытом доступном для других исследователей материале (семантическиразмеченном тексте книги «Война и мир»).
Результаты сравнения позволяют говорить отом, какие именно особенности и соотношения в системе персонажей высвечивает тот или4иной метод, и какие свойства он не фиксирует. Показаны ограничения ряда методов,которые ранее не учитывались или не проговаривались исследователями.На защиту выносятся следующие положения:1. Современные средства автоматической обработки текста могут использоваться дляизвлечения и структурирования значимой информации о системе персонажейхудожественного произведения в форме семантической разметки.2. Подготовленная разметка позволяет осуществлять анализ системы персонажей сприменением количественных методов (анализ частотностей, многофакторныйстатистический анализ, корреляционный анализ, сетевой анализ).3.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.