Диссертация (1137487)
Текст из файла
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ«НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»»На правах рукописиСкоринкин Даниил АндреевичСемантическая разметка художественных текстов дляколичественных исследований в филологии (напримере романа «Война и мир» Л. Н. Толстого)Специальность 10.02.21 «Прикладная и математическая лингвистика»Диссертация на соискание ученой степеникандидата филологических наук НИУ ВШЭНаучный руководителькандидат филологических наукА.А. Бонч-ОсмоловскаяМосква 2018ОглавлениеВведение......................................................................................................................................................41Теоретическиеаспектымоделированияперсонажаисистемыперсонажей............................................................................................................................................151.11.1.1Персонажкактекстоваяпеременнаяиформальныйактант............................................................161.1.2Персонажкакпсихологическийсубъектимодельличности............................................................191.1.3Синтездвухнаправленийанализаперсонажа...........................................................................................221.2Компьютерноемоделированиесистемыперсонажей................................................241.2.1Компьютерноемоделированиеперсонажейнаосноверечевыххарактеристик...................251.2.2Компьютерноемоделированиеперсонажейприпомощисетевогоанализа...........................291.32Модельперсонажавтрадиционномлитературоведении........................................15МоделированиеперсонажейприпомощиTEI-разметки..........................................371.3.1Разметканаименованийперсонажей..............................................................................................................381.3.2Разметкаречиперсонажей....................................................................................................................................471.3.3Дополнительнаяинформациявразметке....................................................................................................49Моделированиесистемыперсонажей«Войныимира»наосноверазметкипрямойречи...........................................................................................................................................492.1.Методыколичественногоанализапрямойречиперсонажей................................502.1.1.Стилеметрическийметоднаосновечастотностейслов.......................................................................502.1.2.Методкомплекснойоценкинелексическихпараметровпрямойречи.......................................532.1Применениеметодовдлямоделированиясистемыперсонажей.........................552.1.1Подборколичественныхпараметровдлястилеметрии.......................................................................552.1.2Моделированиесистемыперсонажей«Войныимира»припомощистилеметрии.............582.1.3Моделированиесистемыперсонажейприпомощиметодакомплекснойоценкинелексическихпараметровпрямойречи........................................................................................................................632.2Обсуждениерезультатовисравнениедвухметодовмоделированиясистемыперсонажейнаосновепрямойречи..................................................................................................673Моделированиесистемыперсонажейспомощьюсетевогоанализа............713.1Методсетевогоанализасистемыперсонажей...............................................................713.1.1Подходыкпостроениюсетейперсонажей...................................................................................................713.1.2Методыизмеренияцентральностиперсонажей.......................................................................................723.1.3Методывыделениясообществвсетях...........................................................................................................763.2Применениеметодовсетевогоанализадлямоделированиясистемыперсонажей«Войныимира»................................................................................................................7723.2.1Центральныеперсонажи.........................................................................................................................................773.2.2Сообщества......................................................................................................................................................................813.2.3Построениеисравнениесетейдляотдельныхчастей«Войныимира».....................................843.2.4Анализдинамикиплотностисетейв«Войнеимире»...........................................................................953.3Обсуждениерезультатовисравнениеметодовсетевогоанализа.......................97Заключение...........................................................................................................................................102Списоклитературы........................................................................................................................111Приложения........................................................................................................................................122Приложениекглаве2............................................................................................................................122Приложениекглаве3:..........................................................................................................................126Визуализациисетейитаблицыцентральностейперсонажей«Войныимира»...................................126Сообществавсетях....................................................................................................................................................................130Визуализациисетейдляотдельныхчастей...............................................................................................................1333ВведениеВ последнее десятилетие произошел качественный скачок в разработке инструментовавтоматического анализа и разметки текста на естественном языке.
Этот скачок сталвозможен благодаря достижениям современной компьютерной лингвистики, активномузаимствованиюметодовиалгоритмовизкомпьютерныхнаукистатистики,экспоненциальному росту объема машиночитаемых текстовых данных, а также развитиюэлектронных лингвистических ресурсов. Современные инструменты лингвистическогоанализа позволяют автоматически размечать не только грамматические (морфология,синтаксис), но и некоторые семантические1 и прагматические свойства текста.Полноценное машинное понимание естественного языка по-прежнему остается в областифутурологии,однакотехнологиикомпьютернойлингвистикиоткрываютновыевозможности исследования текстового материала.Однимизважныхследствийразвитиятакихтехнологийсталоизменениеисследовательских практик во многих областях гуманитарного знания.
Филологи,историки, философы и культурологи всё чаще привлекают компьютерные инструменты длясбора, обработки и анализа текстов на естественном языке, поскольку эти инструментыпозволяют анализировать существенно больше источников информации и получать из нихструктурированные данные сравнительно большого объема. В свою очередь, наличиеструктурированных данных открывает широкие возможности для точных методов, такихкак построение статистических моделей, корреляционный анализ, анализа сетей.
Врезультате становятся возможными выявление неочевидных связей и зависимостей,получение интерпретируемых количественных характеристик объектов исследования,установление статистической значимости результатов анализа.Количественный поворот в гуманитарных исследованиях особенно актуален дляфилологии, где стремление применять точные методы в исследованиях возниклозадолго до возникновения компьютерных технологий.
Уже во второй половине XIXвека произошло становление статистических методов атрибуции авторства [Mendenhall,1887] и датировки [Dittenberger, 1881], [Lutoslawski, 1898] художественных текстов, а также1Находясь в рамках специальности 10.02.21 «Прикладная и математическая лингвистика», мы в настоящейработе понимаем семантику так, как понимает ее современная компьютерная лингвистика. Разметканазывается семантической в том случае, если с ее помощью в тексте формально выделены слова илисловосочетания, относящиеся к одной смысловой категории или к одному семантическому полю [Кустова etal., 2005] Таким образом, семантическая разметка связана с содержательной, а не грамматической илисинтаксической информацией текста.
Разметку именованных сущностей, событий (например, фактов речевойактивности) в компьютерной лингвистике относят к семантической разметке текста (см. например [Батура,2016], [Beltagy et al., 2014])4связанных с ними количественных исследований стилистики через частотность слов[Lutoslawski, 1898]. В 1893 г. был опубликован учебник по «литературной аналитике»[Sherman, 1893], автор которого в духе позитивизма того времени предрек сближениеметодов литературоведения как университетской дисциплины с инструментами точныхнаук.Отечественная традиция применения статистики в исследовании стихотворного метраначала формироваться несколько раньше.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.