Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)), страница 6
Описание файла
Файл "Диссертация" внутри архива находится в папке "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)". PDF-файл из архива "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 6 страницы из PDF
– до появления самых поздних версий – XIХ в. –было создано 8 редакций и обработок, не считая компилятивные версии.Материалом исследования послужили следующие 8 списков:1) список Основной редакции;2) список Летописной редакции;3) список Киприановской редакции;4) список Распространенной редакции;5) список редакции в составе Синопсиса;6) список, являющийся поздним сокращением Распространенной редакции;7) беллетризованный список Основной редакции;8) компилятивный список Распространенной редакции (см. таблицу 1).Этиспискивключаютпятьосновных редакций(1-5)исписки,представляющие интерес для изучения статистических различий между: а)полным текстом редакции и текстом, представляющим ее последовательное19сокращение (4 и 6); б) полным текстом и текстом, сокращенным с цельюбеллетризации (1 и 7); в) текстом, близким к авторскому, и компилятивнымтекстом (4 и 8), нумерация дана по таблице 1.Объектом исследования является множество статистических моделейтекстов«Сказания»,создаваемыхприпредставлениитекстакакполикомпонентного объекта.
Предмет исследования составляет характер истепень сходства / различия этих моделей (метамодель вариативного текста«Сказания»).В полном соответствии с междисциплинарностью как одной из основныхособенностей математической лингвистики в качестве рабочей гипотезы былапринята квазиуниверсальность и квазиэквивалентность разных приемов изучениякомпонентного состава, что обеспечивает частичную сопоставимость результатов,получаемых с их помощью.Новизна работы определяется тем, что автором впервые произведенаапробацияконцептуальноразныхметодовмоделированиякомпонентнойструктуры (как в статике, так и в динамике) на одном и том же монографическиобработанном материале.
Результаты, полученные автором, позволяют расширитьэмпирическую базу для дальнейших исследований. Кроме того, получен рядновыхценныхфактовоколичественныхкоррелятахсодержательныхособенностей вариантов текста (выявление скореллированного изменениячастоты словоупотреблений фиксированных частотных зон распределениялексики как индикатор идеологически целенаправленной правки текста, динамикачислаhapaxlegomena(определяемыхвнастоящейработе,какслова,встретившиеся в рассматриваемом тексте по одному разу) как индикаторстилистической трансформации текста и т.д.Кроме того, впервые были получены количественные данные о целостномвариативном тексте, изменявшемся на протяжении 400 лет (до этого в диахронииизучались только частотные характеристики отдельных лексем).
Определениестатистическихсвойстввариативноготекста,выявлениестатистических20коррелятов изменений, вносимых в текст в процессе создания редакций,переработок, компиляций, составляют несомненную новизну данной работы.Автором создан претендующий на репрезентативность микрокорпус из 8исследованных вариантов текста «Сказания», включающий 5 неизданных списков«Сказания»,впервыепредставленныхавторомпоединымправиламвметодыа)машиночитаемой форме.Впроцессеработынаддиссертациейиспользованыпредставления рукописного текста в машиночитаемом виде в соответствии сметодикой проекта СКАТ, б) статистической обработки текста, в) сопоставлениярезультатов статистической обработки, г) выявления инвариантов.
Расчеты иисследования производились с помощью пакета Attestat, встроенного в MicrosoftExcel, пакета Statgraphics, макросов Visual Basic для Microsoft Excel, системыMathcad, процедур, реализованных на языках программирования С и Python,системы для обработки естественного языка NooJ, морфологического анализатораmystem (Яndex).Теоретическая значимость работы заключается в построении метамоделирассматриваемых способов анализа текста, обеспечивающей сопоставимостьрезультатов, получаемых с помощью разных методик на одном и том жематериале. Тем самым удается частично прояснить соотносимость получаемыхрезультатов.
В работе впервые осуществлена постановка задачи о статистическомисследовании структуры вариативного текста, что открывает принципиальноновые перспективы лингвостатистических исследований.Практическуюценностьпредставляетвозможностьоптимизациипроцедуры исследования компонентной структуры текста как поликомпонентногообъекта и выявление границ универсальности / специфичности таких процедур, атакжеоснованнаянаэтомоптимизацияситуативноговыборатактикиисследования при статистическом изучении текстов как поликомпонентныхобъектов. Полученные результаты могут быть использованы при подготовкекурсов по лингвостатистике и оптимизации методов лингвостатистическихисследований.21Достоверность и научная обоснованность результатов исследованияподтверждается следующими особенностями процедуры, массива изученныхсписков и полученных результатов: 1) унифицированностью методики переводатекставмашиночитаемуюформу,2)тщательнойдвукратнойсверкоймашиночитаемого и рукописного текста, 3) дублированием расчетов с помощьюразных расчетных пакетов, 4) сопоставимостью результатов, полученных спомощью нескольких методик, качественным воспроизведением результатов дляразных списков и типов частотных словарей, 5) эксплицитностью допущений,произведенныхприинтерпретируемостьюпостроениизначительногомоделей,числа6)содержательнойполученныхрезультатов,7)принадлежностью исследуемых списков к контрастно различным аспектамварьирования текста.Апробация работы.
Материалы работы докладывались на конференции«Спецификаценологическихпредставленийразныхшкол»врамках«Федоровских чтений-2011» (Московский энергетический институт – МЭИ,кафедра электрики промышленных предприятий, г. Москва, 2011 г.) и семинарепо общей и прикладной ценологии в рамках Федоровских чтений-2012 (там же,2012 г.), семинаре по прикладной лингвистике в Балтийском государственномтехническом университете (БГТУ, г.
Санкт-Петербург, руководитель семинара –С.В.Чебанов), семинаре по биогерменевтике Петербургского лингвистическогообщества (сентябрь – октябрь 2012 г.), 14-й конференции «Conference of OpenInnovations Association FRUCT», Хельсинки, 11-15 ноября 2013 г.Внедрение. Материалы исследования использованы при чтении курса«Формальные модели в лингвистике» на факультете прикладной лингвистикиБГТУ и проведении практических занятий по этому курсу. Точка h Хирша былаприменена для улучшения алгоритма извлечения ключевых фраз (Popova,Kovriguina, Mouromtsev, Khodyrev, 2013).Структура работы. Диссертация состоит из Введения, 4 глав, Заключения,списка сокращений, списка иллюстраций, библиографии из 229 наименований (изкоторых 192 источника на русском языке, 37 – на английском языке), списка22приложений, 15 приложений и пояснительной записки к ним.
Основная частьработы изложена на 242 страницах машинописного текста, содержит 22 рисунка и36таблиц.«Сказания»,Вприложенияхчастотных иприведеныпримерыинвариантныхобработанных текстовсловарей,диаграммы,таблицы,содержащие расчеты и их результаты для всех исследованных списков«Сказания».В главе 1 содержится текстологическое описание «Сказания о Мамаевомпобоище» как материала исследования (на основании работы о памятникахКуликовскогоцикла,проведеннойв1950-хгг.Л.А.Дмитриевым)ипалеографическое описание рассматриваемых списков.
Она содержит такжеописание а) принципов представления текстов в электронном виде, б) методикиформирования трех типов частотных словарей, различие которых отражаетпоследовательное огрубление представления исходного текста, в) примера работыс корпусом вариативных текстов.Глава 2 посвящена описанию и анализу рассматриваемых методик, ихсопоставлению с помощью набора инвариантных признаков и выявлениюсопоставимых параметров каждой из методик.В главе 3 описан процесс моделирования материала с помощьюрассматриваемых средств изучения совокупностей.Глава 4 посвящена сопоставлению характеристик анализируемых средств иописанию лексико-статистических аспектов сокращения и беллетризации текста.По теме диссертации опубликованы 6 статей, из которых три – в изданияхиз перечня ВАК РФ, одна – в издании, включенном в наукометрическую базуScopus, одна – Интернет-публикация.На защиту выносятся следующие положения:1.Для лингвостатистического анализа «Сказание» выступает какпредставитель особого типа объектов – вариативного текста, количественныехарактеристики которого впервые получены в настоящей работе.2.Использование разных методов лексико-статистического анализаобнаруживает у изученных списков «Сказания» следующие особенности:23а) для списков, написанных скорописью, уменьшается диагностическийпараметр β, который чувствителен к изменению интенсивности использованияграфических дублетов в рукописи;б) компонентная структура церковной Киприановской редакции наиболееотлична от других версий «Сказания» по базовым лексико-статистическимхарактеристикам (относительная частота в тексте слова с рангом 1 – союза и, доляhapax legomena в словаре и тексте, отношение объема словаря к объему текста), еёместу на диаграммах «энтропия-анэнтропия», динамике прироста скользящегокоэффициента вариации, что объясняется обилием предлогов и усложненнымисинтаксическими конструкциями;в)компонентнаяструктурабеллетризованногоспискапретерпеваетизменения в процессе беллетризации, связанные с целенаправленным удалениемиз текста религиозной лексики, что влияет на форму S-распределения(оцениваемую увеличением угла наклона одной из его ветвей к оси абсцисс).3.Пойнтер-точкаRиправаяграницамонотонностиприростаскользящего коэффициента вариации спектрового (видового) распределения либосовпадают, либо близки и выделяют наиболее высокочастотную лексику.