Диссертация (1148605), страница 33

Файл №1148605 Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)) 33 страницаДиссертация (1148605) страница 332019-06-292019-06-29СтудИзба

Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 33)

Закон «отсутствия предпочтения» и соответствующие распределения в частотной теориивероятностей. С.226.C, (F*r; F*r/log2(r))162200019001800170016001500140013001200110010009008007006005004003002001000050100150200250r, рангПримечание ― r – ранг, F(r) – абсолютная частота слова с рангом rРисунок 14 ― График изменения параметра С распределения Ципфа до (верхняя линия)и после (нижняя линия) исправления эффекта рангового искажения по В.П.Маслову длячастотных словарей лексем сокращенного варианта «Сказания»Можно условно считать, что исправленный по методике В.П.Масловаграфик укладывается в значительно более узкую, чем неисправленный, полосу,параллельную оси абсцисс, и, что примечательно, при самом поверхностномрассмотрении напоминает гиперболу.В ранговом диапазоне 50<r<100 удается добиться постоянного значения С спомощью логарифмической поправки для списков Летописной, Киприановскойредакции, редакции Синопсиса и компилятивного списка.

Графики параметра Сдля ЧС Распространенной редакции и ее сокращенного варианта, наоборот,показывают сходное поведение на этом интервале: С убывает с увеличениемранга. График С для Основной редакции и ее беллетризованного варианта такжесходны: на рассматриваемом интервале С изменяется скачкообразно.Эти предварительные наблюдения за изменением или постоянствомпроизведения ранга и частоты, соответствующей этому рангу, в ранговомдиапазоне 50<r<100 позволяют предположить, что редактирование текста с цельюего сквозного сокращения или сокращения за счет определенных эпизодов (вданном случае, религиозных) не меняет его частотную структуру в указанномранговом диапазоне.

Напротив, добавление фрагментов из иных редакций,163превращение «однородного» текста в компилятивный оказывает влияние начастотную структуру. Этот вопрос требует дальнейшего прояснения. В таблице 8приведены лексемы с рангами 60<r<80 и их абсолютные частоты дляРаспространенной редакции и сокращенного и компилятивного списков, которыетакже относятся к Распространенной редакции «Сказания» (см. таблицу 1 нас. 39).Среди этих лексем обнаруживаются имена непосредственных фигурантовКуликовской битвы: князя Олега Рязанского и литовского князя Ольгерда, братакнязя Дмитрия Владимира Андреевича, посла Захария (выделены полужирным втаблице 8), в сокращенном варианте упоминается Сергий Радонежский.

В этот жеранговый диапазон попадают названия средневековых социальных институтов:бояре, земля, братия, полк, люди, посол, воевода, отец, сын, православный, атакже ключевая для русского сознания лексика: вера, Божий, единый. Уже этотрезультат сам по себе важен и интересен, но воспроизводим частично: в другихсписках в интервал 50<r<100 попадают только антагонисты великого князя.164Таблица 8 ― Лексика беллетризованного варианта Основной редакции с рангами 60<r<80 (поЧС лексем)r5051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100РаспространеннаялексемаF (r )РУССКИИ38РАДИ3837ЗАХАРИИВОИСКО37СЕБЯ36ХОТЕТИ33ДЕНЬ33ОТЕЦ32ГОСПОДЕНЬ32ВЫ31ВОЕВОДА31АЩЕ31ПОГАНЫИ30РУКА29ЕДИНЫИ29САМ28ПОСОЛ28КОНЬ28ЗЕМЛЯ27ЗА27СОТВОРИТИ26СИЛА26ПОМОЩЬ25ИМЯ25ВЕРА2525АНДРЕЕВИЧЧТО24НЫНЕ24ЛИ24СКОРО23ГОСУДАРЬ23АКИ2322ВЛАДИМИРВЕЛЬМИ22ЧАС21МЕСТО21БРАТИЯ21СЕРДЦЕ20ИНЫИ20БОЖИИ20ПОВЕДАТИ19ПЕРЕД19ПАКИ19МОЧИ19БЫ19СИЦЕ18ПОДОБАТИ18МОСКОВСКИИ18ЯКОЖЕ17УБО1717ОЛЕГСокращенныйлексемаF (r )ПОИТИ2424ЗАХАРИИ23ЛИТОВСКИИСЬ2222РЯЗАНСКИИПОЛК22ПИСАТИ22О22СЕБЯ21РАДИ2121ОЛЕГВЕРА2120ОЛЬГЕРДМОСКОВСКИИ20ИМЯ20ИТИ19АЩЕ19У18ОТЕЦ18МНОГИИ18ДАТИ18СЛЫШАТИ17МИТРОПОЛИТ17ДЕНЬ17ДВА17ВЫ17ПРАВОСЛАВНЫИ16МОЛИТИ1616ВЛАДИМИРВИДЕТИ16ПОВЕДАТИ15БО15НО14ЛЮДИ14БОЯРЕ14БОГОРОДИЦА14ЧЕЛОВЕК13ХРИСТОС13ТЕБЯ1313СЕРГИИРУКА13КАК13ВОЕВОДА13БОЖИИ13БЕЗБОЖНЫИ13ЦЕРКОВЬ12ХРИСТИАНСКИИ12СКОРО12САМ12ПРЕЧИСТЫИ12ПОМОЩЬ12Примечание ― r – ранг, F(r) – абсолютная частота.КомпилятивныйлексемаF (r )ПОВЕЛЕТИ34ЛИ3433ЗАХАРИИЕДИНЫИ33АЩЕ33ХОТЕТИ32НАЧАТИ32ИТИ32РАДИ31ЧТО30ВЫ30СОТВОРИТИ29ЗА29СЕБЯ2828ЛИТОВСКИИОТЕЦ27ВОЕВОДА2726РЯЗАНСКИИРУКА2626ОЛЬГЕРДВЕДАТИ26НО25ИМЯ25ГОСУДАРЬ25БРАТИЯ25СИЛА24ПЕРЕД2424ОЛЕГМОСКОВСКИИ24ВЕЛЬМИ24ПОСОЛ23НЫНЕ23МОСКВА23КОНЬ23САМ22ИНЫИ22ВЕРА22ПОДОБАТИ21ПОВЕДАТИ21ГОСПОДЕНЬ21БОЖИИ21БЕЗБОЖНЫИ21ПОД20МЕСТО20КТО20БЫ2020АНДРЕЕВИЧЧАС19КАК19ГРАД19МОЧИ181653.1.2 Анализ ЧС «Сказания о Мамаевом побоище»с применением методик Б.И.Кудрина1.

Н-распределение.Дляосуществленияэтогометодаанализастроиласьаналитическаяаппроксимация эмпирического распределения и исследовался характер сходстваэтого распределения с исходными данными. Аналитическое выражение былополучено для 24 частотных словарей «Сказания».Эмпирические и аппроксимирующие Н-распределения для ЧС трех типовприводятся в Приложении И. В таблице 9 содержатся полученные значенияпараметра β.Таблица 9 ― Значения параметра β Н-распределения для разных типов частотныхсловарей списков «Сказания»Название редакцииNβркпβстβлексβст – βркпβлекс– βстОсновная109672,422,331,59-0,09-0,74Летописная98772,312,311,640,00-0,67Киприановская113252,342,271,57-0,07-0,70Распространенная114422,472,36-0,11-0,661,70Ред.

Синопсиса85362,361,66-0,702,58-0,22Сокращенный67892,432,381,67-0,05-0,71Компилятивный112422,471,66-0,072,40-0,74Беллетризованный84712,232,201,56-0,03-0,64Примечания1 Полужирным шрифтом выделено максимальное значение признака, курсивом –минимальное2 N – количество словоупотреблений в тексте3 βркп – значение параметра β по ЧС рукописных словоформ, βст – значение параметра βпо ЧС стандартизованных словоформ, βлекс – значение параметра β по ЧС лексемПо данным таблицы 9 можно заключить, что параметр β нечувствителен кобъему текста в пределах изученного варьирования: так, по частотным словарямрукописных словоформ он принимает максимальное и минимальное значение длясписков с почти одинаковым количеством словоупотреблений (β=2,58 при166N=8536 – редакция Синопсиса, β=2,23 при N=8471 – беллетризованный вариант,но β=2,47 при N=11242 – компилятивный) и почти совпадает для Основнойредакции (N=10967, β=0,42) и сокращенного списка (N=6789, β=0,43). Повидимому, этот параметр применительно к текстам на естественном языке такжеследует связывать с разнообразием, т.к.

β заметно уменьшается при переходе отсловаря словоформ к словарю лексем. А.П.Левич интерпретирует этот параметр идругие, подобные ему, именно как показатели разнообразия (см. главу 2). Однакотакая интерпретация неокончательна, т.к. бывают случаи, когда разнообразие неменяется, а β оказывается другим1.Значением β, приведенным в таблице 9, можно дать содержательнуюинтерпретацию постфактум. Рассмотрим изменения этого параметра припереходе от словаря рукописных словоформ к словарю стандартизованныхсловоформ (столбец β2 – β1 в таблице 9). Для 7 списков β уменьшилась, а длясписка Летописной редакции не изменилась.Больше всего β уменьшилась у списка редакции Синопсиса. Графика этогосписка, датированного концом XVIII в., архаизирована (используется малый юс,разные начертания «о» и «у»): WПРИМ+ТАХЪ ДА НЕ ПОМЫСЛИШИ ЛЮБЕЗНЫ ЧИТАТЕЛЮWНЫR ВОИННЫR ПРИМ+ТЫ БЫАТИ ВРАЖД+БСТВА Н+КАR ИЛИ ВОЛШЕБСТВО БГ{U И В+Р+ХРсТЙRНСТЕИ ПРWТИВНАR ИНА БW ЕСТЬ ПРИМ+ТА I ИНW ВОЛШЕБСТВО ВОЛШЕБСТВО БО ИВРАЖДЕБСТВОЕСТЬ=ДИRВОЛАЗЛWБЕВСЕГДАХОДАТАЙСТВЕННОПРИМЕТАЖЕ=ИСКUСТВА ЧЛВ{КD БЫВАЕТЪ В ТАКОВЫХЪ СЛDЧАRХЪ ПРИЛDЧИВШDСR МНОГАЖДЫ ЖЕ И =САМОГО БГ{А В ПОЛЗЮ ИЛИ В НАКАЗАНЙЕ(л.16–л.16 об.).

При унификации графикиразнообразие графического вида словоформ резко снижается, что отражается вуменьшении величины β.МинимальноезначениеβдляЧСвсехтиповсохраняетсяубеллетризованного варианта. Если сопоставить этот факт с данными таблицы 3(с. 65), то можно говорить о малом разнообразии графики списка и относитьпоявление рукописи к XVII-XIX вв. (список датирован XIX в.), а также о малой1Пущин С.Л. Сравнительный анализ структуры потребления электроэнергии двух территориальных районовСеверо-Запада РФ.

СПб., 2012. 117 с.167доле низкочастотной лексики (с абсолютной частотой меньше 5) – см. таблицыИ.1–И.3 Приложения И.На множестве ЧС лексем исследованных списков максимальное значение βобнаруживается для списка Распространенной редакции РНБ Q.IV.354 (β=1,70).Этообъясняетсяпринятойпроцедуройлемматизациииквалификациейпереписчика. При копировании текста писец не понимал почерк оригинала ипереосмысливал некоторые написания1, а некоторые – списывал неверно. Прилемматизации такие домысленные слова были оставлены без изменений ипополнили класс hapax legomena, что, вероятно, сказалось на значении β.ВцеломтеоретическоеH-распределениенеплохоаппроксимируетэмпирические спектровые («видовые» по Б.И.Кудрину) распределения списков«Сказания»,новбольшинствеслучаевзавышаетчастотыредко-исреднеупотребительных единиц для распределения лексем и занижает эти жечастотыдляраспределенийсловоформ.По-видимому,этосвязаносособенностями алгоритма аппроксимации, а не со свойствами эмпирическихданных(лингвистическими«отклоняющейся»лексикисвидетельствующих оееособенностяминебылосписков).выявленомаркированности.ТакженикакихПрианализеособенностей,Н-распределениемнеописываются колебания частот в средней части графика распределения (на нашемматериале они соответствуют частотам от 8 до 25).2.

Модель простых чисел.Для каждого списка по всем трем типам частотных словарей былопостроено одно аппроксимирующее распределение по модели простых чисел,поскольку определяющей величиной является объем текста. Аппроксимирующиеи эмпирические распределения (по ЧС рукописных словоформ) приведены вПриложении К, расчеты проводились с помощью макросов на Visual Basic дляExcel.1Перечислим некоторые из них: ЧТЕРОДЪ (вм. «сирот»), УДСКО (вм. «ярко»), СОГОМЪ (вм. «с юга»),НЕБУДИТЕЛИ (?), ВСЕМЛЕНЪ (вм.

«не в силе»), КАМЕНЬ НОСЕРДЕЧНЫИ (вм. «каменносердечный»), ИНЕИ(З)ЛОЖЫ (вм. «и низложи»).168Модель простых чисел, в отличие от Н-распределения, моделирует общуюформу кривой, но не прогнозирует численности классов. Так, для списков«Сказания эта модель в среднем по 8 спискам в 12 раз уменьшает долю hapaxlegomena, но в 5 раз увеличивает частоту первых двух-трех высокочастотныхединиц. Б.И.Кудрин, увидев эмпирические распределения списков «Сказания»,соположенные с теоретическими (построенными по модели простых чисел),сказал: «У нас в техноценозах такого разнообразия нет»1.

Характеристики

Тип файла

PDF-файл

Размер

23,89 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

negaussovoe-modelirovanie-leksiko-statisticheskoj-struktury-variativnogo-teksta-na-primere-skazanija-o-mamaevom-poboische.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.