Диссертация (1148605), страница 33
Текст из файла (страница 33)
Закон «отсутствия предпочтения» и соответствующие распределения в частотной теориивероятностей. С.226.C, (F*r; F*r/log2(r))162200019001800170016001500140013001200110010009008007006005004003002001000050100150200250r, рангПримечание ― r – ранг, F(r) – абсолютная частота слова с рангом rРисунок 14 ― График изменения параметра С распределения Ципфа до (верхняя линия)и после (нижняя линия) исправления эффекта рангового искажения по В.П.Маслову длячастотных словарей лексем сокращенного варианта «Сказания»Можно условно считать, что исправленный по методике В.П.Масловаграфик укладывается в значительно более узкую, чем неисправленный, полосу,параллельную оси абсцисс, и, что примечательно, при самом поверхностномрассмотрении напоминает гиперболу.В ранговом диапазоне 50<r<100 удается добиться постоянного значения С спомощью логарифмической поправки для списков Летописной, Киприановскойредакции, редакции Синопсиса и компилятивного списка.
Графики параметра Сдля ЧС Распространенной редакции и ее сокращенного варианта, наоборот,показывают сходное поведение на этом интервале: С убывает с увеличениемранга. График С для Основной редакции и ее беллетризованного варианта такжесходны: на рассматриваемом интервале С изменяется скачкообразно.Эти предварительные наблюдения за изменением или постоянствомпроизведения ранга и частоты, соответствующей этому рангу, в ранговомдиапазоне 50<r<100 позволяют предположить, что редактирование текста с цельюего сквозного сокращения или сокращения за счет определенных эпизодов (вданном случае, религиозных) не меняет его частотную структуру в указанномранговом диапазоне.
Напротив, добавление фрагментов из иных редакций,163превращение «однородного» текста в компилятивный оказывает влияние начастотную структуру. Этот вопрос требует дальнейшего прояснения. В таблице 8приведены лексемы с рангами 60<r<80 и их абсолютные частоты дляРаспространенной редакции и сокращенного и компилятивного списков, которыетакже относятся к Распространенной редакции «Сказания» (см. таблицу 1 нас. 39).Среди этих лексем обнаруживаются имена непосредственных фигурантовКуликовской битвы: князя Олега Рязанского и литовского князя Ольгерда, братакнязя Дмитрия Владимира Андреевича, посла Захария (выделены полужирным втаблице 8), в сокращенном варианте упоминается Сергий Радонежский.
В этот жеранговый диапазон попадают названия средневековых социальных институтов:бояре, земля, братия, полк, люди, посол, воевода, отец, сын, православный, атакже ключевая для русского сознания лексика: вера, Божий, единый. Уже этотрезультат сам по себе важен и интересен, но воспроизводим частично: в другихсписках в интервал 50<r<100 попадают только антагонисты великого князя.164Таблица 8 ― Лексика беллетризованного варианта Основной редакции с рангами 60<r<80 (поЧС лексем)r5051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100РаспространеннаялексемаF (r )РУССКИИ38РАДИ3837ЗАХАРИИВОИСКО37СЕБЯ36ХОТЕТИ33ДЕНЬ33ОТЕЦ32ГОСПОДЕНЬ32ВЫ31ВОЕВОДА31АЩЕ31ПОГАНЫИ30РУКА29ЕДИНЫИ29САМ28ПОСОЛ28КОНЬ28ЗЕМЛЯ27ЗА27СОТВОРИТИ26СИЛА26ПОМОЩЬ25ИМЯ25ВЕРА2525АНДРЕЕВИЧЧТО24НЫНЕ24ЛИ24СКОРО23ГОСУДАРЬ23АКИ2322ВЛАДИМИРВЕЛЬМИ22ЧАС21МЕСТО21БРАТИЯ21СЕРДЦЕ20ИНЫИ20БОЖИИ20ПОВЕДАТИ19ПЕРЕД19ПАКИ19МОЧИ19БЫ19СИЦЕ18ПОДОБАТИ18МОСКОВСКИИ18ЯКОЖЕ17УБО1717ОЛЕГСокращенныйлексемаF (r )ПОИТИ2424ЗАХАРИИ23ЛИТОВСКИИСЬ2222РЯЗАНСКИИПОЛК22ПИСАТИ22О22СЕБЯ21РАДИ2121ОЛЕГВЕРА2120ОЛЬГЕРДМОСКОВСКИИ20ИМЯ20ИТИ19АЩЕ19У18ОТЕЦ18МНОГИИ18ДАТИ18СЛЫШАТИ17МИТРОПОЛИТ17ДЕНЬ17ДВА17ВЫ17ПРАВОСЛАВНЫИ16МОЛИТИ1616ВЛАДИМИРВИДЕТИ16ПОВЕДАТИ15БО15НО14ЛЮДИ14БОЯРЕ14БОГОРОДИЦА14ЧЕЛОВЕК13ХРИСТОС13ТЕБЯ1313СЕРГИИРУКА13КАК13ВОЕВОДА13БОЖИИ13БЕЗБОЖНЫИ13ЦЕРКОВЬ12ХРИСТИАНСКИИ12СКОРО12САМ12ПРЕЧИСТЫИ12ПОМОЩЬ12Примечание ― r – ранг, F(r) – абсолютная частота.КомпилятивныйлексемаF (r )ПОВЕЛЕТИ34ЛИ3433ЗАХАРИИЕДИНЫИ33АЩЕ33ХОТЕТИ32НАЧАТИ32ИТИ32РАДИ31ЧТО30ВЫ30СОТВОРИТИ29ЗА29СЕБЯ2828ЛИТОВСКИИОТЕЦ27ВОЕВОДА2726РЯЗАНСКИИРУКА2626ОЛЬГЕРДВЕДАТИ26НО25ИМЯ25ГОСУДАРЬ25БРАТИЯ25СИЛА24ПЕРЕД2424ОЛЕГМОСКОВСКИИ24ВЕЛЬМИ24ПОСОЛ23НЫНЕ23МОСКВА23КОНЬ23САМ22ИНЫИ22ВЕРА22ПОДОБАТИ21ПОВЕДАТИ21ГОСПОДЕНЬ21БОЖИИ21БЕЗБОЖНЫИ21ПОД20МЕСТО20КТО20БЫ2020АНДРЕЕВИЧЧАС19КАК19ГРАД19МОЧИ181653.1.2 Анализ ЧС «Сказания о Мамаевом побоище»с применением методик Б.И.Кудрина1.
Н-распределение.Дляосуществленияэтогометодаанализастроиласьаналитическаяаппроксимация эмпирического распределения и исследовался характер сходстваэтого распределения с исходными данными. Аналитическое выражение былополучено для 24 частотных словарей «Сказания».Эмпирические и аппроксимирующие Н-распределения для ЧС трех типовприводятся в Приложении И. В таблице 9 содержатся полученные значенияпараметра β.Таблица 9 ― Значения параметра β Н-распределения для разных типов частотныхсловарей списков «Сказания»Название редакцииNβркпβстβлексβст – βркпβлекс– βстОсновная109672,422,331,59-0,09-0,74Летописная98772,312,311,640,00-0,67Киприановская113252,342,271,57-0,07-0,70Распространенная114422,472,36-0,11-0,661,70Ред.
Синопсиса85362,361,66-0,702,58-0,22Сокращенный67892,432,381,67-0,05-0,71Компилятивный112422,471,66-0,072,40-0,74Беллетризованный84712,232,201,56-0,03-0,64Примечания1 Полужирным шрифтом выделено максимальное значение признака, курсивом –минимальное2 N – количество словоупотреблений в тексте3 βркп – значение параметра β по ЧС рукописных словоформ, βст – значение параметра βпо ЧС стандартизованных словоформ, βлекс – значение параметра β по ЧС лексемПо данным таблицы 9 можно заключить, что параметр β нечувствителен кобъему текста в пределах изученного варьирования: так, по частотным словарямрукописных словоформ он принимает максимальное и минимальное значение длясписков с почти одинаковым количеством словоупотреблений (β=2,58 при166N=8536 – редакция Синопсиса, β=2,23 при N=8471 – беллетризованный вариант,но β=2,47 при N=11242 – компилятивный) и почти совпадает для Основнойредакции (N=10967, β=0,42) и сокращенного списка (N=6789, β=0,43). Повидимому, этот параметр применительно к текстам на естественном языке такжеследует связывать с разнообразием, т.к.
β заметно уменьшается при переходе отсловаря словоформ к словарю лексем. А.П.Левич интерпретирует этот параметр идругие, подобные ему, именно как показатели разнообразия (см. главу 2). Однакотакая интерпретация неокончательна, т.к. бывают случаи, когда разнообразие неменяется, а β оказывается другим1.Значением β, приведенным в таблице 9, можно дать содержательнуюинтерпретацию постфактум. Рассмотрим изменения этого параметра припереходе от словаря рукописных словоформ к словарю стандартизованныхсловоформ (столбец β2 – β1 в таблице 9). Для 7 списков β уменьшилась, а длясписка Летописной редакции не изменилась.Больше всего β уменьшилась у списка редакции Синопсиса. Графика этогосписка, датированного концом XVIII в., архаизирована (используется малый юс,разные начертания «о» и «у»): WПРИМ+ТАХЪ ДА НЕ ПОМЫСЛИШИ ЛЮБЕЗНЫ ЧИТАТЕЛЮWНЫR ВОИННЫR ПРИМ+ТЫ БЫАТИ ВРАЖД+БСТВА Н+КАR ИЛИ ВОЛШЕБСТВО БГ{U И В+Р+ХРсТЙRНСТЕИ ПРWТИВНАR ИНА БW ЕСТЬ ПРИМ+ТА I ИНW ВОЛШЕБСТВО ВОЛШЕБСТВО БО ИВРАЖДЕБСТВОЕСТЬ=ДИRВОЛАЗЛWБЕВСЕГДАХОДАТАЙСТВЕННОПРИМЕТАЖЕ=ИСКUСТВА ЧЛВ{КD БЫВАЕТЪ В ТАКОВЫХЪ СЛDЧАRХЪ ПРИЛDЧИВШDСR МНОГАЖДЫ ЖЕ И =САМОГО БГ{А В ПОЛЗЮ ИЛИ В НАКАЗАНЙЕ(л.16–л.16 об.).
При унификации графикиразнообразие графического вида словоформ резко снижается, что отражается вуменьшении величины β.МинимальноезначениеβдляЧСвсехтиповсохраняетсяубеллетризованного варианта. Если сопоставить этот факт с данными таблицы 3(с. 65), то можно говорить о малом разнообразии графики списка и относитьпоявление рукописи к XVII-XIX вв. (список датирован XIX в.), а также о малой1Пущин С.Л. Сравнительный анализ структуры потребления электроэнергии двух территориальных районовСеверо-Запада РФ.
СПб., 2012. 117 с.167доле низкочастотной лексики (с абсолютной частотой меньше 5) – см. таблицыИ.1–И.3 Приложения И.На множестве ЧС лексем исследованных списков максимальное значение βобнаруживается для списка Распространенной редакции РНБ Q.IV.354 (β=1,70).Этообъясняетсяпринятойпроцедуройлемматизациииквалификациейпереписчика. При копировании текста писец не понимал почерк оригинала ипереосмысливал некоторые написания1, а некоторые – списывал неверно. Прилемматизации такие домысленные слова были оставлены без изменений ипополнили класс hapax legomena, что, вероятно, сказалось на значении β.ВцеломтеоретическоеH-распределениенеплохоаппроксимируетэмпирические спектровые («видовые» по Б.И.Кудрину) распределения списков«Сказания»,новбольшинствеслучаевзавышаетчастотыредко-исреднеупотребительных единиц для распределения лексем и занижает эти жечастотыдляраспределенийсловоформ.По-видимому,этосвязаносособенностями алгоритма аппроксимации, а не со свойствами эмпирическихданных(лингвистическими«отклоняющейся»лексикисвидетельствующих оееособенностяминебылосписков).выявленомаркированности.ТакженикакихПрианализеособенностей,Н-распределениемнеописываются колебания частот в средней части графика распределения (на нашемматериале они соответствуют частотам от 8 до 25).2.
Модель простых чисел.Для каждого списка по всем трем типам частотных словарей былопостроено одно аппроксимирующее распределение по модели простых чисел,поскольку определяющей величиной является объем текста. Аппроксимирующиеи эмпирические распределения (по ЧС рукописных словоформ) приведены вПриложении К, расчеты проводились с помощью макросов на Visual Basic дляExcel.1Перечислим некоторые из них: ЧТЕРОДЪ (вм. «сирот»), УДСКО (вм. «ярко»), СОГОМЪ (вм. «с юга»),НЕБУДИТЕЛИ (?), ВСЕМЛЕНЪ (вм.
«не в силе»), КАМЕНЬ НОСЕРДЕЧНЫИ (вм. «каменносердечный»), ИНЕИ(З)ЛОЖЫ (вм. «и низложи»).168Модель простых чисел, в отличие от Н-распределения, моделирует общуюформу кривой, но не прогнозирует численности классов. Так, для списков«Сказания эта модель в среднем по 8 спискам в 12 раз уменьшает долю hapaxlegomena, но в 5 раз увеличивает частоту первых двух-трех высокочастотныхединиц. Б.И.Кудрин, увидев эмпирические распределения списков «Сказания»,соположенные с теоретическими (построенными по модели простых чисел),сказал: «У нас в техноценозах такого разнообразия нет»1.