Диссертация (1148605), страница 15
Текст из файла (страница 15)
Среди рассматриваемыхсписков «Сказания» только сокращенный вариант написан скорописью (V2/V1 =0,973), почерк списка Летописной редакции СПбОИИ №251 (V2/V1 = 0,982) –переходный от полуустава к скорописи, остальные – полууставные. Позднийбеллетризованныйсписоктакжехарактеризуетсямалымграфическимразнообразием (V2/V1 = 0,981).При переходе к словарям лексем (V3/V2) все списки ведут себя достаточносогласованно, словарь резко становится меньше, при этом лидируют 2 списка –Киприановской редакции и Распространенной редакции (см. колонку 3 в таблице3).§ 1.8 ЗаключениеВ настоящей главе вводится представление о вариативном тексте иобосновываетсясвоеобразиевариативноготекстакакобъекталингвостатистического исследования, при работе с которым перспективнооперировать сразу с несколькими типами частотных словарей.
Далее в этой главеобосновывается, что «Сказание о Мамаевом побоище», будучи выдающимсяпамятником древнерусской литературы, связующим ее с литературой Новоговремени, является и оптимальным для лингвостатистического исследованиявариативным текстом. Во-первых, в нем обнаруживаются все типы вариативности68(от графической до семантической, включая изменение набора сюжетов иэпизодов), а, во-вторых, его текст имеет достаточный объем для проведениястандартной лингвостатистической обработки, что и определяет его выбор вкачестве объекта исследования.Материалом исследования служат 8 списков «Сказания», пять из которыхпредставляют основные редакции памятника, выделенные Л.А.Дмитриевым(Основная, Летописная, Киприановская, Распространенная редакции и редакцияСинопсиса), и отражают содержательно и композиционно важные этапыизменениятекста«Сказания»,атрипредставляютвариантыредакций(сокращенный и компилятивный варианты Распространенной редакции ибеллетризованный вариант Основной редакции), так что вместе они даютпредставления о разных аспектах и пределах варьирования текста.Для описания бытования литературного произведения в средневековойкультуре привлекается представление о транзитивном полиморфизме.§ 1.9 Выводы1.Вариативный текст – особый способ существования средневековогоили фольклорного текста, существующего во множестве равноценных вариантов,различающихся графически, синтаксически, семантически и т.д.
Многочисленныеразнохарактерные редакции, группы внутри редакций и отдельные списки делают«Сказание о Мамаевом побоище» оптимальным для лингвостатистическогоисследования вариативным текстом.2.Вариативный текст в качестве объекта лингвостатистическогоисследования обладает определенными чертами своеобразия: ни один из еговариантов не может быть сам по себе репрезентативным представителем текста вцелом.693.Основная, Летописная, Киприановская, Распространенная редакции иредакция Синопсиса, а также сокращенный и компилятивный вариантыРаспространенной редакции и беллетризованный вариант Основной редакциидают представления о пределах полиморфизма текста «Сказания», а поэтомусоставляютрепрезентативныймассивдляеголингвостатистическогоисследования в качестве вариативного текста.4.Исследуемый массив вариантов «Сказания» включает 5 ранее неиздававшихся списков.5.Отношения разных редакций и списков «Сказания» могут бытьпредставлены в категориях транзитивного полиморфизма.70ГЛАВА 2.
Моделирование структуры текстакак поликомпонентного объектаКак было сказано во Введении, характеристики распределений частотлексики текстов на естественном языке указывают на негауссовость такихраспределений: так, дисперсия увеличивается с объемом выборки, а выборочнаясредняя величина неинформативна и даже бессмысленна из-за неопределенностигенеральной средней.При констатации этого факта, исследователь оказывается в ситуацииотсутствия удовлетворительных способов описания негауссовых распределенийпри наличии нескольких вариантов техники осуществления такого описания.Последнее обстоятельство ставит вопрос о необходимости либо выбора лучшейиз имеющихся моделей, либо создания новой универсальной модели.В связи с этим к рассмотрению привлекаются модели из других предметныхобластей, тем более, если эти модели самими их создателями трактуются какуниверсальные (метод RHA, S-распределение, Н-распределение), применимыми клюбому материалу с подобными свойствами (когда можно говорить только очастоте по корпусу – выборочной частоте).При этом, как показывает опыт моделирования, если модель обладаетвысокой степенью адекватности, то её приложение к новому, в данном случаелингвистическому, материалу может обнаружить новые нетривиальные свойствапоследнего.
Однако, подобная универсальности для всех моделей ранее никогдане подтверждалась на текстовом материале. Прояснению положения дел в этойобласти и посвящены следующие две главы представленной работы.В настоящей главе содержится обзор моделей, применявшихсяипотенциально применимых к описанию лексико-статистической структурытекста. В пунктах 2.2.1-2.2.7 рассматриваются те из моделей, которые не71учитывают гауссовость лингвостатистических распределений.
В § 2.3 обоснованвыбор характеристических признаков для соотнесения рассмотренных моделей.Короткоопишемосновныеэтапыисследованияструктурыполикомпонентного объекта. Для того, чтобы исследовать компонентнуюструктуру дискретно представимого поликомпонентного объекта, его расчленяютна отдельные компоненты (элементы), причем такое членение принципиально неможет быть единственным и определяется задачами исследования.При изучении лексики, в лингвостатистике традиционно используютсяпонятия количество словоупотреблений (N) и словарь (V) для обозначения общегочисла компонентов в объекте и количества разных компонентов соответственно.Для любого поликомпонентного объекта возможно моделирование его структуры,как перечня компонентов с указанием их частот (частотное распределение,частным вариантом которого будет частотный словарь). Единицы частотногословаря могут быть упорядочены по убыванию их частот, что дает возможностьввести понятие ранга r, как инструмента описания количественных характеристикраспределения, и перейти к ранговому распределению, в котором единице смаксимальнойчастотойприсваиваетсяминимальныйранг.Ранговоераспределение – едва ли не самый простой и наглядный способ представлениясоотношений численностей компонентов.
От рангового распределения можноперейти к распределению вида численность класса – количество классов с такойчисленностью (спектровое распределение по терминологии Г.Я.Мартыненко1,видовое – по терминологии Б.И.Кудрина2), в котором в один класс объединяютсяединицы, встретившиеся одинаковое количество раз.
Спектровое распределениеявляется сверткой рангового распределения. Так, hapax legomena, под которыми втексте диссертации понимаются слова, встретившиеся в данном тексте один раз, вранговом распределении будут приписаны большие значения рангов, и эти слова1Мартыненко Г.Я. Методы статистического моделирования в языкознании // Прикладное языкознание : Учебник.СПб., 1996.
С. 209.2Кудрин Б.И. Онтология и гносеология ценозов и их структурная устойчивость // Ценологические исследования.Вып. 1-2. Математическое описание ценозов и закономерности технетики. Философия и становление технетики.С. 21.72составят длинный хвост распределения. В спектровом же распределении они,наоборот, будут самым высокочастотным классом в голове распределения.Непроясненными вопросами лингвостатистики остаются общий видраспределения,соотношениечисленностей крайних точек распределения,устойчивость зависимости между численностью класса и количеством классов стакой численностью, место маркированных компонентов (например, ключевыхслов) на кривой распределения и др.§ 2.1 Моделирование статистической структурыполикомпонентных объектовПервые сообщения о статистических распределениях, имеющих резкоасимметричное распределение численностей, относятся к концу XIX – началуXX вв.
Примеры таких распределений были обнаружены на материале разныхпредметныхобластей,чтоопределиломеждисциплинарныйхарактерисследований этих распределений в последней четверти XX в.В работе «Теория статистики» Дж.Юл и М.Кендэл среди форм кривыхраспределения численностей выделяют небольшое число простых типов:симметричноераспределение,умеренноасимметричное,илискошенноераспределение; крайне асимметричное, или J-образное распределение; наконец,U-образноераспределение1.Формакривой,описываемаяимикакJ-распределение, соответствует формам кривых распределения, получившего вразныхисследовательскихконцепцияхназваниягиперболическогораспределения2, Н-распределения1, power laws (общее название для зависимостейЦипфа, Парето, Лотка, Бредфорда в зарубежной литературе).1Юл Дж., Кендэл М. Теория статистики.
С. 114.Zipf G.K. Human behavior and the principle of least effort. An introduction to human ecology. Cambridge (Mass.),Addison-Wesley, 1949. 574 р. ; Арапов М.В., Шрейдер Ю.А. Классификации и ранговые распределения // Научнотехническая информация. Сер.2. 1977. №.11-12. С. 15―21.273Характеризуя J-образное распределение, авторы «Теории статистики»пишут следующее: «При этом типе распределения численности групп стремятся кмаксимуму на одном конце амплитуды колебаний… Не всегда можно отличитьэтот тип от умеренно асимметричного распределения при помощи элементарныхметодов, если в нашем распоряжении нет первичных данных. … В экономическойстатистике такая крайне асимметричная форма особенно характерна дляраспределения населения по богатству.
… Кривая, к которой они приводят,получила название кривой Парето по имени Вильфредо Парето, заострившего наней внимание экономистов»2 (работа В.Парето опубликована в 1897 г.). Средиматериалов, на которых обнаруживается J-образное распределение, указываютсябиологические и лингвистические данные: <распределение – Л.К.> может бытьполучено для численностей родов с 1, 2, 3 и т.д. видами в какой-либобиологической группе. … Дж.Юл показал, что оно характерно и для численностейслов, употребленных однажды, дважды, трижды и т.д.
в каком-либо труде3.Можно соотнести типы распределений с двумя типами процессов. В первомслучае имеется распределение с видимой ведущей тенденцией и можно отследитьдетерминирующийпроцессилихарактеристику(например,нормальноераспределение, в котором среднее значение признака имеет наибольшую частоту;таков и характер движения молекул при заданной температуре).