Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)), страница 14
Описание файла
Файл "Диссертация" внутри архива находится в папке "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)". PDF-файл из архива "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 14 страницы из PDF
После / приводится морфологическаяинформация, приписываемая полученной словоформе: категории и грамматические значения доих применения должны быть указаны в файле preferences.def. Расшифровка значенийграмматических категорий глагола в настоящем времени (praes): лицо (person) – 1p, 2p, 3p;число (number) – sg, dual, pl.Двавариантасловоизменительнойпарадигмыиспользуютсядляобразования форм глагола, написанных под титлом (см. фрагмент словаря ниже),при этом варианты под титлом подводятся под одну суперлексему «глаголати».Пример 3.
Фрагмент общего словаря лексем «Сказания о Мамаевом побоище».глаголати, V+FLX=GLAGOLATIглголати1, глаголати,V+FLX=GLGLTIглти1, глаголати,V+FLX=GLTIглати, глаголати,V+FLX=GLGLTI1АОТ: автоматическая обработка текста : [сайт] / А.В. Сокирко [и др.]. М., [2002-2012]. URL: http://www.aot.ru(дата обращения 27.10.2013).64Врезультатепоискапосуперлексеме“<глаголати>”вкорпусеобнаруживаются следующие словоформы:Список Распространенной редакции РНБ Q.IV.354ИНОГО ПОМОШНИКА РАЗВЭ ГСДА ИНДЕЯРОСТИ И РЕЧЕ ЦАРЮ ЧТОСРДЦЕ СВОЕМЪ ЛЕСТИЮ КО ЦРЮ1НА СТЕПЕНИ ВЫСОЦЭ И НАЧАКОМУЖДО ПОЛКУ СВОИМИ УСТЫ НАЧАСАМЪ ЭЗДИТИ И СО СЛЕЗАМИГЛАГОЛЕТЪГЛАГОЛЕШЪГЛАГОЛАТИГЛАГОЛАТИГЛАГОЛАТИГЛАГОЛАТИОБЫДОША МЯ ПСИ МНОЗИ ИСИЕ ТАКОВОМУ ВЕЛИКОМУ ГСДРЮ НЕКАКЪ ЕМУ ИЗБЫТИ ОT РУКИВЕЛИИМЪ ГЛАСОМ НОВГОРОДСКИМЪ ПОСАДНИКОМЪ ОTСИЦЕ БРАТИЯ МОЯ МИЛАЯ СНОВЕОTЦЫ1 И БРАТИЯ КТО СЛЫШАСписок редакции Синопсиса, РНБ, собр.
Колобова, №336.ГОСПОДЭ СВОЕМЪ РЕЧЕ МАМАЮ ЧТОБРАТА СВОЕГО НАЧА С ПЛАЧЕМЪВЕЛИКИИ КНЯЗЬ НАЧА ПЛАКАТИСЯ ИС РАДОСТИЮ И С ПЛАЧЕМЪКакГЛАГОЛЕШИГЛАГОЛАТИГЛАГОЛАТИГЛАГОЛАТИпредставляется,СИЕ ТАКОВОМУ ВЕЛИКОМУ ГОСУДАРЮ БГЪБРАТИЯ МОЯ МИЛАЯ КТО ВИДЭБРАТИЯ МОЯ МИЛАЯ КНЯЗИ ИБРАТИЯ МОЯ ВОЗЛЮБЛЕННАЯ КНЯЗИ РУСКИИглавноепреимуществоописываемоголингвопроцессора – простота применения и хорошая документированность, чтодает возможность в кратчайшие сроки перейти от технической работы кпроведению широкого спектра исследований. Особым достоинством NooJявляется поддержание приблизительно 100 форматов данных, включая doc, pdf иHTML.§ 1.7 Основные количественные характеристикичастотных словарей списков «Сказания о Мамаевом побоище»В таблице 3 (с.
65) приведены результаты первичной статистическойобработки списков «Сказания». Прежде всего, обращает на себя вниманиеустойчивость относительных характеристик (колонки 3, 5, 7, 8, 9, 11). Среди всехсписков выделяется список Киприановской редакции.Среди первой сотни высокочастотных слов почти отсутствует графическаявариативность, т.к.
значения в колонке 11 меняются слабо (до 2%) при переходеот ЧС рукописных словоформ к ЧС стандартизованных словоформ. Очевиднотакже, что среди этих слов присутствуют слова, имеющие словоизменительнуюпарадигму, т.к. доля в тексте слов с рангами [1-100] увеличивается на 45-50% припереходе от ЧС стандартизованных словоформ к ЧС лексем.65Таблица 3 ― Основные количественные характеристики списков «Сказания о Мамаевом побоище»Шифр списка№ колонкиN1V2V/N3Fmax4F m ax /N5N(F=1)6Объемтекста,ИндекспокрываемыйN(F=1) /N N(F=1) /V симметричностисловами с рангами, F m ax /N(F=1)[1-100]78910Долявтексте слов срангами [1100]11ЧС рукописных словоформОсновнаяЛетописнаяКиприановскаяРаспространеннаяред.
СинопсисаСокращенныйКомпилятивныйБеллетризованный109679877113251144285366789112428471411635293813432935562629404228880,3750,3570,3370,3780,4170,3870,3600,34175768711977805324928226350,0690,0700,1060,0680,0620,0730,0730,075ОсновнаяЛетописнаяКиприановскаяРаспространеннаяред. СинопсисаСокращенныйКомпилятивныйБеллетризованный109679877113251144285366789112428471390534643662409032762559388428330,3560,3510,3230,3570,3840,3770,3450,33475868712007945675338306360,0690,0700,1060,0690,0660,0790,0740,075ОсновнаяЛетописнаяКиприановскаяРаспространеннаяред. СинопсисаСокращенныйКомпилятивныйБеллетризованный109679877113251142385346789112428470183817371657185315871230183614060,1680,1760,1460,1620,1860,1810,1630,16676069012037965685368376370,0690,0700,1060,0700,0670,0790,0740,075291024392622311126221865285919280,2650,2470,2320,2540,3070,2750,2540,2280,7070,6910,6880,6720,7370,7090,7070,6680,2600,2820,4570,2510,2030,2640,2880,329409540234585433132172838442835250,3730,4070,4050,3790,3770,4180,3940,4160,6900,6870,6750,7000,7080,6980,6960,6620,2810,2890,4860,2770,2440,2980,3070,339418840664712445233442869452335410,3820,4120,4160,3890,3920,4230,4020,4180,4870,5090,4700,5070,5090,5110,5000,4760,8480,7801,5460,8470,7040,8540,9120,952629857966877665348564224657651240,5740,5870,6070,5820,5690,6220,5850,605ЧС стандартизованных словоформ269323802471286223211787270518750,2460,2410,2180,2500,2720,2630,2410,221ЧС лексем8968857789408076289186690,0820,0900,0690,0820,0950,0930,0820,079Пр им е ч а ни е ― N – объем текста в словоупотреблениях, V – объем словаря, Fmax – абсолютная частота самой высокочастотной единицы словаря, N(F=1) – количество hapaxlegomena, V/N – индекс повторяемости словаря, N(F=1)/N – доля hapax legomena в тексте, N(F=1)/V – доля hapax legomena в словаре, Fmax/N(F=1) – индекс симметричности (отношениеабсолютной частоты самой высокочастотной единицы к количеству уникальных единиц).
Полужирным шрифтом выделено максимальное значение признака, курсивом – минимальное66По данным колонки 11 можно сделать еще одно интересное замечание: доляпервых 100 высокочастотных слов в сокращенном списке выше, чем в другихсписках, при этом в нем не наблюдается уменьшения доли уникальной лексики(см. колонку 7). Эта тенденция сохраняется при переходе от одного типа словарякдругому.Беллетризованныйсписок,подвергшийсяцеленаправленномусокращению религиозных отступлений, по доле высокочастотной лексики близокк сокращенному списку и Киприановской редакции, но эти два списка обладаютминимальными долями уникальной лексики по сравнению с прочими списками(по ЧС рукописных словоформ минимальное значение имеет беллетризованныйсписок – 0,228, по ЧС стандартизованных словоформ и ЧС лексем –Киприановская редакция – 0,218 и 0,069 соответственно).В ходе исследования произведены наблюдения за графикой рукописей.Некоторые заключения о графических особенностях рукописей можно сделать поданным таблицы 4.При унификации графики (см.
столбец V2/V1 в таблице 4) разнообразиесловоформ уменьшилось больше всего в списке редакции Синопсиса (V2/V1 =0,921). Это написанный каллиграфическим полууставом и имеющий деление наслова список XVIII в., в котором очень активно и хаотично используются W, Uвместо О, G вместо У, R, Y вместо Я, J вместо Ю (см. пример на с. 162).Таблица 4 ― Сокращение индекса повторяемости при переходе от одного типачастотного словаря к другомуШифр спискаV1V2V3NV1/N V2/N V3/N V2/V1 V3/V2Основная4116 3905 1838 10967 0,375 0,356 0,168 0,949 0,471Летописная3529 3464 1737 9877 0,357 0,351 0,176 0,982 0,501Киприановская3813 3662 1657 11325 0,337 0,323 0,146 0,960 0,452Распространенная 4329 4090 1853 11442 0,378 0,357 0,162 0,945 0,453ред.
Синопсиса3556 3276 1587 8536 0,417 0,384 0,186 0,921 0,484Сокращенный2629 2559 1230 6789 0,387 0,377 0,181 0,973 0,481Компилятивный4042 3884 1836 11242 0,360 0,345 0,163 0,961 0,473Беллетризованный 2888 2833 1406 8471 0,341 0,334 0,166 0,981 0,496Примечание ― V1 - объем словаря рукописных словоформ, V2 – объем словарястандартизованных словоформ, V3 – объем словаря лексем, полужирным шрифтом выделеномаксимальное значение признака, курсивом – минимальное67В списке Летописной редакции, наоборот, слабо варьирует графика, нообнаруживается большое количество флексий, свернутых до выносных буквнаряду с полным воспроизведением флексий. Такая вариативность снимаетсятолько при переходе к словарям лексем, но для этого списка даже словарь лексемсжимается в 2 раза, т.е., меньше, чем для всех остальных (V3/V2=0,501).Вцеломсправедливатенденция,чтовпоздних списках графическаявариативность затухает в связи со снижением употребления некоторых графем(например, юсов) и распространением скорописи.