Диссертация (1148605), страница 38
Текст из файла (страница 38)
Анализ отфильтрованной лексики показывает, что увеличилась частотаглаголов действия (побити, учредити, приехати), и это один из результатовбеллетризации (обмирщения, милитаризации и т.п.). Лексика, сократившая своюупотребительность, тоже указывает на то, что текст подвергался секуляризации ибеллетризации: на выход движутся лексемы грешный, игумен, Христос,христианство, призывати, госпожа, чаяти и др. (см. также § 4.5).193Таблица 20 ― Лексемы на «хвостах» S-распределения Основной редакции и еебеллетризованного варианта (по ИС с неалфавитным упорядочиванием)«На выход»rОсн FОсн rБелл FБеллЛексемаУЖЕУБОТАТАРЫИЖЕДОБРЫИГРЕШНЫИЕГДАПАЧЕИГУМЕНРАДОВАТИСЯПРЕЖДЕГРОЗАХРИСТОСХРИСТИАНСТВОСМЕРТЬПРИЗЫВАТИГОСПОЖАЧАЯТИТРИ649312210617116815314216516722519219318417917220918718827211518101112131111899101010899316334515270688499420312404397739523521439384363476366361442512343312233323325224139316451733126717023923051433132825520519126717917323171313999988777777666«На вход»ЛексемаrОсн FОсн rБелл FБеллПОЛЕВОИСКОПОБИТИОЛЬГЕРДОВИЧИВЛАДЫКА1000ЗНАМЕНИЕКУЛИКОВОУЧРЕДИТИКИПРИАНПРИЕХАТИБРЯНСКИИВОСПРИЯТИЯЗЫКЧЕТЫРЕ1511991120317191403268329954370430596953234483129159465144217355691291008012511412818915015318321111718626221215171213128101087128-96-130-991-217-111-278-154-201-765-220-277-413-742-117-2971413111088777666655Примечания1 FОсн ― абсолютная частота лексемы в Основной редакции, FБелл ― абсолютнаячастота лексемы в беллетризованном варианте2 rОсн ― ранг лексемы в Основной редакции, rБелл ― ранг лексемы в беллетризованномварианте3 φ ― скорость4 Δ ― разница частот лексемы, FБелл - FОснОсобенности кривой S-распределения для ИС этой пары списков могутслужить формальными индикаторами, которые могуть быть использованы для194подтверждения мнений экспертов: в пределах стабильной зоны скорости левойветви гиперболы заметно больше, чем антисимметричные им скорости правойветви (рисунок 18).
Это означает, что какие-то лексические единицы (в данномслучае,церковно-религиознаялексика)целенаправленноудаляютсяизбеллетризованного списка.Такой особенности нет у графиков других инвариантных словарей, см.Приложение П.Рисунок 18 ― S-распределение инвариантного словаря лексем Основной редакции и еебеллетризованного варианта (по ИС с неалфавитным упорядочиванием)Таким образом, с помощью S-распределения можно выделить семантическии стилистически релевантные изменения текста.1953.1.6 Анализ ЧС «Сказания о Мамаевом побоище»с применением точки h Хирша (по методике И.-И.Попеску, Я.Машутекаи Г.Альтманна)Для списков «Сказания» были получены следующие значения точки h (см.таблицу 21).Таблица 21 ― Значения точки h для ЧС «Сказания» всех типовШифр спискаЧС рукописныхсловоформОсновнаяЛетописнаяКиприановскаяРаспространеннаяРедакция СинопсисаСокращенныйКомпилятивныйБеллетризованный32,031,532,031,027,526,531,727,5Значение точки hЧС стандартизованныхсловоформ33,031,533,031,728,626,032,028,0ЧС лексем41,438,041,042,535,533,040,534,3Лексика, отсекаемая точкой h, содержится в таблицах 23–25 и совмещена слексикой, маркируемой по параметрам Б.И.Кудрина и Г.Я.Мартыненко.
Изтаблиц видно, что с помощью точки h отделяются от 27 до 32 самыхвысокочастотных словоформ и от 33 до 42 самых высокочастотных лексем, вчисло которых попадает почти вся часто употребляемая служебная лексика инебольшое количество знаменательных слов. И.-И.Попеску с соавторами былиполучены аналогичные результаты, они интерпретируют точку h как границумежду служебными словами и словами, значимыми для данного текста. По ихданным, те полнозначные слова, которые попадают в зону от слова смакимальнойчастотойдоточкиhвключительно,отражаюттематикурассматриваемого текста.
Для данных «Сказания» это предположение хорошосрабатывает на частотных словарях лексем.196Результаты, полученные автором диссертации на основании ЧС словоформтестовой коллекции «Inspec» (корпус аннотаций к научным статьям), такжеподтверждают особый статус точки h, как границы между служебной изнаменательной лексикой. Полнозначная лексика выше точки h относится кобщенаучной лексике и тематической лексике корпуса1.§ 3.2 ЗаключениеНастоящаяглавапосвященаописаниютехнологиипроведенияисследования и получения результатов и их фиксации от перевода списков«Сказания» в машиночитаемую форму и получения трех вариантов частотныхсловарей (рукописных словоформ, стандартизованных словоформ и лексем) доаппроксимациичастотныхсловарейтеоретическимимоделями,описанияосновных особенностей полученных результатов применительно к вариативномутексту «Сказания».§ 3.3 ВыводыПроделанная работа позволяет сделать следующие выводы:1.
Правила перевода текста в машиночитаемую форму, принятые в рамкахпроекта СКАТ, дают оптимальное соотношение степени унифицированноститекстаивозможностиотображениявариативностирукописноготекста,обеспечивая, помимо этого, сопоставимость исследуемых текстов с большиммассивом аналогичных текстов.1Popova et al. Stop-words in Keyphrase Extraction Problem. P.
116.1972. Принятые модификации отображения вариативности рукописного текстаприменены к построению частотных словарей: для исследования аспектоввариативностисоставленычастотныесловарирукописныхсловоформ,стандартизованных словоформ и лексем.3. Методика исправления эффекта рангового искажения по В.П.Масловуобнаруживает систематическую ошибку, а именно рост ранга при неизменностичастоты в области редкочастотной лексики. На участках, где график измененияпараметра С распределения Ципфа приблизительно параллелен оси абсцисс,выявляется концентрация маркированной лексики.
Наблюдения за изменениемпостоянства произведения ранга и частоты, соответствующей этому рангу, вранговом диапазоне 50<r<100 позволяют предположить, что редактированиетекста с целью его сквозного сокращения или сокращения за счет определенныхэпизодов (в данном случае, религиозных) не меняет его частотную структуру.4. Аппроксимация эмпирических кривых Н-распределением Б.И.Кудринадает неплохое соответствие эмпирических и вычисленных величин, но завышаетчастоты редко- и среднеупотребительных единиц для распределения лексем изанижает эти же частоты для распределений словоформ, что по-видимому,является особенностью алгоритма.5. Модель простых чисел в целом не дает удовлетворительных результатовдля обработанных ЧС из-за их большого разнообразия.
На основании этого можнопредположить,чтомодельпростыхчиселнеприменимадляописаниялитературных текстов. Достоинством этой модели является ее способностьмоделировать «всплески и провалы» числа классов в области средних частот.6. Скользящий коэффициент вариации, предложенный Г.Я.Мартыненко дляразделения совокупности на ядреную и периферическую зоны, выделяет в ЧС«Сказания» наиболее высокочастотную лексику.7.Скользящийкоэффициентвариациичувствителенкстилевымхарактеристикам текста, позволяя отчленить стилистически маркированнуюКиприановскую церковную редакцию от других версий «Сказания».1988.
В динамике прироста скользящего коэффициента вариации выделяютсятри зоны – монотонного убывания прироста скользящего коэффициентавариации, область его немонотонного изменения и его монотонного возрастания.9. Метод структурно-топологической динамики В.В.Фуфаева, впервыепримененный для анализа тенденций изменения частот слов в вариативномтексте, дает возможность сделать ряд содержательных заключений.
Можноутверждать, в частности, что высокий коэффициент конкордации Кендэла дляранговлексическихединицинвариантныхсловарейсвидетельствуетободнотипности темпоральных изменений вариантов «Сказания», а изменение егозначения вместе с изменением размера инвариантного словаря являетсяиндикатором однородности выборки и обладает чувствительностью к введению ввыборку инородного текста.Лексикаинвариантныхсловарейохватываетот38до96%словоупотреблений в списках «Сказания», свидетельствуя о малом разнообразиисемантическинасыщеннойлексики,какэтосвойственнодидактическиориентированным текстам.Соотношение количества компонентов в стабильной зоне и на «хвостах» Sраспределений инвариантных словарей групп и пар списков «Сказания»указывает на устойчивость структуры текста «Сказания» во времени.
Кроме того,По разнице в углах наклона ветвей S-распределения к оси абсцисс (указывающихна то, что скорости в пределах некоторой группы компонентов больше, чемскорости в пределах антисимметричной группы слов) можно заключить, что текстпретерпевает целенаправленные изменения. Такую форму имеет S-распределениеОсновной редакции и ее беллетризованного варианта.ФормаS-распределениянеменяетсявзависимостиотспособаупорядочивания лексических единиц внутри групп с одинаковой частотой, номеняется лексический состав в зонах S-распределения.