Диссертация (1148605), страница 32
Текст из файла (страница 32)
ста- классич.тистикастатистикадискретность данные прерывны,интерпретациянепрерывнанетпринципиальноотсутствует,уникальность точки hдля каждого текста154Можно конструктивно по конкретным характеристикам сопоставить:1. Методы Г. Я. Мартыненко, Б. И. Кудрина и И.-И.Попеску с соавторами,предназначенные для членения кривой распределения на функциональные зоны:ядро соответствует саранчёвой касте и области от слова с максимальной частотойдо точки h, а периферия – ноевой касте.
Формальными маркёрами здесь являютсяграница, определяемая с помощью скользящего коэффициента вариации,пойнтер-точка R и точка h.2. Методы Т. Г. Петрова и Г. Я. Мартыненко, сравнивая группировкусписков «Сказания» в поле «энтропия-анэнтропия» и по индексу Я/С. Такоесопоставление кажется правомерным, так как значение энтропии определяютдоли доминирующих, высокочастотных элементов, а значение анэнтропии,напротив, – редких, низкочастотных, «примесных».3.
Методы Б. И. Кудрина и Т. Г. Петрова, рассматривая энтропию Н какхарактеристику саранчёвой касты (слово с максимальной частотой), а анэнтропиюкак характеристику ноевой касты (hapax legomena). В этом случае все прозрачносоотносимо с представлениями чистоты, как доли малых компонентов, исложности по Т. Г. Петрову. Полученные результаты могут использоваться длясравнения подходов Ю. А. Шрейдера и Т. Г.
Петрова (симметричность vsсложность-чистота).4. Методы М. В. Арапова-М. М. Херц и В. В. Фуфаева по характеруубывания доли сохранившейся лексики в разных ранговых группах в стабильнойзоне S-распределения.Явных параметров для сравнения методов Т. Г. Петрова и В. В. Фуфаева необнаруживается, хотя оба исследователя ориентированы на изучение процесса.При этом метод В. В. Фуфаева направлен на изучение динамики численностикомпонента, а метод Т.
Г. Петрова – на изучение динамики совокупности. Главноепрепятствие для возможности такого сравнения – несопоставимость исходныхданных. Содержательно, в S-распределении отражается динамика каждогокомпонента и выделяются зоны хаоса и стабильности как минимум для двухвременных состояний объекта, а на диаграммах Т. Г. Петрова, наоборот, целое155распределение компонентов объекта характеризуется двумя параметрами, и, ужеанализируя набор этих точек-состояний, Т. Г. Петров выявляет и характеризуетпроцесс.Результаты сопоставления методик и интерпретация выявленных с ихпомощьюособенностейкомпонентнойструктурывариантов«Сказания»приведены в главе 4.§ 2.4 ЗаключениеОбзор отечественных и зарубежных моделей, построенных на основеформулы Ципфа и применяющихся для описания компонентной структурытекста, показывает, что их авторы исходят из несопоставимых предположений,преждевсего,несовместимыхгауссовости / негауссовостиопределенияэталонныхаприорныхсовокупности,значенийпредставленийобуславливающихпараметровраспределения.овозможностьПриэтомпрослежена связь «принципа наименьшего действия» П.Мопертюи, «принципаэкономии» А.Мартине и «принципа наименьшего усилия» Дж.Ципфа спсихологическим механизмом, приводящим к распределению Ципфа, чтопозволяет говорить о неправомочности трактовки распределения единиц текста наестественном языке как результата случайного (а не неопределённого) процесса.Указанная ситуация заставляет отвечать на некоторые принципиальныевопросы.
При этом, поскольку выявленные распределения имеют негауссовуприроду, то необходимо прояснить, что можно сказать об этой негауссовости.Прежде всего, следует уяснить, что речь идет не о каких-то особенностяхбиологических процессов, порождающих негауссовые распределения в биологии,экономических факторах, порождающих их в социально-экономических областях,и т.д., а об особом универсальном классе статистик.156Осознание этого факта эквивалентно тому, что связывается с именем Гауссаи что позволило говорить о гауссовых распределениях безотносительно кконкретным «физическим» механизмам, порождающим эти распределения, иописывать гауссовыми распределениями распределения величин в самых разныхобластях.Далее встает вопрос о том, один или несколько характерных классовнегауссовых распределений существует.
Скорее всего, речь идет о несколькихклассах негауссовых распределений, причем пока практически нет основанийговорить о том, что те или иные распределения относятся к одному илинескольким таким классам. Некоторые наметки того, что возможно выделениенескольких таких классов, делаются экологами-гидробиологами.Безотносительнокматематическойприродеданногонегауссовогораспределения, в разных предметных областях и в рамках разных школстатистики, они могут изучаться разными способами, предполагающими разныйспособ сбора эмпирических данных и технику их математической обработки.Признавая единство математической природы таких распределений, оказываетсяцелесообразнымустановитьхарактерсоотнесенияразныхметодовстатистической обработки независимо от предметной области.Такое соотнесение может осуществляться как на концептуальном уровне(что и осуществляется в этой главе), так и путем соотнесения результатовобработки одного и того же материала разными методами (см.
главу 4).При этом следует обратить внимание на то, что одно и то же эмпирическоераспределениераспределениями.можетаппроксимироватьсяВыявлениехарактерныхразнымисоотношенийтеоретическимитеоретическихраспределений, составляет предмет математической статистики и лежит запределами данного исследования.Вместе с тем, использование этих теоретических распределений дляописания конкретного материала позволяет строить модель этих эмпирическихданных. Полученные модели могут характеризоваться как их соответствиемтеоретическим распределениям (что будет характеризовать качество каждой157модели), так и соотнесением разных моделей друг с другом, т.е. построениемметамодели.В контексте сформулированных положений следует указать, что вседетально проанализированные методики изучения распределений этого классалибо учитывают, либо не отрицают негауссовость лингвостатистическихраспределений, а именно:а) эталонная модель М.В.Арапова-Ю.А.Шрейдера аналитически совпадает сципфовским распределением, а предложенная ими методика нацелена наотыскание оптимальной структуры распределения комбинаторными методами;б) В.П.Маслов развивает идеи Ю.А.Шрейдера о распределении Ципфа, какэталонном, и предлагает логарифмическую поправку для исправления эффектарангового искажения в формуле Ципфа;в) Б.И.Кудрин предлагает 2 модели для описания структуры техногенныхполикомпонентныхН-распределение,объектов:являющеесястепеннойфункцией, и модель простых чисел, имеющих фундаментальное значение дляматематики;г)Г.Я.Мартыненкопредставляетполикомпонентных объектов«периферию»(используякакдляэмпирическиесоставные,этогоприроствыделяявскользящегораспределенияних«ядро»икоэффициентавариации), и предлагает разные аналитические модели для их описания;д) Т.Г.Петров оперирует с энтропийными и анэнтропийными свойствамиранговой формулы поликомпонентных объектов, используя их, в том числе, и дляустановления особенностей изменения состава во времени;е) В.В.Фуфаев прослеживает изменение структуры целого объекта иизменение траекторий отдельных его компонентов в диахронии, выявляя группысогласованноменяющихсвоирангикомпонентовиопределяяихфункциональную нагрузку.ж)И.-И.Попеску,Я.МашутекиГ.Альтманнрассматриваютгиперболическое распределение, как суперпозицию некоторого числа качественно158однородных гиперболических распределений, и разбивают результирующеераспределение на функциональные зоны с помощью точки h Хирша.Сопоставление этих моделей, опирающихся на сходное упорядочиваниеэмпирических данных, выявляет концептуальные противоречия, делающиеразрабатываемые модели принципиально несопоставимыми, а сравнимыми лишьпо некоторым параметрам.§ 2.5 ВыводыПроведенный критический анализ имеющихся данных позволяет сделатьследующие выводы:1.
Совокупность имеющихся эмпирических данных, относящихся кразличному материалу, априорные соображения (экстремальные принципы,принципы симметрии, признание уникального значения натуральных чисел ит.п.), теоретические положения статистики (различение процессов разных типов),эмпирическиекритерии(аномальныйростдисперсииуэмпирическихраспределений) являются основанием для принятия тезиса о негауссовой природераспределений лексического состава в тексте, как поликомпонентном объекте.2. Ни одна из рассмотренных концептуально различных математическихмоделей распределения численности компонентов поликомпонентных объектовне дает универсальных и исчерпывающих характеристик статистическойструктуры текста.3.
Обнаружено, что ранее не проведено апробации всех предложенныхматематическихмоделейраспределениячисленностикомпонентовполикомпонентных объектов на едином массиве эмпирических данных.4. Теоретическими средствами предложенные математические моделираспределения численности компонентов поликомпонентных объектов могутбыть лишь частично соотнесены друг с другом.1595. Вопрос о возможности реконструкции одного фрагмента распределенияпо другому (распределения высоких частот по распределению низких и наоборот)не прояснен. Также не прояснена зависимость параметров распределения отстилевых, жанровых, размерных и других характеристик текста.160ГЛАВА 3. Лексико-статистическая структура списков«Сказания о Мамаевом побоище»Глава 3 посвящена анализу полученных частотных словарей в соответствиис концепциями, описанными в пунктах 2.2.1 – 2.2.7 главы 2.§ 3.1 Анализ частотных словарей «Сказания о Мамаевом побоище»в рамках разных подходовВ этом разделе производится анализ ЧС «Сказания» в той форме, в какойони описаны в п.
1.6.1 по рассмотренным в главе 2 методикам без соотнесениярезультатов, получаемых в результате применения разных методик. Соотнесениерезультатов производится в главе 4.В таблице 7 указано, какие типы словарей анализировались для каждого изметодов («+» – ЧС указанного типа обрабатывался по соответствующей методике,«–» – не обрабатывался).В том случае, когда анализ не производился для ЧС рукописных словоформ,в таблицах и обсуждениях соответствующего раздела под «словоформой»понимаются стандартизованные словоформы.Так как выяснилось,что данныеЧСрукописных словоформнеинформативны при исследовании смысловых особенностей редакций из-задлинного «хвоста» низкочастотных элементов и отсутствием (за редкимисключением) полнозначной лексики в «голове» распределения, ЧС рукописныхсловоформ не обрабатывались по методике В.В.Фуфаева.
По той же причине неисследовались ЧС рукописных и стандартизованных словоформ по В.П.Маслову.161Таблица 7 ― Сводная таблица проанализированных ЧСЧСЧСАвторТип ЧСрукописных стандартизометодикисловоформванныхсловоформВ.П.Маслов––Б.И.Кудрин++Г.Я.Мартыненко++Т.Г.Петров++В.В.Фуфаев–+И.-И.Попеску, Я.Машутек, Г.Альтманн++ЧС лексем++++++3.1.1 Анализ ЧС «Сказания о Мамаевом побоище»с применением методики В.П.МасловаВ.П.Маслов предлагает две разные функции для аппроксимации головы ихвоста гиперболического распределения. Вводя логарифмическую поправку, онрассчитывает получить график распределения произведения ранга на частоту (С)в виде прямой, параллельной оси абсцисс1.Для частотных словарей лексем «Сказания» были построены графикиизменения параметра С без учета логарифмической поправки и с ее учетом.
Дляудобства представления графики построены для части частотного словаря сабсолютными частотами n≥5 (см. рисунок 14 и рисунки на листах Е.1–Е.4 вПриложении Е).Как видно из рисунков Приложения Е, графики однотипны, но ни в одномиз случаев не удается получить желаемого результата: до ранга со значением 50 о«параллельности» графика оси абсцисс не может быть и речи, а после 50-го рангарешение, как провести параллельную прямую, принимается с помощьюэкспертной оценки и, в силу этого, является предметом личностного знания.1Маслов В.П.