Диссертация (1148605), страница 24
Текст из файла (страница 24)
Quantitative linguistics. P.79―92.3Тулдава Ю.А. О частотном спектре лексики текста // Квантитативная лингвистика и автоматический анализтекстов. 1986. C.157―159.2111Здесь речь идет об уже упоминавшейся ранее проблеме невыполнения ЦПТдля H-распределений: коль скоро ЦПТ не выполняется (о чем свидетельствуетрост дисперсии с увеличением выборки), то методами классической статистикипользоваться нельзя, т.к.
они дадут искаженные результаты. Этот общеизвестныйфакт,по-видимому,неявляетсяпринципиальноважнымдлячастиисследователей.Г.Я.Мартыненко, по существу, игнорирует принципиальный вопрос овыполнении ЦПТ и сходимости значений к средним величинам, ссылаясь наконцепции начала XX века, в частности В.Лексиса.«Лексис предложил для измерения устойчивости статистических рядовосбоый показатель Q2 – коэффициент дивергенции1. Смысл этого показателязаключается в том, что эмпирическая дисперсия сравнивается с теоретическойвеличиной, условно определяемой таким образом, что частость, взятая для всегоряда данных, приравнивается вероятности:2 ( p pi ) 2 2 p(1 p )Q :,m 1n2где m – число серий по n испытаний, pi – частота в сериях, p – общая частость,приравненная вероятности.По Лексису, небольшое отличие Q2 от единицы свидетельствует онормальном рассеянии, если Q2 меньше единицы, то устойчивость рядасверхнормальна, а если больше единицы, то устойчивость ряда поднормальна.В соответствии с величиной Q2 можно говорить о рядах с нормальной 2,поднормальной и сверхнормальной устойчивостью.В длинной серии статистических рядов, исследованных Лексисом, ни водном случае не получилось сверхнормальной устойчивости, иначе говоря, тастепень устойчивости, которая характерна для закона ошибок Гаусса, имеет, поЛексису, значение максимальной.
…1У О.Б.Шейнина – «коэффициент дисперсии» (Шейнин О.Б. Теория вероятностей Электронный ресурс]:Исторический очерк. [20― ―?]. URL: http://www.sheynin.de/download/modamo_Geschichte.pdf (дата обращения20.10.2013).2Разрядка Г.Я.Мартыненко.112Экспериментальныерезультаты,полученныеЛексисом…,быливдальнейшем пересмотрены А.А.Чупровым, которому удалось показать, что вявлениях действительной жизни ряды со сверхнормальной устойчивостьювстречаются достаточно часто»1.Как сообщает сам Г.Я.Мартыненко2, он занимается «чистой эмпирикой» иповедение дисперсии в отдельно взятой генеральной совокупности его неинтересует.Вработе1978г.Г.Я.Мартыненкопредложилдвеоригинальныеаппроксимирующие функции для распределений элементов в зонах концентрации(«ядро», высокая значимость элементов) и рассеяния («периферия», малаязначимость элементов), предварительно обосновав составность исследуемыхстатистических рядов.Он приводит несколько критериев, указывающих на неоднородностьсовокупности:1.«Геометрическийкритерий (графики комбинированных рядоввсравнении с рядами простейшего типа отличаются более сложным “рельефом”,кривая графика распределения многовершинна)»3;2.
Критерий вариативности («чем больше коэффициент вариации, тембольше шансов, что совокупность неоднородна»)4;3. Критерий эмпирической адекватности закону Ципфа («несогласованностьразличных зон распределения с законом Ципфа»)5.Применяягеометрическийкритерий,Г.Я.Мартыненкосправедливоуказывает, что представление статистической структуры совокупности спомощью ранговых распределений затрудняет процедуру выявления характерныхособенностей кривой из-за высокого пика этих распределений и длинного хвоста,а также чрезмерной растянутости графика вдоль оси абсцисс (по оси абсцисс1Мартыненко Г.Я. Методы статистического моделирования в языкознании // Прикладное языкознание : Учебник.СПб., 1996.
С. 217.2Г.Я.Мартыненко. Устное сообщение, сентябрь 2012.3Мартыненко Г.Я. Некоторые закономерности концентрации и рассеяния элементов в лингвистических и другихсложных системах. С.68.4Введение в теорию числовой гармонии текста. С.137.5Там же.113откладываются ранги). Как правило, такой график отождествляют с кривымипростейшего типа – I-образными кривыми1. В недавней работе есть еще болеежесткое замечание о неадекватности ранговых распределений и универсальностизакона Ципфа: «… перечисленные авторы закона (Ципф, Парето и др.) былихорошими профессионалами в своей предметной области, но их математическаякомпетенция не выходила за рамки гимназического курса.
График убывающейкривой при таком уровне математической образованности в большинстве случаевассоциировался с гиперболой. Скорее всего, междисциплинарность в данномслучае формируется не от большого ума, а вследствие поверхностнойматематической подготовки авторов, т.е. в данной ситуации дилетантизм являетсяисточником междисциплинарного универсализма»2.График дифференциального распределения3 элементов (в данном случае,распределения численностей по частоте встречаемости элементов) болеекомпактен по сравнению с графиком рангового распределения. В распределенияхэтого типа ядерные элементы группируются в правой части области измененияаргумента, а периферийные элементы – в левой, график распределения такжечасто отождествляется с кривой J-образного типа.Наиболее информативное представление дает, по мнению Г.Я.Мартыненко,интегральноераспределение(распределениенакопленныхчисленностейэлементов, см.
рисунок 6): «по мере возрастания величин значимости все графикипоследовательно меняют выпуклость на вогнутость, а затем вогнутость навыпуклость, … интегральным кривым такого визуального типа соответствуютдвумодальные дифференциальные кривые». В месте «прогиба» кривой будетрасполагаться переходная зона между ядром и периферией4.1Некоторые закономерности концентрации и рассеяния элементов в лингвистических и других сложных системах.С.70.2Введение в теорию числовой гармонии текста.
С.136.3В дифференциальном представлении распределения значения признака соотносятся с их частотами, винтегральном представлении распределения значения признака соотносятся с накопленными частотами.4Мартыненко Г.Я. Некоторые закономерности концентрации и рассеяния элементов в лингвистических и другихсложных системах. С.71.1148000F(n), накопленная частота70006000граница между "ядром" и "периферией"5000400030002000100000100200300400500600n, объем классаРисунок 6 ― Пример интегрального распределения для сокращенного варианта«Сказания о Мамаевом побоище» (по частотному словарю стандартизованных словоформ)ПривыбореаппроксимирующихфункцийГ.Я.Мартыненкоруководствовался двумя необходимыми для этого условиями:1.
Интегральная функция должна быть дифференцируемой;2. Интегральная функция должна обеспечивать переход к обратнойфункции, т.е., к ранговому распределению.Исходя из этих соображений, Г.Я.Мартыненко предложил в качествеаппроксимирующих функций логистическую функцию, которая обнаружилахорошеесогласованиесраспределениемпериферийныхэлементов,иквазилогистическую функцию – для распределения ядерных элементов1.Такжеимбыливысказаныпредположенияозакономерностяхконцентрации и рассеяния информации в совокупностях различной природы:1. Абсолютное число элементов ядерной зоны (научная элита, профильныеиздания, ведущие химические элементы, доминирующие биологические виды)ограничено сверху небольшим числом элементов.
В большинстве случаев числоэлементов в ядре заключено в интервале от 10 до 20.1Аналитический вид функции приводится для дифференциального распределения.1152. Абсолютное число элементов в периферийной зоне варьирует в оченьшироких границах, причем между численностью ядра и численностью перифериинет очевидной корреляции.3. Число элементов в переходной зоне нестабильно.4. Верхняя граница относительной значимости ядерной, переходной ипериферийной зон варьирует в очень широком интервале. По наблюдениямГ.Я.Мартыненко, в распределениях, построенных на материале общественныхявлений, эта граница составляет около 90% экземпляров от объема совокупностидля ядра, а для переходной зоны и периферии – около 50%. При этом средняяотносительная значимость ядра тяготеет к 50%, периферии – к 30%, а переходнойзоны – к 20%. Для распределений элементов в неживых системах характернасуперконцентрациязначимости:объемядернойзонывраспределенияххимических элементов по их содержанию достигает 99%1 (ср.
данныеТ.Г.Петрова, 2.2.5).5. Распределения по значимости в принципе могут вырождаться в 2экстремальных варианта: а) совокупность не имеет ядра; б) совокупность неимеет периферии. Эти предельные варианты возможны лишь в присутствиисильных целеполагающих факторов2.ПоличномусообщениюГ.Я.Мартыненко,методикарасчетааппроксимирующих функций не воспроизводима по его статьям, поэтому длярасчленения совокупности на зоны концентрации и рассеяния с помощью онрекомендует пользоваться скользящим коэффициентом вариации и эмпирическимкорреляционным отношением. Методика расчета скользящего коэффициентавариации описана в 3.1.3.Анализируяграфики,Г.Я.Мартыненко ориентируетсяполученныена2собственныхданных,их точки перегиба для расчленениясовокупности на зоны.1дляВ п.2 и п.4.
Г.Я.Мартыненко фактически солидарен с Б.И.Кудриным.Там же. С.79.116Им также был предложен индекс Я/С – отношение абсолютной численностиядра к объему словаря. Как пишет Г.Я.Мартыненко, «между объемом словаря иобъемом ядра нет очевидной корреляции. … Достаточно большое ядро можетнадстраиваться над малонаселенной периферией, и наоборот, ничтожное почисленности ядро может сосуществовать с густонаселенной периферией»1.Сопоставление этого индекса и диаграммы НА Т.Г.Петрова см в § 4.3.2.2.5 Рангово-энтропийный подход и информационный язык RHAТ.Г.ПетроваПодход Т.Г.Петрова разрабатывается для систематизации знаний ополикомпонентных объектах (изначально геологических) посредством описанияих компонентного состава.Рассмотрим представление объекта в данной системе. «Препарирование»объектаанализазаключаетсявпредставленииегосостава,какпоследовательности компонентов, упорядоченных по убыванию их содержаний ванализе – ранговую формулу (РФ, или R – в названии языка RHA).
Оперированиес ранговой формулой и характер снижения содержаний вводит развиваемыйподход в одну из междисциплинарных областей знания – теорию ранговыхраспределений. Принципиальной особенностью при работе с ранговой формулойгеохимических объектов является полнота анализа, что, как будет показано далее,идентичнопроблемеопределениядостаточногообъемавыборкивлингвостатистике.
Т.Г.Петров указывает, что полные и абсолютно точныесведенияосоставеобъектавсегданеизвестныиз-заограниченностивозможностей определения малых содержаний компонентов (чувствительность)и погрешностей процессаопределениясодержаний любых компонентов(точность анализа). Для полноты учета информации о составе объекта следует1Введение в теорию числовой гармонии текста.
С.181―182.117стремиться, чтобы длина стандартной ранговой формулы обеспечивала не менее99,5% суммы анализа: для горных пород и минералов Т.Г.Петровым выбрано n =10, так как сумма первых десяти элементов для подавляющего большинства этихобъектов составляет не менее упомянутых 99,5% массы вещества1.Полнота анализа, принимаемая Т.Г.Петровым за 99,5%, что, в общем,является условием конвенции, расходится с общепринятой позицией, т.к. внастоящее время в геохимии работают с анализами, полнота которых составляет99,95%2. Следует отметить, что подобная точность геохимических данных напрактике никак не используется.
Более того, обилие значащих цифр после запятойделаетданныепринципиальнонеинтерпретируемымиизаслоняетсамувозможность выявления каких-либо общих тенденций3.Учитывая различия в концентрации лексических единиц в тексте отконцентрации химических элементов, а также современные требования к полнотеанализа, было решено анализировать частотные словари «Сказания о Мамаевомпобоище» целиком, а не стандартизовать4 длину ранговой формулы. Этопозволяет исследовать не только распределение высокочастотной лексики (ср.идеи стилеметрии), но и распределение менее частотных единиц, которые (втерминах геохимии) в рамках этой науки часто квалифицируются как«примесные» и не включаются геохимиками в ранговую формулу.Нужно отметить, что компоненты с разной частотой имеют разные функциив системах и частота не является абсолютным показателем важности, значимостисоставляющих.