Диссертация (1148605), страница 21
Текст из файла (страница 21)
С. 65.4Там же. С. 82―84.5Орлов Ю.К. О статистической структуре сообщений, оптимальных для человеческого восприятия // Научнотехническая информация. Сер. 2. 1970. №2. С. 11―16.295кривой рангового распределения у фрагмента текста по сравнению с значениями втой же зоне распределения для целого текста). При исследовании фрагментов«Сказания» объемом до 1000 словоупотреблений автором настоящей работы былиполучены результаты, аналогичные результатам Ю.К.Орлова.
Необходимоотметить, однако, что формулирование количественного критерия для различенияфрагмента и целого затруднительно, поскольку вполне могут обнаружитьсятексты, для которых «недобор» в зоне средних частот будет характернойособенностью целого, а не маркёром фрагментарности. По неопубликованнымданнымавторадиссертации,дляфрагментарныхтекстовхарактерные«площадки» рангового распределения в области абсолютных частот меньше 10 неувеличиваются последовательно с увеличением ранга, как для целых текстов.Ю.А.ШрейдериМ.В.Араповявляютсятакжеединственнымиисследователями, принципиально не прибегнувшими к оценкам концентрации ирассеяния, известным в классической статистике, и, по сути, только в рамках ихконцепцииобсуждаетсяпроблематикапредсказательнойсилыранговыхраспределений: можно ли по численности элементов в «голове» распределенияспрогнозировать численность элементов «хвоста», восстановимы ли по зонесредних частот частоты крайних точек и т.п.
На отечественных конференциях этапроблематика обсуждается почему-то крайне неохотно, хотя получение именнотаких данных было бы очень ценно.В противоположность исследованиям М.В.Арапова и Ю.А.Шрейдера, вомногих областях (лингвостатистика, статистическая физика, акустика, электрика)исследователи, заявив о негауссовости распределения, пользуются при расчетахклассической статистикой, предварительно оговорив это как вынужденную меру.962.2.2 Исправление эффекта рангового искажения по В.П.МасловуНа первый взгляд сходны с идеями Ю.А.Шрейдера соображения,развиваемыематематикомВ.П.Масловым1,ноВ.П.Масловпринимаетраспределение Ципфа как данность, обращаясь для его обоснования, как иБ.И.Кудрин, к простым числам.Для того, чтобы приблизить эмпирическое распределение к эталонномураспределению (распределению Ципфа) В.П.Маслов рассчитывает, как функциюот ранга, параметр С из известной формулы Дж.Ципфа f x r = const, графикизменения которого в случае идеального соответствия теоретического иэмпирического распределений должен образовывать прямую, параллельную осиабсцисс2.
В.П.Масловым предложена следующая логарифмическая поправка кформуле Ципфа: Ci ii / log 2 i , где i – ранг, ω – частота. Рассмотрениепроизведения ранга на частоту как функции от ранга содержательно полностьюсоответствуетисследованиюсимметричностигиперболыотносительнобиссектрисы первого квадранта по Ю.А.Шрейдеру (см. анализ частотныхсловарей в 3.1.1).Цель модели В.П.Маслова – приблизить моделирующее распределение кэмпирическим данным, убрав ранговое искажение.Как пример устойчивости исследовательских рассуждений, вниманиязаслуживаетхарактеристика,именуемаяВ.П.Масловым,какпостфактор.Постфактор характеризует активность слова в определенной текстовой среде ивводится В.П.Масловым в качестве параметра в формулу Ципфа:1Маслов В.П.
Закон «отсутствия предпочтения» и соответствующие распределения в частотной теориивероятностей // Математические заметки. 2006. Т. 80. Вып.2. С.220―230. ; Маслов В.П., Маслова Т.В. О законеЦипфа и ранговых распределениях в лингвистике и семиотике // Математические заметки. 2006. Т. 80. Вып.5.С.718―732.2Маслов В.П. Закон «отсутствия предпочтения» и соответствующие распределения в частотной теориивероятностей // Математические заметки. 2006.
Т. 80. Вып.2. С.220―230.97С((log n / n)α) = κ + ωn,(1)где ωn – частота вречаемости слова,n – ранг (номер слова в списке по убыванию частот),κ, α, C – константы (α = 1/D, κ – постфактор)1.Назначениепостфактора–датьболееточнуюаппроксимациюсиспользованием отраслевых корпусов.
Полувеком ранее Н.Д.Андреевым былпредложен коэффициент специфичности, основанный на учете представленностислова в микровыборках2. Г.Я.Мартыненко относит подобные показатели к мерамустойчивости,причисляякним,кромекоэффициентаспецифичностиН.Д.Андреева, «коэффициенты лексической устойчивости3, учитывающие ифактор частоты, и фактор распространенности»4.2.2.3 Ценологический подход Б.И.КудринаЭтот подход сложился в процессе практической деятельности его автора попроектированию электроснабжения цехов металлургических заводов и их.
Какпишет сам Б.И.Кудрин, «основу моих исследований, ведущихся с 1971 г., …составил опыт проектирования и строительства крупных заводов и их хозяйств,цехов; отдельных комплексов, зданий, сооружений, сетей. … Практикаиндустриализации 50-60-х годов обозначила две проблемы: 1) необходимостьпредставления объекта в целом для определения ресурсов сейчас и на1Т.В.Маслова. Об уточнении закона Ципфа для частотных словарей // Научно-техническая информация.
Сер.2.2006. № 11. С. 40.2Андреев Н.Д. Распределительный словарь и семантические поля // Статистико-комбинаторное моделированиеязыков. М.; Л., 1965. С.490―496.3Кобрин Р.Ю. Лингвостатистический анализ терминологических систем // Вычислительная лингвистика. М., 1976.С. 144―158 ; Марусенко М.А. Коэффициент статистической устойчивости как критерий отбора учебногоматериала // Материалы семинара «Статистическая оптимизация преподавания языков и инженернаялингвистика». Чимкент, 1980. С. 253―254.4Мартыненко Г.Я. Методы статистического моделирования в языкознании.
С. 218.98перспективу; 2) детализацию заказываемого, устанавливаемого, ремонтируемогодо строчки в спецификации (наименование, количество)»1.В сжатом виде его методологические установки изложены в статье «Моисемь отличий от Ципфа»2.Во-первых, Б.И.Кудриным вводится новая терминология с целью созданияединого междицисциплинарного унифицированного метаязыка (брат Б.И.КудринаА.И.Кудрин – биолог, этим объясняется обилие биологических заимствований втерминологии Б.И.Кудрина.
Центральное понятие теории Б.И.Кудрина – ценозследует считать неологизмом Б.И.Кудрина (ср. в биологии и экологии –биоценозы, биогеоценозы, фитоценозы и т.д.).Проиллюстрируем это на примере того, как переформулируются известныезакономерности Дж.Ципфа в ценологическом описании: «Первый закон Ципфаутверждает, что произведение вероятности λ(r) обнаружения особи <выделениеполужирным шрифтом – Л.К.> ui в тексте длиной Т (словарь которого объёмомV), и ранга частоты r даёт константу b. Ципф каждую особь относил к какомулибо виду, объединяя особи одного вида в группы (популяции).
Наибольшей почисленности популяции присваивается первый ранг r1=1, вероятность которойλ(1), и далее по убывающей Λ(r) выстраивают все популяции, число которыхоказывается равным количеству видов S: в первом “ранго-вероятностном” законеЦипфа речь идёт о вероятности:λr Λ r Bb; Λr β ; λr βrr , ui(z1)а сам закон (β=1):b=rλ(r).Выражение(z2)(z1)наминазваноранговидовымгиперболическимН-распределением. Если Т – длина текста Т; V – объём словаря; β –характеристический коэффициент, то второй закон Ципфа “количество-частота”:Т=βVlnV1(z3)Кудрин Б.И. Математика ценозов: видовое, ранговое, ранговое по параметру гиперболические H-распределения изаконы Лотки, Ципфа, Парето, Мандельброта. С.357―359.2Кудрин Б.И.
Мои семь отличий от Ципфа // Общая и прикладная ценология. 2007. № 4. С.25―33.99объединяет популяции одной численности i (виды, представленные одинаковымколичеством особей) в группу kK, называемую кастой1, и утверждает, чтомежду значениями i=1, 2, … и частотой (вероятностью появления группы – касты)есть зависимость, отражаемая кривой (гиперболической), параметры которойсохраняются для всех без исключения текстов, созданных человеком. … Второйзакон Ципфа, в нашей терминологии, есть видовое гиперболическое Нраспределение»2.
Термин Н-распределение для распределений гиперболическоготипа также введен Б.И.Кудриным (на наш взгляд, термин «гиперболическое Нраспределение» тавтологичен, хотя им пользуется сам автор термина)3, непонятнатакже и путаница терминов «частота» и «вероятность», поскольку Б.И.Кудринимеет в виду эмпирическую частоту.Б.И.Кудрин различает видовое, ранговидовое и ранговое по параметру Нраспределения, которые описывают структуру ценоза в синхронии. Ранговоераспределение записывается в стандартной форме:( r ) ,r(2)где r – ранг;β – характеристический показатель рангового распределения;А – константа, определяемая эмпирически.Видовоераспределениеописываетсоотношениевпропорцияхчисленностей классов разнообразия:( x ) W0,x 1(3)где α – характеристический показатель4;W0 – «теоретическое значение первой точки, фактически равное W1»5.1В традиционных для лингвостатистики терминах, «особь» – единица рассматриваемой совокупности(словоупотребление), «вид» – единица словаря (словоформа, лемма, стема), «популяция» – группаотождествленных словоформ, каста – класс из словоформ одинаковой численности «ранговидовое распределение»– ранговое, «видовое распределение» – спектровое.2Там же.3Математика ценозов: видовое, ранговое, ранговое по параметру гиперболические H-распределения и законыЛотки, Ципфа, Парето, Мандельброта.
С.359.4В работах сотрудников Б.И.Кудрина часто встречается показатель β для видового распределения, которыйопределяется:, как β = 1+α.5Там же. С.388.100Несмотря на то, что ценоз – фундаментальное понятия теории, выделениеценоза, как эмпирического объекта, четко не формализовано, хотя у Б.И.Кудринаесть установка на формальное определение ценоза: «Ценоз – сообщество(совокупность) особей конвенционально определенного объекта, включающегопопуляции всех видов выделенного семейства и структурно характеризующегосястатистически (корреляционно) незначимыми слабыми связями относительнодруг друга и слабым взаимодействием между собой подавляющего числа особей ивидов в целом»1.Отметим, что крайне сложно дать явное содержательное определениеценоза, в частности, из-за невозможности формализовать процедуру различенияуникальных структурообразующих элементов и «мусора»2.