Диссертация (1148605), страница 20
Текст из файла (страница 20)
То, что мыинтуитивно ощущаем разницу между частыми и редкими словами, причем слово,которое оказывается частым в одном тексте, почти всегда оказывается частым и вдругом тексте, не представляется типичной ситуацией, если рассмотреть весьнабор случаев, когда возникает ранговое распределение. Автор, которыйсчитается ведущим в своей области, крайне редко сохраняет такой высокий статусв другой области.
Журнал, профильный по данной тематике, очевидно, неявляется профильным по другой, он может перестать быть профильным поданной тематике с течением времени и т. п. Одним словом, устойчивость статусасама есть вещь скорее нуждающаяся в объяснении, чем такая, которая может чтолибо объяснить»3.1Там же. С. 10.Там же.
С. 11.3Там же.291Критика традиционного подхода к описанию ранговых гиперболическихраспределений в лингвостатистике как результата случайного процесса сводится,таким образом, к оспариванию правильности допущения о существованиигипотетического объекта – «статистического ансамбля “однородных” текстов»1 и,как следствие, сомнительности утверждения об устойчивости частоты слов вестественном языке.Как указывают М.В.Арапов и Ю.А.Шрейдер, «еще в книге Хердана(имеется в виду «Language as Сhance and Choice» – Л.К.) отмечалось, что хотяформа ранговых распределений довольно устойчива, эмпирическая оценкачастоты появления фиксированного слова существенно зависит от исследуемогокорпуса текстов.
Обычно объяснение этого сводится к тому, что вероятностьпоявления данного слова в тексте определяется не системой языка в целом, нодостаточно узким подъязыком. Однако опыт скорее указывает на то, что частотаданного слова в тексте есть характеристика самого текста. Наконец, тот факт, чтов тексте имеется достаточно много слов (порядка половины словника),употребляемых ровно по одному разу, вероятностные механизмы никак необъясняют. Не объясняют они также четкую зависимость между объемомсловника и длиной текста»2.
Ю.А.Шрейдер и М.В.Арапов предлагают описыватьсоотношение между объемом словаря и объемом текста следующей формулой:L=NlnN, где L – количество словоупотреблений в тексте, N – объем словаря3 (ср.формулу, предложенную Г.Хипсом4: V= αNβ, β – от 0,4 до 0,6 для европейскихязыков, α – от 10 до 100; в обеих формулах V – объем словаря, N – объем текста,параметры α и β подбираются эмпирически). Ряд подобных формул приводится вработах Г.Хердана5, А.П.Левича6 и Ю.А.Тулдавы7.Ю.А.Шрейдер и М.В.Арапов обосновали закон Ципфа, основываясь накомбинаторных1методахвсочетаниисвариационнымисчислениемиТам же. С. 12.Закон Ципфа и принцип диссимметрии системы.
С.76.3Там же. С.94.4Heaps H. Information retrieval: computational and theoretical aspects // Library and information science. 1978.P.206―208.5Herdan G. Type-token mathematics. P.76―77.6Левич А.П. Структура экологических сообществ. М., 1982. С.36―50.7Тулдава Ю.А. Проблемы и методы квантитативно-системного исследования лексики. Таллин, 1987. С.167―170.292экстремальными принципами, поскольку были убеждены в негауссовой природеН-распределений и считали исследование таких распределений методамиклассической статистики непозволительной и грубой ошибкой.
В частности,Ю.А.Шрейдером была сформулирована теорема о том, что репрезентативнаявыборка должна быть того же порядка, что и генеральная совокупность (т.е.,около 10%)1.В работе 1978 года Ю.А.Шрейдер и М.В.Арапов указывают, что «сферойдействия этого закона <закона Ципфа – Л.К.> являются естественно возникшиесложные системы.
У специалистов по статистике … сложилось скептическоеотношение к «доморощенным» законам типа закона Ципфа. Статистики склоннывидеть в них самодеятельные попытки естествоиспытателей аппроксимироватьменее сложными функциями частные случаи известных в статистике законовраспределенияслучайныхвеличин.Статистиков,по-видимому,смущалоотсутствие естественных вероятностных механизмов, которые можно было бысчитать ответственными за возникновение распределений типа распределенияЦипфа»2.Нужно отметить, что сам Дж.Ципф полностью осознавал непригодностьпредложенной им формулы f x r = const для описания области малых частот(“steps”), хотя и пытался подвести под данные полевого учета принципнаименьшего усилия (“Principle of Least Effort”)3.
С учетом этого факта,категоричныевысказывания4Г.ХерданавадресЦипфаиегозаконавоспринимаются несколько иначе. Ю.А.Шрейдер с соавторами5, в свою очередь,предлагают переходить от гиперболы к ступенчатой функции, начиная снекоторого момента, который соответствует частоте F Fmax .1Шрейдер Ю.А., Шаров А.А. Системы и модели. М., 1982. С. 104.Закон Ципфа и принцип диссимметрии системы. С.75.3Zipf G.K. Human behavior and the principle of least effort.
An introduction to human ecology.4См., напр., работу: Herdan G. Type-token mathematics. ’S-Gravenhage, 1960. P.35.5Арапов М.В. Ефимова Е.Н., Шрейдер Ю.А. Ранговые распределения в тексте и языке // Научно-техническаяинформация. Сер.2. 1975. № 2.293Математическая модель, предложенная Ю.А.Шрейдером и М.В.Араповым,заключается в отыскании минимума произведения асимметрий разбиения икоразбиения некоторого эмпирического распределения1.«Пусть А = {X1, X2, …, Xi, XN} – разбиение М.
Разбиение A* = {Y1, Y2, …,Yj, YP} является коразбиением к разбиению А, если:1) любое пересечение Xi∩Yj≠ 0 содержит не более одного элемента;2) Xi∩Yj≠ 0 следует Xk∩Yj ≠ 0 для всех классов Xk разбиения А таких, чтоnk≥ni.Все коразбиения А* данного разбиения А изоморфны и определяются самимисходным разбиением, достаточно рассматривать только одно разбиение»2.Авторы модели формулируют принцип максимума диссимметрии системыкак условие минимальности величины Ф = Н(А)Н(А*). Собственно принципмаксимума диссимметрии системы состоит в том, что «наиболее вероятным (илиэталонным) состоянием системы считается то, где достигает минимума величинаФ. Минимум величины Н(А) определяет наиболее вероятное состояние системыпросто потому, что минимуму Н(А) соответствует максимальный статистическийвес данного состояния в силу равенства P( A) L!, где L – длина текста,H ( A)NH ( A) n!i– число возможных преобразований на множестве, разбитомi 1на классы численностью n1, n2, … nN»3.В итоге авторы получают красивый для интерпретации результат: минимумпроизведенияразбиенияикоразбиениядостигается,еслиимеетместораспределение Ципфа4.Исследованием модели устанавливается, что эталонная форма ранговогораспределения имеет вид гиперболы, симметричной относительно биссектрисыпервого квадранта, в частности, в разбиении А есть ровно один класс смаксимальным числом элементов, а объем словаря V равен числу употреблений1Закон Ципфа и принцип диссимметрии системы.
С.81.Там же. С.82―83.3Закон Ципфа и принцип диссимметрии системы. С.89.4Там же. С. 91.294самого частого слова1. Исследования реальных текстов показывают, однако, чтораспределение частот слов в них подчиняется закону, который должен содержатьпо крайней мере два параметра2.Средиисследователей,вовлеченныхв«ципфиаду»,Ю.А.Шрейдерпоследовательно проводил идею о негауссовости гиперболических ранговыхраспределений, сосредоточиваясь на интерпретации формы кривой распределениякакналичия(отсутствия)смысла,свойствазавершенности,красотыврассматриваемом тексте.
Самые интересные результаты, связанные с этимисвойствами, были получены Ю.К.Орловым, которому удалось показать, что главыромана «Война и мир», взятые целиком, описываются распределением Ципфалучше, чем произвольные фрагменты любой длины: «на очень крупных текстахобнаружилось, что можно добиться лучшего совпадения, если в качестве Z(ципфовского объема – Л.К.) подставлять объемы частей (томов, книг и т.п., накоторые эти тексты поделены автором)»3.Ю.К.Орловым также было введено понятие дифференциальной скоростисловаря, зависящей от отношения ципфовского объема к длине текста ивыдвинута следующая гипотеза: «при порождении или восприятии текста в тойили иной форме осуществляется (по-видимому, вне сознания) контроль именно задифференциальной скоростью роста словаря, и ситуация, когда относительноеприращение словаря начинает вдвое отставать от относительного приращениятекста, опосредствуется в сознании как некая завершенность, законченностьтекста.
Дальнейшее уменьшение этой величины начинает ощущаться, как«затянутость» и т.п.»4. Ю.К.Орлов, по-видимому, был единственным, ктопостановил вопрос о различиях статистической структуры текста и фрагментатекста и указал, что фрагментарность проявляется «провисанием» кривой вобласти средних частот5, (то есть, меньшими значениями частот средней зоны1Там же.Там же. С.94.3Орлов Ю.К. Модель частотной структуры лексики // Исследования в области вычислительной лингвистики илингвостатистики. М., 1978.