Диссертация (1148605), страница 17
Текст из файла (страница 17)
Quantitative Linguistics. Berlin, Heidelberg, London. 1964. P.90―92.77употреблений следует выделять три зоны (высоко-, средне- и низкочастотныхобъектов) и аппроксимировать эмпирическое распределение для каждой зоныотдельнымраспределением1,посколькуиспользованиерангавкачествеаргумента функции задает гиперболическую форму кривой. Скептическоеотношение к закону Ципфа известно преимущественно по работам Г.Хердана2,который, выступая первоначально за классическую статистику и фрагментациюраспределения на частотные зоны, позднее предлагает пользоваться модельюУэринга для описания кривой целиком: в этой модели объемы частотных классовпредставляют собой монотонно убывающий ряд m1, m2, .., mn (т.е.
количество словс частотой 1, 2, .., n), для применения модели нужно знать объем словаря, объемтекста и количество hapax legomena3.Среди отечественных исследователей солидарную с Херданом позициюзанимает Г.Я.Мартыненко4. Идеи о подчинении эмпирических распределенийсловарных единиц разным теоретическим законам в разных участках частотногословаряпридерживалисьиучастникигруппы«Статистикаречи»подруководством Р.Г.Пиотровского.Р.Г.Пиотровским, К.Б.Бектаевым и А.А.Пиотровской было показано, чтослужебныеединицыиединицысостертойсемантикойобнаруживаютоднородность в своих распределениях, для них справедлив либо нормальныйзакон, либо закон Пуассона, а терминологические единицы не показывают связимежду распределением своих частот и каким-либо из этих законов5.
Как пишетР.Г.Пиотровский, «первоначально казалось, что тест Бектаева может бытьиспользован только в качестветехнологического приема, позволяющегоалгоритмическим путем выделять в тексте ключевые слова и словосочетания.Однакогносеологическаяинтерпретациярезультатовприменениятеориивероятностей к наукам о живой природе и человеке говорит о том, что за тестом1Ibid. P.77―92.Herdan G. Type-token mathematics. ’s-Gravenhage, 1960. P. 35.3Тулдава Ю.А. О частотном спектре лексики текста // Квантитативная лингвистика и автоматический анализтекстов. 1986.
С.151.4Мартыненко Г.Я. Некоторые закономерности концентрации и рассеяния элементов в лингвистических и другихсложных системах // Структурная и прикладная лингвистика. 1978. Вып.1. С.63―80 ; Его же. Основы стилеметрии.Л., 1988 ; Его же. Введение в теорию числовой гармонии текста. СПб., 2009. 252 с.5Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А. Математическая лингвистика. М., 1977. С.351―353.278Бектаева стоят фундаментальные и пока еще для нас не вполне понятныезакономерностисемантическитекстообразования.нагруженныхПоэлементоввсейтекставероятности,неповедениеподчиняетсяобычнойвероятностной схеме. Усредненные характеристики здесь не имеют тойпрогнозирующей силы, как это имеет место в физике.
Вероятность появленияключевых единиц текста регулируется статистикой ситуаций, которая может бытьопределена некоторым целенаправленным процессом»1.П.Нойман на своем сайте упоминает о работе В.Белевича 1959 г., в которойБелевич получает частоты элементов рангового распределения с помощьюформулыТейлора2.Б.И.Кудринв1974г.подтвердилприменимостьлогарифмического ряда Фишера для моделирования видового распределения3.В целом, для аппроксимации распределения единиц языка по числу ихупотреблений и описания квантитативной структуры текста предлагалосьмножество функций (распределение Пуассона, логнормальное распределение,биномиальноераспределение,распределениеЧебанова-Фуксаидр.)4,алитература по этой проблеме приближается к труднообозримой.
Обилиематематических моделей, описывающих структуру поликомпонентных объектовнаблюдается и в других дисциплинах: биологии, геологии, технетике, экономике.Так, в 1920-х годах Виллисом при исследовании надвидовой структурыфауны острова Цейлон была замечена зависимость, аналогичная гиперболическойзависимости Ципфа5. В биологии вообще наблюдается обилие моделей,описывающихразнообразие–см.,напр.модельЛ.Мотомуры,модельразломанного стержня Р.Мак-Артура, логарифмические ряды Р.Фишера, а также1Пиотровский Р.Г.
Лингвостатистический эффект Бектаева // Материалы семинара «Статистическая оптимизацияпреподавания языков и инженерная лингвистика». Чимкент, 1980. С.25―26.2«Belevitch's lovely result is that “Zipf's Law” follows directly as the first-order truncation of the Taylor series.Furthermore, “Mandelbrot's Law” (which seem even more curious and mysterious to most people) follow immediately asthe second-order truncations. (“Pareto's Law” lies in between Zipf and Mandelbrot, with different slope of the curve.)There is nothing magical or mystical about it! And yet very few people know of his wonderful paper, and tend tooverendow the amazingness of one of the various “Laws”, oblivious to this remarkably simple result» (Цит.по:Neumann P.
: [сайт]. URL: http://www.csl.sri.com/users/neumann/ (дата обращения 15.05.2013).3Кудрин Б.И. Распределение электрических машин по повторяемости как некоторая закономерность //Электрификация металлургических предприятий Сибири. 1974. Вып.2. С.31―40.4Там же.5Цит. по: Левич А.П. Структура экологических сообществ. С.5.79индексы разнообразия, приводимыев монографии А.П.Левича1. МодельР.ФишераБ.И.Кудринымиспользоваласьтакжедляаппроксимациираспределений, описывающих разнообразие технических изделий, и показалахорошее согласие с эмпирическими данными2.В 1926 г.
А.Лотка3 опубликовал материалы о распределении авторов почислу их публикаций: XnY = C, где X – число публикаций, Y – количество авторовс таким числом публикаций, n и С – константы, определяемые эмпирически, n≈2.Аналогичная закономерность была получена С.Бредфордом4 в 1934 г.Примечательно, что сообщения о подобных закономерностях располагаютсяво времени очень компактно.Следующий «всплеск активности» наблюдался в СССР в конце 1960-х –начале 80-х гг. в коллективах исследователей, группировавшихся вокругЮ.А.Шрейдера, Р.Г.Пиотровского5 и Ю.А.Тулдавы6.
Ю.К.Орлов к 1970 г.показал, что закон Ципфа хорошо выполняется на отрезках текста, являющихсякомпозиционно и содержательно законченными7. За этим последовали изящныеработы Ю.А.Шрейдера, М.В.Арапова и Е.Н.Ефимовой, в которых авторыобосновали появление ципфовских распределений, опираясь на комбинаторныесхемы и общенаучные принципы (вариационное исчисление, экстремальныепринципы, принцип симметрии)8.
Они пришли к выводу, что в эталонном1Там же. С.13―36. А.П.Левич склоняется к тому, что гиперболические распределения возникают в сообществах,где есть конкуренция за лимитирующий фактор (Там же. С.6―7), см. также работу Б.А.Трубникова:Трубников Б.А. Распределение конкурентов // Математическое описание ценозов и закономерности технетики.Философия и становление технетики. Ценологические исследования.
М.–Абакан, 1996. Вып. 1-2. C.105―110.2Кудрин Б.И. Распределение электрических машин по повторяемости как некоторая закономерность //Электрификация металлургических предприятий Сибири. 1974. Вып.2. С.31―40.3Lotka A.J. The frequency distribution of scientific productivity // Journal of the Washington Academy of Sciences.
1926.№ 16. Р.317―323.4Цит. по: Scharnhorst A. Information sciences and digital humanities [Electronic resource] // Bibliometrics, data mining,visualizations, interfaces. Leipzig, 2012. URL: http://etraces.e-humanities.net/assets/etraces/sponsor-meeting/2012-etracessponsormeeting-scharnhorst-bibliometrics.pdf (дата обращения: 20.10.2013).5См.
библиографию трудов группы «Статистика речи»: Чижаковский В.А., Бектаев К.Б. Статистика речи, 19571985: библиогр. указ. / Отв. ред. П.М.Алексеев. Кишинев, 1986. 110 с.6См. выпуски серии «Квантитативная лингвистика и автоматический анализ текстов», издававшейся Тартускимгосударственным университетом.7О статистической структуре сообщений, оптимальных для человеческого восприятия // Научно-техническаяинформация. Сер.
2. 1970. №8. С.11―16.8Арапов М.В., Ефимова Е.Н., Шрейдер Ю.А. О смысле ранговых распределений // Научно-техническаяинформация. Сер.2. 1975. № 1. С.9―20 ; Их же. Ранговые распределения в тексте и языке // Научно-техническаяинформация. Сер.2. 1975. № 2. С.3―7. Ср. модель порождения связного текста Ю.К.Крылова, также основаннуюна комбинаторике и вариационном исчислении: Крылов Ю.К.
Стационарная модель порождения связного текста //Квантитативная лингвистика и автоматический анализ текстов. 1987. С.81―102.80распределенииединицсовокупностидолженреализовыватьсяпринципминимальной симметрии1. Ю.А.Шрейдер считал, что «сферой действия законаЦипфаявляютсяестественновозникшиесложныесистемы»2,связывалвыполнение на тексте распределения Ципфа с целостностью и наличием сознанияи принципиально проводил идею о негауссовой природе ранговых распределений.Б.И.Кудрин в 1970-х годах обнаружил гиперболическое распределение прианализе эмпирических распределений, обнаруженных в процессе проектированияэлектроснабжения металлургических предприятий.
Список трудов Б.И.Кудринадоступен на его личном сайте3. Там же опубликованы работы отечественныхисследователей, посвященные теоретическим и практическим вопросам ранговыхраспределений.Ученик Б.И.Кудрина В.В.Фуфаев в 1989 году смоделировал темпоральнуюдинамику поликомпонентного объекта (наматериале электропотребленияпредприятий)4 и в настоящее время успешно ее развивает. Эта задача сходна смоделированием изменения словаря во времени, которой в 1970-е занималисьМ.В.Арапов и М.М.Херц, ставя перед собой, впрочем, другие задачи, чемВ.В.Фуфаев.В начале 1970-х гг., исходя из ранговой формулы как «паспорта»химического состава, Т.Г.Петров разработал методику RHA (ранг-энтропияанэнтропия) для описания состава химических объектов (и, как оказалосьвпоследствии, любых объектов, которые могут быть охарактеризованы черезсостав своих компонентов) с целью их последующей классификации5.