Диссертация (1148605), страница 18
Текст из файла (страница 18)
С помощьюэтой методики, как представляется ее автору, можно описывать и отслеживатьпроцесс изменения компонентного состава объекта.Даже этот беглый и не претендующий на полноту набросок позволяетзафиксировать обилие и, одновременно, несогласованность идей и данных вокруг1Арапов М.В., Шрейдер Ю.А.
Закон Ципфа и принцип диссимметрии системы. С.91.Там же. С.75.3URL: http://kudrinbi.ru (дата обращения 20.10.2013).4Фуфаев В.В., Фуфаева Л.Д. Каноническая модель структурно-топологической динамики Н-распределения // XIсессия Всесоюзного научного семинара «Кибернетика электрических систем». 1989. С.42.5Петров Т.Г. Обоснование варианта общей классификации геохимических систем // Вестник ЛГУ. 1971.
№18.Вып. 3. С.30―38.281феномена гиперболических распределений. Были получены интереснейшиерезультаты, но на разнородном материале, либо, напротив, тождественныйэмпирический материал описывался разными функциями, и большинство авторовпретендовали на всеобщность и универсализм предложенных ими аналитическихвыражений и концепций. При всем этом до сих пор не поставлена точка вобъяснении механизма, приводящего к гиперболическому распределению приобилии идей и мнений по этому поводу. Ситуация качественно не изменилась запоследние 25 лет, и до сих пор справедливы слова Ю.К.Крылова: «Большинствоиз … формул, представляющих разновидности формулировок закона Ципфа,получено на чисто эмпирической основе и направлено на уточнение описанияэкспериментально наблюдаемых зависимостей… Предлагаемые зависимостиспособны ответить лишь на вопрос о том, каковы статистические закономерностиорганизации лексики, но оставляют в стороне наиболее существенный вопрос опричинах, ответственных за структуру этой организации»1.Интересно, что зарубежные исследователи воспользовались формулойЦипфа более утилитарно, но и среди них наблюдается такой же разброс мнений опригодности и универсальности закона Ципфа (и, шире, “power laws”).
Обустойчивом интересе к этой зависимости могут свидетельствовать хотя бы 25выпусков журнала «Glottometrics», выходящего с 2001 г.Достижения западных исследователей в этой области резюмированы ниже.Обзор не претендует на какие-либо окончательные выводы, его целью является«нащупывание» методологических камней преткновения в рассматриваемойобласти.Авторы книги «Основы статистической обработки естественного языка»2критично конкретны при характеристике зависимости Ципфа: «закон невыполняется для первых нескольких высокочастотных слов, … в окрестностиранга со значением 100 наблюдается небольшое “выпячивание” кривой» и делают1Крылов Ю.К. Стационарная модель порождения связного текста // Квантитативная лингвистика иавтоматический анализ текстов.
1987. С.81.2Manning C., Schütze H., Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, 1999. 680 р.82заключение: «из закона Ципфа следует, что для большинства слов данные об ихупотребительности будут чрезвычайно разбросанными»1.И.-И.Попеску, Я.Машутек и Г.Альтманн подробно рассматривают такиеважные при моделировании компонентной структуры текстов характеристики,какоднородность / неоднородностьдискретность / непрерывностьтекстаединицикорпусасовокупности,текстов,корректностьаппроксимации. Так, тексты значительной длины, по определению, считаютсянеоднородными, поскольку написаны не за один раз. Такая трактовка позволяетфактическисчитатьнеоднороднойлюбуюколлекциютекстов2.Авторыпридерживаются гипотезы, что распределения, для которых выполняется законЦипфа, представляют собой наложение нескольких слоев, каждый из которыхпредставлен однородными единицами (см.
подробнее п. 1.2.7)3. Интересно такжемнение авторов об устойчивости статистических характеристик лексическихединиц в корпусе текстов: они отвергают принцип «чем больше выборка, темустойчивее статистические характеристики», заменяя его на принцип «чембольше выборка, тем более неоднородным становится текст»4. Такой «ход», хотятили не хотят этого И.Попеску с соавторами, означает фактическое признаниенегауссового характера лингвистических распределений.Центральный для многих отечественных исследователей (см. напр., работыЮ.К.Орлова, С.Д.Хайтуна, Ю.А.Шрейдера) вопрос о характеристиках текстов,идеально соотносящихся с законом Ципфа, по-видимому, является совершенно непринципиальным для И.-И.Попеску, Я.Машутека и Г.Альтманна: «Некоторыеисследователи убеждены, что закон Ципфа-Мандельброта выполняется для текста1Ibid.
P.24―25.Авторы поясняют, что текст можно считать однородным, если в качестве его единиц выступают предложения,слова или слоги, но текст становится неоднородным, если исследователь выделяет классы внутри единиц текста,например, классифицирует слова по частям речи.
“Long texts are automatically inhomogeneous because they cannot bewritten in one go. … A text may be considered homogeneous if clauses, words or syllables are considered its elements. Forhomogeneous systems, Menzerath’s law holds; for non-homogeneous systems its counterpart, the allometric law holds.Both are power functions… But if, at a certain linguistic level, we do not consider the entities as a uniform class, e.g.
theclass of “words” is partitioned in parts of speech, the text automatically gets non-homogeneous” (Aspects of WordFrequencies. P.8).3Popescu I.-I., Mačutek J., Altmann G. Aspects of word frequencies. P. 13-14.4« The statistical dictum “the larger the sample, the more reliable are the results” does not hold in textology (but perhaps ingrammar), but the motto “the larger the sample, the more inhomogeneous is the text” does. …The classical statistical testsusually fail when applied to corpora» (Aspects of Word Frequencies. P.8.).283целиком, другие убеждены, что он выполняется и для частей текста. Главноездесь – убеждения»1.Предметомустойчивогоинтересаявляетсяреализацияципфовскогораспределения для текста, порожденного в результате случайного процесса (т.н.“monkey typing”).
Б.Мандельброт оспаривает2, что случайный механизм сможетпородить «ципфовский текст» (1961 г.). В.Ли, напротив, показывает, чтораспределенияслучайныхпоследовательностейсимволовнеотличаютсяпринципиально от распределений текстов на естественном языке3. Этой жепозиции придерживаются и некоторые другие авторы4, которые получаютаналитическое выражение для зависимости Ципфа, вычисляя вероятностьнапечатать слово длиной k при равновероятном появлении символов алфавита ипробела. М.Расселл, кроме того, считает устойчивыми и приводит в качествеэталонных значения параметра γ = 1 и константы C = 0,1. Показательноследующееисследование,проведенноеК.МаннингомиГ.Шютце5:онисмоделировали на компьютере процесс порождения случайных текстов изалфавита, состоящего из 26 символов и пробела, присвоив каждому символуодинаковую вероятность появления.
Распределение длины «слова» в полученныхими случайных «текстах», действительно, описывается степенной функцией, но впроизведениях этого «генератора» слов длиной n + 1 в 26 раз больше, чем длинойn,иимеетсяпостоянноедлявсейсовокупностиотношениечастотывстречаемости «слов», длина которых отличается на 1 символ («слова» длиной nвстречаются чаще, чем «слова» длиной n + 1)6, чего не наблюдается в реальныхтекстах.1«Some researchers believe that Zipf-Mandelbrot´s law holds for whole texts, others believe that it holds for parts, too.The emphasis is on «believe». Aspects of Word Frequencies.
P.8.2Цит. по: Harremoës P., Topsøe F. Zipf’s law, hyperbolic distributions and entropy loss // General Theory of InformationTransfer and Combinatorics, Springer-Verlag. Berlin, Heidelberg, 2006.3Li W. Random texts exhibit Zipf's-law-like word frequency distribution. // IEEE Transactions on Information Theory.1992. Vol.38. № 6. Р.1842―1845.4Russell M. Data Mining [Electronic resourse]: Lecture 3.
[2008]. URL: http://www.eee.bham.ac.uk/russellm/ee3j2.htm(дата обращения: 15.05.2013) ; Zhu Xiaojin. Words, Zipf’s Law, Miller’s Monkeys [Electronic resourse]: Lectures.[2007]. URL: pages.cs.wisc.edu/~jerryzhu/cs838/words.pdf (дата обращения: 15.05.2013).5Foundations of Statistical Natural Language Processing. P.28―29.6«One can show that the words generated by such a generator obey a power law of the form Mandelbrot suggested. Thekey insights are (i) that there are 26 times more words of length n + 1 than length n, and (ii) that there is a constant ratio by84По-видимому,длячастиавторовнеявляетсяпринципиальнымпрепятствием использование разных значений параметра при моделированииразных участков распределения: высокочастотная зона описывается степеннойфункцией с одним значением параметра, низкочастотная – с другим1.На работе Y.Caron, P.Makris и N.Vincent «Use of power law models indetecting region of interest» следует остановиться несколько подробнее, посколькув ней описывается применение зависимости Ципфа для определения «областиинтереса» (ROI, region of interest) при анализе изображений2.В качестве учитываемой единицы принимается последовательность из 3пикселей; на графике часто встречающимся последовательностям (в «голове»распределения) соответствуют однородные участки изображения (фон), а редковстречающимся паттернам соответствуют детали и контуры изображения3.
Прианализе кривых распределения последовательностей пикселей для однородных инеоднородных участков изображения выяснилось, что распределение дляотносительно неоднородных участков является более пологим в хвосте, чем дляоднородных, а для последних, напротив, характерна пологая левая частьраспределения (см. рисунки 2 и 3, заимствованные из цитируемой работы)4.АвторыстатьипредлагаютпользоватьсявторымзакономЦипфа(описывающим соотношение «частота элемента – количество элементов с такойчастотой») для выделения «областей интереса», маркером также являетсяколичество уникальных последовательностей пикселей.which words of length n are more frequent than words of length n + 1.
These two opposing trends combine into theregularity of Mandelbrot’s law». Ibid. P.28―29.1Montemurro M. Beyond the Zipf-Mandelbrot law in quantitative linguistics [Electronic resourse]. [2001] URL:http://www-stat.stanford.edu/~owen/courses/306a/ZipfAndGutenberg.pdf (дата обращения: 20.10.2013) ; Caron Y.,Makris P., Vincent N. Use of power law models in detecting region of interest [Electronic resourse] // Pattern Recognition.2007. Vol.40.