Диссертация (1148605), страница 28
Текст из файла (страница 28)
С одной стороны, М.В.Арапов и М.М.Херц совершенносправедливо допускают постоянство ранга в пределах группы (по сути, то женаблюдаем и в стабильной зоне S-распределения, где много элементов соскоростью, близкой к нулю), с другой стороны, скорости могут быть стабильнымив пределах групп, полученных в результате какого-то другого разбиения словаря,отличающегося от разбиения на отрезки равной длины.В обеих моделях вводится понятие скорости. М.В.Арапов и М.М.Херцмоделируют скорость «распада» в словаре слова, принадлежащего к определеннойранговой группе, вычисляя скорость и долю «нераспавшихся» слов только дляранговой группы. Количество ранговых групп зависит от объема словаря.В.В.Фуфаев вычисляет скорость отдельного элемента, а в S-распределении,1Цит.
по: там же. С.42.135построенном по ранжированным скоростям, выделяет три зоны независимо отобъема словаря.При всем сходстве методик обнаруживается, что они дают несопоставимыерезультаты (и это, по-видимому, общая ситуация для рассматриваемых моделей ине только их) из-за разных исследовательских задач. В.В.Фуфаева интересуетизменение одной системы (ценоза, совокупности и пр.) во времени и выявлениеучастков стабильности и нестабильности, а М.В.Арапов и М.М.Херц ставилиперед собой задачу построения модели, позволяющей различать древнюю лексикуи новации, исконные слова и заимствования, и определять скорость «распада»слов для задач датирования текстов.В соответствии с моделью М.В.Арапова и М.М.Херц, в каждой ранговойгруппе есть нераспавшиеся (т.е., неизменившие свой ранг) слова, но ихколичество уменьшается с увеличением ранга. Нераспавшиеся слова из всехранговых групп попадают в стабильную зону S-распределения.
Таким образом,стабильная зона S-распределения содержит слова, принадлежащие разнымранговым группам и, как следствие, различающиеся своей частотой.В § 4.5 приводятся результаты проецирования гипотезы М.В.Арапова иМ.М.Херц «чем больше номер ранговой группы, тем меньше слов сохраняется вэтой группе», на стабильную зону S-распределения. Такая процедура являетсякомбинацией методик и заключается в разбиении стабильной зоны на ранговыегруппы по 100 рангов и определении активности и сохранности элементов разныхранговых групп в структуре стабильной зоны.2.2.7 Точка h Хирша и геометрическая модельв исследованиях И.-И.Попеску, Я.Машутека и Г.АльтманнаИ.-И.Попеску,совокупностьЯ.Машутеккомпонентов,иГ.Альтманнимеющихрассматриваютпотенциальнотексткакбесконечный,но136фиксируемый в процессе исследования набор свойств. При этом свойства,присущие каждому из компонентов, имеют хотя бы одно общее свойство снабором свойств другого компонента, а сетка связей между свойствамикомпонентов и образует структуру текста1.Этойгруппойученыхтщательнопроработанвопросободнородности / неоднородности текста и выборки.
Как уже упоминалось в § 2.1,тексты, написанные не за один раз, считаются неоднородными. Такая трактовкапозволяет считать неоднородным любой текст и корпус. Однако, исключив израссмотрения некоторые из свойств компонентов, можно считать выборкуоднородной. Типичным случаем является изучение ранговых распределений слов:в этом случае из набора свойств исключается частеречная принадлежность слова,несмотря на то, что каждый из грамматических классов слов имеет собственноераспределение2. Особое внимание авторы обращают на опасность онтологизациимодели и предостерегают от принятия«окончательнойистины»3.Имитакжерезультатов моделированияотмечаетсяслабаякакпригодностьтрадиционных критериев (χ-квадрат) для оценки качества аппроксимациираспределений единиц в тексте4.В той же монографии упоминается новая трактовка распределения Ципфа,предложенная Г.
Альтманном и соавторами5. Гиперболическое распределениерассматривается, как неоднородное, появившееся в результате суперпозициинескольких однородных распределений, каждое из которых описываетсястепенным законом и имеет разные параметры. Каждое из распределений,совокупность которых дает результирующее распределение, соответствуетопределенному слою (“strata”) в тексте. И.-И.Попеску, Я.Машутек и Г.Альтманнприводят следующие примеры слоев: 1) слой слов автора и слой репликперсонажей1вдраматическихпроизведениях,2)слои,соответствующиеAspects of Word Frequencies.
P.3–7.Ibid. P.10.3Ibid. P.12.4Ibid. P.15.5См. также Popescu, I.-I., Altmann, G., Köhler, R. (2009). Zipf´s law – another view // Quality & Quantity. 2010. Vol.44.Issue 4. Р. 713―731.2137разбиению слов на грамматические классы, 3) стилистические особенности. Какуказывают эти авторы, «все это образует слои, внутри которых естьдоминирующий элемент и регулярно убывающая доля прочих элементов. … еслипроигнорировать слоистость и проранжировать элементы по убыванию значенийих частоты, то получим суперпозицию … видаnf (r) Ai e r / ai A1e r / a2 A2 e r / a2 ... An e r / an ,i 1где n – количество релевантных слоев, Ai – амплитуда1, ai – коэффициентраспада, r – ранг, f(r) – частота слова с рангом r.
… Как правило, в статистикесловотипов активны не более двух слоев: служебных (“synsemantics”) иполнозначных (“autosemantics”) слов»2. Таким образом, И.-И.Попеску, Я.Машутеки Г.Альтманн вводят модель распределения лексических единиц в тексте,учитывающую неоднородность текста, но без обращения к составностираспределения, как это делает Г.Я.Мартыненко.Теперь перейдем к рассмотрению параметра, применяемого И.-И.Попеску,Я.Машутеком и Г.Альтманном3.В ранговом распределении И.-И.Попеску с соавторами выделяют особуюточку h, для которой выполняется условие r = f(r) (r – ранг, f – частота)4.
Какуказано в цитируемой работе И.-И.Попеску и соавторов, точка h была введена иматематически обоснована Дж.Хиршем5.Попеску и Альтманн задают точку h следующим образом:r,если r= f(r);h=(11)f(i)rj – f(j) rjrj – ri + f(i) – f(j),1если r= f(r).По-видимому, под амплитудой понимается частота доминирующего элемента. – прим Л.К.Aspects of Word Frequencies. P.
13―14.3Aspects of word frequencies. P.24.4Ibid. P.24.5Hirsh J.E. An index to quantify an individual’s scientific research output // Proc. Natl. Acad. Sci. U.S.A. 2005. November15. Vol.102. № 46. P.16569―16572.2138В большинстве случаев в эмпирическом ряду есть точка, в которой r = f(r).Если такой точки в статистическом ряду нет, то берутся соседние точки f(i) и f(j),такие, что f(i) > ri и f(j) < rj. Чаще всего ri + 1 = rj.По мнению Альтманна, Машутека и Попеску, эту точку следуетинтерпретировать как границу между служебными и полнозначными словами, нодля них этот параметр не является основанием для перехода к кусочнойаппроксимации распределения, подобно Г.Я.Мартыненко1. И.-И.Попеску ссоавторами считают, что в области от слова с максимальной частотой до точки hполнозначные слова среди служебной лексики отражают тематику текста.Точка h применяется ими для стилеметрических и лингвотипологическихисследований.Послеустановлениязначенияэтогопараметра,онабсолютизируется и объявляется центром равновесия, неким наблюдательнымпунктом, «можно вообразить писателя сидящим в этой точке и контролирующимравновесие в тексте между служебной и полнозначной лексикой»2.Кроме точки h, фиксируются и крайние точки рангового распределенияr 1, 2, … V, V – объем словаря: точка P1, соответствующая последнемуприсвоенному рангу (V, 1), и точка P2, соответствующая первому рангу – слову смаксимальной частотой – (1, f(1).
Эти три точки соединяются векторами P2P1, НP1,НP2, соответствующие углы между ними обозначаются α, β, γ, а длины векторов –a, b, c (см. рисунок 13). Значения косинусов указанных углов применяютсяГ.Альтманном,И.-И.ПопескуиЯ.Машутекомдлястилеметрическойдиагностики3.1Соотнесение точки h, пойнтер-точки R Б.И.Кудрина и границы, получаемой по методике Г.Я.Мартыненко, см.
в§ 4.2.2Aspects of Word Frequencies. P.26.3Aspects of Word Frequencies. P.26―29.139Примечание ― rank – ранг, word frequency – частота слова, прочие обозначения втекстеРисунок 13 ― Геометрические характеристики рангового распределения1Средстваизучениянеоднородныхсовокупностей,предложенныеИ.-И.Попеску, Я.Машутеком и Г.Альтманном, позволяют методологическикорректно и плодотворно работать с эмпирическими распределениями.§ 2.3 Сопоставление рассматриваемых методик с помощью набораконцептуально значимых признаковВ данном параграфе попытаемся выявить характерные утверждения огиперболическихраспределениях(Н-распределениях),общиедлявсехисследователей, а также выделить принципиальные источники разногласий.Итогом такого анализа, в идеальном случае, должен явиться набор концептуальнозначимых дифференциальных признаков, с помощью которого можно описатьлюбую из методик, и такое описание будет содержательно конструктивным.Основной целью настоящего исследования и является поиск такого набора1Ibid.