Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 66
Текст из файла (страница 66)
Рассматриваются, в частности, временные ряды, которыедемонстрируют свойство самогоподобия.Свойства самоподобия фрагментов информационного пространства нагляднодемонстрирует, например, интерфейс, представленный на веб-сайте службы News Іs237Free (http://newsіsfree.com). На этом сайте отображается состояние информационногопространства в виде ссылок на источники и отдельные сообщения. При этомучитывается два основных параметра отображения - ранг популярности иоперативность информации.Четкое определения самоподобного стохастичекского процесса используетсяпри прямом масштабировании непрерывной переменной времени.Известно,чтодляпоследовательностисообщенийтематическихинформационных потоков в соответствии со скейлинговым принципом, количествосообщений, резонансов на событии реального мира пропорционально некоторойстепени количества источников информации (кластеров) и итерационно длится втечение определенного времени.
Так же, как и в традиционных научныхкоммуникациях, множество сообщений в Интернет по одной тематике во времениявляет собой динамическую кластерную систему, которая возникает в результатеитерационных процессов.Этот процесс порождается републикациями,цитированием, разными публикациями – отражением одних и тех же событийреального мира, прямыми ссылками и тому подобное.Если рассматривать информационные потоки как ряды публикаций в течениевремени, то обнаруживается наличие таких свойств, как самоподобие (масштабнаяинвариантость, скейлинг), устойчивые взаимные корреляции.
Анализ самоподобияинформационных массивов может рассматриваться как технология, предназначеннаядля осуществления аналитических исследований с элементами прогнозирования,которая пригодна к экстраполяции полученных зависимостей.Стохастический процесс X (t ) является стохастически самоподобным спараметром H (0,5 ≤ H ≤ 1) , если для любого действительного значения a > 0процесс a − H X (at ) имеет те же самые статистические характеристики, что и сампроцесс X (t ) . Это утверждение можно выразить тремя условиями [23]:− среднее:E [ X (t )] =− дисперсия:σ [ X (t ) ] =E [ X (at )];aHσ [ X (at )]a2H− автокорреляция:K [ X (t ), X ( s ) ] =;K [ aX (t ), aX ( s ) ].a2HПараметр H , называемый параметром Херста (Hurst parametr) или параметромсомоподобия (self-similarity parametr) , представляет собой ключевую мерусамоподобия.
Точнее, H представляет меру устойчивости статистического явления,или меру действия долговременной зависимости статистического процесса. ЗначениеH = 0,5 указывает на отсутствие долговременной зависимости. Чем ближе значениеH к 1, тем выше степень устойчивости долговременной зависимости.Рассмотрим для примера процесс броуновского движения B (t ) и докажем егосамоподобие с параметром H = 0,5 в соответствии с приведенным вышеопределением.
Рассмотрим три условия самоподобия:238− по определению, E [ B (t ) ] =0. Тому E [ B (t ) ] = E [ B(at ) ] / a ,что удовлетворяет первому условию;− известно, что дисперсия σ [ B(t ) ] равна t , поэтому σ [ B( at ) ] = at = aσ [ B(t )] , чтоудовлетворяет второму условию;− загальновідомо, що автокореляція K [ B(t ), B( s )] = min [t , s ] .Отсюда:K [ B( at ), B( as )] = min [ at , as ] = a min [t , s ] = aK [ B(t ), B( s )] , что удовлетворяет третьемуусловию.Далее рассмотрим случай стохастического процесса, определенного вдискретных точках времени, так что стохастический процесс X (t ) определяется как{xt , t = 0,1, 2,...}.
Для таких процессов определяются m − агрегированных временных0,5серий {xk( m ) , k = 0,1, 2,...} , получаемые в результате суммирования значений исходныхсерий в непересекающихся соседних блоках размером m элементов. Это может бытьвыражено таким образом:(m)kx1 km=∑ xi .m i =km−m+1Агрегированные временные серии можно рассматривать как метод сжатиявременной шкалы. При этом x (1) может считаться максимальным увеличением илинаивысшей разрешающей способностью для этой временной серии. Процесс x (5) ,например, представляет собой тот же самый процесс, уменьшенный в пять раз. Еслистатистические характеристики процесса совпадают при сжатии, то можо считать, чтоидет речь о самоподобном процессе.Таким образом, можно предложить функциональное определение самоподобия, аименно:процесс x называется точно самоподобным (exactly self-similar) с параметромβ (0 < β < 1) , если для всех m = 1, 2,...
выполняется:− для дисперсии:σ x ( m ) =σ [ x]mβ;− автокорреляция:K x ( m ) , k = K [ x, k ] .Можно показать, что параметр β связан с определенным ранее параметромХерста соотношением: H = 1 − ( β / 2) . Для стационарного эргодического процессаβ = 1 , а средняя дисперсия со временем стремится к нулю со скоростью 1/ m . Длясамоподобного процесса средняя дисперсия времени затухает более медленно.Вышеприведенное определение позволяет реализовать самый простой алгоритмопределения того, является ли временная серия самподобной.Если прологарифмировать вышеприведенную формулу для дисперсии,получаем:()log σ x ( m ) = log (σ [ x ]) − β log m .239()Поскольку log σ [ x ] является монотонной константой, которая не зависит от()m , то график зависимости log σ x ( m ) от m в логарифмическом масштабе будетпредставлять собой прямую линию с наклоном, равным − β .Графикможно построить (конечно, для фактических данных следуетиспользовать выборочную дисперсию вместо теоретической), если сгенерироватьпроцесс на разных уровнях агрегации m , а после этого вычислить дисперсию.Обычно временные ряды, которые формируются из объемов тематическихинформационных потоков, ложатся на прямую линию с отрицательным наклоном.
Вэтих случаях обычно определяют значение параметра H .Другой концепцией, связанной с самим подобием, являются медленнозатухающие распределения, или распределения с "тяжелыми хвостами" (heavy - taileddistributions). Медленно затухающие распределения могут использоваться дляпредставления плотности вероятностей, которые описывают, например, объемыданных в информационных потоках. Известно, что распределение случайнойпеременной X медленно затухает, если:1 − F ( x) = Pr [ X > x ] ~1при x → ∞, 0 < α .xαВ целом, случайная переменная с медленно затухающим распределением имеетбесконечную дисперсию и, возможно, бесконечное среднее. Случайная переменная смедленно затухающим распределением может принимать очень большие значения свероятностью, которой невозможно пренебречь.Самим простым медленно затухающим распределением является распределениеПарето с параметрами k и α (k , α < 0) и такими статистическими показателями:f ( x) = F ( x) = 0 ( x ≤ k );α +1f ( x) =αk ;k xαkF ( x) = 1 − ( x > k ; α > 0);xE [ x] =§ 2.3.αk (α > 1).α −1Основы фрактального анализа информационных потоковМногочисленные эксперименты, замеры параметров информационногопространства подтверждают тот факт, что при значительном возрастании объемовинформационных ресурсов статистические распределения документов, получаемые всамых разнообразных содержательных разрезах (таких, например, как источники,авторы, тематики) практически не меняют своей формы.Применение теории фракталов при анализе информационного пространствапозволяет с общей позиции взглянуть на закономерности, которые составляютосновы информатики.
Известно, что многие информационно-поисковые системы,включающие элементы кластерного анализа, позволяют автоматически обнаруживать240новые классы и распределяют документы по этим классам. Соответственно,показано, что тематические информационные массивы представляют собойсамоподобные развивающиеся структуры, однако их самоподобие справедливо лишьна статистическом уровне (например, распределение тематических кластеровдокументов по размерам).Чем же определяется природа фрактальных свойств информационногопространства, порождаемого такими кластерными структурами? С одной стороны,параметрами ранговых распределений, а с другой стороны, механизмом развитияинформационных кластеров. Появление новых публикаций увеличивает размеры ужесуществующих кластеров и является причиной образования новых.Фрактальные свойства характерны и для кластеров информационных веб-сайтов,на которых публикуются документы, соответствующие определенным тематикам.Эти кластеры, как наборы тематических документов, представляют собой структуры,обладающие рядом уникальных свойств.Топология и характеристики моделей веб-пространства оказываютсяприблизительно одинаковыми его разных подмножеств, подтверждая тем самымнаблюдение о том, что «веб - это фрактал».Как показано в роботах С.
Иванова [24], для последовательности сообщенийтематических информационных потоков количество сообщений, резонансов насобытия реального мира, пропорционально некоторой степени количестваисточников информации (кластеров).Известно, что все основные законы научной коммуникации, такие как законыПарето, Лотки, Бредфорда, Ципфа, могут быть обобщенные именно в рамках теориистохастических фракталов.Точно так же, как и в традиционных научныхкоммуникациях, множество сообщений в Интернете по одной тематике во временипредставляет собой динамическую кластерную систему, которая возникает врезультате итерационных процессов.
Этот процесс обуславливается републикациями,односторонним или взаимным цитированием, различными публикациями отражениями одних и тех же событий реального мира, прямыми ссылками и т.п.Фрактальная размерность в кластерной системе, которая соответствуеттематическим информационным потокам, показывает уровень заполнения информационного пространства сообщениями на протяжении определенного времени [24]:,гдепотоке);- размер системы (общее количество сообщений в информационномразмер – число кластеров (тематик или источников);фрактальная размерность информационного массива;коэффициентмасштабирования.