Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 67
Текст из файла (страница 67)
Вэтих случаях обычно определяют значение параметра H .Другой концепцией, связанной с самим подобием, являются медленнозатухающие распределения, или распределения с "тяжелыми хвостами" (heavy - taileddistributions). Медленно затухающие распределения могут использоваться дляпредставления плотности вероятностей, которые описывают, например, объемыданных в информационных потоках.
Известно, что распределение случайнойпеременной X медленно затухает, если:1 − F ( x) = Pr [ X > x ] ~1при x → ∞, 0 < α .xαВ целом, случайная переменная с медленно затухающим распределением имеетбесконечную дисперсию и, возможно, бесконечное среднее. Случайная переменная смедленно затухающим распределением может принимать очень большие значения свероятностью, которой невозможно пренебречь.Самим простым медленно затухающим распределением является распределениеПарето с параметрами k и α (k , α < 0) и такими статистическими показателями:f ( x) = F ( x) = 0 ( x ≤ k );α +1f ( x) =αk ;k xαkF ( x) = 1 − ( x > k ; α > 0);xE [ x] =§ 2.3.αk (α > 1).α −1Основы фрактального анализа информационных потоковМногочисленные эксперименты, замеры параметров информационногопространства подтверждают тот факт, что при значительном возрастании объемовинформационных ресурсов статистические распределения документов, получаемые всамых разнообразных содержательных разрезах (таких, например, как источники,авторы, тематики) практически не меняют своей формы.Применение теории фракталов при анализе информационного пространствапозволяет с общей позиции взглянуть на закономерности, которые составляютосновы информатики.
Известно, что многие информационно-поисковые системы,включающие элементы кластерного анализа, позволяют автоматически обнаруживать240новые классы и распределяют документы по этим классам. Соответственно,показано, что тематические информационные массивы представляют собойсамоподобные развивающиеся структуры, однако их самоподобие справедливо лишьна статистическом уровне (например, распределение тематических кластеровдокументов по размерам).Чем же определяется природа фрактальных свойств информационногопространства, порождаемого такими кластерными структурами? С одной стороны,параметрами ранговых распределений, а с другой стороны, механизмом развитияинформационных кластеров.
Появление новых публикаций увеличивает размеры ужесуществующих кластеров и является причиной образования новых.Фрактальные свойства характерны и для кластеров информационных веб-сайтов,на которых публикуются документы, соответствующие определенным тематикам.Эти кластеры, как наборы тематических документов, представляют собой структуры,обладающие рядом уникальных свойств.Топология и характеристики моделей веб-пространства оказываютсяприблизительно одинаковыми его разных подмножеств, подтверждая тем самымнаблюдение о том, что «веб - это фрактал».Как показано в роботах С. Иванова [24], для последовательности сообщенийтематических информационных потоков количество сообщений, резонансов насобытия реального мира, пропорционально некоторой степени количестваисточников информации (кластеров).Известно, что все основные законы научной коммуникации, такие как законыПарето, Лотки, Бредфорда, Ципфа, могут быть обобщенные именно в рамках теориистохастических фракталов.Точно так же, как и в традиционных научныхкоммуникациях, множество сообщений в Интернете по одной тематике во временипредставляет собой динамическую кластерную систему, которая возникает врезультате итерационных процессов.
Этот процесс обуславливается републикациями,односторонним или взаимным цитированием, различными публикациями отражениями одних и тех же событий реального мира, прямыми ссылками и т.п.Фрактальная размерность в кластерной системе, которая соответствуеттематическим информационным потокам, показывает уровень заполнения информационного пространства сообщениями на протяжении определенного времени [24]:,гдепотоке);- размер системы (общее количество сообщений в информационномразмер – число кластеров (тематик или источников);фрактальная размерность информационного массива;коэффициентмасштабирования. В приведенном соотношении между количеством сообщений икластеров проявляется свойство сохранения внутренней структуры множества приизменении масштабов его внешнего рассмотрения.Изучение характеристик временных рядов, порождаемых информационнымипотоками, сообщения которых отражают процессы, происходящие в реальном мире,дает возможность прогнозировать их динамику, выявлять скрытые корреляции,циклы и т.п.В этом разделе будут описаны основные алгоритмы, применяемые приисследовании фрактальных свойств рядов измерений.
В качестве иллюстрацийприведены результаты реальных численных экспериментов. Какбаза для241исследования фрактальных свойств рядов, отражающих интенсивность публикацийтематических информационных потоков, использовалась система контентмониторинга новостей с веб-сайтов сети Интернет ІnfoStream. Тематика исследуемогоинформационного потока определялась запросом к этой системе. Данные дляисследованийбыли получены из интерфейса режима «Динамика появленияпонятий».В ходе исследований обрабатывался тематический информационный поток,содержащий сообщения онлайновых СМИ - массив из 14069 документов,опубликованных с 1 января 2006 г. по 31 декабря 2007 г., по тематике компьютернойвирусологии, удовлетворяющих запросу:«компьютерный вирус» OR «вирусная атака» OR (антивирус AND (программаOR утилита OR Wіndows OR Lіnux)).Ниже анализируетсятся временной ряд из количества тематических публикацийза указанный период с определенной дискретностью по времени в сутки .Остановимся подробнее на некоторых методах анализа подобного типавременных рядов, порождаемых, в частности, информационными потоками.Метод DFAОдин из универсальных подходов к выявлению самоподобия основывается наметоде DFA (Detrended Fluctuatіon Analysіs) [25] – универсальном методе обработкирядов измерений.
Метод DFA (Detrended fluctuatіon analysus) также чаще всегоупотребится для выявления статистического самоподобия сигналов.Этот метод является вариантомдисперсионного анализа одномерныхслучайных блужданий ипозволяет исследовать эффекты продолжительныхкорреляций в рядах, которые исследуются. В рамках алгоритма DFA анализируетсясреднеквадратичная ошибка линейной аппроксимации в зависимости от размераучастка аппроксимации (окна наблюдения).
Пусть есть ряд измерений xt , t ∈1,..., N .Обозначим среднее значение этого ряда измерений: x =1 N∑ xk . Из исходного рядаN k =1строится ряд накопления:tX t = ∑ ( xk − x ) .k =1Потом ряд X t разделяется на временные окна длиной L , строится линейнаяаппроксимация ( L j ,L ) по значениям X k , j , L с X j , L внутри каждого окна (в своюочередь, X j , L – подмножество X t , j = 1,..., J , J = N / L – количество окон наблюдения)и рассчитывается отклонение точек ряда накопления от линейной аппроксимации:E ( j, L) =21 LX k , j , L − Lk , j , L ) =(∑L k =11 L| ∆ k , j , L |2 ,∑L k =1где Lk , j , L – значение локальной линейной аппроксимации в точке t = ( j − 1) L + k .Здесь | ∆ k , j , L | – абсолютное отклонение элемента X k , j , L от локальной линейнойаппроксимации.Далее вычисляется среднее значение:F ( L) =1 J∑ E ( j, L) ,J j =1242после чего, в случае F ( L) ∝ Lα , где α некоторая константа, делаются выводы оналичии статистического самоподобия и характер поведения исследуемого рядаизмерений.Этот метод был применен к ряду значений количества публикаций, полученных запредставленным выше запросом.
На рис. 6.6 представленная зависимостьсреднеквадратичной ошибки аппроксимации от длины участков аппроксимации вдвойном логарифмическом масштабе.Рис. Часть VI.6. Зависимость среднеквадратичной ошибки линейнойаппроксимации D от длины окна наблюдения kБлизость зависимости D(k ) к линейному еще раз подтверждает наличиелокального скейлинга во втором полугодии 2008 года.Визуализация на основе ∆L -анализаС целью визуализации и анализа временных рядов, связанных с публикациями винформационном просторанстве сети Интернет разработан новый методдисперсионного анализа, предназначенный для анализа и визуализации состояниявременных рядов интенсивности публикаций по определенной тематике [26].Задачи выявления и визуализации трендов, выявление гармоническихсоставляющих, трендов, локальных особенностей временных рядов, фильтрациишума сегодня решаются методами фрактального, вейвлет- и Фурье-анализа.Как и в методе DFA, рассмотрим поведения отклонения точек ряда накопления отлинейной аппроксимации (но в этом случае абсолютное значение) | ∆ k , j , L | .Построение соответствующих диаграмм значений | ∆ k , j , L | , которые зависятфактически от двух параметров – L и t = ( j − 1) L + k названо∆L -методомвизуализации.
Такая визуализация в виде «рельефной» диаграммы представляетсобой определенный интерес для изучения особенностей процессов, которыеотвечают исходным рядам измерений.∆L -метод оказывается довольно эффективным для выявления гармоническихсоставляющих исследуемого ряда.
Применение ∆L -метода к ряду, составленному изколичества публикаций, собранных системой ІnfoStream из Интернет без учетатематического деления, имеет явным образом выраженную гармоническуюсоставляющую (общее количество публикаций зависит со дня недели), что можновидеть на рис. 6.7. Кроме того, на этой диаграмме заметные отклонения от общейдинамики объемов публикаций в праздничные дни.243Рис.
Часть VI.7. ∆L -диаграмма ряда количества публикаций, собираемыхежесуточно системой ІnfoStream в 2008 году«Рельефные диаграммы», получаемые в результате ∆L -метода (более светлыетона соответствуют большим значениям | ∆ k , j , L | ),напоминают скейлограммы,полученные в результате непрерывных вейвлет-преобразований. Следует обратитьвнимание на то, что темные полосы в центре многих областей светлого закрашиваниясвидетельствуют об «стабилизации» больших значений рассмотренного ряда навысоком уровне.∆L -метод применяется для реальных временных рядов, например тех, которыеотражают интенсивность публикаций данной тематики в Интернете. На рис.