Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 67
Текст из файла (страница 67)
В приведенном соотношении между количеством сообщений икластеров проявляется свойство сохранения внутренней структуры множества приизменении масштабов его внешнего рассмотрения.Изучение характеристик временных рядов, порождаемых информационнымипотоками, сообщения которых отражают процессы, происходящие в реальном мире,дает возможность прогнозировать их динамику, выявлять скрытые корреляции,циклы и т.п.В этом разделе будут описаны основные алгоритмы, применяемые приисследовании фрактальных свойств рядов измерений. В качестве иллюстрацийприведены результаты реальных численных экспериментов.
Какбаза для241исследования фрактальных свойств рядов, отражающих интенсивность публикацийтематических информационных потоков, использовалась система контентмониторинга новостей с веб-сайтов сети Интернет ІnfoStream. Тематика исследуемогоинформационного потока определялась запросом к этой системе. Данные дляисследованийбыли получены из интерфейса режима «Динамика появленияпонятий».В ходе исследований обрабатывался тематический информационный поток,содержащий сообщения онлайновых СМИ - массив из 14069 документов,опубликованных с 1 января 2006 г. по 31 декабря 2007 г., по тематике компьютернойвирусологии, удовлетворяющих запросу:«компьютерный вирус» OR «вирусная атака» OR (антивирус AND (программаOR утилита OR Wіndows OR Lіnux)).Ниже анализируетсятся временной ряд из количества тематических публикацийза указанный период с определенной дискретностью по времени в сутки .Остановимся подробнее на некоторых методах анализа подобного типавременных рядов, порождаемых, в частности, информационными потоками.Метод DFAОдин из универсальных подходов к выявлению самоподобия основывается наметоде DFA (Detrended Fluctuatіon Analysіs) [25] – универсальном методе обработкирядов измерений.
Метод DFA (Detrended fluctuatіon analysus) также чаще всегоупотребится для выявления статистического самоподобия сигналов.Этот метод является вариантомдисперсионного анализа одномерныхслучайных блужданий ипозволяет исследовать эффекты продолжительныхкорреляций в рядах, которые исследуются. В рамках алгоритма DFA анализируетсясреднеквадратичная ошибка линейной аппроксимации в зависимости от размераучастка аппроксимации (окна наблюдения). Пусть есть ряд измерений xt , t ∈1,..., N .Обозначим среднее значение этого ряда измерений: x =1 N∑ xk .
Из исходного рядаN k =1строится ряд накопления:tX t = ∑ ( xk − x ) .k =1Потом ряд X t разделяется на временные окна длиной L , строится линейнаяаппроксимация ( L j ,L ) по значениям X k , j , L с X j , L внутри каждого окна (в своюочередь, X j , L – подмножество X t , j = 1,..., J , J = N / L – количество окон наблюдения)и рассчитывается отклонение точек ряда накопления от линейной аппроксимации:E ( j, L) =21 LX k , j , L − Lk , j , L ) =(∑L k =11 L| ∆ k , j , L |2 ,∑L k =1где Lk , j , L – значение локальной линейной аппроксимации в точке t = ( j − 1) L + k .Здесь | ∆ k , j , L | – абсолютное отклонение элемента X k , j , L от локальной линейнойаппроксимации.Далее вычисляется среднее значение:F ( L) =1 J∑ E ( j, L) ,J j =1242после чего, в случае F ( L) ∝ Lα , где α некоторая константа, делаются выводы оналичии статистического самоподобия и характер поведения исследуемого рядаизмерений.Этот метод был применен к ряду значений количества публикаций, полученных запредставленным выше запросом.
На рис. 6.6 представленная зависимостьсреднеквадратичной ошибки аппроксимации от длины участков аппроксимации вдвойном логарифмическом масштабе.Рис. Часть VI.6. Зависимость среднеквадратичной ошибки линейнойаппроксимации D от длины окна наблюдения kБлизость зависимости D(k ) к линейному еще раз подтверждает наличиелокального скейлинга во втором полугодии 2008 года.Визуализация на основе ∆L -анализаС целью визуализации и анализа временных рядов, связанных с публикациями винформационном просторанстве сети Интернет разработан новый методдисперсионного анализа, предназначенный для анализа и визуализации состояниявременных рядов интенсивности публикаций по определенной тематике [26].Задачи выявления и визуализации трендов, выявление гармоническихсоставляющих, трендов, локальных особенностей временных рядов, фильтрациишума сегодня решаются методами фрактального, вейвлет- и Фурье-анализа.Как и в методе DFA, рассмотрим поведения отклонения точек ряда накопления отлинейной аппроксимации (но в этом случае абсолютное значение) | ∆ k , j , L | .Построение соответствующих диаграмм значений | ∆ k , j , L | , которые зависятфактически от двух параметров – L и t = ( j − 1) L + k названо∆L -методомвизуализации.
Такая визуализация в виде «рельефной» диаграммы представляетсобой определенный интерес для изучения особенностей процессов, которыеотвечают исходным рядам измерений.∆L -метод оказывается довольно эффективным для выявления гармоническихсоставляющих исследуемого ряда. Применение ∆L -метода к ряду, составленному изколичества публикаций, собранных системой ІnfoStream из Интернет без учетатематического деления, имеет явным образом выраженную гармоническуюсоставляющую (общее количество публикаций зависит со дня недели), что можновидеть на рис. 6.7. Кроме того, на этой диаграмме заметные отклонения от общейдинамики объемов публикаций в праздничные дни.243Рис.
Часть VI.7. ∆L -диаграмма ряда количества публикаций, собираемыхежесуточно системой ІnfoStream в 2008 году«Рельефные диаграммы», получаемые в результате ∆L -метода (более светлыетона соответствуют большим значениям | ∆ k , j , L | ),напоминают скейлограммы,полученные в результате непрерывных вейвлет-преобразований. Следует обратитьвнимание на то, что темные полосы в центре многих областей светлого закрашиваниясвидетельствуют об «стабилизации» больших значений рассмотренного ряда навысоком уровне.∆L -метод применяется для реальных временных рядов, например тех, которыеотражают интенсивность публикаций данной тематики в Интернете. На рис.
6.8приведена ∆L -диаграмма для рассмотренного выше временного ряда из количествапубликаций сообщений через сутки по выбранной тематике в сети Интернет напротяжении года.Рис. Часть VI.8. ∆L -диаграмма временного ряда интенсивности тематическихпубликаций (ось абсцисс – дни года, ось ординат – величина окна измерений)На рис. 6.9 приведена ∆L -диаграмма наличного курса доллара в гривнах напротяжении 2008 года.
Еще нагляднее, чем в случае применения вейвлет-анализаможно убедиться в потому, что наиболее значительные отклонения на диаграмме вэтом случае наступают с некоторой временной задержкой у сравнение с диаграммойпубликациями по кризисной тематике.Предложенный метод визуализации абсолютных отклонений ∆L , как и методвейвлет-преобразований, позволяет (и как показано на примере – не хуже)обнаруживать единичные и нерегулярные «всплески», резкие изменения значенийколичественных показателей в разные периоды времени.Рис. Часть VI.9. ∆L -диаграмма временного ряда значений наличных курсовдоллара в гривнах (ось абсцисс – дни года, ось ординат – величина окна измерений)244Следует отметить, что метод вейвлет-преобразований может применяться сиспользованием разнообразных вейвлетов.
В случае применения ∆L -метода не нужнорешать сложную задачу выбора и обоснования применения соответствующеговейвлета; в отличие от методов фрактального анализа предложенный подход нетребует значительных объемов точек ряда измерений. Этот метод довольно простой впрограммной реализации и базируется на такому мощной теоретической основе какDFA, оказался довольно эффективным при анализе временных рядов в такихобластях, как экономика и социология.Корреляциионный анализЕсли обозначить через X t член ряда количества публикаций (количестваэлектронных сообщений, поступивших, например, в день t , t = 1, ..., N ), тофункция автокорреляции для этого ряда Х определяется как:где m – среднее значение ряда Х, которое в дальнейшем, не ограничиваяобщности, будем считать равным 0 (это достигается переприсвоением значению ХtзначенияХt - m).
Предполагается, что ряд X может содержать скрытуюпериодическую составляющую.Известно, что функция автокорреляции обладает тем свойством, что еслискрытая периодическая составляющая существует, то ее значение асимптотическиприближается к квадрату среднего значения исходного ряда .Если рассматриваемый ряд периодический, т.е. может быть представлен как:то его функция автокорреляции будет равна:Этот результат показывает, что функция автокорреляции периодического рядатакже является периодической, содержит основную частоту и гармоники, но безфазовых угловРассмотрим числовой ряд, являющийся суммой некоторой содержательнойсоставляющейи синусоидальной сигнала :Найдем функцию автокорреляции для этого ряда (значения приведены ксреднему):245Очевидно, первое слагаемое есть функция непериодическая, асимптотическистремящаяся к нулю.
Так как взаимная корреляция междуиотсутствует, то тотретье и четвертое слагаемое также стремятся к нулю. Таким образом, самыйзначительный ненулевой вклад составляет второе слагаемое – автокорреляциясигнала . Т.е. функция автокорреляции рядаостается периодической.Для экспериментального подтверждения рассмотренной гипотезы быласгенерирована последовательность, по своей природе напоминающая реальныйинформационный поток.
Предполагалось, что ежедневное количество сообщений всетирастет по экспоненциальному закону (с очень небольшим значениемэкспоненциальной степени), и на это количество накладываются колебания,связанные с недельной цикличностью в работе информационных источников. Такжепринимается во внимание некоторый элемент случайности, выраженныйсоответствующими отклонениями.Для получения соответствующего временного ряда были рассмотрены значенияфункции:которая реализует простейшую модель информационного потока – экспонентаотвечает за рост количества публикаций во времени (общая тенденция), синус – занедельную периодичность, параметр– за случайные отклонения.
Количествопубликацийне может быть отрицательным числом. Исходный ряд был обработан:приведен к нулевому среднему и нормирован (каждый член разделен на среднее).После этого были рассчитаны коэффициенты корреляции, которые для рядовизмеренийдлинойрассчитываются по формуле:гдефункция автокорреляции;дисперсия.Рис. Часть VI.10. Коэффициенты корреляции ряда наблюдений(осьординат) в зависимости от (ось абсцисс)На рис. 6.10 приведены значения коэффициентов корреляций (ось абсцисс –переменная k,ось ординат – коэффициент корреляции R(k).
Коэффициенты246корреляции ряда наблюдений, усредненного по неделям, аппроксимируютсягиперболической функцией, которая характеризует долгосрочную зависимостьчленов «урупненного» исходного ряда.Фактор ФаноДля изучения поведения процессов принято использовать еще один показатель –индекс разброса дисперсии (ІDC), так называемый фактор Фано (U. Fano). Этавеличина определяется как отношение дисперсии количества событий (в нашемслучае – количества публикаций) на заданном окне наблюденийkксоответствующему математическому ожиданию:Для самоподобных процессов выполняется соотношение:гдеи– константы.Показатель ХерстаПоказатель Херста (H.E. Hurst) связан с коэффициентом нормированногоразмаха, где- вычисляемыйопределенным образом «размах»соответствующего временного ряда, а- стандартное отклонение [27].Г.Э.
Херст экспериментально обнаружил, что для многих временных рядовсправедливо:. Эта закономерность связана с традиционной«клеточной» фрактальной размерностьюпростым соотношением:.Условие, при котором показатель Херста связан с фрактальной «клеточной»размерностью в соответствии с приведенной формулой, определено Е. Федеромследующим образом: «… рассматривают клетки, размеры которых малы посравнению как с длительностью процесса, так и с диапазоном изменения функции;поэтому соотношение справедливо, когда структура кривой, описывающаяфрактальную функцию, исследуется с высоким разрешением, т.е.