Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 68
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 68 страницы из PDF
6.8приведена ∆L -диаграмма для рассмотренного выше временного ряда из количествапубликаций сообщений через сутки по выбранной тематике в сети Интернет напротяжении года.Рис. Часть VI.8. ∆L -диаграмма временного ряда интенсивности тематическихпубликаций (ось абсцисс – дни года, ось ординат – величина окна измерений)На рис.
6.9 приведена ∆L -диаграмма наличного курса доллара в гривнах напротяжении 2008 года. Еще нагляднее, чем в случае применения вейвлет-анализаможно убедиться в потому, что наиболее значительные отклонения на диаграмме вэтом случае наступают с некоторой временной задержкой у сравнение с диаграммойпубликациями по кризисной тематике.Предложенный метод визуализации абсолютных отклонений ∆L , как и методвейвлет-преобразований, позволяет (и как показано на примере – не хуже)обнаруживать единичные и нерегулярные «всплески», резкие изменения значенийколичественных показателей в разные периоды времени.Рис.
Часть VI.9. ∆L -диаграмма временного ряда значений наличных курсовдоллара в гривнах (ось абсцисс – дни года, ось ординат – величина окна измерений)244Следует отметить, что метод вейвлет-преобразований может применяться сиспользованием разнообразных вейвлетов. В случае применения ∆L -метода не нужнорешать сложную задачу выбора и обоснования применения соответствующеговейвлета; в отличие от методов фрактального анализа предложенный подход нетребует значительных объемов точек ряда измерений. Этот метод довольно простой впрограммной реализации и базируется на такому мощной теоретической основе какDFA, оказался довольно эффективным при анализе временных рядов в такихобластях, как экономика и социология.Корреляциионный анализЕсли обозначить через X t член ряда количества публикаций (количестваэлектронных сообщений, поступивших, например, в день t , t = 1, ..., N ), тофункция автокорреляции для этого ряда Х определяется как:где m – среднее значение ряда Х, которое в дальнейшем, не ограничиваяобщности, будем считать равным 0 (это достигается переприсвоением значению ХtзначенияХt - m).
Предполагается, что ряд X может содержать скрытуюпериодическую составляющую.Известно, что функция автокорреляции обладает тем свойством, что еслискрытая периодическая составляющая существует, то ее значение асимптотическиприближается к квадрату среднего значения исходного ряда .Если рассматриваемый ряд периодический, т.е. может быть представлен как:то его функция автокорреляции будет равна:Этот результат показывает, что функция автокорреляции периодического рядатакже является периодической, содержит основную частоту и гармоники, но безфазовых угловРассмотрим числовой ряд, являющийся суммой некоторой содержательнойсоставляющейи синусоидальной сигнала :Найдем функцию автокорреляции для этого ряда (значения приведены ксреднему):245Очевидно, первое слагаемое есть функция непериодическая, асимптотическистремящаяся к нулю.
Так как взаимная корреляция междуиотсутствует, то тотретье и четвертое слагаемое также стремятся к нулю. Таким образом, самыйзначительный ненулевой вклад составляет второе слагаемое – автокорреляциясигнала . Т.е. функция автокорреляции рядаостается периодической.Для экспериментального подтверждения рассмотренной гипотезы быласгенерирована последовательность, по своей природе напоминающая реальныйинформационный поток. Предполагалось, что ежедневное количество сообщений всетирастет по экспоненциальному закону (с очень небольшим значениемэкспоненциальной степени), и на это количество накладываются колебания,связанные с недельной цикличностью в работе информационных источников.
Такжепринимается во внимание некоторый элемент случайности, выраженныйсоответствующими отклонениями.Для получения соответствующего временного ряда были рассмотрены значенияфункции:которая реализует простейшую модель информационного потока – экспонентаотвечает за рост количества публикаций во времени (общая тенденция), синус – занедельную периодичность, параметр– за случайные отклонения. Количествопубликацийне может быть отрицательным числом. Исходный ряд был обработан:приведен к нулевому среднему и нормирован (каждый член разделен на среднее).После этого были рассчитаны коэффициенты корреляции, которые для рядовизмеренийдлинойрассчитываются по формуле:гдефункция автокорреляции;дисперсия.Рис. Часть VI.10. Коэффициенты корреляции ряда наблюдений(осьординат) в зависимости от (ось абсцисс)На рис.
6.10 приведены значения коэффициентов корреляций (ось абсцисс –переменная k,ось ординат – коэффициент корреляции R(k). Коэффициенты246корреляции ряда наблюдений, усредненного по неделям, аппроксимируютсягиперболической функцией, которая характеризует долгосрочную зависимостьчленов «урупненного» исходного ряда.Фактор ФаноДля изучения поведения процессов принято использовать еще один показатель –индекс разброса дисперсии (ІDC), так называемый фактор Фано (U. Fano). Этавеличина определяется как отношение дисперсии количества событий (в нашемслучае – количества публикаций) на заданном окне наблюденийkксоответствующему математическому ожиданию:Для самоподобных процессов выполняется соотношение:гдеи– константы.Показатель ХерстаПоказатель Херста (H.E.
Hurst) связан с коэффициентом нормированногоразмаха, где- вычисляемыйопределенным образом «размах»соответствующего временного ряда, а- стандартное отклонение [27].Г.Э. Херст экспериментально обнаружил, что для многих временных рядовсправедливо:. Эта закономерность связана с традиционной«клеточной» фрактальной размерностьюпростым соотношением:.Условие, при котором показатель Херста связан с фрактальной «клеточной»размерностью в соответствии с приведенной формулой, определено Е. Федеромследующим образом: «… рассматривают клетки, размеры которых малы посравнению как с длительностью процесса, так и с диапазоном изменения функции;поэтому соотношение справедливо, когда структура кривой, описывающаяфрактальную функцию, исследуется с высоким разрешением, т.е. в локальномпределе».
Еще одним важным условием является самоаффинность функции. Невдаваясь в подробности, заметим, что для информационных потоков это свойствоинтерпретируется как самоподобие, возникающее в результате процессов ихформирования. Можно отметить, что указанными свойствами обладают не всеинформационные потоки, а лишь те, которые характеризуются достаточноймощностью и итеративностью при формировании. При этом временные ряды,построенные на основании мощных тематических информационных потоков, вполнеудовлетворяют этому условию. Поэтому при расчете показателя Херста фактическиопределяется и такой показатель тематического информационного потока какфрактальная размерность.Известно, что показатель Херста представляет собой меру персистентности склонности процесса к трендам (в отличие от обычного броуновского движения).Значение H > ½ означает, что направленная в определенную сторону динамикапроцесса в прошлом, вероятнее всего, повлечет продолжение движения в том женаправлении.
Если H < ½, то прогнозируется, что процесс изменит направленность. H= ½ означает неопределенность — броуновское движение.247Для изучения фрактальных характеристик тематических информационныхпотоков за определенный период для временных рядов,,составленных из количества относящихся к ним сообщений, изучалось значениепоказателя Херста, которое определялось из соотношения:.Здесь – стандартное отклонение:а- так называемый размах:гдеИсследования фрактальных свойств рядов измерений, получаемых в результатемониторинга тематических информационных массивов из Интернет, свидетельствуюто том, что при увеличениипоказательпринимает значения 0.65 ÷ 0.75. Ввидутого, что значениенамного превышает ½, в этом ряду обнаруживаетсяперсистентность (существование долговременных корреляций, которые могут бытьсвязаны с проявлением детерминированного хаоса).
Если предположить, что рядявляется локально самоаффинным (этот вопрос в настоящее время открыт), тоон имеет фрактальную размерность , равнуюD = 2 – H ≈ 1.35 ÷ 1.25.То есть, исследования тематических информационных потоков подтверждаютпредположение о самоподобии и итеративности процессов в веб-пространстве.Републикации, цитирование, прямые ссылки и т.п. порождают самоподобие,проявляющееся в устойчивых статистических распределениях и известныхэмпирических законах.В результате экспериментов было подтверждено наличие высокого уровнястатистической корреляции в информационных потоках на продолжительныхвременных интервалах.
На основе рассмотренного примера показана высокаяперсистентность процесса, что, в частности, свидетельствует об общей тенденцииувеличения публикации по выбранной тематике.Анализ самоподобия информационных массивов может рассматриваться кактехнология для осуществления прогнозирования.Вейвлет-анализОсновойвейвлет-анализа[28, 29]являютсявейвлет-преобразование,представляющего собой особый тип линейного преобразования, базисные функциикоторого (вейвлеты) имеют специфические свойства.Вейвлетом (малой волной) называется некоторая функция, сосредоточенная внебольшой окрестности некоторой точки и резко убывающая к нулю по мереудаления от нее как во временной, так и в частотной области.
Существуют248разнообразные вейвлеты, имеющие разные свойства. Вместе с тем, все вейвлетыимеют вид коротких волновых пакетов с нулевым интегральным значением,локализованных на временной оси, являющихся инвариантными к сдвигу имасштабированию.К любому вейвлету можно применить две операции:- сдвиг, т.е. перемещение области его локализации во времени;- масштабирование (растяжение или сжатие).Главная идея вейвлет-преобразования заключается в том, что нестационарныйвременной ряд разделяется на отдельные промежутки (так называемые «окнанаблюдения»), и на каждом из них выполняется вычисление скалярного произведения(величины, которая характеризует степень близости двух закономерностей)исследуемых данных с разными сдвигами некоторого вейвлета на разных масштабах.Вейвлет-преобразование генерирует набор коэффициентов, с помощью которыхпредставляется исходный ряд.