Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 68

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 68 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 682017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 68)

6.8приведена ∆L -диаграмма для рассмотренного выше временного ряда из количествапубликаций сообщений через сутки по выбранной тематике в сети Интернет напротяжении года.Рис. Часть VI.8. ∆L -диаграмма временного ряда интенсивности тематическихпубликаций (ось абсцисс – дни года, ось ординат – величина окна измерений)На рис.

6.9 приведена ∆L -диаграмма наличного курса доллара в гривнах напротяжении 2008 года. Еще нагляднее, чем в случае применения вейвлет-анализаможно убедиться в потому, что наиболее значительные отклонения на диаграмме вэтом случае наступают с некоторой временной задержкой у сравнение с диаграммойпубликациями по кризисной тематике.Предложенный метод визуализации абсолютных отклонений ∆L , как и методвейвлет-преобразований, позволяет (и как показано на примере – не хуже)обнаруживать единичные и нерегулярные «всплески», резкие изменения значенийколичественных показателей в разные периоды времени.Рис.

Часть VI.9. ∆L -диаграмма временного ряда значений наличных курсовдоллара в гривнах (ось абсцисс – дни года, ось ординат – величина окна измерений)244Следует отметить, что метод вейвлет-преобразований может применяться сиспользованием разнообразных вейвлетов. В случае применения ∆L -метода не нужнорешать сложную задачу выбора и обоснования применения соответствующеговейвлета; в отличие от методов фрактального анализа предложенный подход нетребует значительных объемов точек ряда измерений. Этот метод довольно простой впрограммной реализации и базируется на такому мощной теоретической основе какDFA, оказался довольно эффективным при анализе временных рядов в такихобластях, как экономика и социология.Корреляциионный анализЕсли обозначить через X t член ряда количества публикаций (количестваэлектронных сообщений, поступивших, например, в день t , t = 1, ..., N ), тофункция автокорреляции для этого ряда Х определяется как:где m – среднее значение ряда Х, которое в дальнейшем, не ограничиваяобщности, будем считать равным 0 (это достигается переприсвоением значению ХtзначенияХt - m).

Предполагается, что ряд X может содержать скрытуюпериодическую составляющую.Известно, что функция автокорреляции обладает тем свойством, что еслискрытая периодическая составляющая существует, то ее значение асимптотическиприближается к квадрату среднего значения исходного ряда .Если рассматриваемый ряд периодический, т.е. может быть представлен как:то его функция автокорреляции будет равна:Этот результат показывает, что функция автокорреляции периодического рядатакже является периодической, содержит основную частоту и гармоники, но безфазовых угловРассмотрим числовой ряд, являющийся суммой некоторой содержательнойсоставляющейи синусоидальной сигнала :Найдем функцию автокорреляции для этого ряда (значения приведены ксреднему):245Очевидно, первое слагаемое есть функция непериодическая, асимптотическистремящаяся к нулю.

Так как взаимная корреляция междуиотсутствует, то тотретье и четвертое слагаемое также стремятся к нулю. Таким образом, самыйзначительный ненулевой вклад составляет второе слагаемое – автокорреляциясигнала . Т.е. функция автокорреляции рядаостается периодической.Для экспериментального подтверждения рассмотренной гипотезы быласгенерирована последовательность, по своей природе напоминающая реальныйинформационный поток. Предполагалось, что ежедневное количество сообщений всетирастет по экспоненциальному закону (с очень небольшим значениемэкспоненциальной степени), и на это количество накладываются колебания,связанные с недельной цикличностью в работе информационных источников.

Такжепринимается во внимание некоторый элемент случайности, выраженныйсоответствующими отклонениями.Для получения соответствующего временного ряда были рассмотрены значенияфункции:которая реализует простейшую модель информационного потока – экспонентаотвечает за рост количества публикаций во времени (общая тенденция), синус – занедельную периодичность, параметр– за случайные отклонения. Количествопубликацийне может быть отрицательным числом. Исходный ряд был обработан:приведен к нулевому среднему и нормирован (каждый член разделен на среднее).После этого были рассчитаны коэффициенты корреляции, которые для рядовизмеренийдлинойрассчитываются по формуле:гдефункция автокорреляции;дисперсия.Рис. Часть VI.10. Коэффициенты корреляции ряда наблюдений(осьординат) в зависимости от (ось абсцисс)На рис.

6.10 приведены значения коэффициентов корреляций (ось абсцисс –переменная k,ось ординат – коэффициент корреляции R(k). Коэффициенты246корреляции ряда наблюдений, усредненного по неделям, аппроксимируютсягиперболической функцией, которая характеризует долгосрочную зависимостьчленов «урупненного» исходного ряда.Фактор ФаноДля изучения поведения процессов принято использовать еще один показатель –индекс разброса дисперсии (ІDC), так называемый фактор Фано (U. Fano). Этавеличина определяется как отношение дисперсии количества событий (в нашемслучае – количества публикаций) на заданном окне наблюденийkксоответствующему математическому ожиданию:Для самоподобных процессов выполняется соотношение:гдеи– константы.Показатель ХерстаПоказатель Херста (H.E.

Hurst) связан с коэффициентом нормированногоразмаха, где- вычисляемыйопределенным образом «размах»соответствующего временного ряда, а- стандартное отклонение [27].Г.Э. Херст экспериментально обнаружил, что для многих временных рядовсправедливо:. Эта закономерность связана с традиционной«клеточной» фрактальной размерностьюпростым соотношением:.Условие, при котором показатель Херста связан с фрактальной «клеточной»размерностью в соответствии с приведенной формулой, определено Е. Федеромследующим образом: «… рассматривают клетки, размеры которых малы посравнению как с длительностью процесса, так и с диапазоном изменения функции;поэтому соотношение справедливо, когда структура кривой, описывающаяфрактальную функцию, исследуется с высоким разрешением, т.е. в локальномпределе».

Еще одним важным условием является самоаффинность функции. Невдаваясь в подробности, заметим, что для информационных потоков это свойствоинтерпретируется как самоподобие, возникающее в результате процессов ихформирования. Можно отметить, что указанными свойствами обладают не всеинформационные потоки, а лишь те, которые характеризуются достаточноймощностью и итеративностью при формировании. При этом временные ряды,построенные на основании мощных тематических информационных потоков, вполнеудовлетворяют этому условию. Поэтому при расчете показателя Херста фактическиопределяется и такой показатель тематического информационного потока какфрактальная размерность.Известно, что показатель Херста представляет собой меру персистентности склонности процесса к трендам (в отличие от обычного броуновского движения).Значение H > ½ означает, что направленная в определенную сторону динамикапроцесса в прошлом, вероятнее всего, повлечет продолжение движения в том женаправлении.

Если H < ½, то прогнозируется, что процесс изменит направленность. H= ½ означает неопределенность — броуновское движение.247Для изучения фрактальных характеристик тематических информационныхпотоков за определенный период для временных рядов,,составленных из количества относящихся к ним сообщений, изучалось значениепоказателя Херста, которое определялось из соотношения:.Здесь – стандартное отклонение:а- так называемый размах:гдеИсследования фрактальных свойств рядов измерений, получаемых в результатемониторинга тематических информационных массивов из Интернет, свидетельствуюто том, что при увеличениипоказательпринимает значения 0.65 ÷ 0.75. Ввидутого, что значениенамного превышает ½, в этом ряду обнаруживаетсяперсистентность (существование долговременных корреляций, которые могут бытьсвязаны с проявлением детерминированного хаоса).

Если предположить, что рядявляется локально самоаффинным (этот вопрос в настоящее время открыт), тоон имеет фрактальную размерность , равнуюD = 2 – H ≈ 1.35 ÷ 1.25.То есть, исследования тематических информационных потоков подтверждаютпредположение о самоподобии и итеративности процессов в веб-пространстве.Републикации, цитирование, прямые ссылки и т.п. порождают самоподобие,проявляющееся в устойчивых статистических распределениях и известныхэмпирических законах.В результате экспериментов было подтверждено наличие высокого уровнястатистической корреляции в информационных потоках на продолжительныхвременных интервалах.

На основе рассмотренного примера показана высокаяперсистентность процесса, что, в частности, свидетельствует об общей тенденцииувеличения публикации по выбранной тематике.Анализ самоподобия информационных массивов может рассматриваться кактехнология для осуществления прогнозирования.Вейвлет-анализОсновойвейвлет-анализа[28, 29]являютсявейвлет-преобразование,представляющего собой особый тип линейного преобразования, базисные функциикоторого (вейвлеты) имеют специфические свойства.Вейвлетом (малой волной) называется некоторая функция, сосредоточенная внебольшой окрестности некоторой точки и резко убывающая к нулю по мереудаления от нее как во временной, так и в частотной области.

Существуют248разнообразные вейвлеты, имеющие разные свойства. Вместе с тем, все вейвлетыимеют вид коротких волновых пакетов с нулевым интегральным значением,локализованных на временной оси, являющихся инвариантными к сдвигу имасштабированию.К любому вейвлету можно применить две операции:- сдвиг, т.е. перемещение области его локализации во времени;- масштабирование (растяжение или сжатие).Главная идея вейвлет-преобразования заключается в том, что нестационарныйвременной ряд разделяется на отдельные промежутки (так называемые «окнанаблюдения»), и на каждом из них выполняется вычисление скалярного произведения(величины, которая характеризует степень близости двух закономерностей)исследуемых данных с разными сдвигами некоторого вейвлета на разных масштабах.Вейвлет-преобразование генерирует набор коэффициентов, с помощью которыхпредставляется исходный ряд.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.