Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 67

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 67 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 672017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 67)

Вэтих случаях обычно определяют значение параметра H .Другой концепцией, связанной с самим подобием, являются медленнозатухающие распределения, или распределения с "тяжелыми хвостами" (heavy - taileddistributions). Медленно затухающие распределения могут использоваться дляпредставления плотности вероятностей, которые описывают, например, объемыданных в информационных потоках.

Известно, что распределение случайнойпеременной X медленно затухает, если:1 − F ( x) = Pr [ X > x ] ~1при x → ∞, 0 < α .xαВ целом, случайная переменная с медленно затухающим распределением имеетбесконечную дисперсию и, возможно, бесконечное среднее. Случайная переменная смедленно затухающим распределением может принимать очень большие значения свероятностью, которой невозможно пренебречь.Самим простым медленно затухающим распределением является распределениеПарето с параметрами k и α (k , α < 0) и такими статистическими показателями:f ( x) = F ( x) = 0 ( x ≤ k );α +1f ( x) =αk  ;k xαkF ( x) = 1 −   ( x > k ; α > 0);xE [ x] =§ 2.3.αk (α > 1).α −1Основы фрактального анализа информационных потоковМногочисленные эксперименты, замеры параметров информационногопространства подтверждают тот факт, что при значительном возрастании объемовинформационных ресурсов статистические распределения документов, получаемые всамых разнообразных содержательных разрезах (таких, например, как источники,авторы, тематики) практически не меняют своей формы.Применение теории фракталов при анализе информационного пространствапозволяет с общей позиции взглянуть на закономерности, которые составляютосновы информатики.

Известно, что многие информационно-поисковые системы,включающие элементы кластерного анализа, позволяют автоматически обнаруживать240новые классы и распределяют документы по этим классам. Соответственно,показано, что тематические информационные массивы представляют собойсамоподобные развивающиеся структуры, однако их самоподобие справедливо лишьна статистическом уровне (например, распределение тематических кластеровдокументов по размерам).Чем же определяется природа фрактальных свойств информационногопространства, порождаемого такими кластерными структурами? С одной стороны,параметрами ранговых распределений, а с другой стороны, механизмом развитияинформационных кластеров.

Появление новых публикаций увеличивает размеры ужесуществующих кластеров и является причиной образования новых.Фрактальные свойства характерны и для кластеров информационных веб-сайтов,на которых публикуются документы, соответствующие определенным тематикам.Эти кластеры, как наборы тематических документов, представляют собой структуры,обладающие рядом уникальных свойств.Топология и характеристики моделей веб-пространства оказываютсяприблизительно одинаковыми его разных подмножеств, подтверждая тем самымнаблюдение о том, что «веб - это фрактал».Как показано в роботах С. Иванова [24], для последовательности сообщенийтематических информационных потоков количество сообщений, резонансов насобытия реального мира, пропорционально некоторой степени количестваисточников информации (кластеров).Известно, что все основные законы научной коммуникации, такие как законыПарето, Лотки, Бредфорда, Ципфа, могут быть обобщенные именно в рамках теориистохастических фракталов.Точно так же, как и в традиционных научныхкоммуникациях, множество сообщений в Интернете по одной тематике во временипредставляет собой динамическую кластерную систему, которая возникает врезультате итерационных процессов.

Этот процесс обуславливается републикациями,односторонним или взаимным цитированием, различными публикациями отражениями одних и тех же событий реального мира, прямыми ссылками и т.п.Фрактальная размерность в кластерной системе, которая соответствуеттематическим информационным потокам, показывает уровень заполнения информационного пространства сообщениями на протяжении определенного времени [24]:,гдепотоке);- размер системы (общее количество сообщений в информационномразмер – число кластеров (тематик или источников);фрактальная размерность информационного массива;коэффициентмасштабирования. В приведенном соотношении между количеством сообщений икластеров проявляется свойство сохранения внутренней структуры множества приизменении масштабов его внешнего рассмотрения.Изучение характеристик временных рядов, порождаемых информационнымипотоками, сообщения которых отражают процессы, происходящие в реальном мире,дает возможность прогнозировать их динамику, выявлять скрытые корреляции,циклы и т.п.В этом разделе будут описаны основные алгоритмы, применяемые приисследовании фрактальных свойств рядов измерений.

В качестве иллюстрацийприведены результаты реальных численных экспериментов. Какбаза для241исследования фрактальных свойств рядов, отражающих интенсивность публикацийтематических информационных потоков, использовалась система контентмониторинга новостей с веб-сайтов сети Интернет ІnfoStream. Тематика исследуемогоинформационного потока определялась запросом к этой системе. Данные дляисследованийбыли получены из интерфейса режима «Динамика появленияпонятий».В ходе исследований обрабатывался тематический информационный поток,содержащий сообщения онлайновых СМИ - массив из 14069 документов,опубликованных с 1 января 2006 г. по 31 декабря 2007 г., по тематике компьютернойвирусологии, удовлетворяющих запросу:«компьютерный вирус» OR «вирусная атака» OR (антивирус AND (программаOR утилита OR Wіndows OR Lіnux)).Ниже анализируетсятся временной ряд из количества тематических публикацийза указанный период с определенной дискретностью по времени в сутки .Остановимся подробнее на некоторых методах анализа подобного типавременных рядов, порождаемых, в частности, информационными потоками.Метод DFAОдин из универсальных подходов к выявлению самоподобия основывается наметоде DFA (Detrended Fluctuatіon Analysіs) [25] – универсальном методе обработкирядов измерений.

Метод DFA (Detrended fluctuatіon analysus) также чаще всегоупотребится для выявления статистического самоподобия сигналов.Этот метод является вариантомдисперсионного анализа одномерныхслучайных блужданий ипозволяет исследовать эффекты продолжительныхкорреляций в рядах, которые исследуются. В рамках алгоритма DFA анализируетсясреднеквадратичная ошибка линейной аппроксимации в зависимости от размераучастка аппроксимации (окна наблюдения).

Пусть есть ряд измерений xt , t ∈1,..., N .Обозначим среднее значение этого ряда измерений: x =1 N∑ xk . Из исходного рядаN k =1строится ряд накопления:tX t = ∑ ( xk − x ) .k =1Потом ряд X t разделяется на временные окна длиной L , строится линейнаяаппроксимация ( L j ,L ) по значениям X k , j , L с X j , L внутри каждого окна (в своюочередь, X j , L – подмножество X t , j = 1,..., J , J = N / L – количество окон наблюдения)и рассчитывается отклонение точек ряда накопления от линейной аппроксимации:E ( j, L) =21 LX k , j , L − Lk , j , L ) =(∑L k =11 L| ∆ k , j , L |2 ,∑L k =1где Lk , j , L – значение локальной линейной аппроксимации в точке t = ( j − 1) L + k .Здесь | ∆ k , j , L | – абсолютное отклонение элемента X k , j , L от локальной линейнойаппроксимации.Далее вычисляется среднее значение:F ( L) =1 J∑ E ( j, L) ,J j =1242после чего, в случае F ( L) ∝ Lα , где α некоторая константа, делаются выводы оналичии статистического самоподобия и характер поведения исследуемого рядаизмерений.Этот метод был применен к ряду значений количества публикаций, полученных запредставленным выше запросом.

На рис. 6.6 представленная зависимостьсреднеквадратичной ошибки аппроксимации от длины участков аппроксимации вдвойном логарифмическом масштабе.Рис. Часть VI.6. Зависимость среднеквадратичной ошибки линейнойаппроксимации D от длины окна наблюдения kБлизость зависимости D(k ) к линейному еще раз подтверждает наличиелокального скейлинга во втором полугодии 2008 года.Визуализация на основе ∆L -анализаС целью визуализации и анализа временных рядов, связанных с публикациями винформационном просторанстве сети Интернет разработан новый методдисперсионного анализа, предназначенный для анализа и визуализации состояниявременных рядов интенсивности публикаций по определенной тематике [26].Задачи выявления и визуализации трендов, выявление гармоническихсоставляющих, трендов, локальных особенностей временных рядов, фильтрациишума сегодня решаются методами фрактального, вейвлет- и Фурье-анализа.Как и в методе DFA, рассмотрим поведения отклонения точек ряда накопления отлинейной аппроксимации (но в этом случае абсолютное значение) | ∆ k , j , L | .Построение соответствующих диаграмм значений | ∆ k , j , L | , которые зависятфактически от двух параметров – L и t = ( j − 1) L + k названо∆L -методомвизуализации.

Такая визуализация в виде «рельефной» диаграммы представляетсобой определенный интерес для изучения особенностей процессов, которыеотвечают исходным рядам измерений.∆L -метод оказывается довольно эффективным для выявления гармоническихсоставляющих исследуемого ряда.

Применение ∆L -метода к ряду, составленному изколичества публикаций, собранных системой ІnfoStream из Интернет без учетатематического деления, имеет явным образом выраженную гармоническуюсоставляющую (общее количество публикаций зависит со дня недели), что можновидеть на рис. 6.7. Кроме того, на этой диаграмме заметные отклонения от общейдинамики объемов публикаций в праздничные дни.243Рис.

Часть VI.7. ∆L -диаграмма ряда количества публикаций, собираемыхежесуточно системой ІnfoStream в 2008 году«Рельефные диаграммы», получаемые в результате ∆L -метода (более светлыетона соответствуют большим значениям | ∆ k , j , L | ),напоминают скейлограммы,полученные в результате непрерывных вейвлет-преобразований. Следует обратитьвнимание на то, что темные полосы в центре многих областей светлого закрашиваниясвидетельствуют об «стабилизации» больших значений рассмотренного ряда навысоком уровне.∆L -метод применяется для реальных временных рядов, например тех, которыеотражают интенсивность публикаций данной тематики в Интернете. На рис.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.