Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 66
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 66 страницы из PDF
Именно это утверждение является содержанием такназываемой центральной предельной теоремы теории вероятностей. Заметим, что236часто в конкретных исследованиях гауссово распределение случайной величиныпринимается в силу привычки или удобства.Б. Мандельброт был одним из первых, кто обратил пристальное внимание нато, что не менее универсальным, часто встречаемым законом распределенияслучайной величины является степенное (часто говорят гиперболическое)распределение с плотностью вероятности:илигде– вероятность того, что,аи- некоторые положительныеконстанты, параметры распределения.Следует отметить, что приведенное выше распределение рассматривалосьБ.
Мандельбротом (B. Mandelbrot) как уточнение закона Ципфа и его частоназывают распределением Ципфа-Мандельброта. При этом оказалось, чтоблизкая к единице величина, которая может изменяться в зависимости от свойствтекста и языка. Соответственно,Напомним, гиперболическое распределениеназвано в честь В. Парето, адискретный закон распределения с ранжированной переменной был назван в честьД.
Ципфа, который сформулировал его для описания частоты употребления слов.Самоподобие или инвариантность относительно изменений масштаба илиразмера являет собой отличительную черту многих законов природы и бесчисленныхявлений в мире, мы которого окружающих. «Самоподобие является вдействительности одной из решающих симметрий, которая формирует нашувселенную и оказывает влияние на наши попытки ее понять» [22].Самоподобие информационного пространства выражается, в первую очередь втом, что при бурном росте этого пространства в последние десятилетия,гиперболичные частотные и ранговые распределения, получаемые в такихсодержательных разрезах, как, например, источники и авторы документов,практически не изменяют свою форму.
Закономерности, открытые такими учеными,как Зипф, Брэдфорд, Лотки и другие, в полной мере свидетельствуют о самоподобииинформационного пространства. С другой стороны, самоподобие (скейлинг) можнорассматриватьикакследствиеобщихструктурныхзакономерностейинформационного пространства.Явление, которое имеет свойство самогоподобия, выглядит одинаково илиодинаково себя ведет при его рассмотрении с разной степенью «увеличения» или вразном масштабе. Масштабирующей величиной может быть пространство (длина,ширина) или время. Рассматриваются, в частности, временные ряды, которыедемонстрируют свойство самогоподобия.Свойства самоподобия фрагментов информационного пространства нагляднодемонстрирует, например, интерфейс, представленный на веб-сайте службы News Іs237Free (http://newsіsfree.com). На этом сайте отображается состояние информационногопространства в виде ссылок на источники и отдельные сообщения. При этомучитывается два основных параметра отображения - ранг популярности иоперативность информации.Четкое определения самоподобного стохастичекского процесса используетсяпри прямом масштабировании непрерывной переменной времени.Известно,чтодляпоследовательностисообщенийтематическихинформационных потоков в соответствии со скейлинговым принципом, количествосообщений, резонансов на событии реального мира пропорционально некоторойстепени количества источников информации (кластеров) и итерационно длится втечение определенного времени.
Так же, как и в традиционных научныхкоммуникациях, множество сообщений в Интернет по одной тематике во времениявляет собой динамическую кластерную систему, которая возникает в результатеитерационных процессов.Этот процесс порождается републикациями,цитированием, разными публикациями – отражением одних и тех же событийреального мира, прямыми ссылками и тому подобное.Если рассматривать информационные потоки как ряды публикаций в течениевремени, то обнаруживается наличие таких свойств, как самоподобие (масштабнаяинвариантость, скейлинг), устойчивые взаимные корреляции. Анализ самоподобияинформационных массивов может рассматриваться как технология, предназначеннаядля осуществления аналитических исследований с элементами прогнозирования,которая пригодна к экстраполяции полученных зависимостей.Стохастический процесс X (t ) является стохастически самоподобным спараметром H (0,5 ≤ H ≤ 1) , если для любого действительного значения a > 0процесс a − H X (at ) имеет те же самые статистические характеристики, что и сампроцесс X (t ) .
Это утверждение можно выразить тремя условиями [23]:− среднее:E [ X (t )] =− дисперсия:σ [ X (t ) ] =E [ X (at )];aHσ [ X (at )]a2H− автокорреляция:K [ X (t ), X ( s ) ] =;K [ aX (t ), aX ( s ) ].a2HПараметр H , называемый параметром Херста (Hurst parametr) или параметромсомоподобия (self-similarity parametr) , представляет собой ключевую мерусамоподобия. Точнее, H представляет меру устойчивости статистического явления,или меру действия долговременной зависимости статистического процесса. ЗначениеH = 0,5 указывает на отсутствие долговременной зависимости. Чем ближе значениеH к 1, тем выше степень устойчивости долговременной зависимости.Рассмотрим для примера процесс броуновского движения B (t ) и докажем егосамоподобие с параметром H = 0,5 в соответствии с приведенным вышеопределением.
Рассмотрим три условия самоподобия:238− по определению, E [ B (t ) ] =0. Тому E [ B (t ) ] = E [ B(at ) ] / a ,что удовлетворяет первому условию;− известно, что дисперсия σ [ B(t ) ] равна t , поэтому σ [ B( at ) ] = at = aσ [ B(t )] , чтоудовлетворяет второму условию;− загальновідомо, що автокореляція K [ B(t ), B( s )] = min [t , s ] .Отсюда:K [ B( at ), B( as )] = min [ at , as ] = a min [t , s ] = aK [ B(t ), B( s )] , что удовлетворяет третьемуусловию.Далее рассмотрим случай стохастического процесса, определенного вдискретных точках времени, так что стохастический процесс X (t ) определяется как{xt , t = 0,1, 2,...}.
Для таких процессов определяются m − агрегированных временных0,5серий {xk( m ) , k = 0,1, 2,...} , получаемые в результате суммирования значений исходныхсерий в непересекающихся соседних блоках размером m элементов. Это может бытьвыражено таким образом:(m)kx1 km=∑ xi .m i =km−m+1Агрегированные временные серии можно рассматривать как метод сжатиявременной шкалы. При этом x (1) может считаться максимальным увеличением илинаивысшей разрешающей способностью для этой временной серии. Процесс x (5) ,например, представляет собой тот же самый процесс, уменьшенный в пять раз. Еслистатистические характеристики процесса совпадают при сжатии, то можо считать, чтоидет речь о самоподобном процессе.Таким образом, можно предложить функциональное определение самоподобия, аименно:процесс x называется точно самоподобным (exactly self-similar) с параметромβ (0 < β < 1) , если для всех m = 1, 2,...
выполняется:− для дисперсии:σ x ( m ) =σ [ x]mβ;− автокорреляция:K x ( m ) , k = K [ x, k ] .Можно показать, что параметр β связан с определенным ранее параметромХерста соотношением: H = 1 − ( β / 2) . Для стационарного эргодического процессаβ = 1 , а средняя дисперсия со временем стремится к нулю со скоростью 1/ m . Длясамоподобного процесса средняя дисперсия времени затухает более медленно.Вышеприведенное определение позволяет реализовать самый простой алгоритмопределения того, является ли временная серия самподобной.Если прологарифмировать вышеприведенную формулу для дисперсии,получаем:()log σ x ( m ) = log (σ [ x ]) − β log m .239()Поскольку log σ [ x ] является монотонной константой, которая не зависит от()m , то график зависимости log σ x ( m ) от m в логарифмическом масштабе будетпредставлять собой прямую линию с наклоном, равным − β .Графикможно построить (конечно, для фактических данных следуетиспользовать выборочную дисперсию вместо теоретической), если сгенерироватьпроцесс на разных уровнях агрегации m , а после этого вычислить дисперсию.Обычно временные ряды, которые формируются из объемов тематическихинформационных потоков, ложатся на прямую линию с отрицательным наклоном.