Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 66

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 66 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 662017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 66)

Именно это утверждение является содержанием такназываемой центральной предельной теоремы теории вероятностей. Заметим, что236часто в конкретных исследованиях гауссово распределение случайной величиныпринимается в силу привычки или удобства.Б. Мандельброт был одним из первых, кто обратил пристальное внимание нато, что не менее универсальным, часто встречаемым законом распределенияслучайной величины является степенное (часто говорят гиперболическое)распределение с плотностью вероятности:илигде– вероятность того, что,аи- некоторые положительныеконстанты, параметры распределения.Следует отметить, что приведенное выше распределение рассматривалосьБ.

Мандельбротом (B. Mandelbrot) как уточнение закона Ципфа и его частоназывают распределением Ципфа-Мандельброта. При этом оказалось, чтоблизкая к единице величина, которая может изменяться в зависимости от свойствтекста и языка. Соответственно,Напомним, гиперболическое распределениеназвано в честь В. Парето, адискретный закон распределения с ранжированной переменной был назван в честьД.

Ципфа, который сформулировал его для описания частоты употребления слов.Самоподобие или инвариантность относительно изменений масштаба илиразмера являет собой отличительную черту многих законов природы и бесчисленныхявлений в мире, мы которого окружающих. «Самоподобие является вдействительности одной из решающих симметрий, которая формирует нашувселенную и оказывает влияние на наши попытки ее понять» [22].Самоподобие информационного пространства выражается, в первую очередь втом, что при бурном росте этого пространства в последние десятилетия,гиперболичные частотные и ранговые распределения, получаемые в такихсодержательных разрезах, как, например, источники и авторы документов,практически не изменяют свою форму.

Закономерности, открытые такими учеными,как Зипф, Брэдфорд, Лотки и другие, в полной мере свидетельствуют о самоподобииинформационного пространства. С другой стороны, самоподобие (скейлинг) можнорассматриватьикакследствиеобщихструктурныхзакономерностейинформационного пространства.Явление, которое имеет свойство самогоподобия, выглядит одинаково илиодинаково себя ведет при его рассмотрении с разной степенью «увеличения» или вразном масштабе. Масштабирующей величиной может быть пространство (длина,ширина) или время. Рассматриваются, в частности, временные ряды, которыедемонстрируют свойство самогоподобия.Свойства самоподобия фрагментов информационного пространства нагляднодемонстрирует, например, интерфейс, представленный на веб-сайте службы News Іs237Free (http://newsіsfree.com). На этом сайте отображается состояние информационногопространства в виде ссылок на источники и отдельные сообщения. При этомучитывается два основных параметра отображения - ранг популярности иоперативность информации.Четкое определения самоподобного стохастичекского процесса используетсяпри прямом масштабировании непрерывной переменной времени.Известно,чтодляпоследовательностисообщенийтематическихинформационных потоков в соответствии со скейлинговым принципом, количествосообщений, резонансов на событии реального мира пропорционально некоторойстепени количества источников информации (кластеров) и итерационно длится втечение определенного времени.

Так же, как и в традиционных научныхкоммуникациях, множество сообщений в Интернет по одной тематике во времениявляет собой динамическую кластерную систему, которая возникает в результатеитерационных процессов.Этот процесс порождается републикациями,цитированием, разными публикациями – отражением одних и тех же событийреального мира, прямыми ссылками и тому подобное.Если рассматривать информационные потоки как ряды публикаций в течениевремени, то обнаруживается наличие таких свойств, как самоподобие (масштабнаяинвариантость, скейлинг), устойчивые взаимные корреляции. Анализ самоподобияинформационных массивов может рассматриваться как технология, предназначеннаядля осуществления аналитических исследований с элементами прогнозирования,которая пригодна к экстраполяции полученных зависимостей.Стохастический процесс X (t ) является стохастически самоподобным спараметром H (0,5 ≤ H ≤ 1) , если для любого действительного значения a > 0процесс a − H X (at ) имеет те же самые статистические характеристики, что и сампроцесс X (t ) .

Это утверждение можно выразить тремя условиями [23]:− среднее:E [ X (t )] =− дисперсия:σ [ X (t ) ] =E [ X (at )];aHσ [ X (at )]a2H− автокорреляция:K [ X (t ), X ( s ) ] =;K [ aX (t ), aX ( s ) ].a2HПараметр H , называемый параметром Херста (Hurst parametr) или параметромсомоподобия (self-similarity parametr) , представляет собой ключевую мерусамоподобия. Точнее, H представляет меру устойчивости статистического явления,или меру действия долговременной зависимости статистического процесса. ЗначениеH = 0,5 указывает на отсутствие долговременной зависимости. Чем ближе значениеH к 1, тем выше степень устойчивости долговременной зависимости.Рассмотрим для примера процесс броуновского движения B (t ) и докажем егосамоподобие с параметром H = 0,5 в соответствии с приведенным вышеопределением.

Рассмотрим три условия самоподобия:238− по определению, E [ B (t ) ] =0. Тому E [ B (t ) ] = E [ B(at ) ] / a ,что удовлетворяет первому условию;− известно, что дисперсия σ [ B(t ) ] равна t , поэтому σ [ B( at ) ] = at = aσ [ B(t )] , чтоудовлетворяет второму условию;− загальновідомо, що автокореляція K [ B(t ), B( s )] = min [t , s ] .Отсюда:K [ B( at ), B( as )] = min [ at , as ] = a min [t , s ] = aK [ B(t ), B( s )] , что удовлетворяет третьемуусловию.Далее рассмотрим случай стохастического процесса, определенного вдискретных точках времени, так что стохастический процесс X (t ) определяется как{xt , t = 0,1, 2,...}.

Для таких процессов определяются m − агрегированных временных0,5серий {xk( m ) , k = 0,1, 2,...} , получаемые в результате суммирования значений исходныхсерий в непересекающихся соседних блоках размером m элементов. Это может бытьвыражено таким образом:(m)kx1 km=∑ xi .m i =km−m+1Агрегированные временные серии можно рассматривать как метод сжатиявременной шкалы. При этом x (1) может считаться максимальным увеличением илинаивысшей разрешающей способностью для этой временной серии. Процесс x (5) ,например, представляет собой тот же самый процесс, уменьшенный в пять раз. Еслистатистические характеристики процесса совпадают при сжатии, то можо считать, чтоидет речь о самоподобном процессе.Таким образом, можно предложить функциональное определение самоподобия, аименно:процесс x называется точно самоподобным (exactly self-similar) с параметромβ (0 < β < 1) , если для всех m = 1, 2,...

выполняется:− для дисперсии:σ  x ( m )  =σ [ x]mβ;− автокорреляция:K  x ( m ) , k  = K [ x, k ] .Можно показать, что параметр β связан с определенным ранее параметромХерста соотношением: H = 1 − ( β / 2) . Для стационарного эргодического процессаβ = 1 , а средняя дисперсия со временем стремится к нулю со скоростью 1/ m . Длясамоподобного процесса средняя дисперсия времени затухает более медленно.Вышеприведенное определение позволяет реализовать самый простой алгоритмопределения того, является ли временная серия самподобной.Если прологарифмировать вышеприведенную формулу для дисперсии,получаем:()log σ  x ( m )  = log (σ [ x ]) − β log m .239()Поскольку log σ [ x ] является монотонной константой, которая не зависит от()m , то график зависимости log σ  x ( m )  от m в логарифмическом масштабе будетпредставлять собой прямую линию с наклоном, равным − β .Графикможно построить (конечно, для фактических данных следуетиспользовать выборочную дисперсию вместо теоретической), если сгенерироватьпроцесс на разных уровнях агрегации m , а после этого вычислить дисперсию.Обычно временные ряды, которые формируются из объемов тематическихинформационных потоков, ложатся на прямую линию с отрицательным наклоном.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.