Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 62

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 62 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 622020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 62)

При этом связями с предыдущимитематическими публикациями можно пренебречь.В случае, когда среднеквадратичное отклонение пропроционально некоторойстепени от времени: σ (t ) ∝ t µ (1/ 2 ≤ µ ≤ 1) , чем большее значение µ , тем вышекорреляция между текущими и предыдущими сообщениями в информационномпотоке.Экспоненциальная модельВ некоторых случаях процесс изменения актуальности тематики (увеличения илиуменьшения количества тематических сообщений в информационном потоке вединицу времени) аппроксимируется экспоненциальной зависимостью, котораявыражается формулой:y (t ) = y (t0 ) exp [ λ (t − t0 ) ] ,где λ – среднее относительное изменение интенсивности тематическогоинформационного потока.В реальности актуальность тематики является дискретной величиной, измеряемойв моменты времени t0 ,..., tn , которая лишь аппроксимируется приведенной вышезависимостью.

В рамках данной модели справедливо:y (ti ) = y (t0 ) exp [ λ (ti − t0 ) ] == y (t0 ) exp [ λ (ti − ti −1 + ti −1 − t0 ) ] = y (ti −1 ) exp [ λ (ti − ti −1 ) ] .Откуда:y (ti )= exp [ λ (ti − ti −1 )] .y (ti −1 )Введем обозначение: λ (ti ) – относительное изменениетематического информационного потока в момент времени ti :λ (ti ) = λ (ti − ti −1 )и прологарифмируем приведенное выше уравнение:λ (ti ) = lnинтенсивностиy (ti ).y (ti −1 )Относительное изменение интенсивности в момент времени ti на практике такжечасто вычисляется как соотношение:λ (ti ) = lny (ti )y (t ) − y (ti −1 )≈ i.y (ti −1 )y (ti −1 )Изменение флуктуаций величины λ (ti ) относительно среднего значения можетоцениваться по стандартному отклонению:σ (tn ) =1 n(λ (ti ) − λ )2 .∑n i =0219В этом случае также, если σ (t ) изменяется пропорционально корню квадратномуот времени, то можно говорить о процессе с независимыми приращениями –корреляция между отдельными сообщениями несущественна.

В случае наличиязначительной зависимости сообщений наблюдается соотношение: σ (t ) ∝ t µ , причемзначение µ превышает 1/2, но ограниченно 1.Значение µ , которое превышает 1/2, свидетельствует о наличие долгосрочнойпамяти в информационном потоке. Такой класс процессов получил названиеавтомодельных, для которых предусматривается корреляция между количествомсообщений, публикуемых в разные моменты времени.Логистическая модельВ отличие от модели Бартона-Кеблера в реальной динамике информационныхпотоков имеют место процессы как роста, так и спада количества документов.Поэтому для построения реалистичной картины, безусловно, необходимо применятьболее гибкие модели.В первую очередь, стоит сказать, что документы в информационном потоке вомногих отношениях напоминают популяции живых организмов.

Они в определенномсмысле «рождаются», «умирают» и дают «потомство» (документы, содержащиетинформацию, ранее появившуюся в других документах). В современной научнойлитературе понятие популяции часто используется в широком смысле, и потомуполностью обосновано введение его и при моделировании информационных потоков.Во второй половине ХХ века были достигнуты значительные успехи в построенииразличных математических моделей динамики популяций, в частности, логистическаямодель, которая оказалась применимой во многих отраслях науки и техники.Логистическую модель можно рассматривать как обобщение экспоненциальноймодели Мальтуса, предусматривающей пропорциональность скорости роста функцииy (t ) в каждый момент времени ее значению:dy (t )= ky (t ),d (t )где k – некоторый коэффициент.В реальной жизни, как правило, динамические системы имеют достаточноэффективные обратные связи, позволяющие корректировать характер процессов,происходящих в них, и тем самым удерживать их в определенных рамках.Информационные операции, корректируя эти обратныесвязи в определенныепериоды эволюционного процесса, могут эффективно повлиять на характерповедения всей системы.Наиболее простым обобщением закона Мальтуса, позволяющим уйти отнеограниченного роста решения, является замена постоянного коэффициента kнекоторой функцией времени k (t ) .

Естественно, эта функция должна быть выбранатаким образом, чтобы выполнялись условия:− решение уравнения имело бы приемлемое поведение;− структура функции имела бы определенный смысл с точки зренияисследуемого явления.220Главная идея логистической модели заключается в том, что для ограниченияскорости роста на функцию y(t ) накладывается дополнительное условие, всоответствии с которым ее значением не должно превышать некоторую величину [6].Для этого выберем k (t ) такого вида:k (t ) = k ⋅ [ N − ry (t )],где N – предельное значение, которое функция y(t ) не может превысить,коэффициент, который описывает негативные для данной тенденции процессы, k –коэффициент пропорциональности.

Причем предусматривается, что всегда n0 ≤ N .Тогда вместо первого уравнения имеем: dy (t ) d (t ) = ky (t )( N − ry (t )), y (t0 ) = y0 .Модель, основанная на приведенном выше уравнении, называется логистической.Несмотря на мнимую простоту, подобное обобщение закона Мальтуса никоимобразом не является примитивным. Напротив, оно позволяет явно включить вописание динамики популяций исключительно важную обратную связь.Логистическое уравнение, можно считать феноменологическим: исследователям необязательно знать, как действуют конкретные механизмы, которые по мере роста y(t )снижают скорость ее изменения.Приведенное выше логистическое уравнение имеет два равновесных решения:y (t ) = 0 и y (t ) = N . С формальной точки зрения первое из них неустойчиво, однако напрактике это не совсем так.

Дело в том, что реальные объемы информационныхпотоков выражаются дискретными числами, и если в какой-то момент y(t ) принимаетзначение, меньшее единицы, то в дальнейшем расти оно уже не сможет. Поэтому вреальности решение y (t ) = 0 также можно считать равновесным.Второе же решение y(t ) = N является равновесным в любом смысле.Действительно, при y (t ) > N включаются механизмы спада зависимости, а приy (t ) < N , соответственно, роста.Рассмотрим, как логистическая модель может применяться во время анализаинформационных потоков, а именно определение минимального начальногоколичества c сообщений (которое можно, например, выделить для начала некоторойинформационной операции). Пусть x – объем тематического информационногопотока.

На динамику этой величины осуществляется влияние других тематик,уменьшающих ее распространение, которое описывается таким образом: x& = x − x 2 − c.Вычисления показывают, что поведение системы резко изменяется при некоторомкритическом значении c .Очевидно, что при наличии благоприятных внешних условий (при некоторойплотности ресурса) объем информационного потока растет свободно, чтоспособствует логистическому росту. В этом случае даже более сложные моделидолжны давать результаты, подобные приведенным. С другой стороны это означает,что основные параметры для конкретизации общей модели могут определяться врезультате анализа упрощенной логистической модели.Следовательно, логистическая модель успешно описывает достижениетематическим информационным потоком некоторого равновесного состояния.221Информационную динамику в общем случае можем представить как процесс,обусловленный возникновением и исчезновением отдельных тематик, которыепроисходят на фоне общих тенденций информационного пространства.

Зафиксируемопределенную тематику и допустим, что в момент времени t = 0 существует n0фоновых публикаций. В силу того, что (в рамках принятой модели) актуальностьтематики сохраняется в течение промежутка времени λ , можно рассматриватьотдельно две временных области: 0 < t ≤ λ с D > 0 и t > λ с D = 0 (в рамка данноймодели D = const для каждой области – уровень актуальности темы) и,соответственно, функции u(t ) и v(t ) , которые являются решениями для этих областейи «сшиваются» в точке λ :u (t ), 0 < t < λ ,y (t ) = v(t ), t > λ ,u (t ) = v(t ), t = λ.Первой области соответствует процесс роста количества публикаций в условияхненулевой актуальности темы и, возможно, переход к состоянию насыщения.Реакция медийных средств никогда не бывает мгновенной: всегда существуетопределенная задержка во времени.

Этот аспект учитывается в модели путемвведения фактора запаздывания τ .Соответствующая динамика описывается уравнением, которое послепереопределения коэффициентов и их нормировки для функции u(t ) можнопредставить в виде:du (t − τ )= pu (t − τ )(1 − qu (t − τ )) + Du (t − τ ),dtu (0) = n0 .Подчеркнем, что содержательно величина p определяет нормируемуювероятность появления публикации в единицу времени независимо от актуальноститемы.

Этот фактор отображает фоновые механизмы генерации информации(типичным примером может быть механическая перепечатка материалов изпрестижных информационных источников). Величина же Dхарактеризуетнепосредственное влияние актуальности данной темы. Параметр q характеризуетуменьшение скорости роста количества публикаций и является величиной, обратнойк асимптотическому значению зависимости u(t ) при D = 0 .Для второй области, описываемой функцией v(t ) , соответственно, имеем:dv(t − λ )= pv(t − λ )(1 − qv(t − λ )).d (t )При этом должно учитываться условие равенства функций u(t ) и v(t ) в моментt=λ:v (λ ) = u (λ ).Приведеные выше нелинейные дифференциальныевариантами записи уравнения Бернулли:y ' = ay 2 + by ,которое линеаризуется стандартной заменой z = 1/ y :z '+ bz + a = 0 .222уравненияявляютсяОбщее решение этого уравнения имеет вид:1 z=C − a ∫ µ ( x)dx µ ( x) с интегрирующим множителем:µ ( x) = ebx .Переменные C определяются: для первой области из начальных условий, а длявторой – из условия «сшивки».

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.