Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 62
Текст из файла (страница 62)
При этом связями с предыдущимитематическими публикациями можно пренебречь.В случае, когда среднеквадратичное отклонение пропроционально некоторойстепени от времени: σ (t ) ∝ t µ (1/ 2 ≤ µ ≤ 1) , чем большее значение µ , тем вышекорреляция между текущими и предыдущими сообщениями в информационномпотоке.Экспоненциальная модельВ некоторых случаях процесс изменения актуальности тематики (увеличения илиуменьшения количества тематических сообщений в информационном потоке вединицу времени) аппроксимируется экспоненциальной зависимостью, котораявыражается формулой:y (t ) = y (t0 ) exp [ λ (t − t0 ) ] ,где λ – среднее относительное изменение интенсивности тематическогоинформационного потока.В реальности актуальность тематики является дискретной величиной, измеряемойв моменты времени t0 ,..., tn , которая лишь аппроксимируется приведенной вышезависимостью.
В рамках данной модели справедливо:y (ti ) = y (t0 ) exp [ λ (ti − t0 ) ] == y (t0 ) exp [ λ (ti − ti −1 + ti −1 − t0 ) ] = y (ti −1 ) exp [ λ (ti − ti −1 ) ] .Откуда:y (ti )= exp [ λ (ti − ti −1 )] .y (ti −1 )Введем обозначение: λ (ti ) – относительное изменениетематического информационного потока в момент времени ti :λ (ti ) = λ (ti − ti −1 )и прологарифмируем приведенное выше уравнение:λ (ti ) = lnинтенсивностиy (ti ).y (ti −1 )Относительное изменение интенсивности в момент времени ti на практике такжечасто вычисляется как соотношение:λ (ti ) = lny (ti )y (t ) − y (ti −1 )≈ i.y (ti −1 )y (ti −1 )Изменение флуктуаций величины λ (ti ) относительно среднего значения можетоцениваться по стандартному отклонению:σ (tn ) =1 n(λ (ti ) − λ )2 .∑n i =0219В этом случае также, если σ (t ) изменяется пропорционально корню квадратномуот времени, то можно говорить о процессе с независимыми приращениями –корреляция между отдельными сообщениями несущественна.
В случае наличиязначительной зависимости сообщений наблюдается соотношение: σ (t ) ∝ t µ , причемзначение µ превышает 1/2, но ограниченно 1.Значение µ , которое превышает 1/2, свидетельствует о наличие долгосрочнойпамяти в информационном потоке. Такой класс процессов получил названиеавтомодельных, для которых предусматривается корреляция между количествомсообщений, публикуемых в разные моменты времени.Логистическая модельВ отличие от модели Бартона-Кеблера в реальной динамике информационныхпотоков имеют место процессы как роста, так и спада количества документов.Поэтому для построения реалистичной картины, безусловно, необходимо применятьболее гибкие модели.В первую очередь, стоит сказать, что документы в информационном потоке вомногих отношениях напоминают популяции живых организмов.
Они в определенномсмысле «рождаются», «умирают» и дают «потомство» (документы, содержащиетинформацию, ранее появившуюся в других документах). В современной научнойлитературе понятие популяции часто используется в широком смысле, и потомуполностью обосновано введение его и при моделировании информационных потоков.Во второй половине ХХ века были достигнуты значительные успехи в построенииразличных математических моделей динамики популяций, в частности, логистическаямодель, которая оказалась применимой во многих отраслях науки и техники.Логистическую модель можно рассматривать как обобщение экспоненциальноймодели Мальтуса, предусматривающей пропорциональность скорости роста функцииy (t ) в каждый момент времени ее значению:dy (t )= ky (t ),d (t )где k – некоторый коэффициент.В реальной жизни, как правило, динамические системы имеют достаточноэффективные обратные связи, позволяющие корректировать характер процессов,происходящих в них, и тем самым удерживать их в определенных рамках.Информационные операции, корректируя эти обратныесвязи в определенныепериоды эволюционного процесса, могут эффективно повлиять на характерповедения всей системы.Наиболее простым обобщением закона Мальтуса, позволяющим уйти отнеограниченного роста решения, является замена постоянного коэффициента kнекоторой функцией времени k (t ) .
Естественно, эта функция должна быть выбранатаким образом, чтобы выполнялись условия:− решение уравнения имело бы приемлемое поведение;− структура функции имела бы определенный смысл с точки зренияисследуемого явления.220Главная идея логистической модели заключается в том, что для ограниченияскорости роста на функцию y(t ) накладывается дополнительное условие, всоответствии с которым ее значением не должно превышать некоторую величину [6].Для этого выберем k (t ) такого вида:k (t ) = k ⋅ [ N − ry (t )],где N – предельное значение, которое функция y(t ) не может превысить,коэффициент, который описывает негативные для данной тенденции процессы, k –коэффициент пропорциональности.
Причем предусматривается, что всегда n0 ≤ N .Тогда вместо первого уравнения имеем: dy (t ) d (t ) = ky (t )( N − ry (t )), y (t0 ) = y0 .Модель, основанная на приведенном выше уравнении, называется логистической.Несмотря на мнимую простоту, подобное обобщение закона Мальтуса никоимобразом не является примитивным. Напротив, оно позволяет явно включить вописание динамики популяций исключительно важную обратную связь.Логистическое уравнение, можно считать феноменологическим: исследователям необязательно знать, как действуют конкретные механизмы, которые по мере роста y(t )снижают скорость ее изменения.Приведенное выше логистическое уравнение имеет два равновесных решения:y (t ) = 0 и y (t ) = N . С формальной точки зрения первое из них неустойчиво, однако напрактике это не совсем так.
Дело в том, что реальные объемы информационныхпотоков выражаются дискретными числами, и если в какой-то момент y(t ) принимаетзначение, меньшее единицы, то в дальнейшем расти оно уже не сможет. Поэтому вреальности решение y (t ) = 0 также можно считать равновесным.Второе же решение y(t ) = N является равновесным в любом смысле.Действительно, при y (t ) > N включаются механизмы спада зависимости, а приy (t ) < N , соответственно, роста.Рассмотрим, как логистическая модель может применяться во время анализаинформационных потоков, а именно определение минимального начальногоколичества c сообщений (которое можно, например, выделить для начала некоторойинформационной операции). Пусть x – объем тематического информационногопотока.
На динамику этой величины осуществляется влияние других тематик,уменьшающих ее распространение, которое описывается таким образом: x& = x − x 2 − c.Вычисления показывают, что поведение системы резко изменяется при некоторомкритическом значении c .Очевидно, что при наличии благоприятных внешних условий (при некоторойплотности ресурса) объем информационного потока растет свободно, чтоспособствует логистическому росту. В этом случае даже более сложные моделидолжны давать результаты, подобные приведенным. С другой стороны это означает,что основные параметры для конкретизации общей модели могут определяться врезультате анализа упрощенной логистической модели.Следовательно, логистическая модель успешно описывает достижениетематическим информационным потоком некоторого равновесного состояния.221Информационную динамику в общем случае можем представить как процесс,обусловленный возникновением и исчезновением отдельных тематик, которыепроисходят на фоне общих тенденций информационного пространства.
Зафиксируемопределенную тематику и допустим, что в момент времени t = 0 существует n0фоновых публикаций. В силу того, что (в рамках принятой модели) актуальностьтематики сохраняется в течение промежутка времени λ , можно рассматриватьотдельно две временных области: 0 < t ≤ λ с D > 0 и t > λ с D = 0 (в рамка данноймодели D = const для каждой области – уровень актуальности темы) и,соответственно, функции u(t ) и v(t ) , которые являются решениями для этих областейи «сшиваются» в точке λ :u (t ), 0 < t < λ ,y (t ) = v(t ), t > λ ,u (t ) = v(t ), t = λ.Первой области соответствует процесс роста количества публикаций в условияхненулевой актуальности темы и, возможно, переход к состоянию насыщения.Реакция медийных средств никогда не бывает мгновенной: всегда существуетопределенная задержка во времени.
Этот аспект учитывается в модели путемвведения фактора запаздывания τ .Соответствующая динамика описывается уравнением, которое послепереопределения коэффициентов и их нормировки для функции u(t ) можнопредставить в виде:du (t − τ )= pu (t − τ )(1 − qu (t − τ )) + Du (t − τ ),dtu (0) = n0 .Подчеркнем, что содержательно величина p определяет нормируемуювероятность появления публикации в единицу времени независимо от актуальноститемы.
Этот фактор отображает фоновые механизмы генерации информации(типичным примером может быть механическая перепечатка материалов изпрестижных информационных источников). Величина же Dхарактеризуетнепосредственное влияние актуальности данной темы. Параметр q характеризуетуменьшение скорости роста количества публикаций и является величиной, обратнойк асимптотическому значению зависимости u(t ) при D = 0 .Для второй области, описываемой функцией v(t ) , соответственно, имеем:dv(t − λ )= pv(t − λ )(1 − qv(t − λ )).d (t )При этом должно учитываться условие равенства функций u(t ) и v(t ) в моментt=λ:v (λ ) = u (λ ).Приведеные выше нелинейные дифференциальныевариантами записи уравнения Бернулли:y ' = ay 2 + by ,которое линеаризуется стандартной заменой z = 1/ y :z '+ bz + a = 0 .222уравненияявляютсяОбщее решение этого уравнения имеет вид:1 z=C − a ∫ µ ( x)dx µ ( x) с интегрирующим множителем:µ ( x) = ebx .Переменные C определяются: для первой области из начальных условий, а длявторой – из условия «сшивки».