Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 60
Текст из файла (страница 60)
Солтона [1] или модель старения информацииБартона-Кеблера [2]. Модель такого информационного пространства, как сеть WWWбыла построена А. Брёдером и его соавторами из компаний IBM и Altavista [3].Во многих моделях информационного пространства изучаются структурныесвязи между тематическими множествами его элементов – документами.Информационное пространство можно рассматривать и как множествосвязанных по смыслу элементов (документов), образующих информационныесистемы – кластеры близких по тематике документов. При этом оно за все времясуществования сохраняет свои устойчивые закономерности. Многочисленнымиисследованиями показано, что параметры частотного и рангового распределенийдокументов во многих информационных системах остаются одинаковыми, иопределяются параметрами, зависящими от содержания, тематики информации.
Всвязи с этим С.А. Иванов [4] заметил, что «информационное пространство – этодокументальная среда, в которой формируются кластерные структуры научныхпубликаций в периодических изданиях, являющиеся фракталами». Информационныесистемы отражают в информационном пространстве коммуникационные процессы всвоей тематической области, появление новых тематик сопровождаетсявозникновением новых фрактальных массивов в информационном пространстве.Как и многие другие сложные системы, информационное пространство можнопредставить как коммуникационную среду – в виде системы с комплексом связейинформационных источников и преобразователей между собой, влияющих друг надруга в зависимости от уровня восприятия генерируемых и преобразуемых имиотдельных информационных сообщений.При этом для моделирования источников и преобразователей информации, содной стороны, вполне подходит классическая теория информации какматематическая теория связи, разработанная Шенноном в 40-х годах ХХ столетия и213существенно дополненная и расширенная в последующие годы работами Н.
Винера,В. А. Котельникова и А. Н. Колмогорова. Однако классическая теория информации неучитывает взаимодействия между источниками и преобразователями информации,что, с другой стороны, вполне укладывается в идеологию современной теориисложных систем§ 1.2.Информационный поток как объект исследованияСетевые структуры в информационном пространстве состоят из отдельныхэлементов, образующих в динамике своей эволюции (появление, развитие,модификация, уничтожение) информационные потоки. Следовательно, живучестьинформационных систем напрямую зависит от свойств информационных потоков.Для исследования современных информационных потоков в Интернет, то естьпотоков сообщений, которые публикуются на страницах веб-сайтов, в социальныхсетях, блогах, и тому подобное, должен применяться принципиально новыйинструментарий, потому что классические методы обобщения информационныхмассивов (классификации, фазового укрупнения, кластерного анализа и томуподобное)не всегда способны адекватно отражать состояние динамическойсоставляющей информационного пространства.
В этом случае речь идет не столькооб анализе документальных массивов фиксированных размеров, пусть даже оченьбольших, сколько об обобщении динамического потока гипертекстовых данных.Конечно, большая часть информации, которая представлена в Интернет, находитсвоего потребителя. Однако если рассматривать всю совокупность сетевыхпубликаций как какую-то общность по отношению к конкретному пользователю (илигруппы пользователей), то можно увидеть ряд проблем, связанных с полнотой,релевантностью и оперативностью получения данных.
Поиск, фильтрация, сборинформации в Интернет требуют достаточной квалификации персонала и, ксожалению, при этом не могут учитываться все особенности информационнойструктуры сети и представления в ней данных. Это, в свою очередь, ведет к тому, чтоединичные выборки информации из веб-пространства не могут считатьсярепрезентативными.При этом информационный поток, который «потребляется» конкретнымпользователем носит, как правило, выраженную предметную направленность, котораяхарактеризуется областью его интересов.
Поиск и обработка информации в ручномрежиме – достаточно трудоемкий, а главное, длительный процесс, который чащевсего не дает желаемого результата. Решение проблемы на практике возможно путемсоздания автоматизированных систем сбора, фильтрации и анализа информации, такназываемых «интеллектуальных посредников» между пользователем иликорпоративной информационной системой и сетью Интернет. Подобная системадолжна осуществлять сбор и селекцию информации из Интернет и создаватьдокументальную базу данных, специфицированную предметной областьюпользователя, то есть выполнять функции интеграции информационных потоков.Загрузка информации в базу данных должна сопровождаться ее классификацией иструктуризацией.
Для последующей информационно-аналитической работыпользователю должны предоставляться эффективные средства навигации, поиска иобобщения информации, которая сохраняется в соответствующей динамическойдокументальной базе данных.214Современный уровень развития информационного пространства обуславливаетинтерес к подходам, основанным на понимании информации как мерыупорядоченности некоторой системы и, соответственно, к статистическим методам ееобработки. Для организации эффективной коммуникации в сетях сегодня приходитсяпостоянно возвращаться к истокам теории информации, понятиям энтропии, теорииШеннона, уравнениям Больцмана и др., широкие перспективы применения мощногоаппарата математики и физики в решении теоретико-информационных задач [5].Для формального описания информационных потоков введем некоторые общиедля всего последующего изложения предположения.
Дадим определениеинформационного потока, какое корреспондируется с классическим определением изтеории информации.Рассмотрим отрезок ( a,τ ) действительной оси (оси времени), где τ > a . Допустим,что на этом отрезке времени в соответствии с некоторыми закономерностями в сетипубликуется некоторое количество информационных документов – k . На осивременимоментыпубликацииотдельныхдокументовобозначимкакτ 1 , τ 2 ,..., τ k (a ≤ τ1 ≤ τ 2 ≤ ... ≤ τ k ≤ τ ) . Информационным потоком будем называтьпроцесс Nα (τ ) , реализация которого характеризуется количеством точек(документов), появившихся в интервале ( a,τ ) , как функцию правого конца отрезка τ .В соответствии с этим определением реализация информационного потока являетсянеубывающей ступенчатой всегда целочисленной функцией Nα (τ ) .Приведено определение на локальных временных областях соответствуетдействительности, но не учитывает такой эффект, как старение информации, какоепротиворечит «накопительной» способности информационного потока Nα (τ ) набольших промежутках времени.Так определенный информационный поток учитывает лишь количествоинформационных сообщений, вне зависимости от их содержания.
В общем случае,определение содержания, тематики отдельных документов является достаточносубъективнымпроцессом.Длястрогогомоделированиятематическихинформационных потоков используют модели, которые различают документы поотдельным словам или словосочетаниям (обычно их называют термами, от англ.Terms).Задачи мониторинга информационных потоков большого объема в компьютерныхсетях, их адаптивного агрегирования и обобщения осложняются отсутствием типовыхметодик и решений, неполнотой существующих технологических подходов. Внастоящее время исследования по проблемам анализа информационных потоковбольшого объема в компьютерных сетях носят чаще всего узко специализированныйхарактер.
Вместе с тем, опыт создания и внедрения корпоративных информационныхсистем свидетельствует о необходимости создания и внедрения документальныхинформационных хранилищ для обеспечения научных исследований, полученияразнообразныханалитическихсведений,навигациивдокументальныхинформационных потоках больших объемов.При моделировании этих процессов используются методы нелинейной динамики,теории клеточных автоматов и самоорганизованной критичности. Примоделировании информационных потоков изучаются структурные связи междувходящими в них массивами документов. Сегодня при этом все чаще применяетсяфрактальный анализ, подход, базирующийся на свойствах сохранения внутренней215структуры массивов документов при изменениях их размеров или масштабоврассмотрения.
Теория информации, которая ранее находила свое основноеприменение в области передачи данных, становится полезной и для анализатекстовых массивов, динамически порождаемых в сетях.Предусматривается, что новостные сообщения обладают свойством старения, т.е.теряют свою актуальность со временем. Все информационное пространство можно сдостаточной мерой условности разделить на две составляющие – стабильную идинамическую, которые имеют очень разные характеристики своего развития. Вчастности, процесс старения информации в известной модели Бартона-Кеблераописывается уравнением, которое состоит из двух компонент:m(t ) = 1 − ae −T − b e−2T ,где m(t ) – часть полезной информации в общем потоке через время T,первоевычитаемоесоответствует стабильным ресурсам, а второе – динамическим,новостным.