Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 60
Текст из файла (страница 60)
– San Francisco, 1997. – P. 412-420.4. Ester M. A Density-Based Algorithm for Discovering Clusters in Large SpatialDatabases with Noise / M. Ester, H.-P .Kriegel, J. Sander, X. Xu // Proceedings of2nd International Conference on Knowledge Discovery and Data Mining (KDD96). – Portland, 1996. – P. 226-231.5.
Can F. Experiments on Incremental Clustering. – Miami University,1991.–Access mode:http://sc.lib.muohio.edu/bitstream/handle/2374.MIA/187/fulltext.pdf?sequence=16. Kohonen T. Self organization of a massive document collection / T. Kohonen, S.Kaski, K. Lagus, J. Salojärvi, J. Honkela, V. Paatero, A. Saarela // IEEETransactions on neural networks. – 2000. – Vol.
11, No. 3. – P. 574 - 585.7. van Rijsbergen C. J. Information retrieval [Electronic resource]. – Electronic textand graphic data. – 1979. – Аccess mode:http://www.dcs.gla.ac.uk/Keith/Preface.html8. Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M.Vazirgiannis // Journal of Intelligent Information Systems, Kluwer AcademicPublishers. Manufactured in The Netherlands.
– 2001. – 17:2/3. – P. 107-145.9. Sebastiani F. Machine Learning in Automated Text Categorization // ACMComputing Surveys. – 2002. – Vol. 34, No. 1. – 47 p.212ЧАСТЬ VI.Глава 1.§ 1.1.ИНФОРМАЦИОННЫЕ ПОТОКИИ СЛОЖНЫЕ СЕТИ(Д.В. ЛАНДЭ)Основы анализа информационного пространства иинформационных потоковПонятие информационного пространстваПод информационным пространством принято понимать совокупностьинформационных ресурсов, технологий их сопровождения и использования,информационных и телекоммуникационных систем, образующих некуюинформационную инфраструктуру. Элементами информационного пространствамогут быть, в частности, документы, обобщающие самые различные видыинформации – файлы, электронные письма, веб-страницы не зависимо от форматових представления.Естественно, приведенноеопределение информационного пространстваявляется качественным.
Конечно же, термин «пространство» в данном случае, несовпадает с понятием «пространство» в математике или физике. В качестве примеровудачных моделей информационного пространства можно приветсти «векторнопространственную» модель Г. Солтона [1] или модель старения информацииБартона-Кеблера [2]. Модель такого информационного пространства, как сеть WWWбыла построена А. Брёдером и его соавторами из компаний IBM и Altavista [3].Во многих моделях информационного пространства изучаются структурныесвязи между тематическими множествами его элементов – документами.Информационное пространство можно рассматривать и как множествосвязанных по смыслу элементов (документов), образующих информационныесистемы – кластеры близких по тематике документов. При этом оно за все времясуществования сохраняет свои устойчивые закономерности.
Многочисленнымиисследованиями показано, что параметры частотного и рангового распределенийдокументов во многих информационных системах остаются одинаковыми, иопределяются параметрами, зависящими от содержания, тематики информации. Всвязи с этим С.А. Иванов [4] заметил, что «информационное пространство – этодокументальная среда, в которой формируются кластерные структуры научныхпубликаций в периодических изданиях, являющиеся фракталами». Информационныесистемы отражают в информационном пространстве коммуникационные процессы всвоей тематической области, появление новых тематик сопровождаетсявозникновением новых фрактальных массивов в информационном пространстве.Как и многие другие сложные системы, информационное пространство можнопредставить как коммуникационную среду – в виде системы с комплексом связейинформационных источников и преобразователей между собой, влияющих друг надруга в зависимости от уровня восприятия генерируемых и преобразуемых имиотдельных информационных сообщений.При этом для моделирования источников и преобразователей информации, содной стороны, вполне подходит классическая теория информации какматематическая теория связи, разработанная Шенноном в 40-х годах ХХ столетия и213существенно дополненная и расширенная в последующие годы работами Н.
Винера,В. А. Котельникова и А. Н. Колмогорова. Однако классическая теория информации неучитывает взаимодействия между источниками и преобразователями информации,что, с другой стороны, вполне укладывается в идеологию современной теориисложных систем§ 1.2.Информационный поток как объект исследованияСетевые структуры в информационном пространстве состоят из отдельныхэлементов, образующих в динамике своей эволюции (появление, развитие,модификация, уничтожение) информационные потоки. Следовательно, живучестьинформационных систем напрямую зависит от свойств информационных потоков.Для исследования современных информационных потоков в Интернет, то естьпотоков сообщений, которые публикуются на страницах веб-сайтов, в социальныхсетях, блогах, и тому подобное, должен применяться принципиально новыйинструментарий, потому что классические методы обобщения информационныхмассивов (классификации, фазового укрупнения, кластерного анализа и томуподобное)не всегда способны адекватно отражать состояние динамическойсоставляющей информационного пространства.
В этом случае речь идет не столькооб анализе документальных массивов фиксированных размеров, пусть даже оченьбольших, сколько об обобщении динамического потока гипертекстовых данных.Конечно, большая часть информации, которая представлена в Интернет, находитсвоего потребителя. Однако если рассматривать всю совокупность сетевыхпубликаций как какую-то общность по отношению к конкретному пользователю (илигруппы пользователей), то можно увидеть ряд проблем, связанных с полнотой,релевантностью и оперативностью получения данных. Поиск, фильтрация, сборинформации в Интернет требуют достаточной квалификации персонала и, ксожалению, при этом не могут учитываться все особенности информационнойструктуры сети и представления в ней данных.
Это, в свою очередь, ведет к тому, чтоединичные выборки информации из веб-пространства не могут считатьсярепрезентативными.При этом информационный поток, который «потребляется» конкретнымпользователем носит, как правило, выраженную предметную направленность, котораяхарактеризуется областью его интересов. Поиск и обработка информации в ручномрежиме – достаточно трудоемкий, а главное, длительный процесс, который чащевсего не дает желаемого результата. Решение проблемы на практике возможно путемсоздания автоматизированных систем сбора, фильтрации и анализа информации, такназываемых «интеллектуальных посредников» между пользователем иликорпоративной информационной системой и сетью Интернет. Подобная системадолжна осуществлять сбор и селекцию информации из Интернет и создаватьдокументальную базу данных, специфицированную предметной областьюпользователя, то есть выполнять функции интеграции информационных потоков.Загрузка информации в базу данных должна сопровождаться ее классификацией иструктуризацией.
Для последующей информационно-аналитической работыпользователю должны предоставляться эффективные средства навигации, поиска иобобщения информации, которая сохраняется в соответствующей динамическойдокументальной базе данных.214Современный уровень развития информационного пространства обуславливаетинтерес к подходам, основанным на понимании информации как мерыупорядоченности некоторой системы и, соответственно, к статистическим методам ееобработки. Для организации эффективной коммуникации в сетях сегодня приходитсяпостоянно возвращаться к истокам теории информации, понятиям энтропии, теорииШеннона, уравнениям Больцмана и др., широкие перспективы применения мощногоаппарата математики и физики в решении теоретико-информационных задач [5].Для формального описания информационных потоков введем некоторые общиедля всего последующего изложения предположения.
Дадим определениеинформационного потока, какое корреспондируется с классическим определением изтеории информации.Рассмотрим отрезок ( a,τ ) действительной оси (оси времени), где τ > a . Допустим,что на этом отрезке времени в соответствии с некоторыми закономерностями в сетипубликуется некоторое количество информационных документов – k . На осивременимоментыпубликацииотдельныхдокументовобозначимкакτ 1 , τ 2 ,..., τ k (a ≤ τ1 ≤ τ 2 ≤ ... ≤ τ k ≤ τ ) .
Информационным потоком будем называтьпроцесс Nα (τ ) , реализация которого характеризуется количеством точек(документов), появившихся в интервале ( a,τ ) , как функцию правого конца отрезка τ .В соответствии с этим определением реализация информационного потока являетсянеубывающей ступенчатой всегда целочисленной функцией Nα (τ ) .Приведено определение на локальных временных областях соответствуетдействительности, но не учитывает такой эффект, как старение информации, какоепротиворечит «накопительной» способности информационного потока Nα (τ ) набольших промежутках времени.Так определенный информационный поток учитывает лишь количествоинформационных сообщений, вне зависимости от их содержания.