Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 60

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 60 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 602020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 60)

– San Francisco, 1997. – P. 412-420.4. Ester M. A Density-Based Algorithm for Discovering Clusters in Large SpatialDatabases with Noise / M. Ester, H.-P .Kriegel, J. Sander, X. Xu // Proceedings of2nd International Conference on Knowledge Discovery and Data Mining (KDD96). – Portland, 1996. – P. 226-231.5.

Can F. Experiments on Incremental Clustering. – Miami University,1991.–Access mode:http://sc.lib.muohio.edu/bitstream/handle/2374.MIA/187/fulltext.pdf?sequence=16. Kohonen T. Self organization of a massive document collection / T. Kohonen, S.Kaski, K. Lagus, J. Salojärvi, J. Honkela, V. Paatero, A. Saarela // IEEETransactions on neural networks. – 2000. – Vol.

11, No. 3. – P. 574 - 585.7. van Rijsbergen C. J. Information retrieval [Electronic resource]. – Electronic textand graphic data. – 1979. – Аccess mode:http://www.dcs.gla.ac.uk/Keith/Preface.html8. Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M.Vazirgiannis // Journal of Intelligent Information Systems, Kluwer AcademicPublishers. Manufactured in The Netherlands.

– 2001. – 17:2/3. – P. 107-145.9. Sebastiani F. Machine Learning in Automated Text Categorization // ACMComputing Surveys. – 2002. – Vol. 34, No. 1. – 47 p.212ЧАСТЬ VI.Глава 1.§ 1.1.ИНФОРМАЦИОННЫЕ ПОТОКИИ СЛОЖНЫЕ СЕТИ(Д.В. ЛАНДЭ)Основы анализа информационного пространства иинформационных потоковПонятие информационного пространстваПод информационным пространством принято понимать совокупностьинформационных ресурсов, технологий их сопровождения и использования,информационных и телекоммуникационных систем, образующих некуюинформационную инфраструктуру. Элементами информационного пространствамогут быть, в частности, документы, обобщающие самые различные видыинформации – файлы, электронные письма, веб-страницы не зависимо от форматових представления.Естественно, приведенноеопределение информационного пространстваявляется качественным.

Конечно же, термин «пространство» в данном случае, несовпадает с понятием «пространство» в математике или физике. В качестве примеровудачных моделей информационного пространства можно приветсти «векторнопространственную» модель Г. Солтона [1] или модель старения информацииБартона-Кеблера [2]. Модель такого информационного пространства, как сеть WWWбыла построена А. Брёдером и его соавторами из компаний IBM и Altavista [3].Во многих моделях информационного пространства изучаются структурныесвязи между тематическими множествами его элементов – документами.Информационное пространство можно рассматривать и как множествосвязанных по смыслу элементов (документов), образующих информационныесистемы – кластеры близких по тематике документов. При этом оно за все времясуществования сохраняет свои устойчивые закономерности.

Многочисленнымиисследованиями показано, что параметры частотного и рангового распределенийдокументов во многих информационных системах остаются одинаковыми, иопределяются параметрами, зависящими от содержания, тематики информации. Всвязи с этим С.А. Иванов [4] заметил, что «информационное пространство – этодокументальная среда, в которой формируются кластерные структуры научныхпубликаций в периодических изданиях, являющиеся фракталами». Информационныесистемы отражают в информационном пространстве коммуникационные процессы всвоей тематической области, появление новых тематик сопровождаетсявозникновением новых фрактальных массивов в информационном пространстве.Как и многие другие сложные системы, информационное пространство можнопредставить как коммуникационную среду – в виде системы с комплексом связейинформационных источников и преобразователей между собой, влияющих друг надруга в зависимости от уровня восприятия генерируемых и преобразуемых имиотдельных информационных сообщений.При этом для моделирования источников и преобразователей информации, содной стороны, вполне подходит классическая теория информации какматематическая теория связи, разработанная Шенноном в 40-х годах ХХ столетия и213существенно дополненная и расширенная в последующие годы работами Н.

Винера,В. А. Котельникова и А. Н. Колмогорова. Однако классическая теория информации неучитывает взаимодействия между источниками и преобразователями информации,что, с другой стороны, вполне укладывается в идеологию современной теориисложных систем§ 1.2.Информационный поток как объект исследованияСетевые структуры в информационном пространстве состоят из отдельныхэлементов, образующих в динамике своей эволюции (появление, развитие,модификация, уничтожение) информационные потоки. Следовательно, живучестьинформационных систем напрямую зависит от свойств информационных потоков.Для исследования современных информационных потоков в Интернет, то естьпотоков сообщений, которые публикуются на страницах веб-сайтов, в социальныхсетях, блогах, и тому подобное, должен применяться принципиально новыйинструментарий, потому что классические методы обобщения информационныхмассивов (классификации, фазового укрупнения, кластерного анализа и томуподобное)не всегда способны адекватно отражать состояние динамическойсоставляющей информационного пространства.

В этом случае речь идет не столькооб анализе документальных массивов фиксированных размеров, пусть даже оченьбольших, сколько об обобщении динамического потока гипертекстовых данных.Конечно, большая часть информации, которая представлена в Интернет, находитсвоего потребителя. Однако если рассматривать всю совокупность сетевыхпубликаций как какую-то общность по отношению к конкретному пользователю (илигруппы пользователей), то можно увидеть ряд проблем, связанных с полнотой,релевантностью и оперативностью получения данных. Поиск, фильтрация, сборинформации в Интернет требуют достаточной квалификации персонала и, ксожалению, при этом не могут учитываться все особенности информационнойструктуры сети и представления в ней данных.

Это, в свою очередь, ведет к тому, чтоединичные выборки информации из веб-пространства не могут считатьсярепрезентативными.При этом информационный поток, который «потребляется» конкретнымпользователем носит, как правило, выраженную предметную направленность, котораяхарактеризуется областью его интересов. Поиск и обработка информации в ручномрежиме – достаточно трудоемкий, а главное, длительный процесс, который чащевсего не дает желаемого результата. Решение проблемы на практике возможно путемсоздания автоматизированных систем сбора, фильтрации и анализа информации, такназываемых «интеллектуальных посредников» между пользователем иликорпоративной информационной системой и сетью Интернет. Подобная системадолжна осуществлять сбор и селекцию информации из Интернет и создаватьдокументальную базу данных, специфицированную предметной областьюпользователя, то есть выполнять функции интеграции информационных потоков.Загрузка информации в базу данных должна сопровождаться ее классификацией иструктуризацией.

Для последующей информационно-аналитической работыпользователю должны предоставляться эффективные средства навигации, поиска иобобщения информации, которая сохраняется в соответствующей динамическойдокументальной базе данных.214Современный уровень развития информационного пространства обуславливаетинтерес к подходам, основанным на понимании информации как мерыупорядоченности некоторой системы и, соответственно, к статистическим методам ееобработки. Для организации эффективной коммуникации в сетях сегодня приходитсяпостоянно возвращаться к истокам теории информации, понятиям энтропии, теорииШеннона, уравнениям Больцмана и др., широкие перспективы применения мощногоаппарата математики и физики в решении теоретико-информационных задач [5].Для формального описания информационных потоков введем некоторые общиедля всего последующего изложения предположения.

Дадим определениеинформационного потока, какое корреспондируется с классическим определением изтеории информации.Рассмотрим отрезок ( a,τ ) действительной оси (оси времени), где τ > a . Допустим,что на этом отрезке времени в соответствии с некоторыми закономерностями в сетипубликуется некоторое количество информационных документов – k . На осивременимоментыпубликацииотдельныхдокументовобозначимкакτ 1 , τ 2 ,..., τ k (a ≤ τ1 ≤ τ 2 ≤ ... ≤ τ k ≤ τ ) .

Информационным потоком будем называтьпроцесс Nα (τ ) , реализация которого характеризуется количеством точек(документов), появившихся в интервале ( a,τ ) , как функцию правого конца отрезка τ .В соответствии с этим определением реализация информационного потока являетсянеубывающей ступенчатой всегда целочисленной функцией Nα (τ ) .Приведено определение на локальных временных областях соответствуетдействительности, но не учитывает такой эффект, как старение информации, какоепротиворечит «накопительной» способности информационного потока Nα (τ ) набольших промежутках времени.Так определенный информационный поток учитывает лишь количествоинформационных сообщений, вне зависимости от их содержания.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.