Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 60

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 60 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 602017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 60)

Солтона [1] или модель старения информацииБартона-Кеблера [2]. Модель такого информационного пространства, как сеть WWWбыла построена А. Брёдером и его соавторами из компаний IBM и Altavista [3].Во многих моделях информационного пространства изучаются структурныесвязи между тематическими множествами его элементов – документами.Информационное пространство можно рассматривать и как множествосвязанных по смыслу элементов (документов), образующих информационныесистемы – кластеры близких по тематике документов. При этом оно за все времясуществования сохраняет свои устойчивые закономерности. Многочисленнымиисследованиями показано, что параметры частотного и рангового распределенийдокументов во многих информационных системах остаются одинаковыми, иопределяются параметрами, зависящими от содержания, тематики информации.

Всвязи с этим С.А. Иванов [4] заметил, что «информационное пространство – этодокументальная среда, в которой формируются кластерные структуры научныхпубликаций в периодических изданиях, являющиеся фракталами». Информационныесистемы отражают в информационном пространстве коммуникационные процессы всвоей тематической области, появление новых тематик сопровождаетсявозникновением новых фрактальных массивов в информационном пространстве.Как и многие другие сложные системы, информационное пространство можнопредставить как коммуникационную среду – в виде системы с комплексом связейинформационных источников и преобразователей между собой, влияющих друг надруга в зависимости от уровня восприятия генерируемых и преобразуемых имиотдельных информационных сообщений.При этом для моделирования источников и преобразователей информации, содной стороны, вполне подходит классическая теория информации какматематическая теория связи, разработанная Шенноном в 40-х годах ХХ столетия и213существенно дополненная и расширенная в последующие годы работами Н.

Винера,В. А. Котельникова и А. Н. Колмогорова. Однако классическая теория информации неучитывает взаимодействия между источниками и преобразователями информации,что, с другой стороны, вполне укладывается в идеологию современной теориисложных систем§ 1.2.Информационный поток как объект исследованияСетевые структуры в информационном пространстве состоят из отдельныхэлементов, образующих в динамике своей эволюции (появление, развитие,модификация, уничтожение) информационные потоки. Следовательно, живучестьинформационных систем напрямую зависит от свойств информационных потоков.Для исследования современных информационных потоков в Интернет, то естьпотоков сообщений, которые публикуются на страницах веб-сайтов, в социальныхсетях, блогах, и тому подобное, должен применяться принципиально новыйинструментарий, потому что классические методы обобщения информационныхмассивов (классификации, фазового укрупнения, кластерного анализа и томуподобное)не всегда способны адекватно отражать состояние динамическойсоставляющей информационного пространства.

В этом случае речь идет не столькооб анализе документальных массивов фиксированных размеров, пусть даже оченьбольших, сколько об обобщении динамического потока гипертекстовых данных.Конечно, большая часть информации, которая представлена в Интернет, находитсвоего потребителя. Однако если рассматривать всю совокупность сетевыхпубликаций как какую-то общность по отношению к конкретному пользователю (илигруппы пользователей), то можно увидеть ряд проблем, связанных с полнотой,релевантностью и оперативностью получения данных.

Поиск, фильтрация, сборинформации в Интернет требуют достаточной квалификации персонала и, ксожалению, при этом не могут учитываться все особенности информационнойструктуры сети и представления в ней данных. Это, в свою очередь, ведет к тому, чтоединичные выборки информации из веб-пространства не могут считатьсярепрезентативными.При этом информационный поток, который «потребляется» конкретнымпользователем носит, как правило, выраженную предметную направленность, котораяхарактеризуется областью его интересов.

Поиск и обработка информации в ручномрежиме – достаточно трудоемкий, а главное, длительный процесс, который чащевсего не дает желаемого результата. Решение проблемы на практике возможно путемсоздания автоматизированных систем сбора, фильтрации и анализа информации, такназываемых «интеллектуальных посредников» между пользователем иликорпоративной информационной системой и сетью Интернет. Подобная системадолжна осуществлять сбор и селекцию информации из Интернет и создаватьдокументальную базу данных, специфицированную предметной областьюпользователя, то есть выполнять функции интеграции информационных потоков.Загрузка информации в базу данных должна сопровождаться ее классификацией иструктуризацией.

Для последующей информационно-аналитической работыпользователю должны предоставляться эффективные средства навигации, поиска иобобщения информации, которая сохраняется в соответствующей динамическойдокументальной базе данных.214Современный уровень развития информационного пространства обуславливаетинтерес к подходам, основанным на понимании информации как мерыупорядоченности некоторой системы и, соответственно, к статистическим методам ееобработки. Для организации эффективной коммуникации в сетях сегодня приходитсяпостоянно возвращаться к истокам теории информации, понятиям энтропии, теорииШеннона, уравнениям Больцмана и др., широкие перспективы применения мощногоаппарата математики и физики в решении теоретико-информационных задач [5].Для формального описания информационных потоков введем некоторые общиедля всего последующего изложения предположения.

Дадим определениеинформационного потока, какое корреспондируется с классическим определением изтеории информации.Рассмотрим отрезок ( a,τ ) действительной оси (оси времени), где τ > a . Допустим,что на этом отрезке времени в соответствии с некоторыми закономерностями в сетипубликуется некоторое количество информационных документов – k . На осивременимоментыпубликацииотдельныхдокументовобозначимкакτ 1 , τ 2 ,..., τ k (a ≤ τ1 ≤ τ 2 ≤ ... ≤ τ k ≤ τ ) . Информационным потоком будем называтьпроцесс Nα (τ ) , реализация которого характеризуется количеством точек(документов), появившихся в интервале ( a,τ ) , как функцию правого конца отрезка τ .В соответствии с этим определением реализация информационного потока являетсянеубывающей ступенчатой всегда целочисленной функцией Nα (τ ) .Приведено определение на локальных временных областях соответствуетдействительности, но не учитывает такой эффект, как старение информации, какоепротиворечит «накопительной» способности информационного потока Nα (τ ) набольших промежутках времени.Так определенный информационный поток учитывает лишь количествоинформационных сообщений, вне зависимости от их содержания.

В общем случае,определение содержания, тематики отдельных документов является достаточносубъективнымпроцессом.Длястрогогомоделированиятематическихинформационных потоков используют модели, которые различают документы поотдельным словам или словосочетаниям (обычно их называют термами, от англ.Terms).Задачи мониторинга информационных потоков большого объема в компьютерныхсетях, их адаптивного агрегирования и обобщения осложняются отсутствием типовыхметодик и решений, неполнотой существующих технологических подходов. Внастоящее время исследования по проблемам анализа информационных потоковбольшого объема в компьютерных сетях носят чаще всего узко специализированныйхарактер.

Вместе с тем, опыт создания и внедрения корпоративных информационныхсистем свидетельствует о необходимости создания и внедрения документальныхинформационных хранилищ для обеспечения научных исследований, полученияразнообразныханалитическихсведений,навигациивдокументальныхинформационных потоках больших объемов.При моделировании этих процессов используются методы нелинейной динамики,теории клеточных автоматов и самоорганизованной критичности. Примоделировании информационных потоков изучаются структурные связи междувходящими в них массивами документов. Сегодня при этом все чаще применяетсяфрактальный анализ, подход, базирующийся на свойствах сохранения внутренней215структуры массивов документов при изменениях их размеров или масштабоврассмотрения.

Теория информации, которая ранее находила свое основноеприменение в области передачи данных, становится полезной и для анализатекстовых массивов, динамически порождаемых в сетях.Предусматривается, что новостные сообщения обладают свойством старения, т.е.теряют свою актуальность со временем. Все информационное пространство можно сдостаточной мерой условности разделить на две составляющие – стабильную идинамическую, которые имеют очень разные характеристики своего развития. Вчастности, процесс старения информации в известной модели Бартона-Кеблераописывается уравнением, которое состоит из двух компонент:m(t ) = 1 − ae −T − b e−2T ,где m(t ) – часть полезной информации в общем потоке через время T,первоевычитаемоесоответствует стабильным ресурсам, а второе – динамическим,новостным.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.