Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 7

PDF-файл Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 7 Технические науки (27603): Диссертация - Аспирантура и докторантураДиссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы) - PDF, страница 7 (27603) - СтудИзба2019-03-122019-03-12zzyxelСтудИзба

Многоязыковый информационный поиск с использованием мультиагентной платформы489

Описание файла

Файл "Диссертация" внутри архива находится в папке "Многоязыковый информационный поиск с использованием мультиагентной платформы". PDF-файл из архива "Многоязыковый информационный поиск с использованием мультиагентной платформы", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 7 страницы из PDF

Для фильтрации информации агенты используюталгоритм фильтрации по ключевому слову, в то время как принятые42адаптивныеметодыявляютсяобратнойсвязьюпорелевантностиигенетическим алгоритмам.Letizia [17] является умным интерфейсным пользовательским агентом,помогающим пользователю просматривать веб-страницы. Поиск информацииприводит к кооперативной работе пользователя и программного агента: обапросматривают одно и то же пространство поиска связанных веб-документов вцелях найти интересующие пользователя.WebWatcher [18] является поисковым агентом, который переходит погиперссылкам согласно интересам пользователя, возвращая список отмеченныхссылок. В отличие от систем-помощников, при просмотре веб-страниц илипоиске информации SoftBots [19] берет на себя функции пользователя идинамически синтезирует необходимую последовательность команд сетиИнтернет на соответствующем языке.Несмотря на то что централизованный подход может иметь некоторыепреимущества в задачах информационного поиска, он может столкнуться снесколькими проблемами, в частности, как масштабировать архитектуру длябольшого числа пользователей, как предоставить высокую доступность вслучае постоянного спроса задействованных служб, а также как предоставитьвысокое доверие в случае конфиденциальной информации, такой какперсональные данные.

В этой связи в литературе были предложеныподходящие мультиагентные системы для решения задач информационногопоиска. К таким системам относятся CEMAS [50], агенты ИП [51] икооперативная мультиагентная система для информационного поиска в веб,предложенную в [52]. В CEMAS (Concept Mulit-Agent System) основная идеязаключается в том, чтобы иметь специализированных агентов для каждойключевой задачи: (i) обмен понятиями и связями, (ii) представление43пользователя, (iii) поиск новых релевантных документов, совпадающих ссуществующими понятиями, и (iv) координация агентов.ИП агенты реализуют мультиагентную модель на основе XML для ИП.Соответствующаяплатформасоставленаизагентовтрехтипов:(i)управляющие агенты для извлечения семантики информации и осуществленияактуальныхзадачагентов-координаторов,(ii)интерфейсныеагенты,разработанные для взаимодействия с пользователями, и (iii) поисковые агентыдля поиска нахождения информации в Веб.

Наконец в [12] основная идеязаключается в принятии умных агентов, которые имитируют поведениепользователей, ищущих информацию. В этих целях агенты могут создаватьпрофили пользователя для того, чтобы предвидеть и достигать его/еепредпочитаемые цели.Эта глава посвящена изучению путей увеличения релевантностидокументов – результатов, полученных автоматизированной системой ИП воВсемирной паутине. Для этого необходимо выполнить анализ операций одно имногоязычных информационных поисков.

Начать такое рассмотрение в разделе2.1 целесообразно с анализа структуры документа. После этого необходимообсудить способы увеличения производительности информационного поиска вразделе2.2.Раздел2.3содержитописаниеразработкимоделиинформационного поиска для одного языка. Также разработка моделимногоязыкового информационного поиска будет представлена в разделе 2.4.2.1 Структура документаТекстовые документы, хранящиеся в веб, разделены на два класса:структурированные и неструктурированные. Структурированные документыимеют хорошо определенную иерархическую структуру, такую как названия,разделы, четко отмеченные одно- или многоуровневыми заголовками. Другие44атрибуты,создающиеиерархию,–раздельныецвета,подчеркивания,полужирное начертание и т. д. Также рассмотрены неструктурированныедокументы (плоские (флэт) документы), которые не будут иметь эти атрибуты.Эти типы документов обычно имеют заголовок, но после него содержимое неорганизовано каким-либо структурированным способом [13].Неструктурированная информация обычно представляет собой сплошнойтекст, но может содержать данные, такие как даты, числа, факты и т.

п. Этоприводит к нарушениям, двусмысленностям, которые делают трудным дляпониманияиспользованиетрадиционныхкомпьютерныхпрограммдлясравнения данных, хранящихся в полях баз данных или аннотированных(семантически помеченных) в виде документов.Неструктурированнаяинформация,возможно,имеетнекоторуюструктуру (полуструктурированная) или даже высокоструктурированна, носпособами, которые могут быть непредвиденными или необъявленными, илиже неструктурированные данные могут включать книги, журналы, документы,метаданные,медицинскиезаписи,аудио,видео,аналоговыеданные,изображения, файлы и неструктурированные тексты, такие как тела сообщенийэлектронной почты, веб-страницы или документа текстового процессора.Во время передачи основное содержание не имеет определеннойструктуры и обычно запаковано в объекты (файлы или документы), которыесамиимеютструктуруи,такимобразом,являютсясочетаниемструктурированных и неструктурированных данных, но в совокупности попрежнемуназываются«неструктурированнымиданными».Например,размеченная HTML-страница, но HTML-разметка обычно служит только длявизуализации.

Это не отражает значение или функциональность помеченныхэлементов таким образом, чтобы поддерживать автоматическую обработкуинформационного содержимого страницы.45XHTML-разметкапозволяетосуществлятьмашиннуюобработкуэлементов, хотя это обычно не означает передачу семантического смыслапомеченных терминов [14], [15].В настоящем разделе нами обсуждалась структура документа. Вразделах 2.4 проанализированы различные методы, которые могли бытьиспользованы для улучшения производительности всех моделей оценкирелевантности документов, рассмотренных в разделе 1.2. Эти методы могутбыть скомбинированы для достижения оптимальных результатов поиска.В следующем разделе будут рассмотрены методы анализа текстов(майнинга текстов) для улучшения качества ИП.2.2 Способы анализа текстов при информационном поискеНесмотря на ограничения моделей ИП, рассмотренных в предыдущейглаве, имеются несколько методов, которые можно использовать дляулучшения качества системы ИП.

Эти методы обычно не рассматриваются какчасть модели поиска, а скорее, как ее дополнительные компоненты. Переддальнейшим рассмотрением этих методов рассмотрим анализ текстов, потомучто в работе использованы некоторые его методы, такие как лексемизация,удаление стоповых слов и лемматизация.Извлечение информации из неструктурированных текстов (TextMining)может быть описан как процесс анализа текста для извлечения информации,которая полезна для конкретных целей [15]. Малик [16] утверждает, чтограницы между анализом данных и текстов размыты. Разница между обычныманализом данных и анализом текстов заключается в том, что при анализетекстов шаблоны извлекаются из текстов на естественном языке, в отличие отструктурированных баз данных фактов.

Применение методов обработкиестественного языка позволяет инструментарию анализа текстов приблизиться46к семантике текста. Это важно особенно тогда, когдаожидается, чтоинструмент для анализа текста извлечет знания из текстов.Термин «Система анализа текста», как правило, используется дляобозначения любой системы, которая анализирует большие объемы текста наестественном языке и применяет лексические и лингвистические модели припопытке извлечь значимую и полезную информацию [17]. Textminingоткрывает новые части знания из текстовых данных.В основном анализ текста используется для объединения бесчисленныхстраниц открытого оцифрованного текста для поиска полезной информации,которая была скрыта в тексте. Примерно 80% данных в мире находится внеструктурированной форме.

Данные большинства отраслей промышленностигосударственного сектора, организаций хранятся в электронном виде. Этиданные хранятся в формате текстовых баз данных. Текстовая база данныхявляетсяполуструктурированнымформатом,котораясодержитмногоструктурированных и несколько неструктурированных полей.Анализ текстов имеет важное значение для информационно поиска,потому что большинство информации в организациях хранится в текстовомформате.

Анализ текстов включает несколько этапов:1.Конвертированиенеструктурированноговходноготекставструктурированную базу данных.2. Определение моделей и тенденций в структурированных данных.3. Анализ и интерпретация моделей и тенденций.4. Извлечение полезной информации из текста.Результатом поиска документов в WWW может быть набор файлов стакими возможными расширениями, как pdf, txt или плоским расширением,котороеобычновозникаетприпоискеиназываетсязашумленныминеструктурированными текстовыми данными, найденными в неформальных47условиях, таких как чат, короткие сообщения SMS, сообщения электроннойпочты, доски объявлений, новости, блоги, вики- и Веб-страницы.Такой набор текстовых данных создается в результате обработкиспонтанной речи, печатных и рукописных текстов, содержащих шумыобработки.

Этот набор данных является неструктурированным наборомдокументов,которыепредварительнообработанысиспользованиемследующих трех методов [18], [19]:Лексемизации — разбиения файла на отдельные части прииспользовании пробела в качестве разделителя. Удаления стоповых слов, которые не передают никакого значения. Лемматизации для отбора слов с общим корнем или основой, как будет показано в следующем разделе.2.2.1 ЛексемизацияЛексемизация (токенизация) является процессом разделения текста илипоследовательности символов на слова, фразы, символы или другие значимыеэлементы, называемые лексемами (токенами), которые группируются вместе ввиде семантической единицы как входные данные для дальнейшей обработки,такой как синтаксический анализ.Лексемизация является полезным процессом в областях, где присутствуетобработка на естественном языке и информационная безопасность.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.