Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 7
Описание файла
Файл "Диссертация" внутри архива находится в папке "Многоязыковый информационный поиск с использованием мультиагентной платформы". PDF-файл из архива "Многоязыковый информационный поиск с использованием мультиагентной платформы", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 7 страницы из PDF
Для фильтрации информации агенты используюталгоритм фильтрации по ключевому слову, в то время как принятые42адаптивныеметодыявляютсяобратнойсвязьюпорелевантностиигенетическим алгоритмам.Letizia [17] является умным интерфейсным пользовательским агентом,помогающим пользователю просматривать веб-страницы. Поиск информацииприводит к кооперативной работе пользователя и программного агента: обапросматривают одно и то же пространство поиска связанных веб-документов вцелях найти интересующие пользователя.WebWatcher [18] является поисковым агентом, который переходит погиперссылкам согласно интересам пользователя, возвращая список отмеченныхссылок. В отличие от систем-помощников, при просмотре веб-страниц илипоиске информации SoftBots [19] берет на себя функции пользователя идинамически синтезирует необходимую последовательность команд сетиИнтернет на соответствующем языке.Несмотря на то что централизованный подход может иметь некоторыепреимущества в задачах информационного поиска, он может столкнуться снесколькими проблемами, в частности, как масштабировать архитектуру длябольшого числа пользователей, как предоставить высокую доступность вслучае постоянного спроса задействованных служб, а также как предоставитьвысокое доверие в случае конфиденциальной информации, такой какперсональные данные.
В этой связи в литературе были предложеныподходящие мультиагентные системы для решения задач информационногопоиска. К таким системам относятся CEMAS [50], агенты ИП [51] икооперативная мультиагентная система для информационного поиска в веб,предложенную в [52]. В CEMAS (Concept Mulit-Agent System) основная идеязаключается в том, чтобы иметь специализированных агентов для каждойключевой задачи: (i) обмен понятиями и связями, (ii) представление43пользователя, (iii) поиск новых релевантных документов, совпадающих ссуществующими понятиями, и (iv) координация агентов.ИП агенты реализуют мультиагентную модель на основе XML для ИП.Соответствующаяплатформасоставленаизагентовтрехтипов:(i)управляющие агенты для извлечения семантики информации и осуществленияактуальныхзадачагентов-координаторов,(ii)интерфейсныеагенты,разработанные для взаимодействия с пользователями, и (iii) поисковые агентыдля поиска нахождения информации в Веб.
Наконец в [12] основная идеязаключается в принятии умных агентов, которые имитируют поведениепользователей, ищущих информацию. В этих целях агенты могут создаватьпрофили пользователя для того, чтобы предвидеть и достигать его/еепредпочитаемые цели.Эта глава посвящена изучению путей увеличения релевантностидокументов – результатов, полученных автоматизированной системой ИП воВсемирной паутине. Для этого необходимо выполнить анализ операций одно имногоязычных информационных поисков.
Начать такое рассмотрение в разделе2.1 целесообразно с анализа структуры документа. После этого необходимообсудить способы увеличения производительности информационного поиска вразделе2.2.Раздел2.3содержитописаниеразработкимоделиинформационного поиска для одного языка. Также разработка моделимногоязыкового информационного поиска будет представлена в разделе 2.4.2.1 Структура документаТекстовые документы, хранящиеся в веб, разделены на два класса:структурированные и неструктурированные. Структурированные документыимеют хорошо определенную иерархическую структуру, такую как названия,разделы, четко отмеченные одно- или многоуровневыми заголовками. Другие44атрибуты,создающиеиерархию,–раздельныецвета,подчеркивания,полужирное начертание и т. д. Также рассмотрены неструктурированныедокументы (плоские (флэт) документы), которые не будут иметь эти атрибуты.Эти типы документов обычно имеют заголовок, но после него содержимое неорганизовано каким-либо структурированным способом [13].Неструктурированная информация обычно представляет собой сплошнойтекст, но может содержать данные, такие как даты, числа, факты и т.
п. Этоприводит к нарушениям, двусмысленностям, которые делают трудным дляпониманияиспользованиетрадиционныхкомпьютерныхпрограммдлясравнения данных, хранящихся в полях баз данных или аннотированных(семантически помеченных) в виде документов.Неструктурированнаяинформация,возможно,имеетнекоторуюструктуру (полуструктурированная) или даже высокоструктурированна, носпособами, которые могут быть непредвиденными или необъявленными, илиже неструктурированные данные могут включать книги, журналы, документы,метаданные,медицинскиезаписи,аудио,видео,аналоговыеданные,изображения, файлы и неструктурированные тексты, такие как тела сообщенийэлектронной почты, веб-страницы или документа текстового процессора.Во время передачи основное содержание не имеет определеннойструктуры и обычно запаковано в объекты (файлы или документы), которыесамиимеютструктуруи,такимобразом,являютсясочетаниемструктурированных и неструктурированных данных, но в совокупности попрежнемуназываются«неструктурированнымиданными».Например,размеченная HTML-страница, но HTML-разметка обычно служит только длявизуализации.
Это не отражает значение или функциональность помеченныхэлементов таким образом, чтобы поддерживать автоматическую обработкуинформационного содержимого страницы.45XHTML-разметкапозволяетосуществлятьмашиннуюобработкуэлементов, хотя это обычно не означает передачу семантического смыслапомеченных терминов [14], [15].В настоящем разделе нами обсуждалась структура документа. Вразделах 2.4 проанализированы различные методы, которые могли бытьиспользованы для улучшения производительности всех моделей оценкирелевантности документов, рассмотренных в разделе 1.2. Эти методы могутбыть скомбинированы для достижения оптимальных результатов поиска.В следующем разделе будут рассмотрены методы анализа текстов(майнинга текстов) для улучшения качества ИП.2.2 Способы анализа текстов при информационном поискеНесмотря на ограничения моделей ИП, рассмотренных в предыдущейглаве, имеются несколько методов, которые можно использовать дляулучшения качества системы ИП.
Эти методы обычно не рассматриваются какчасть модели поиска, а скорее, как ее дополнительные компоненты. Переддальнейшим рассмотрением этих методов рассмотрим анализ текстов, потомучто в работе использованы некоторые его методы, такие как лексемизация,удаление стоповых слов и лемматизация.Извлечение информации из неструктурированных текстов (TextMining)может быть описан как процесс анализа текста для извлечения информации,которая полезна для конкретных целей [15]. Малик [16] утверждает, чтограницы между анализом данных и текстов размыты. Разница между обычныманализом данных и анализом текстов заключается в том, что при анализетекстов шаблоны извлекаются из текстов на естественном языке, в отличие отструктурированных баз данных фактов.
Применение методов обработкиестественного языка позволяет инструментарию анализа текстов приблизиться46к семантике текста. Это важно особенно тогда, когдаожидается, чтоинструмент для анализа текста извлечет знания из текстов.Термин «Система анализа текста», как правило, используется дляобозначения любой системы, которая анализирует большие объемы текста наестественном языке и применяет лексические и лингвистические модели припопытке извлечь значимую и полезную информацию [17]. Textminingоткрывает новые части знания из текстовых данных.В основном анализ текста используется для объединения бесчисленныхстраниц открытого оцифрованного текста для поиска полезной информации,которая была скрыта в тексте. Примерно 80% данных в мире находится внеструктурированной форме.
Данные большинства отраслей промышленностигосударственного сектора, организаций хранятся в электронном виде. Этиданные хранятся в формате текстовых баз данных. Текстовая база данныхявляетсяполуструктурированнымформатом,котораясодержитмногоструктурированных и несколько неструктурированных полей.Анализ текстов имеет важное значение для информационно поиска,потому что большинство информации в организациях хранится в текстовомформате.
Анализ текстов включает несколько этапов:1.Конвертированиенеструктурированноговходноготекставструктурированную базу данных.2. Определение моделей и тенденций в структурированных данных.3. Анализ и интерпретация моделей и тенденций.4. Извлечение полезной информации из текста.Результатом поиска документов в WWW может быть набор файлов стакими возможными расширениями, как pdf, txt или плоским расширением,котороеобычновозникаетприпоискеиназываетсязашумленныминеструктурированными текстовыми данными, найденными в неформальных47условиях, таких как чат, короткие сообщения SMS, сообщения электроннойпочты, доски объявлений, новости, блоги, вики- и Веб-страницы.Такой набор текстовых данных создается в результате обработкиспонтанной речи, печатных и рукописных текстов, содержащих шумыобработки.
Этот набор данных является неструктурированным наборомдокументов,которыепредварительнообработанысиспользованиемследующих трех методов [18], [19]:Лексемизации — разбиения файла на отдельные части прииспользовании пробела в качестве разделителя. Удаления стоповых слов, которые не передают никакого значения. Лемматизации для отбора слов с общим корнем или основой, как будет показано в следующем разделе.2.2.1 ЛексемизацияЛексемизация (токенизация) является процессом разделения текста илипоследовательности символов на слова, фразы, символы или другие значимыеэлементы, называемые лексемами (токенами), которые группируются вместе ввиде семантической единицы как входные данные для дальнейшей обработки,такой как синтаксический анализ.Лексемизация является полезным процессом в областях, где присутствуетобработка на естественном языке и информационная безопасность.