Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 8

PDF-файл Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 8 Технические науки (27603): Диссертация - Аспирантура и докторантураДиссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы) - PDF, страница 8 (27603) - СтудИзба2019-03-122019-03-12zzyxelСтудИзба

Многоязыковый информационный поиск с использованием мультиагентной платформы489

Описание файла

Файл "Диссертация" внутри архива находится в папке "Многоязыковый информационный поиск с использованием мультиагентной платформы". PDF-файл из архива "Многоязыковый информационный поиск с использованием мультиагентной платформы", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст 8 страницы из PDF

Онаиспользуется как форма сегментации текста при обработке на естественномязыке и в качестве уникальных символов для конфиденциальных данных всфере информационной безопасности [11], [31], [60].Как правило, лексемизация происходит на уровне слов, но определение«слова» меняется согласно решаемой задаче. Простейший набор правил,использующихся при лексемизации выглядит следующим образом:48 рядом стоящие символы в строках являются частью лексемы, так же как и числа; все пустые символы, такие как пробел, или переход на следующую строку, или знаки препинания, разделяют лексемы; полученный список лексем может содержать, а может и не содержать знаки пунктуации и пробелы.Втакихязыках,каканглийский(ибольшинствеязыковпрограммирования), где слова разделены пробелами, этот подход применим.Однако лексемизация более сложна для таких языков, как китайский, гдеотсутствуют границы слов.

Простая лексемизация с пробелами такжепредставляет трудности при словосочетаниях, таких как Нью-Йорк, которыедолжны рассматриваться как одна лексема. Некоторые пути решения этойпроблемы связаны с разработкой более сложной эвристики, применяющейтаблицу общих словосочетаний или подгонку лексем под языковую модель,которая идентифицирует словосочетания на более поздних этапах обработки[60].

Например:Вход: «Друзья, Римляне и Соплеменники.»Выход: «Друзья». «Римляне». «Соплеменники».Обратите внимание, что другой язык может использовать другие стопслова.2.2.2 Удаления слов-остановокИногда очень распространенные слова, мало помогающие при выборедокументов, удовлетворяющих запросу пользователя, полностью исключаются49из рассмотрения. Эти слова называются «стоп-словами», а соответствующаяоперация называется «удалением стоп-слов».Общей стратегией определения списка «стоп-слов» является сортировкатерминов по частоте присутствия в текстах, и затем использование наиболеечасто использующихся терминов, как списка стоп-слов, элементы которогоотбрасываются во время индексации [11], [31].Вот некоторые примеры стоп-слов английского языка: артикли a и an, это,и, являются, как, по меньшей, быть, из, имеет он, в, есть он, его, по, на, что,чтобы, было, будет, с (a, an, the, and, are, as, at, be, for, from, has, he, in, is, it, its,of, on, that, the, to, was, were, will, with) и т.

д.2.2.3 ЛемматизацияВ вычислительной лингвистике лемматизация является алгоритмическимпроцессом получения нормализованной или базовой формы слова, котороеназывается леммой, используя лексику и морфологический анализ данногослова. Такую лемму при дальнейшей обработке анализируют как один термин.Построение лемматизатора для нового языка – трудная задача, так как процессвключаетвсебярешениесложныхподзадач,такихкакполныйморфологический анализ слова, т. е. понимание контекста и определения ролислова в предложении [11].Лемматизация играет важную роль в предварительной обработкедокументов во многих приложениях интеллектуального анализа текстов. Кромеее использования в области обработки естественного языка и лингвистики, онатакже используется для генерации ключевых слов поисковых систем или метокконцептуальных карт.Лемматизация и поиск морфологических форм слов тесно связаны друг сдругом, так как целью обеих операций является сокращение количества50словоизмененныхилипроизводныхформслова.Однакопоискморфологических форм слов является эвристическим процессом, в которомокончания или аффиксы производных слов удаляются для получения основнойформы слова.Например, если выполнить поиск по слову «видел» без лемматизации, тобудут найдены только документы, в которых всречается именно эта лексема, втовремякакприиспользованиилексематизациибудетвыполненморфологический анализ и при поиске будут найдены также документы,содержащие слова «видеть», «видение» и т.п.

в зависимости от использованияслова «видел» в качестве глагола или существительного в предложении [60],[31].После поясненияметодов обработки текстов для улучшения качестваинформационного поиска в разделах 2.2.1, 2.2.2 и 2.2.3. далее будутобсуждаться другие методы, которые могут быть использованы для улучшениякачества информационного поиска.2.2.4 Оценка весов терминовОднимиизраспространенныхметодовприсвоениявесовиндексируемым терминам являются статистические методы. Для каждоготермина вес присваивается согласно его важности в собрании. Первая схемавзвешивания такого типа была введена Луном (Luhn) [61].

Он предложилиспользовать частоту появления термина в документе tf для измерения еговажности. Это обеспечивает локальный расчет веса для каждого термина,который может быть сформулирован как:,( 2.1)51где tfi,j – вес термина j в документе i; fi,j – частота появления термина j вдокументе i.Эта идея была развита Спарком-Джонсом (Sparck-Jones) [12], которыйдобавил инвертированную частоту документа в схему взвешивания в качествеглобального веса, который может быть сформулирован следующим образом:⁄где,(2.2)-обратная частота термина j в документе;N – число документов в коллекции (собрании);– число документов, в которых появляется термин j.Глобальное взвешивание важно для исключения терминов, так как слова свысокой частотой появления не могут рассматриваться как хорошие ключевыеслова, если они появляются в большинстве документов собрания.

Рассматриваячисло документов, содержащих данный термин, можно решить эту проблему.При объединении частоты термина (2.1) и обратной (инвертированной)частоты документа (2.2) окончательный вес термина может быть вычисленследующим образом:,(2.3)где– вес термина j в документе i;– вес j-го термина в документе i;– обратная частота документа.Частота термина tfв документе может показывать важность этоготермина в документе. Другими словами, частота термина может бытьиспользована для обобщения содержимого документа. Однако использование52только одной частоты документа недостаточно, потому что она не может бытьиспользована для эффективного выделения [13] документов в собрании.Рассмотрим следующий случай: слово «компьютер» может иметь оченьбольшую частоту в документах, касающихся теории ЭВМ и ее приложениям.Почти каждый документ имеет высокую частоту использования термина«компьютер», потому что областями собрания являются теория ЭВМ иприложения. Этот случай показывает, что слово «компьютер» не позволяетвыполнить отбор документов.

Чем в большем количестве документоввстречается некоторый термин, тем меньше важность этого термина припоиске. Таким образом, хорошее представление документа должно бытьспособно обобщать и выделять документы одновременно.Инвертированная частота документа idf может быть использована длявзвешивания термина как дискриминатор. Сочетание tf и idf обычноиспользуется в уравнении (2.3).Весназывается tf-idf, что расшифровывается как частота термина –инвертированная частота документа, и вес tf-idf часто используется в ИП ианализе текстов.

Этот вес является статистической мерой, используемой дляоценки, насколько важно слово в документе, коллекции или собрании.Важность увеличивается пропорционально числу появлений слова в документе,но она скомпенсирована частотой слова в собрании. Вариации схемвзвешивания по tf-idf часто используются поисковыми системами в качествецентрального инструмента скоринга и ранжирования по релевантностидокументов конкретному запросу пользователя.Вес термина t в документе d согласно tf-idf определен уравнением:()(),(2.4)т.е. вес tf-idf является произведением двух статистик, частоты термина иинвертированной (обратной) частоты документа [14]. Различные способы53определения точных значений обеих статистик представлены в таблицах 2.1,2.2 [13].Таблица 2.1 – Варианты взвешивания частоты термина в документеСхема взвешиванияДвоичнаяЧастотнаяВес TF{0,1}Логарифмическая нормализацияДвойная нормализация 0.5Двойная нормализация KТаблица 2.2 – Варианты взвешивания обратной частоты документовСхема взвешиванияУнарнаяВес IDF1Инвертированная частотнаяИнвертированная частотная сглаженнаяИнвертированная частотнаяВероятностная инвертированная частотнаяВ данной работе будут использоваться частотная и инвертированнаячастотные схемы.2.2.5 Нормирование весов терминовСистемы автоматизированного информационного поиска работают сдокументами переменной длины в собрании текстов.Для коррекциирасхождений длин документов используется коэффициент нормирования.

Если54не использовать коэффициент нормирования, то короткие извлеченныедокументынемогутбытьпризнанырелевантными.Нормированиеиспользуется для приемлемого поиска документов всех длин [15], [16], [11] идлякомпенсациипреимущества,котороеимеютдлинныедокументыотносительно коротких в порядке поиска. К таким преимуществам относятся: большое количество используемых терминов; частое использование одних и тех же терминов.Нормированная частота термина t в документе d показана в уравнении (2.5)как отношение частоты каждого термина в документе к максимальной частотетермина в этом документе.((().))( 2.5)2.2.6 Построение функции ранжированияОдна из простейших функций ранжирования вычисляется путемсуммирования оценок tf-idf в уравнении (2.4) для каждого термина запроса.(∑)() .(2.6 )Функция ранжирования использует tf-idf для описания документа вмодели векторного пространства.

Как указано выше, эта модель основана наинтерпретации документов и запросов,каквекторовв многомерномпространстве документов [14], [31], [17]. Косинусная мера характеризует уголмежду вектором запроса и вектором документа в m-мерном пространстведокументов. Сходство вектора документа и запроса в этом случае равняетсякосинусу угла между ними [48, 53] как показано в выражении (2.7).(⃗⃗⃗ ⃗⃗⃗ )(⃗⃗⃗ ⃗⃗⃗ )⃗⃗⃗⃗⃗⃗|⃗⃗⃗⃗ |∑√∑√∑,(2.7)55где q –вектор запроса , di –вектор документа i, wi,j – вес термина j в документе i,wqj – вес термина j в запросе q, а⃗⃗⃗⃗(),().(2.8)Если все вектора нормализованы, то косинус вычисляется как:()∑(2.9)Уравнения (2.1), (2.7) и (2.9) использованы для оценки релевантностинайденных текстовых документов.На рисунке 2.1 показан пример представления модели векторногопространства для системы из двух терминов.

Каждая ось в пространствесоответствует термину. Положение каждого вектора-документа в пространствеРисунок 2.1 – Двумерное векторное пространствоопределено магнитудой (весом) терминов в этом векторе. Вычисление мерысходства между вектором-документом и вектором-запросом осуществляетсякак функция магнитуд схожих терминов в соответствующих векторах, котораяможет быть использована для идентификации релевантных документов.Простейшая схема вычисления сходства заключается в предположении того,что документ, содержащий большинство терминов запроса, будет наиболее56релевантным. Сходство между D1 и D2 будет измеряться углом α.

Сходствомежду документами D1 и запросом Q измеряется углом θ.2.3 Разработка мультиагентной архитектуры системы МИППоисковая система Веб – это программное обеспечение, разрабатываемоедля поиска информации во Всемирной паутине. Результаты поиска обычнопредставляются в виде строки результатов, часто ссылающиеся на страницырезультатов поисковой системы.Внастоящейработерассматриваетсямультиагентнаяреализацияпоисковой системы. Сначала рассмотрим одноязыковый поиск.МАС,предназначеннаядляосуществленияодноязыковогоинформационного поиска, должна выполнять четыре обобщенные операции: 1– ввод ключевого слова, 2 – поиск в Интернете по ключевому слову; 3 –извлечение требуемой информации из Веб-источников и анализ добытыхтекстов; 4 – ранжирование результатов и сохранение выходных данных в базеданных. Предлагаемая мультиагентная система состоит из четырех слоев,каждый из которых выполняет одну из указанных выше обобщенных операцийинформационного поиска (рисунок 2.2).57Рисунок 2.2 – Функциональная схема МАС для одноязыкового поиска1.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.