Диссертация (Многоязыковый информационный поиск с использованием мультиагентной платформы), страница 8
Описание файла
Файл "Диссертация" внутри архива находится в папке "Многоязыковый информационный поиск с использованием мультиагентной платформы". PDF-файл из архива "Многоязыковый информационный поиск с использованием мультиагентной платформы", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ «МЭИ» . Не смотря на прямую связь этого архива с НИУ «МЭИ» , его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
Онаиспользуется как форма сегментации текста при обработке на естественномязыке и в качестве уникальных символов для конфиденциальных данных всфере информационной безопасности [11], [31], [60].Как правило, лексемизация происходит на уровне слов, но определение«слова» меняется согласно решаемой задаче. Простейший набор правил,использующихся при лексемизации выглядит следующим образом:48 рядом стоящие символы в строках являются частью лексемы, так же как и числа; все пустые символы, такие как пробел, или переход на следующую строку, или знаки препинания, разделяют лексемы; полученный список лексем может содержать, а может и не содержать знаки пунктуации и пробелы.Втакихязыках,каканглийский(ибольшинствеязыковпрограммирования), где слова разделены пробелами, этот подход применим.Однако лексемизация более сложна для таких языков, как китайский, гдеотсутствуют границы слов.
Простая лексемизация с пробелами такжепредставляет трудности при словосочетаниях, таких как Нью-Йорк, которыедолжны рассматриваться как одна лексема. Некоторые пути решения этойпроблемы связаны с разработкой более сложной эвристики, применяющейтаблицу общих словосочетаний или подгонку лексем под языковую модель,которая идентифицирует словосочетания на более поздних этапах обработки[60].
Например:Вход: «Друзья, Римляне и Соплеменники.»Выход: «Друзья». «Римляне». «Соплеменники».Обратите внимание, что другой язык может использовать другие стопслова.2.2.2 Удаления слов-остановокИногда очень распространенные слова, мало помогающие при выборедокументов, удовлетворяющих запросу пользователя, полностью исключаются49из рассмотрения. Эти слова называются «стоп-словами», а соответствующаяоперация называется «удалением стоп-слов».Общей стратегией определения списка «стоп-слов» является сортировкатерминов по частоте присутствия в текстах, и затем использование наиболеечасто использующихся терминов, как списка стоп-слов, элементы которогоотбрасываются во время индексации [11], [31].Вот некоторые примеры стоп-слов английского языка: артикли a и an, это,и, являются, как, по меньшей, быть, из, имеет он, в, есть он, его, по, на, что,чтобы, было, будет, с (a, an, the, and, are, as, at, be, for, from, has, he, in, is, it, its,of, on, that, the, to, was, were, will, with) и т.
д.2.2.3 ЛемматизацияВ вычислительной лингвистике лемматизация является алгоритмическимпроцессом получения нормализованной или базовой формы слова, котороеназывается леммой, используя лексику и морфологический анализ данногослова. Такую лемму при дальнейшей обработке анализируют как один термин.Построение лемматизатора для нового языка – трудная задача, так как процессвключаетвсебярешениесложныхподзадач,такихкакполныйморфологический анализ слова, т. е. понимание контекста и определения ролислова в предложении [11].Лемматизация играет важную роль в предварительной обработкедокументов во многих приложениях интеллектуального анализа текстов. Кромеее использования в области обработки естественного языка и лингвистики, онатакже используется для генерации ключевых слов поисковых систем или метокконцептуальных карт.Лемматизация и поиск морфологических форм слов тесно связаны друг сдругом, так как целью обеих операций является сокращение количества50словоизмененныхилипроизводныхформслова.Однакопоискморфологических форм слов является эвристическим процессом, в которомокончания или аффиксы производных слов удаляются для получения основнойформы слова.Например, если выполнить поиск по слову «видел» без лемматизации, тобудут найдены только документы, в которых всречается именно эта лексема, втовремякакприиспользованиилексематизациибудетвыполненморфологический анализ и при поиске будут найдены также документы,содержащие слова «видеть», «видение» и т.п.
в зависимости от использованияслова «видел» в качестве глагола или существительного в предложении [60],[31].После поясненияметодов обработки текстов для улучшения качестваинформационного поиска в разделах 2.2.1, 2.2.2 и 2.2.3. далее будутобсуждаться другие методы, которые могут быть использованы для улучшениякачества информационного поиска.2.2.4 Оценка весов терминовОднимиизраспространенныхметодовприсвоениявесовиндексируемым терминам являются статистические методы. Для каждоготермина вес присваивается согласно его важности в собрании. Первая схемавзвешивания такого типа была введена Луном (Luhn) [61].
Он предложилиспользовать частоту появления термина в документе tf для измерения еговажности. Это обеспечивает локальный расчет веса для каждого термина,который может быть сформулирован как:,( 2.1)51где tfi,j – вес термина j в документе i; fi,j – частота появления термина j вдокументе i.Эта идея была развита Спарком-Джонсом (Sparck-Jones) [12], которыйдобавил инвертированную частоту документа в схему взвешивания в качествеглобального веса, который может быть сформулирован следующим образом:⁄где,(2.2)-обратная частота термина j в документе;N – число документов в коллекции (собрании);– число документов, в которых появляется термин j.Глобальное взвешивание важно для исключения терминов, так как слова свысокой частотой появления не могут рассматриваться как хорошие ключевыеслова, если они появляются в большинстве документов собрания.
Рассматриваячисло документов, содержащих данный термин, можно решить эту проблему.При объединении частоты термина (2.1) и обратной (инвертированной)частоты документа (2.2) окончательный вес термина может быть вычисленследующим образом:,(2.3)где– вес термина j в документе i;– вес j-го термина в документе i;– обратная частота документа.Частота термина tfв документе может показывать важность этоготермина в документе. Другими словами, частота термина может бытьиспользована для обобщения содержимого документа. Однако использование52только одной частоты документа недостаточно, потому что она не может бытьиспользована для эффективного выделения [13] документов в собрании.Рассмотрим следующий случай: слово «компьютер» может иметь оченьбольшую частоту в документах, касающихся теории ЭВМ и ее приложениям.Почти каждый документ имеет высокую частоту использования термина«компьютер», потому что областями собрания являются теория ЭВМ иприложения. Этот случай показывает, что слово «компьютер» не позволяетвыполнить отбор документов.
Чем в большем количестве документоввстречается некоторый термин, тем меньше важность этого термина припоиске. Таким образом, хорошее представление документа должно бытьспособно обобщать и выделять документы одновременно.Инвертированная частота документа idf может быть использована длявзвешивания термина как дискриминатор. Сочетание tf и idf обычноиспользуется в уравнении (2.3).Весназывается tf-idf, что расшифровывается как частота термина –инвертированная частота документа, и вес tf-idf часто используется в ИП ианализе текстов.
Этот вес является статистической мерой, используемой дляоценки, насколько важно слово в документе, коллекции или собрании.Важность увеличивается пропорционально числу появлений слова в документе,но она скомпенсирована частотой слова в собрании. Вариации схемвзвешивания по tf-idf часто используются поисковыми системами в качествецентрального инструмента скоринга и ранжирования по релевантностидокументов конкретному запросу пользователя.Вес термина t в документе d согласно tf-idf определен уравнением:()(),(2.4)т.е. вес tf-idf является произведением двух статистик, частоты термина иинвертированной (обратной) частоты документа [14]. Различные способы53определения точных значений обеих статистик представлены в таблицах 2.1,2.2 [13].Таблица 2.1 – Варианты взвешивания частоты термина в документеСхема взвешиванияДвоичнаяЧастотнаяВес TF{0,1}Логарифмическая нормализацияДвойная нормализация 0.5Двойная нормализация KТаблица 2.2 – Варианты взвешивания обратной частоты документовСхема взвешиванияУнарнаяВес IDF1Инвертированная частотнаяИнвертированная частотная сглаженнаяИнвертированная частотнаяВероятностная инвертированная частотнаяВ данной работе будут использоваться частотная и инвертированнаячастотные схемы.2.2.5 Нормирование весов терминовСистемы автоматизированного информационного поиска работают сдокументами переменной длины в собрании текстов.Для коррекциирасхождений длин документов используется коэффициент нормирования.
Если54не использовать коэффициент нормирования, то короткие извлеченныедокументынемогутбытьпризнанырелевантными.Нормированиеиспользуется для приемлемого поиска документов всех длин [15], [16], [11] идлякомпенсациипреимущества,котороеимеютдлинныедокументыотносительно коротких в порядке поиска. К таким преимуществам относятся: большое количество используемых терминов; частое использование одних и тех же терминов.Нормированная частота термина t в документе d показана в уравнении (2.5)как отношение частоты каждого термина в документе к максимальной частотетермина в этом документе.((().))( 2.5)2.2.6 Построение функции ранжированияОдна из простейших функций ранжирования вычисляется путемсуммирования оценок tf-idf в уравнении (2.4) для каждого термина запроса.(∑)() .(2.6 )Функция ранжирования использует tf-idf для описания документа вмодели векторного пространства.
Как указано выше, эта модель основана наинтерпретации документов и запросов,каквекторовв многомерномпространстве документов [14], [31], [17]. Косинусная мера характеризует уголмежду вектором запроса и вектором документа в m-мерном пространстведокументов. Сходство вектора документа и запроса в этом случае равняетсякосинусу угла между ними [48, 53] как показано в выражении (2.7).(⃗⃗⃗ ⃗⃗⃗ )(⃗⃗⃗ ⃗⃗⃗ )⃗⃗⃗⃗⃗⃗|⃗⃗⃗⃗ |∑√∑√∑,(2.7)55где q –вектор запроса , di –вектор документа i, wi,j – вес термина j в документе i,wqj – вес термина j в запросе q, а⃗⃗⃗⃗(),().(2.8)Если все вектора нормализованы, то косинус вычисляется как:()∑(2.9)Уравнения (2.1), (2.7) и (2.9) использованы для оценки релевантностинайденных текстовых документов.На рисунке 2.1 показан пример представления модели векторногопространства для системы из двух терминов.
Каждая ось в пространствесоответствует термину. Положение каждого вектора-документа в пространствеРисунок 2.1 – Двумерное векторное пространствоопределено магнитудой (весом) терминов в этом векторе. Вычисление мерысходства между вектором-документом и вектором-запросом осуществляетсякак функция магнитуд схожих терминов в соответствующих векторах, котораяможет быть использована для идентификации релевантных документов.Простейшая схема вычисления сходства заключается в предположении того,что документ, содержащий большинство терминов запроса, будет наиболее56релевантным. Сходство между D1 и D2 будет измеряться углом α.
Сходствомежду документами D1 и запросом Q измеряется углом θ.2.3 Разработка мультиагентной архитектуры системы МИППоисковая система Веб – это программное обеспечение, разрабатываемоедля поиска информации во Всемирной паутине. Результаты поиска обычнопредставляются в виде строки результатов, часто ссылающиеся на страницырезультатов поисковой системы.Внастоящейработерассматриваетсямультиагентнаяреализацияпоисковой системы. Сначала рассмотрим одноязыковый поиск.МАС,предназначеннаядляосуществленияодноязыковогоинформационного поиска, должна выполнять четыре обобщенные операции: 1– ввод ключевого слова, 2 – поиск в Интернете по ключевому слову; 3 –извлечение требуемой информации из Веб-источников и анализ добытыхтекстов; 4 – ранжирование результатов и сохранение выходных данных в базеданных. Предлагаемая мультиагентная система состоит из четырех слоев,каждый из которых выполняет одну из указанных выше обобщенных операцийинформационного поиска (рисунок 2.2).57Рисунок 2.2 – Функциональная схема МАС для одноязыкового поиска1.