Диссертация (1137159), страница 20
Текст из файла (страница 20)
Пример семантическогопреобразования вопросов об изменении состава множеств доступен вПриложении 6.3.11.Разработка итоговой модели базы знаний для поддержкипоискаОсновываясь на результатах, полученных в Главе 2 и в параграфах 3.2 и 3.6,построим математическую модель базы знаний для поддержки семантическогопреобразования запросов и поиска.В параграфе 2.5 был определен класс формальных объектов, называемыхрасширенными концептуальными базисами (р.к.б.). Каждый р.к.б.
являетсяупорядоченным набором Extbs вида (S, Cobs, Ql), где S — произвольнаяаспектно-ориентированнаясортоваясистема,Cobs—размеченнаяконцептуально-объектная система вида (X, V, tp, F, Qf, Chr, Fgn), согласованнаяс S, и Ql — система кванторов и логических связок для сортовой системы S иконцептуально-объектной системы Ct=(X, V, tp, F).В параграфе 3.2 была построена математическая модель концептуальнойбазы целей (к.б.ц.), согласованной с рассматриваемым р.к.б Extbs.В параграфе 3.6 была построена математическая модель базы знаний обизменениях состава множеств.Определениепреобразования3.5.Базойзапросовизнанийдляпоискабудетподдержкиназыватьсясемантическогопроизвольнаяупорядоченная тройка SearchKb вида(Extbs, Gbase, SetsKb),где Extbs – произвольный расширенный концептуальный базис (р.к.б.), Gbase –произвольная концептуальная база целей, согласованная с р.к.б.
Extbs, и SetsKb– произвольная база знаний об изменениях множеств, согласованная с р.к.б.Extbs.Серия определений 2.1 – 2.5, 3.1 – 3.5 задает математическую модель базызнаний для поддержки семантического преобразования запросов и поиска. Эта115модель послужила отправной точкой для разработки в данной диссертацииалгоритмасемантическогопреобразованияаспектно-ориентированныхзапросов, запросов о достижении цели и запросов об изменениях составамножеств.3.12.
Выводы по главе 3В данной главе получены следующие основные результаты:1. Построена математическая модель компонента базы знаний поисковойсистемы, необходимого для семантического преобразования вопросов одостижении/недостижении цели. Для этого определен класс формальныхобъектов, названных концептуальными базами целей (к.б.ц.). В отличие отпонятия концептуального базиса, введенного в теории К-представленийВ.А.Фомичева,концептуальныебазыцелейвключаютформальныепредставления целей интеллектуальных систем (в том числе организаций),являющиеся выражениями СК-языков (стандартных концептуальных языков).2.Предложеносемантическойматематическоетрансформации,описаниемногообразияпорожденныхшаблоноврассматриваемымиконцептуальной базой целей и множеством символов, интерпретируемых какзначения морфологических признаков словоформ. В доступной научнойлитературеотсутствуетпрототиппонятия“шаблонсемантическойтрансформации”.3.
Разработан метод преобразования вопросов достижения целей вмножество производных запросов на основе концептуальной базы целей инабора шаблонов семантической трансформации. Преимуществом этого методаявляется компактность представления данных, позволяющих построитьсемантическое расширение запроса о достижении/ недостижении целей.4. Построена математическая модель компонента базы знаний поисковойсистемы, необходимого для семантического преобразования вопросов обизменениях в составе множеств. Для этого определен класс формальныхобъектов, названных базами знаний об изменениях множеств.
В отличие от116понятия концептуального базиса, введенного в теории К-представлений, базызнаний об изменениях множеств включают формальные описания структурымножеств объектов (в том числе множеств, относящихся к организациям) ииндикаторов изменений состава множеств.5.
Разработан метод преобразования вопросов об изменениях составамножеств в семейство производных запросов на основе базы знаний обизменениях множеств. Преимуществом этого метода является компактностьпредставления данных, позволяющих построить семантическое расширениезапросов такого типа.6. Построена итоговая математическая модель базы знаний для поддержкисемантического преобразования аспектно-ориентированных запросов, запросово достижении цели и запросов об изменениях состава множеств.117ГлаваПрограммная4.реализациясистемысемантически-ориентированного поиска на основе предложенного метода иисследование полученных результатовРассматривается логическая архитектура разработанного программногокомплекса и формулируются основные требования к программной реализации.На основе разработанной логической архитектуры и требований проектируетсякомпонентная архитектура решения, состоящего из трех основных подсистем:лингвистической базы знаний, аспектно-ориентирован-ной базы знаний иподсистемы анализа и расширения запросов – AOS Engine.Далеевглаверазрабатываетсяитоговыйалгоритмпостроениярасширенного множества запросов для любого из рассмотренных типов иподтипов, основанный на предложенном методе.Разрабатываются требования к компонентам и подсистемам программногокомплекса, на основании которых выбираются платформа реализации ибиблиотеки, удовлетворяющие сформулированным требованиям.Проводится анализ работоспособности разработанных алгоритмов и ихтестирование.
Также анализируются результаты работы поисковой системы,реализующей предложенный метод преобразования, поиска и ранжирования.4.1 Разработка и реализация архитектуры программного комплексаAOS Engine4.1.1 РазработкаконцептуальнойархитектурыпрограммногокомплексаОсновная идея, лежащая в основе архитектуры программного комплекса,реализующегопредложенныйподход,заключаетсявмаксимальнойдоступности и независимости компонентов, а также возможности ихнезависимого использования. Рассмотрим процесс преобразования и анализапоискового запроса с точки зрения используемых в данном процесселогических компонентов (Рисунок 4.1).118Рисунок 4.1. Процесс преобразования запроса и поиска документов с точкизрения логических компонентов.Поисковый запрос первоначально поступает на вход анализатора запросов.В анализаторе запросов реализованы описанные в главах 2 и 3 алгоритмыопределения типа и объектов интереса запроса.
Для приведения слов запроса встем-форму используется компонент стемминга, содержащий в себе логику ибиблиотеки для определения нормальной формы слов. На выходе изанализатора запросов создается расширенная форма запроса, содержащая тип,объекты интереса и дополнительные объекты (например, указатель временногопериода).Проанализированный запрос поступает на вход компонента семантическогорасширения. В зависимости от типа запроса при построении результирующегомножества запросов используются различные источники информации.
Для119аспектно-ориентированныхзапросовиспользуетсякомпонентЛБЗ(Лингвистическая База Знаний), позволяющий определять концептуальноеокружение характеристических объектов запросов, а также компонентАОБЗ(Аспектно-ОриентированнаяБазаЗнаний),предоставляющийинформацию об аспектах различных понятий. Для вопросов достижения целейиспользуется база целей, содержащая в себе информацию о декомпозициицелей объекта интереса запроса, а также правила трансформации дляпостроения множества преобразованных запросов.
Для запросов об измененияхсостава множеств используется база множеств (база знаний об измененияхмножеств), содержащая в себе информацию о компонентах объекта интересазапроса и индикаторы, позволяющие найти факты об их изменениях.Множество расширенных запросов поступает на вход компонентавзаимодействия с поисковой системой, который обеспечивает выборкурезультирующих документов из заданной поисковой системы, также возможноиспользованиенесколькихпоисковыхсистем.Вданномкомпонентепроисходит соединение с той или иной системой поиска по ключевым словам,передача в нее каждого из поданных на вход запросов и агрегация полученныхдокументов.В компоненте анализа результирующих документов происходит обработкаполученных из компонента взаимодействия с поисковой системой документов ипроизводится их ранжирование по степени семантической релевантностипервоначальному запросу.
При ранжировании результатов поиска для аспектноориентированныхзапросовиспользуетсякомпонентАОБЗ(Аспектно-Ориентированная База Знаний), содержащий в себе информацию об аспектахобъектах интереса поисковых запросов. При ранжировании документовиспользуетсяупрощенныйалгоритм,строящийобъединениемножестввозвращенных документов по каждому из запросов, подсчитывая повторныевхождения одного и того же документа. Также учитывается наличие в сниппетеобъекта интереса поискового запроса, определенного на этапе анализа.
После120обработки всех возвращенных документов те из них, которые набралинаибольший рейтинг, возвращаются пользователю.Рассмотрим ключевые логические компоненты и опишем их назначение всводной таблице (Таблица 4.1).Таблица 4.1. Логические компоненты системы и их назначениеКомпонент системыНазначениеАнализатор запросовОпределениетипазапроса,определениехарактеристического объекта, определение объектовинтересазапроса,определениедополнительныхобъектов запроса.Компонент стеммингаПреобразование поступившего на вход слова вмассив его нормальных форм (например, для слова«прошлом» будет возвращен массив, состоящий изэлементов «прошлый», «прошлое»).СловариИзвлечение слов-терминаторов различного типа избазы данных.Компонент расширения Построение множества преобразованных запросов взапросовзависимости от выделенных типа и объектовинтереса запроса.Лингвистическаязнаний (ЛБЗ)база Хранениеипредоставлениеинформацииозначениях, синонимах, гипонимах и гиперонимахслов.База целей (БЦ)Хранение и предоставление информации о целях иих значениях с точки зрения успехов либо неудачзаданного объекта интереса.
Хранение шаблоновсемантическихтрансформацийдляпостроенияпреобразованных запросов.Базазнанийоб Хранениеипредоставлениеинформациио121изменениях в составах составляющихцелевыемножества(объекты(База интереса) компонентах и индикаторах их изменений.множествМножеств, БМ)КомпонентПолучениерезультатовпоискадлямножествас сгенерированных запросов из целевой системывзаимодействияпоисковой системойпоиска по ключевым словам.КомпонентАнализранжированиясистемой документов с целью их ранжирования помножествавозвращенныхпоисковойсемантической релевантности.Аспектно-Хранение и предоставление информации об аспектахориентированнаябаза различных понятий.знаний (АОБЗ)4.1.2 Разработкакомпонентнойархитектурыпрограммногокомплекса4.1.2.1 Общая архитектура программного комплекса и выборплатформы реализацииПредлагается выполнить реорганизацию логических компонентов с цельюмаксимального соответствия требованиям модульности, масштабируемости ивзаимозаменяемости [49, 96, 37].