Диссертация (1137159), страница 12
Текст из файла (страница 12)
Пусть задано характеристическое слово ω1 = «характеристика».Тогдарезультатомработыалгоритма«Построениеконцептуального64окружения» будет упорядоченная тройка Gnω1 = (Geω1 ,Concrω1 , Synω1 ) , где Geω1 ={отзыв, рекомендация}, Concrω1 = {описание}, Synω1 = {портрет, описание}.Как только концептуальное окружение получено, можно переходить ковторому шагу построения множества преобразованных запросов. Необходимополучитьизаспектно-ориентированнойбазызнанийинформацию,соответствующую типу запроса и объекту интереса запроса, т. е.
определитьподмножество Chrω2 множества Chr на основании типа запроса и понятия,соответствующего объекту интереса. Тогда постулируем существованиеалгоритма «Извлечение аспектов» со следующей внешней спецификацией:Назначение: Алгоритм предназначен для извлечения из базы знанийаспектов, соответствующих понятию, представляющему объект интересапоискового запроса в зависимости от типа запроса.Вход: r ∈ Qf - тип запроса; w2 - объект интереса поискового запроса.Выход: Chrω2 - множество аспектов объекта интереса запроса.Пример 4. Пусть задан поисковый запрос W = «Каковы характеристикикомпьютера iMac?». Для понятия «компьютер» в аспектно-ориентированнуюбазу знаний могут быть помещены следующие аспекты, соответствующие типу«ОП_ХАР»: «частота процессора», «объем памяти», «производительность».Следует отметить ограничение данного алгоритма для случая двух объектовинтереса.
Предполагается, что пользователь запрашивает информацию обобщих чертах или различиях двух одинаковых понятий. Ситуация, когдапользователь хочет узнать о различиях между понятиями имеющими разныйсмысл исключается. Основываясь на семантической эквивалентности двухпонятий, из базы извлекаются аспекты только для первого из них, потому что,зачастую, слово, представляющее понятие, может отсутствовать в запросе.Пример 5. Примером корректного запроса с типом «ОП_РАЗ» являетсязапросW1 = «Каковы различия компьютеров Lenovo и Asus?». Здесь передпервым объектом интереса указано понятие, о котором идет речь.
Примеромнекорректного запроса является запрос W2= «Каковы различия между65компьютером Lenovo и медиа-центром Samsung?». Запросы такого родаалгоритмом не обрабатываются. То же самое справедливо для запросов с типом«ОП_ОБЩ».После того, как получены множество аспектов объекта интереса запроса( Chrω2 ) и концептуальное окружение характеристического слова ( Gnω1 ), можнопереходитькпоследнемушагупостроениямножествасемантическипреобразованных запросов ExtSet. Постулируем существование алгоритма«Построение множества расширенных запросов» со следующей внешнейспецификацией:Назначение: Алгоритм получает на вход концептуальное окружениехарактеристического слова, объекты интереса и множество аспектов дляпонятий, которые представляют объекты.
На основании этих данных алгоритмпроизводит построение множества расширенных запросов ExtSet. Новыезапросы формируются путем комбинирования характеристического слова и егосинонимов, гипонимов и гиперонимов с объектами интереса запроса иаспектами, извлеченными для данных объектов из базы знаний.Вход: Тройка w1 , w2 , w3 , где w1 — это характеристическое слово, а w2 и w3—объектыинтересазапроса;Gnω1характеристического слова запроса; Chrω2-концептуальноеокружение- множество аспектов объектаинтереса запроса.Выход: ExtSet — множество семантически преобразованных запросов.Пример 6. Пусть задано характеристическое слово w1 = «характеристики»,объект интереса w2 = «компьютер Asus», а w3 не задан.
Пусть задандетерминант концептуального окруженияэлементы: Geω1={отзыв,Gnω , включающий следующие1рекомендация}, Concrω1={описание}, Synω1={описание}. Пусть задано множество аспектов объекта интереса запроса Chrω2= {частота процессора, объем памяти, производительность}. Тогда результатомработы алгоритма «Построение множества расширенных запросов аспектно-66ориентированного типа» станет множество ExtSet = {компьютер Asusхарактеристики частота процессора, компьютер Asus характеристики объемпамяти, компьютер Asus характеристики производительность, компьютер Asusописание частота процессора, компьютер Asus описание объем памяти,компьютер Asus описание производительность, компьютер Asus отзыв частотапроцессора, компьютер Asus отзыв объем памяти, компьютер Asus отзывпроизводительность, компьютер Asus рекомендация частота процессора,компьютер Asus рекомендация объем памяти, компьютер Asus рекомендацияпроизводительность}.Рассмотрим алгоритм построения семантически расширенного множествазапросов ExtSet «Анализ_и_Расш_АО_Запр».Внешняя спецификация алгоритма Анализ_и_Расш_АО_Запр»Назначение: Алгоритм анализирует поступивший на вход поисковогозапрос и строит множество семантически преобразованных запросов ExtSet.Алгоритм использует описанные ранее алгоритмы из данного параграфа.Вход: Цепочка W ∈ Linput - входной запрос.Выход: ExtSet — множество семантически преобразованных запросов.Алгоритм «Анализ_и_Расш_АО_Запр»1.
Поступивший на вход поисковый запрос передается на вход алгоритму«Определение типа запроса». Если тип запроса определен, то переходим кследующему шагу. В противном случае — прерываем выполнение алгоритма.2. Поступивший на вход поисковый запрос и определенный на предыдущемшаге тип запроса передаем на вход алгоритма «Определение объектов интересазапроса». Если объекты интереса определены, то переходим к следующемушагу. В противном случае — прерываем выполнение алгоритма.3.
Наданном шаге необходимо построитьконцептуальное окружениехарактеристического слова запроса. Если на первом шаге было определенохарактеристическое слово запроса, то передаем его на вход алгоритма«Построение концептуального окружения». Если же характеристическое словоне было определено, то в качестве синонимов, гипонимов и гиперонимов67используетсязаранеезаполненныйсловарьхарактеристическихслов,соответствующих определенному на шаге 1 типу запроса.4.
Далее необходимо извлечь аспекты, характерные для типа запроса и объектаинтереса, определенных на шаге 1 и 2 соответственно. Для этого ихнеобходимо передать на вход алгоритму «Извлечение аспектов». Если аспектыотсутствуют в базе, то работа алгоритма не прерывается. При такой ситуациигенерируемые запросы просто не включают аспекты, что значительно снизиткачество поиска.5. После того, как определены тип запроса, характеристический объект иобъекты интереса запроса и построены концептуальное окружение и множествосоответствующих типу запроса аспектов, они передаются на вход алгоритму«Построение множества расширенных запросов», строящему (на основевходных данных) множество семантически преобразованных запросов ExtSet.Как только расширенное множество запросов ExtSet сформировано, онопередается в традиционную поисковую систему, возвращающую множестворелевантных по ключевым словам документов для каждого запроса Wk ∈ ExtSet .Далеепоступившееранжированияпомножестводокументоврелевантности.Прианализируетсяанализесцельюдокументовбудетиспользоваться подсчет вхождений каждого документа в результаты выборкипо всем сгенерированным запросам.
Ранжированное множество документовзатем передается пользователю. В случае, если работа алгоритма не былазавершена по какой-то причине, пользователь получит результаты поиска поключевым словам, осуществленного без преобразования входного запроса.2.7 Анализструктурывходныхзапросоваспектно-ориентированного типаРассмотрим входные запросы аспектно-ориентированного типа болеедетально. Для более удобного рассмотрения структуры этих запросов в даннойдиссертациипредлагаетсяспециальноеполуформальноепредставлениеструктуры входных запросов, которое будет называться стем-формой запроса.68Название происходит от термина стемминг, обозначающего выделение основыслова [18], однако в данном контексте понимается как приведение слова кбазовой форме.
Шаблоном стем-формы входного запроса будем называтьзапрос, приведенный к следующему виду: (1) нет ни одной заглавной буквы;(2) каждое слово в запросе находится в базовой форме; (3) набор слов, которыеявляются опциональными, заключаются в фигурные скобки; альтернативныеслова или словосочетания из некоторого набора разделяются вертикальнойчертой; набор альтернативных слов или словосочетаний, любой элементкоторого должен присутствовать в тексте заключаются в квадратные скобки;слова, которые неважны при рассмотрении запроса, заменяются на символ #;слова, следующие друг за другом, связываются при помощи знака «+».Приведение слов к базовой форме осуществляется при помощи [88].Рассмотрим условные обозначения более подробно: (1) {} - в фигурных скобкахуказывается необязательное слово, которое может как присутствовать, так и нет.Например: Основная характеристика {у} Х — это мощность.
Здесь предлог «у»необязательный и может быть опущен. (2) | - через вертикальную чертууказываются альтернативы, т.е. одно из перечисленных слов должноприсутствовать в предложении. Например: В каких ситуациях|случаяхиспользуется Х? (3) Составные обозначения. все указанные обозначения могуткомбинироваться в более сложные. Например: {обладать|иметь|{есть}+у} —здесь представлена опциональная альтернатива (т.е. альтернатива, вхождениекоторой в текст необязательно), один из элементов данного набора такжеявляется составным: {есть}+у — это значит, что слово «есть» являетсяопциональным и необязательно может присутствовать в тексте.
(4) [] квадратными скобками ограничивается набор словосочетаний, одно из которыхобязательнодолжноприсутствоватьвтексте.Например,форматобобщенного[работать|вести+себя|функционировать|действовать].Такимобразом,шаблонстем-формы—этопредставления стем-формы, соответствие которому позволит отнести заданноена входе предложение к одному из типов, а также выделить необходимые69объекты интереса. В данном шаблоне используются специальные символы,описанные выше, а так же элемент ОИn, где n — это порядковый номер (винтервалеобъекта[1,3])интересапоисковогозапроса.ОИ1—характеристический объект, позволяющий определить тип вопроса, ОИ2 и ОИ3— это объекты интереса, аспекты которых необходимо найти.Рассмотрим более подробно структуру и конкретные примеры входныхзапросов, представленные в таблице 2.1, для того, чтобы затем перейтинепосредственнокформализациипредположенийорассматриваемомподъязыке представления аспектно-ориентированных поисковых запросов.
Втаблице 2.1 из соображений компактности приведена лишь часть запросов.Полный список запросов находится в приложении 1.Таблица 2.1. Типы вопросов, обобщенное представление стем-формы ипримеры входовТип вопросаШаблон стем-формыПримеры входовОписаниекак + # + ОИ1(глаг.) + ОИ2Как в целом устроен Х?структурыОИ1устраивать, Как структурирован Х?=структурировать,Как организован Х?организовывать.из+что+состоять+ОИ2Описание{какой}+#+ОИ1(сущ.)Из чего состоит Х?+ Какиеосновныефункциифункций (что {выполнять|возложенный+на|{ест выполняет Х?делает)ь}+у|иметь}+ОИ2важные обязанности у Х?ОИ1= функция, обязанностьКакие функции имеет Х?{каков}+роль+ОИ2КаковарольХвпроизводстве металла?за+что+ # +отвечать+ОИ2За что в основном отвечаетХ?70Описаниекакой+назначения[выполняет|преследует]+ОИ2?#+ОИ1(сущ.)+ Какую миссию выполняет Х?Какую цель преследует Х?ОИ1=миссия, цельОписаниезачем+нужный+ОИ2Зачем нужен Х?для+что+ОИ1(глаг.)+ОИ2Для чего предназначен Х?ОИ1=предназначать,создавать, Для чего создан Х?сконструировать,построить, Для чего разработан Х?разработать, спроектироватьДля чего спроектирован Х?на+что+способный+ОИ2На что способен Х?возможностей что+мочь+ОИ22.8Что может Х?Формализация предположений о входном языке аспектно-ориентированных поисковых запросовДля корректной обработки и анализа входных поисковых запросовсистемынеобходимоформальноописатьструктурувходныхтекстовсемантического анализатора.