Диссертация (1137159), страница 9
Текст из файла (страница 9)
Последовательностьпоисковых запросов изображена на рисунке 2.1.Рисунок 2.1. Схема сценария бизнес-поискаПример. С учетом развития голосовых интерфейсов и средств синтеза ианализа речи пример поискаинформации об успешности деятельностинекоторой компании X и достигнутых результатах может быть представлен ввиде следующего диалога:Пользователь: Какие успехи были у компании X в этом году?Система: Компания X выпустила продукт Y, увеличила объем выручки на 7%,открыла новое представительство в Москве.Пользователь: Каковы особенности продукта Y?Система: Высокая стабильность, отказоустойчивость, низкая цена и т. д.47Пользователь: Чем продукт Y отличается от продукта Z?Система: Y более производителен чем Z, Y превосходит Z по следующимпоказателям …Пользователь: Какие изменения были в составе совета директоров впрошедшем году?Система: В совет директоров компании вошел Петр Иванов.Таким образом, если пользователь хочет найти информацию о компании,изменениях в составе ее руководства, успехах или неудачах, различныххарактеристиках продуктов, то полный цикл поиска покрывается предлагаемыми типами вопросов и соответствующими методами преобразования, темсамым увеличивая скорость, удобство и релевантность поиска.Предлагается разработать метод создания семантически-ориентированнойоисковой системы, выполняющей анализ поискового запроса и, в зависимостиот его типа, построениеконечного множества преобразованных запросовExtSet, которое называется семантическим расширением поискового запроса.Цель построения множества ExtSet заключается в том, чтобы передать этомножество на вход синтаксической поисковой системе, которая позволит найтидокументы, релевантные по ключевым словам каждому из преобразованныхзапросов.Полученноемножестводокументовзатеманализируетсяиранжируется по семантической релевантности.
Ранжирование полученныхдокументов происходит путем подсчета вхождений одного и того же документав результирующую выдачу по всем сгенерированным запросам и сиспользованием характерного для определенных типов запросов анализа.Для удобства изложения введем несколько определений компонентов,составляющих поисковые запросы. Характеристическим объектом или жехарактеристическим словом будем называть слово запроса, позволяющееохарактеризовать его принадлежность тому или иному типу. Объектамиинтереса запроса будем называть те слова запроса, которые составляютнепосредственнуюинформационнуюпотребностьпользователя.Дополнительными объектами интереса будем называть дополнительные48элементы запроса, важные для пользователя.
Примером дополнительногообъекта интереса может являться указание даты или каких-либо условий.Пример 1. Пусть задан поисковый запрос «Каковы характеристикипроцессора Cray?». В данном запросе характеристическим объектом являетсяслово «характеристики», а объектом интереса - «процессор Cray».Пример 2. Пусть задан запрос «Какие успехи были у компании Cloudera в2010 году?».
В данном запросе характеристическим объектом является слово«успехи», объектом интереса - «процессор Cray», а дополнительным объектоминтереса - «2010 год».Рассмотрим наиболее общие идеи построения расширенного множестваExtSet, специфические для каждого вида запросов:• Для аспектно-ориентированных запросов построение расширенногомножества ExtSet будет происходить с использованием синонимов, гипонимови гиперонимов характеристического слова запроса. Как известно, синонимомнекоторого слова А является такое слово В, которое не совпадает с А позвучанию и написанию, но имеет одинаковое с ним или очень близкое значение(например, слова «лексикон» и «словарь» являются синонимами).
Термины«гипоним» и «гипероним» используются значительно реже. Гипонимомпонятия А называют такое понятие В, которое выражает частную сущность поотношению к А, более общему понятию (например, для понятия «компьютер»гипонимами являются понятия «сервер» и «ноутбук»). Гиперонимом понятия Аназывают такое понятие В, которое по отношению к А выражает более общуюсущность (например, для понятия «сервер» гиперонимом является понятие«компьютер»).
Таким образом, если понятие А является гипонимом понятия В,то В является гиперонимом А.Использование синонимов характеристического слова позволит построитьблизкие по смыслу, но различающихся по написанию запросы с целью болееширокой выборки документов, содержащих объекты интереса. Документ, вкотором находится информация об аспектах объектов интереса запроса, можетне содержать заданного пользователем характеристического слова, однако49может содержать его синоним. Данный документ будет иметь низкую оценкупри ранжировании синтаксической поисковой системой, но при этом содержатьнеобходимую информацию.
Поэтому использование синонимичных запросовпозволит расширить спектр релевантных по ключевым словам документов иобнаружитьнеобходимуюинформацию.Гипонимыигиперонимыхарактеристических слов используются с той же целью, но имеют несколькодругой смысл: в некотором документе можетприсутствовать информация,касающаяся объекта интереса запроса в контексте рассмотрения его либо каксоставляющего элемента (гипонима) более общей сущности, либо, наоборот,можетрассматриваться составляющая часть понятия (в данном случаехарактеристическое слово будет выступать в качестве гиперонима). Многиегипонимы и гиперонимы характеристических слов весьма близки по смыслу.Например, слово «особенность» имеет гиперонимы «свойство» и «черта» и неимеет гипонимов.
Соответственно, для слов «свойство» и «черта» гипонимомявляется слово «особенность». Использование гипонимов и гиперонимовхарактеристических слов запросов также позволяет расширить спектррелевантных по ключевым словам документов, возвращаемых поисковойсистемой.Таким образом, данный подход позволяет сгенерировать близкие по смыслупоисковые запросы. При построении ExtSet будут также использоватьсяаспекты, соответствующие типу запроса и принадлежащие понятию, котороепредставляет объект интереса запроса.Пример 3. Пусть задан запрос «Каковы особенности компьютера iMac?».Пусть для слова «особенность» заданы синонимы «непохожесть» и «отличие»,гиперонимы «свойство» и «черта», а гипонимы не заданы.
Пусть для понятия«компьютер» заданы следующие аспекты, описывающие его характеристики:«производительность», «частота процессора», «объем памяти». На основанииэтих данных могут быть построены запросы: «компьютер iMac характеристикиобъем памяти», «компьютер iMac свойства частота процессора», «компьютерiMac отличия частота процессора» и т. д. Данные запросы, поданные на вход50системе поиска по ключевым словам, позволят найти более релевантныедокументы, чем первоначальный запрос.• Для построения множества ExtSet в случае вопросов достижения целейбудет построена модель базы целей различных объектов (в первую очередь,организаций).
Это позволит построить ряд детализаций для вопросов данноготипа.Припостроениибудутиспользованыправиласемантическихтрансформаций, позволяющие более гибко генерировать запросы.Пример 4. Пусть задан запрос «Каковы успехи компании Google?». Пусть вбазе целей заданы следующие индикаторы достижения целей для понятия«компания»: «увеличение объема продаж», «выпуск нового продукта», «ростприбыли». Тогда могут быть построены следующие запросы: «объем продажGoogle увеличился», «Google выпуск нового продукта», «рост прибыли Google»и т. д. Возможность изменять порядок слов в получаемых запросахобеспечивается правилами семантических трансформаций, которые позволяютгенерировать разные запросы для одного и того же факта.• Для запросов об изменениях состава множеств будет построена модельбазы множеств, позволяющая строить детализации запросов данного типа,основываясь на компонентах, детализирующих понятие, соответствующееобъекту интереса запроса, и фактах, позволяющих сделать вывод, что вмножестве произошло изменение.Пример 5.
Пусть задан запрос «Какие изменения были в составеруководства компании Xerox?». Пусть в базе заданы следующие элементы,являющиесясоставнымичастямипонятия«руководствокомпании»:«президент», «заместитель», «вице-президент». Пусть заданы следующиефакты, характерные для данных элементов: «занял пост», «покинул пост»,«уволен». Тогда могут быть построены следующие запросы: «компания Xeroxпрезидент покинул пост», «компания Xerox вице-президент занял пост»,«компания Xerox заместитель уволен» и т.д.Описанный подход оперирует с разными типами вопросов на ЕЯ ипозволяет осуществлять семантический анализ входных запросов на ЕЯ с51целью выявления информационной потребности пользователя и расширенияпервоначального запроса с целью удовлетворения данной потребности.
Есликакой-тоизвведенныхпользователемвопросовнеможетбытьпроанализирован, пользователь получит результаты работы традиционнойсистемы поиска по ключевым словам.Далее в данной главе будут рассмотрены аспектно-ориентированныевопросы, а в главе 3 вопросы достижения целей и вопросы об измененияхсостава множеств.2.3 Разработка принципов семантического расширения аспектноориентированных запросов2.3.1 Центральные идеи предлагаемого подходаКак отмечалось выше, аспектно-ориентированными запросами (АОзапросами)будем называть вопросительныепредложения, в которыхзапрашивается информация о различных аспектах того или иного объекта илисистемы: характеристиках, условиях существования или функционирования,назначении,структурнойорганизации,функциях,областиприменения,принадлежности к какому-либо классу, отличиях, особенностях и возможностяхразличных объектов и систем.Когда запрашивается информация о том или ином аспекте какого-либообъекта, то, во-первых, необходимо учитывать тип этого аспекта, а во-вторых,специфику объекта, которому принадлежит этот аспект.
Другими словами,типизация аспектов является универсальной, а непосредственно значенияаспектов — уникальными для объекта, о котором идет речь в запросе. Впараграфе 2.3.2 предлагается 11 типов запросов, на взгляд автора, полностьюпокрывающих информационные потребности пользователей,пытающихсянайти информацию об аспектах тех или иных объектов. Данным типамзапросов будут строго соответствовать определенные типы аспектов.Пример 1. Запросу “Каково устройство модема?” соответствует тип“Описание структуры”. Объектами интереса являются слова “устройство” и52“модем”,причемхарактеристическоеслово“устройство”являетсяиндикатором типа аспектов объекта “модем”.
Для данного вопроса аспектамиобъекта интереса будут являться характеристики, описывающие его (объекта)устройство (структуру).Для расширения поискового АО-запроса необходимо определить типаспекта, о котором запрашивается информация. Анализ разнообразных входныхзапросов показал, что это можно сделать, обнаружив в запросе специфическоеслово-индикатор (характеристическое слово) или проанализировав структурузапроса.Пример 2. В запросе «Каковы особенности планшета Apple?» присутствуетхарактеристическое слово «особенности», что позволяет определить типзапроса (а, соответственно, и аспекта) «Описание особенностей».Пример 3. В запросе «Для чего нужен осциллограф?» отсутствуют словаиндикаторы, характерные для какого-либо типа запроса, однако структуразапроса позволяет сделать вывод о том, что типом данного запроса является«Описание назначения».Основной принцип расширения АО-запросов заключается, во-первых, впостроении семантических производных первоначального запроса.