Диссертация (1137159), страница 16
Текст из файла (страница 16)
Разрабатывается методпреобразования вопросов о достижении целей в множество производныхзапросов на основе концептуальной базы целей и набора шаблоновсемантической трансформации.Проводится анализ и разработка метода и алгоритма построениясемантического расширения вопросов об изменениях множеств. Строитсяматематическаямоделькомпонентабазызнанийпоисковойсистемы,необходимого для семантического преобразования вопросов об измененияхмножеств. Для этого определен класс формальных объектов, названных базамизнаний об изменениях множеств.3.1. Разработкапринциповсемантическогорасширенияобобщенных запросов достижения целейУспешность функционирования (либо существования) объекта илисистемы определяется достижением рассматриваемой сущностью целей,которые перед ней поставлены.Вопросами о достижении целей будем называть предложения, в которыхзапрашивается информация, касающаяся результатов функционирования тогоили иного объекта или системы.
Другими словами, это вопросы, касающиесяуспехов либо неудач рассматриваемых объектов или систем. В [29] такие89вопросы названы вопросами о достижениях и неудачах.Примеры вопросов о достижении целей: “Какие успехи были у сборнойРоссии по футболу в 2009 году?”, “Какие неудачи испытала компания Sun в2010 году?”, "Каковы успехи компании Intel за 2010 год?".
Из представленныхпримеров видно, что если подать их на вход поисковой системе в таком виде, торезультаты поиска будут низкого качества и не будут содержать в себе ответовна поставленный вопрос.Для дальнейшего анализа была выбрана область предпринимательскойдеятельности:анализироватьсябудутуспехиинеудачиорганизаций(компаний). Под целью компании будем понимать конечный желаемыйрезультат, который определяется в процессе планирования и регулируетсяфункциями управления. Рассмотрим фрагмент дерева целей отдельно взятойкомпании (рисунок 3.1):Рисунок 3.1.
Фрагмент дерева целей компании90Анализ данного дерева целей, а также деревьев целей других компанийпоказал, чтокомпаниейуспешность компании определяется фактами достиженияпоставленныхцелей.Дальнейшаядетализацияцелейиформирование фраз-индикаторов, определяющих нахождение в тексте указанияна достижение цели, продемонстрировали, что, действительно, указания надетализированные цели встречаются в электронных документах гораздо чаще,чем описание непосредственно успехов или неудач каждой конкретнойкомпании. Рассмотрим примеры текстов, извлеченных поисковой системой,указывающих на достижение некоторых из представленных показателей:Таблица 3.1. Примеры текстов, соответствующих целямЦелиПримеры текстовУвеличивать выручку Выручка индийской компании в отчетный периодувеличилась в 3,2 раза - до 31,5 млн долл.Увеличивать доходДоход компании Nycomed в I квартале увеличился на30 % .Увеличивать прибыль ЧистаяприбылькомпанииЛУКОЙЛзапервоеполугодие 2006 года увеличилась на 55 процентов.Снижать затратыСовет директоров ЛУКОЙЛа принял решение, чтокапитальные затраты компании в 2009 году будутснижены почти вдвое.Применять новейшие КомпанияLenovoвнедрилавлинейкубизнестехнологии и ресурсы ноутбуков ThinkPad технологию NVIDIA Optimus.соблюдениеПроизводство компании «Союз-Виктан» соответствуетстандартовстандартам ISO (ИСО) 14000.Выходнановые КомпаниярынкиWELHOMEвышланарынокинвестиционных услуг с новыми предложением.Таким образом, чтобы обнаружить документы, содержащие в себеинформациюобуспехахлибонеудачахкомпании,необходимо91декомпозировать первоначальный ЕЯ-запрос на множество словосочетаний –индикаторов: ЕЯ-выражений, наличие которых в тексте документов позволяетопределить соответствие этого документа первоначальному запросу.
Анализцелей нескольких компаний позволил обобщить эти цели и сформироватьфакты, указывающие на достижение компаниями целей.Рисунок 3.2. Графическое представление содержания базы целейВ данной схеме обозначение pos соответствует тому факту, что данноесобытие является индикатором успешности деятельности компании, negсоответствует неудаче. Пара (+, pos) обозначает, что рост данного показателяявляется позитивным фактором, (-, pos) обозначает, что снижение данногопоказателя является позитивным фактором. На представленной схеме видно,что факторы достижения успеха имеют общую форму.923.2.
Формальная модель базы знаний для представления целейВ монографиях В.А. Фомичева [22, 26, 29, 63] определен класс формальныхобъектов, названных концептуальными базисами (к.б.) и задающих базовыесведения о системе первичных концептуальных единиц, используемойприкладной интеллектуальной системой. Введем ряд определений дляформального описания базы целей.Определение 3.1.
Упорядоченная тройка вида (B, цел, рац) называетсяконцептуальным базисом с числовой разметкой ⇔ когда B – произвольныйконцептуальный базис, цел и рац – два различных сорта из St(B), ивыполняются следующие условия: (1) первичный информационный универсумX(B) включает подмножества Natural, Pos-rational, Z1, Z2, Numbers, где Natural– множество всех цепочек вида d1 …dn, где n = 1, и для k =1,…, n dk – цифра измножества {‘0’,’1’,…,’9’}, причем из d1 = 0 следует, что n = 1; Pos-rational –множество всех цепочек вида bcd,где b, d ∈ Natural, c - запятая;Z1 -объединение множества Natural и множества всех цепочек вида -nb, где nb –цепочка из множества Natural; Z2 - объединение множества Pos-rational имножества всех цепочек вида -numb, где numb – цепочка из множества Posrational; Numbers - объединение множеств Z1и Z2; (2) для каждого элемента dмножества Z1 типом tp(d) является сорт цел, и для каждого элементаhмножества Z2 типом tp(h) является сорт рац; (3) сорт цел являетсяконкретизацией сорта рац для отношения общности Gen.Пример.
Множество Natural включает цепочки123 и 4125; множествоNumbers включает, в частности, цепочки 12,78, -0,315 и –542.Определение3.2.ПустьExtbs–произвольныйконцептуальный базис (р.к.б) вида (S, Cobs, Ql), гдеаспектно-ориентированнаясортоваясистема,CobsрасширенныйS — произвольная—размеченнаяконцептуально-объектная система вида (X, V, tp, F, Qf, Chr, Fgn), согласованнаяс S, и Ql — система кванторов и логических связок; концептуальный базис Bявляется семантическим ядром Extbs.
Тогда концептуальной базой целей(к.б.ц.), согласованной с р.к.б Extbs, называется набор Gbase вида93(B, цел, рац, событие, Goals) ,(3.1)где тройка (B, цел, рац) является концептуальным базисом с числовойразметкой, событие - выделенный сорт из множества St(B), и выполняютсяследующие условия: (1) множество Acts(B) = { y из X(B) | tp(y) = ↑событие} непусто и конечно; (2) первичный информационный универсум X(B) включаеттакой элемент #Объект-интереса, что тип tp(#Объект-интереса) являетсяконкретизацией базового типа [объект]; (3) X(B) включает элементы(обозначения тематических ролей) Агент и Роль2, причем tp(Агент) ={(событие, s)}, tp(Роль2) = {(событие, t)}, где s и t – сорта из St(B), причем ниодин из этих сортов не является конкретизацией сорта P (сорт «смыслсообщения») или сорта событие; (4) Goals является некоторым конечныммножеством выражений СК-языка Ls(B) вида<event-concept * (Агент, d1)(Роль2, d2), estimation>,где event-concept принадлежит множеству Acts(B), d1 и d2 – различныеэлементы универсума X(B), причем какой-либо из этих элементов являетсясимволом #Объект-интереса, estimation – элемент множества Numbers,обозначающий рациональное число от -1 до 1, отличное от 0.Пример.
Множество Goals может включать цепочку <поглощение-орг *(Агент, #Объект-интереса)(Роль2, нек фирма1), 1>.Данная модель позволяет учитывать факты успехов либо неудач компании.Хранение информации в базе знаний именно в такой форме позволяет легкогенерировать выражения, которые послужат новыми поисковыми запросами, атакже расширять спектр данных, хранящихся в базе. База целей можетпостояннорасширяться,позволяядополнятьееновымифактами,относящимися к успехам либо неудачам компаний.Однако для семантического расширения поисковых запросов этих данныхнедостаточно.
Необходимо иметь возможность преобразовывать данные фактыв словосочетания, которые наиболее вероятно встречаются в электронныхдокументах. Следует учитывать, что преобразование должно учитыватьморфологические свойства слов и синтаксис фраз, чтобы наиболее гибко94трансформировать факты в ЕЯ-выражения. Для этих целей введем понятиешаблона семантической трансформации.Определение 3.3.
Пусть Gbase - концептуальная база целей (к.б.ц.) вида (3.1),Morph-values – конечное множество символов, интерпретируемых как значенияразличных морфологических признаков (существит, глагол, прош-время, наствремя, пассив-залог и т.д.). Тогда шаблоном семантической трансформации,порожденным к.б.ц.Gbase и множеством Morph-values, называетсяпроизвольный упорядоченный набор вида(sem-pattern, X, Y, Z, prop-chain) ,(3.2)где sem-pattern – элемент множества Goals, (X, Y, Z) – произвольнаяперестановка без повторений из символов #A#, #Pred#, #B#, и prop-chain –цепочка вида v1 * v2 * … * vk, где 1 ≤ k , v1, …, vk – элементы множества Morphvalues.Пример. Пусть sem-pattern – цепочка <поглощение-орг * (Агент, #Объектинтереса)(Роль2, нек фирма1), 1>. Тогда набор (sem-pattern, #A#, #Pred#, #B#,глаг * прош-время) является одним из возможных шаблонов семантическойтрансформации.3.3.