Диссертация (1136162), страница 21
Текст из файла (страница 21)
Несмотря на относительную легкостьобеспечениясоответствиясобобщеннымсетевымпредставлением,устанавливающим отношение между множеством S и его степенныммножеством {S}, в большинстве случаев нет необходимости в регенерации {S}при каждом изменении S.Ключом будем называть подмножество атрибутов отношения R, значениякоторых в произвольный момент времени определяют значения другихатрибутов R.Важность формализации процедуры генерации ключей для каждого типаотношений,полученныхпутемтрансформациисемантическихсетей,определяется необходимостью ключей для генерации запросов (включаякорректировкуО(М)Д)кгетерогеннойБДс(мета)даннымиИС.Результативность алгоритма поиска ключа на основе семантических сетейследует из того, факта, что ключи определяются в терминах функциональныхзависимостей в форме логических ограничений, которые визуализируются спомощью квантификации.Для отношения концепта ключом является атрибут, заполненный именами,идентифицирующими конкретизации концепта в семантической сети (зачастуюключ можно получить непосредственно из предметной области).Алгоритм поиска ключаПусть F – простой фрейм, содержащий отношение события илихарактеристики, которое генерирует соответствующее отношение R.Шаг 1.
Атрибуты, которые соответствуют свободным переменным из R,включаются в ключ. Если все переменные F свободны, то все атрибуты Rвключаются в ключ.118Шаг 2. Поочередно, в порядке областей действия, анализируются кванторысвязанных переменных. Когда достигается [1]-квантор и при этом все остальныекванторы тоже являются [1] -кванторами, то атрибуты, которые соответствуютсвязанным переменным вне области действия первого [1]квантора, такжевключаются в ключ. Если таких кванторов не найдено, в ключ включаются всеатрибуты.Ключи отношения для составного фрейма определяются из самогонижнего в ISA-иерархии простого фрейма, который используется для построениянепростого фрейма (логические ограничения наследуются).
Далее, применениевышеописанного алгоритма поиска ключа к непростым фреймам генерируетограничения между отношениями, накладываемые на последние.Если описанный выше алгоритм поиска ключа достигает самоговнутреннего квантора, и это не [1]-квантор, возникают ограничения на кортежиотношений. При этом логические ограничения разбивают отношение на группыкортежей, совместное существование которых необходимо для удовлетворениялогических ограничений.Рассмотрим, например, отношение "публикация", которое соответствуетследующему событию: "контент-менеджеры публикуют ровно 2 новости ровнона 2 веб-сайта" (content managers 'publish' exactly 2 news to exactly 2 websites):agentMANAGERxobjectdestinationNEWSSITEyzЭти логические ограничения выделяют группы кортежей, обозначенныхниже скобками:119⎧r1 ⎧c1⎪ ⎪⎪r 1 ⎨c1⎪⎪⎪r1 ⎩c1⎨⎪r1 ⎧c2⎪⎪r1 ⎨ c2⎪⎪⎪⎩r1 ⎩ c2e1⎧r2 ⎪⎪⎪⎪⎨⎪⎪⎪⎪⎩e2e3e4e5e6Хотя в данном отношении все атрибуты являются ключевыми,существование кортежа зависит от существования других кортежей.
Такаягруппировка кортежей отношения не входит в число основных реляционныхопераций, хотя подобные типы группировок могут быть получены с помощьюспециализированных операторов, например, оператора "group-by" языка SQL.Однако, реляционное представление отношения "публикация" (PUBLISH) неотражает в явном виде такой группировки, хотя и учитывается в квантификации.Дополнительные характеристики реляционной схемыРеляционная схема, порожденная семантической сетью, удовлетворяетнеобходимым условиям и дополнительным требованиям для нормализациигетерогенных БД в КПК.
При этом отношение частичного порядка, определяемоенасемантическихсетяхгетерогенных БД в КПК.ISA-иерархией,наследуетсяиотношениями120Пусть даны отношение R, связанное с простым фреймом F (первичнымконцептом C) в семантической сети и отношения R1 и R2, связанные с фреймамиF1 и F2 (первичными концептами C1 и C2). Тогда R1 является кортежнымподмножеством R и R2 является кортежным надмножеством R, если (F1 ISA F) и(F ISA F2) (или (C1 ISA C) и (C ISA C2)) соответственно. В этом случае назовемR1 и R2 подотношением и надотношением R соответственно.Частичный порядок отношений допускает существование многоуровневойабстракции. Например, можно создать различные отношения для каждого изконцептов "пользователь", "редактор", и "главный редактор" (USER, EDITOR,EDITOR-IN-CHIEF). Второй концепт является подконцептом для первого, атретий – подконцептом второго, причем он определен как производное понятие.Каждый из уровней абстракции участвует в различных отношениях и, вообщеговоря, имеет различные свойства, например, право подписывать контент кпубликации ('content publish right') является характеристикой главного редактораи неприменимо ни к пользователям, ни к редакторам в целом.Однако, имена, которые используются для идентификации пользователей,успешно идентифицируют как редакторов, так и главных редакторов, т.к.
онипринадлежат к одному и тому же первичному определению для пользователей.Рассматриваемая организация схемы РБД используется также дляподдержания целостности контента в форме О(М)Д.5 Использование аппарата вычисления значений в категориях и теориисемантических сетей для управления контентом КПКДля множеств А и В обозначим через ВА множество всевозможныхфункций из А в В:ВА = {f | f: A→B}.Сопоставим далее множеству ВА отображение[•] = {f | f: BA×A → B},то есть функцию вычисления значения ([•]). При этом справедливо121соотношение[•] = (<f,x>) = f(x),или, иначе,[<f,x>] = f(x).Для построения модели языка семантических сетей (фреймов) рассмотримупорядоченную пару объектов данных вида L = <R,C>, гдеR = {R1,R2, …} – множество двухместных предикатных символов, C= {C1,C2, …} – множество констант.При этом атомарные формулы предлагаемой модели соответствуютпростым фреймам, а термы обозначают индивиды предметной области.С помощью функции вычисления значения ([•]) построим формальнуюпроцедуру вычисления значений фреймов, а затем покажем связь МД на основесемантических сетей с (гетерогенными) базами данных, в частности, с РБД.Рассмотрим пример оценки профиля доступа пользователей КПК кконтенту, т.е.
к (мета)данным, основанной на вычислительной модели О(М)Д(рисунок 2.1).Рассмотримследующиепараметрыинтерфейсаибизнес-логикиклиентской части КПК: права доступа к данным, персональные предпочтенияпользователей (шрифтовое, цветовое и др. оформление по умолчанию),установки интернет-браузера (хранение ссылок, кэширование данных, журналработы и др.), а также профиль устройства для доступа к данным (интернетприставка к ТВ, коммуникатор, мобильный телефон, терминал и др.).Пусть функционал F обозначает наиболее общий класс пользователей, асоотнесение s={“графика высокого разрешения”, “мультимедиа”}соответствует индивидуальным предпочтениям пользователя.
Обозначим черезF(s) множество пользователей с ограничениями индивидуальных предпочтенийграфикой высокого разрешения и мультимедиа. Пусть соотнесениеp = {“зарегистрированный“, “незарегистрированный“, “корпоративный“}122обозначаетстатуспользователейсрегистрациипользователя,индивидуальнымиаF(s)(p)предпочтениями–множествовысококачественнойграфики и мультимедиа, с установленным статусом регистрации, ужепосетивших портал КПК.В целях упрощения рассмотрения и без ограничения общности будемсчитать, что множество посетителей портала, определяемое посредствомфункционала F, зависит от установок интернет-браузера (v), от типа устройствадоступа к данным (e), а также от персональных предпочтений и прав доступа:F = F((v), (e), …).В таком случае, формула[F = F((v), (e), …)]указываетнаформализованную«процедуру»,вычисляющуюзначениепараметризованного функционала, выражение[F = F((v), (e), …) (s)]выполняет оценку профилей пользователей с заданными специфическимиустановками (s), а формальная «процедура»[F = F((v), (e), …) (s) (p)]оценивает профили пользователей КПК с заданными специфическимиустановками (s) и регистрационным статусом (p).
Полученный функционал Fможно считать основой вычислительной формализации параметризованнойпроцедуры многоаспектной оценки профиля доступа к контенту КПК дляопределенныхкатегорийпосетителей(отгруппдоиндивидуальныхпользователей).Для доказательства достаточности двукратной концептуализации дляобеспечения адекватности модели введем необходимые обозначения:[r] = {rc.s., rr.s.} – удельные затраты;[z] = {zc.s., zr.s.} – степень сегментации (т.е., возможность разделенияпользователей на относительно устойчивые и самостоятельные группы);[qi ] = qi – накладные расходы;123[ li ] = li – продолжительность этапа обработки запроса (загрузка данных,динамическая генерация формы или отчета, и т.п.);[ ni ] = ni – количество этапов обработки запроса.Вычисленные значения обобщены, т.е.
однозначность в выборе значенийудельных затрат и сегментации отсутствует.Снижение уровня общности достигается учетом точки соотнесения s:[ z ] ([s]) =[ r ] ([s]) =⎧⎨⎩⎧⎨[ z ] (higraph) = zhigraph ,,[ z ] (mmedia) = zmmedia ;[ r ] (higraph) = rhigraph ,,⎩[ z ] (mmedia) = rmmedia .Более того, дальнейшее снижение уровня обобщения путем учета второйточки соотнесения p не приводит к успешному результату:[ z ] ([s]) ([p]) = [ z ] ([s]);[ r ] ([s]) ([p]) = [ r ] ([s]).Полученный результат объясняется тем обстоятельством, что процедураозначивания профиля не учитывает положения посетителя портала в политикеправ доступа к (мета)данным в явном виде.Однако ясно, что накладные расходы qi зависят как от специфическихнастроек пользователя, так и от статуса регистрации, т.е., нужно считать[ qi ] = {qi higraph, qi mmedia}.При этом обозначение[ qi ] = q iследует понимать в том смысле, чтоqi higraph = qi mmedia = qi.1246 Особенности объектного моделирования гетерогенных данных в КПКТипизация как средство формализации семантикиФормальное описание быстро изменяющихся предметных областейгетерогенных КПК принципиально может привести к отсутствию значенийденотатов [195], [268].Например, в случае ИСУК существуют фрагменты корпоративногоконтента (данных и метаданных) в форме веб-страниц, которые вновь созданы(или скорректированы) и потенциально являются опубликованными на интернетсервере КПК, но фактически процедура публикации (обновления) для них еще незавершена.
То же обстоятельство может быть справедливым для перемещения иудаления веб-страниц, разделов информационных ресурсов и целого ряда другихстандартных процедур учета и управления информацией.Соображения такого рода приводят к необходимости построенияформальной системы, способной учитывать изменения переменных доменов, т.е.разделять гетерогенные ОД на действительные и возможные. С точки зренияязыка манипулирования ОД АМУК это означает, что свободные переменныедолжны пробегать множество возможных, а квантифицированные – множестводействительных ОД.
Совокупность действительных индивидов формируется извозможных объектов интегрированной гетерогенной Б(М)Д посредствомпредиката существования, а виртуальные объекты представляют собой значениятермов без свободных переменных.Строго говоря, объектом называется сущность предметной области,выделяемая субъектом (корпоративным экспертом-аналитиком) путем указанияидентифицирующих свойств, которые моделируются индивидуализирующейфункцией (критерием отбора).Многосортная модель предметной области формируется на основе сортастепени вида [T1,…,Tn] над типами T1,…,Tn.Обобщенный принцип свертывания для предметной области D K={o:D| Γ}= Ia1: [D] ∀o: (Γ ⇔{o}), o ISA K ISA D, где D – домен ОД ПрО, K – класс ОД,125o – ОД, a1 – соотнесение, Γ – критерий отбора объектов в класс K, можетконкретизироваться в зависимости от направленности и особенностейреализации модели ОД.Формализация семантики модели ОД включает средства типизации длявыделения относительно устойчивых и самостоятельных совокупностей (вчастности, типов) ОД.Важнейшие элементы модели ОД для порталов КПК приведены ниже.Элементарные типы гетерогенных объектов данных КПКРассмотрим построение определений для элементарных типов.Тип Т определяется как подмножество множества, идентифицированногосимволом сорта D (фреймовое представление дано на рисунок 2.12): T=Iw: [D]∀v: D(Δ⇔(v)) = {v: D| Δ}, причем Т ISA D, а D ISA [D].Типы являются основой фреймовой формализации и необходимы дляреализации как простых, так и агрегированных фреймов (см.