Диссертация (1137159), страница 10
Текст из файла (страница 10)
Дляпреобразования такого рода необходимо учитывать концептуальное окружениехарактеристического слова, специфическое для определенного типа запроса,т. е. его синонимы, гипонимы и гиперонимы. Данное окружение позволитстроить семантически близкие запросы, а также анализировать возвращаемыедокументы на соответствие запросу. Кроме того, необходимо учитыватьнепосредственно значения аспектов, характерных для того или иного объекта.Пример 4. Объектом интереса запроса «Каковы характеристики компьютераLenovo?» является «компьютер Lenovo», а аспектами, соответствующимипонятию «компьютер», могут быть производительность, тактовая частота,объем памяти и т.
д.Наличие описания аспектов для понятий, характеризующих объектыинтереса, обусловлено тем, что необходимо анализировать возвращаемые53поисковой системой документы на присутствие в них информации онепосредственно аспектах, что позволит ранжировать документы по количествурелевантных запросу аспектов, находящихся в них.Такимобразом,необходиморазработатьматематическуюмодель,учитывающую типы аспектов, их концептуальные окружения и множествозначений аспектов для каждого типа.2.3.2 Первичныеинформационныеединицыдляразработкиалгоритма анализа аспектно-ориентированных запросовДляпредставленияразличныхтиповаспектовнеобходимоввестиреляционные символы, строго соответствующие тому или иному типу аспектаобъекта или системы.
Были выделены 11 основных типов, и для каждого из нихвведен специальный символ, обозначающий бинарное отношение. Рассмотримданные символы, их смысл и пример вопроса, в соответствие которому можетбыть поставлен определенныйреляционный символ (под X и Y будемпонимать объекты интереса поискового запроса, если не указано другого):(1) ОП_СТР – символ для представления содержания вопросов вида «Какустроен X?».
Пример: «Как устроен двигатель внутреннего сгорания?»;(2) ОП_ХАР – символ для представления содержания вопросов вида «Каковыхарактеристики X?». Пример: «Каковы характеристики автомобиляMercedes ML 350?»;(3) ОП_РАБ –символ для представления содержания вопросов вида «Какработает X?». Пример: «Как работает аппарат магнитно-резонанснойтомографии?»;(4) ОП_ФУН – символ для представления содержания вопросов вида Каковыфункции X?».
Пример: «Какие функции выполняет сервер локальнойсети?»;(5) ОП_НАЗ – символ для представления содержания вопросов вида «Для чегопредназначен X?», «Каково назначение X?». Примеры: «Для чегопредназначен реостат?», «Каково назначение межкомпьютерной связи?»;54(6) ОП_ПРИМ – символ для представления содержания вопросов вида «Гдеиспользуется X?», «Как применять X?». Примеры: «Где используетсяJava?», «Как применять активную XSS?»;(7) ОП_ПРИН – символ для представления содержания вопросов вида «Ккакому классу принадлежит X?», «К какой категории относится X?».Пример: «К какому классу соединений относятся жиры?»;(8) ОП_РАЗ – символ для представления содержания вопросов вида «Чемотличается X от Y?», «В чем разница между X и Y?». Примеры: «Чемотличается архитектура x86 от x64?», «В чем разница между процессорамиDual Core и Core 2 Duo?»;(9) ОП_ОБЩ – символ для представления содержания вопросов вида «Чтообщего у X с Y?», «Каковы общие черты X и Y?». Пример: «Что общего урезины и каучука?»;(10) ОП_ОСОБ – символ для представления содержания вопросов вида «Какведет себя X [в ситуации Y]?», «Каковы особенности работы X [в условияхY]?», где X – объект интереса поискового запроса, а Y – опциональнаячасть вопроса, уточняющая вопрос, служащая дополнительным условием(ограничением).
Примеры: «Как ведет себя аргон при повышенномдавлении?», «Каковы особенности работы буровой установки при высокойтемпературе?»;(11) ОП_ВОЗМ – символ для представления содержания вопросов вида«Каковы возможности X?» («Каковы возможности платформы .NET?»).2.4 Краткая характеристика теории К-представленийЗначительную ценность для практики представляют методы семантическогопоиска, инвариантные по отношению к предметной области либо способныеработать в широком диапазоне предметных областей. Как хорошо известно, дляполучения наиболее общих проектных решений в различных областях техникиприменяются математические модели и методы.55В связи с этим представляется целесообразным вести разработку новыхметодов семантического поиска информации в Сети на основе широкоприменимой математической модели, описывающей (а) систему первичныхинформационных единиц, используемых поисковой системой (что означаетперечисление таких единиц и описание их взаимосвязей); (б) цели людей иорганизаций; (в) динамику изменений различных множеств (совета директоровфирмы и т.д.).
Проведенный анализ научной литературы показал, что внастоящее время в доступной литературе опубликована только одна теория,предоставляющаявозможностипостроенияматематическихмоделей,удовлетворяющих требованиям (а) - (в), это теория К-представлений(концептуальных представлений). Данная теория изложена в большой сериипубликаций на русском и английском языках В.А. Фомичева [9, 17, 19-30, 52-61,63, 64], в том числе в монографиях [22, 26, 29, 63].Теория К-представлений является оригинальной теорией проектированиясемантико-синтаксическиханализаторовЕЯ-текстовсширокимиспользованием формальных средств описания входных, промежуточных ивыходных данных анализаторов. Помимо этого, теория К-представлений нашлаприменение при разработке языков общения компьютерных интеллектуальныхагентов,языковпредставлениясодержаниякоммерческихконтрактов,онтологий нового поколения, стратегии преобразования существующего Веба вСемантический Веб нового поколения [60, 63].Первой частью теории К-представлений является математическая модельсистемыпервичныхединицконцептуальногоуровня,используемойприкладной интеллектуальной системой.
Эта модель определяет классформальных объектов, называемых концептуальными базисами (к.б.). Каждыйк.б. задает упорядоченный набор вида (c1, ..., c15) с компонентами c1, c2, ...,c15, являющимися (главным образом) конечными или счетными множествамисимволов и выделенными элементами таких множеств.
В частности, c1 = St конечное множество символов, называемых сортами и обозначающих наиболееобщие рассматриваемые понятия,c5 = X - счетное множество цепочек,56используемых как "строитель-ные блоки" для формирования модулей знаний исемантических представлений (СП) текстов, c6 = V - счетное множествопеременных, c8 = F – подмножество множества X, элементы которогоназываются функциональными символами.Каждому к.б. B ставятся в соответствие три множества формул Ls(B),Ts(B), Ys(B), элементы которых называются l-формулами, t-формулами и yформулами.МножествоLs(B)называетсяСК-языком(стандартнымконцептуальным языком) в базисе B.
Его цепочки подходят для построения СПтекстов на ЕЯ. Каждая формула из Тs(B) имеет вид z & t, где z – выражение изLs(B), t - тип сущности, обозначаемой выражением z. Формулы из Ys(B) имеютвид a[1] & …& a[n] & d, где a[1], …, a[n], d принадлежат Ls(B), n имеет разныезначения для разных d, цепочка d строится из a[1], …, a[n] как из элементарныхинформационныхединиц(некоторыеизнихмогутбытьнемногопреобразованы) однократным применением некоторой операции.Главное отличие комплекса идей, лежащих в основе базовой моделитеорииК-представлений,отцентральныхидейнаиболеепопулярныхзарубежных подходов к формальному описанию содержания ЕЯ-текстов(теориипредставлениядискурсов,теорииконцептуальныхграфов,эпизодической логики) заключается в том, что модель построена недобавлением нескольких новых выразительных механизмов к языку логикипредикатов первого порядка, а как математическая модель нового вида,предназначенная для отображения способов описания структурированныхзначений (СЗ) произвольно сложных текстов деловой прозы.Модель описывает систему, состоящую из 10 частичных операций наконцептуальных структурах.
По гипотезе В.А. Фомичева, применяя шаг зашагом эти 10 операций, можно построить семантическое представлениепроизвольного текста деловой прозы. Следствием этого главного отличияявляются,вчастности,такиепреимуществатеорииСК-языков,каквозможность построения формальных аналогов (на семантическом уровне) СЗсоставных обозначений целей интеллектуальных систем (и, как следствие,57советов, пожеланий, команд), сложных составных обозначений понятий имножеств объектов, СЗ ЕЯ-текстов со ссылками на смысл фраз и болеекрупных фрагментов текстов, СЗ предложений со словом “понятие”, а такжерасширение числа способов использования логических связок “и”, “или”, “не”.Указанныевозможностиможноинтерпретироватьикакосновныепреимущества теории СК-языков по сравнению с теорией расширенныхсемантическихсетей,теориейнеоднородныхсемантическихсетейикомпьютерной семантикой русского языка.Учитывая все рассмотренные преимущества теории К-представлений,сделанвыводоцелесообразностиееиспользованиявкачествеметодологической основы диссертационного исследования.2.5Разработкаматематическоймоделипроблемно-ориентированной системы первичных единиц концептуальногоуровняДля разработки алгоритмов семантической обработки поисковых АОзапросов необходима гибкая расширяемая математическая модель системыпервичных единиц концептуального уровня.
Построим такую модель, используяв качестве отправной точки определения сортовой системы и концептуальнообъектной системы из монографий В.А. Фомичева [29, 63].В монографиях [29, 63] вводится базовая математическая модель дляописания системы первичных единиц концептуального уровня, используемыхприкладной интеллектуальной системой. Эта модель определяет новый классформальных объектов, называемых концептуальными базисами (к.б.). Каждыйк.б. B строится для формализации определенной группы предметных областей.СК-язык Ls(B) предназначен для построения семантических представлений(СП) произвольно сложных текстов, относящихся к рассматриваемой группеобластей. Произвольный к.б.