ПЗ (1219668), страница 2
Текст из файла (страница 2)
Модели представления знаний:
-
продукционные модели;
-
фреймовые модели;
-
логические;
-
сетевые модели (семантическая сеть);
Особый интерес представляет семантическая сеть. Семантическая сеть – информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги задают отношения между ними. Роль вершин выполняют понятия базы знаний, а дуги соотносят их. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений [3].
Классификация семантических сетей. По количеству типов отношений:
-
однородные сети, обладающие только одним типом отношений (стрелок), например классификация биологических видов;
-
неоднородных сети, количество типов отношений больше одного. Такие сети можно представлять как переплетение древовидных многослойных структур. Примером такой сети может быть Семантическая сеть Википедии.
По арности:
-
типичными являются сети с бинарными отношениями. Бинарные отношения очень просты и удобно изображаются на графе в виде стрелки между двух концептов;
-
N-арные сети, связывающие более двух отношений.
По размеру:
-
для решения конкретных задач, например, тех которые решают системы искусственного интеллекта;
-
семантическая сеть отраслевого масштаба должна служить базой для создания конкретных систем;
-
глобальная семантическая сеть.
Стремительное развитие интернета способствовало огромному росту информации. Исследования IDC, мирового лидера в прогнозных исследованиях предрекают, что за период между 2013 и 2020 годом количество информации увеличится десятикратно – с 4,4 триллионов гигабайт до 44 триллионов [5]. Объем информация растёт экспоненциально. Таким образом, одной из самых больших проблем современного общества является информационное переполнение, которое, в значительной мере, определяется сетью Интернет – всемирного хранилища, «открывающего» доступ к миллионам и миллиардам различных информационных ресурсов, независимо от их географической и национальной локализации. С каждым годом поиск и использование нужной информации становится все более сложным, трудоемким и неэффективным, несмотря на огромные усилия по увеличению эффективности доступа и обработки уже существующей и постоянно появляющейся новой информации. Поэтому в настоящее время осуществляется переход от хранения и обработки данных к накоплению и обработке знаний.
Концепция организации гипертекста напоминает однородную бинарную семантическую сеть, однако здесь есть существенное отличие:
-
связь, осуществляемая гиперссылкой, не имеет семантики, то есть не описывает смысла этой связи. Назначение семантической сети состоит в том, чтобы описать взаимосвязи объектов, а не дополнительную информацию по предметной области. Человек может разобраться, зачем нужна та или иная гиперссылка, но компьютеру эта связь не понятна;
-
страницы, связываемые гиперссылками, являются документами, описывающими, как правило, проблемную ситуацию в целом. В семантической сети вершины представляют собой понятия или объекты реального мира.
Попытка создания семантической сети на основе Всемирной паутины получила название Semantic Web (семантическая паутина).
-
Обзор технологий Semantic Web , Linked data и NoSQL
-
Семантическая паутина
Семантическая паутина – это общедоступная глобальная семантическая сеть, формируемая на базе Всемирной паутины путём стандартизации представления информации в виде, пригодном для машинной обработки. Semantic Web – новая концепция развития сети Интернет, принятая и продвигаемая W3C.
В обычной Всемирной паутине, построенной на HTML-страницах, информация заложена в тексте страниц и предназначена для чтения и понимания человеком. Цель семантической паутины – создание языка пригодного для машинной обработки, на котором можно будет описать как данные, так и правила рассуждений об этих данных, так что правила вывода, существующие в какой-либо системе представления знаний, можно будет экспортировать в ресурс сети интернет. Чтобы определить язык, необходимо задать его синтаксис и семантику [6].
Синтаксис – набор правил построения фраз языка, позволяющий определить корректные предложения в этом языке.
Семантика – система правил истолкования отдельных языковых конструкций. Семантика определяет смысловое значение предложений языка.
Машинная обработка возможна благодаря двум характеристикам семантической паутины:
-
наличию URI;
-
использованию семантических сетей и онтологий.
URI – унифицированный идентификатор ресурса или адрес, используемый для указания ссылок на какой-либо объект. URI используются для именования объектов. Каждый объект глобальной семантической сети имеет уникальный URI и однозначно называет некоторый объект. Благодаря уникальности URI одни и те же предметы можно называть одинаково в разных местах семантической паутины. Используя URI, можно собирать информацию об одном предмете из разных мест. Рекомендуется включать в адрес URI название одного из протоколов Всемирной паутины (HTTP или HTTPS). То есть адрес URI рекомендуют начинать с «http://» или «https://». Такой адрес можно одновременно использовать как адрес URI и как адрес web-страницы (URL) [6].
Использование семантических сетей и онтологий необходимы для машинной обработки, так как данные обычно во Всемирной паутине представлены в виде текста, воспринимаемые человеком, но не машиной. Для того чтобы машина понимала смысл, используют различные методы обработки естественного языка.
В качестве формата, удобного для чтения машиной, W3C предлагает использовать язык RDF. Язык RDF позволяет описывать структуру семантической сети в виде графа. Каждому узлу и каждой дуге графа можно назначить отдельный URI. Утверждения, записанные на языке RDF, можно интерпретировать с помощью онтологий. Онтология – описание классов объектов, их свойств и взаимоотношений для какой-то предметной области. Онтологии создаются для получения из данных логических заключений. Для создания онтологий рекомендуют использовать языки RDF Schema и OWL. Подробнее эти технологии можно рассмотреть при описании многоуровневой архитектуры Semantic Web, показанной на рисунке 2.
-
Архитектура Semantic Web [7]
На нижнем уровне находится Unicode – стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. Рядом с ним находится URI/IRI, гарантирующий то, что каждое понятие, используемое в документе – однозначно идентифицируется.
Техническую часть семантической паутины составляет семейство стандартов на языки описания, включающее XML, XML Schema, RDF, RDF Schema, OWL, а также некоторые другие. Рассмотрим их в порядке увеличения уровней.
XML предоставляет синтаксис для определения структуры документа, подлежащего машинной обработке. Синтаксис XML не несёт семантической нагрузки.
XML Schema определяет ограничения на структуру XML-документа. Стандартный синтаксический анализатор языка XML в состоянии проверить произвольный XML-документ на соответствие его структуры, так называемой схеме документа, описанной в XML Schema.
RDF (Recourse Description Framework) обеспечивает гибкий и универсальный метод описания связанных данных, представляемых в виде триплетов (triples). Триплеты – структура, лежащая в основе любых выражений RDF, состоит из субъекта, предиката (свойства) и объекта. Каждый триплет представляет объявление отношения между предметами, обозначенными как узлы, которое их связывает (рисунок 3) [10].
-
Триплет RDF
Набор триплетов называется RDF графом. Направление дуги имеет значение: оно всегда идет к объекту. Узлы RDF графа – это объекты и субъекты.
Узлами могут быть URI с дополнительным идентификатором фрагмента (URI ссылка), литералом или пустым (не имеющим отдельной формы идентификации). URI могут быть достаточно длинными, поэтому в различных RDF–нотациях они обычно сокращаются посредством использования концепции пространств имён, как в XML. Правила для пространств имён зависят от используемого синтаксиса записи RDF и являются инструментом для более короткой записи длинных URI. Нотации RDF: N-triples, N3, RDF/XML, RDFa, Turtle, JSON LD.
RDFS (RDF Schema) – язык для описания словарей, или упрощенных онтологий в RDF, предоставляющий механизмы для описания групп взаимосвязанных ресурсов и отношений между ресурсами [14]. Средства языка RDF Schema представлены как специализированный набор RDF-ресурсов с их собственными специфическими смыслами. RDFS предназначен для представления примитивов, которые требуются для описания словаря. Описание получается путем выражения набора объектов для расширений классов и свойств. RDFS позволяет определить классы ресурсов и свойства как элементы словаря и специфицировать, какие свойства, с какими классами могут быть использованы. RDFS служить фундаментом для языков описания онтологий, которые позволяют адаптировать системы логики и обеспечить семантическую обработку данных.
OWL (язык web-онтологий) – язык для определения и представления сетевых онтологий, может включать описания классов, для придания большего смысла RDF-предикатам. Язык OWL строится на основе языков RDF и RDFS. Документы, написанные на языке OWL, обычно называются OWL-онтологиями и являются RDF-документами. Класс – это концепция в онтологии. Классы являются основными блоками OWL и обычно образуют таксономическую иерархию (систему подкласс-надкласс).
Приложения могут использовать указанные классы, чтобы, в соответствии с соглашением относительно их смысла, делать выводы относительно данных. Отношения между классами определяют такие свойства [7]:
-
симметричность:
и свойства
; -
транзитивность:
и свойства
; -
функциональность:
и свойства
.
Для языка OWL есть расширение OWL 2 (неофициально). OWL 2 добавляет новую функциональность относительно OWL.
Разработка слоя Rules (слоя правил) потребовала внесения изменений в слои предыдущих уровней, а также поиска новых выразительных и простых средств спецификации отношений и средств для спецификации запросов к базам знаний с возможностью фильтрации получаемых результатов, аналогичных SQL. Так W3C был принят стандарт SPARQL для запросов к данным. SPARQL (SPARQL протокол и язык RDF-запросов) – это язык запросов и протокол для RDF. Базу SPARQL запроса составляют шаблоны троек.
Логический вывод (Logic) используется для обеспечения связности и корректности информации, а также для получения новых данных. Доказательства (Proof) отслеживают и объясняют шаги логического вывода. Заслуживающий доверия семантический паутины (Trusted SW) – средства, выполняющие аутентификацию, проверку достоверности информации, надежности сервисов и агентов.
Отметим особенности использование Semantic Web [7]:
-
семантический поиск. Поисковая система сможет выдавать только те сайты, где упоминается в точности искомое понятие, а не произвольные страницы, в тексте которых встретилось данное многозначное ключевое слово;
-
объединение знаний (интеграция баз данных). С помощью URI-идентификатора, появляется возможность каждому выражать новые понятия. А универсальность логического языка позволит постепенно связать все эти понятия в универсальную сеть;
-
всепроникающие вычисления (ubiquitous computing). Расширение сфер влияние на физический мир.
Важной особенностью Semantic Web является то, что нет никакой четкой или обязательной структуры, как в мире реляционных данных, где зафиксированы типы отношений между элементами данных и данные хранятся в соответствии с моделью.
и свойства
;
и свойства
;
. 














