1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 18
Текст из файла (страница 18)
При оценке качества реальных систем наиболее часто используются лишь коэффициенты полноты и точности. Ясно, что и точность поиска, и его полнота зависят не только от свойств поисковой системы, но и от правильности построения конкретного запроса, а также от субьективного представления пользователя о том, что такое нужная ему информация. Однако при желании можно вычислить и средние значения полноты и точности для конкретной системы, протестировав се на эталонной базе документов. Очевидно, хорошая поисковая система должна иметь как можно большие полноту и точность, желательно — 100%, т.
е. находить все нужные документы и ни одного лишнего, Однако стопроцентное качество поиска невозможно, потому что на фиксированном уровне мощности поискового средства все попытки улучшить один из этих параметров приводят к ухудшению другого ~см. рис.
4.б.) 80 О 20 40 60 80 100 л,% Рис. 4.б. Пример зоеисииости между коэффициентами полноты и точности Наряду с перечисленными показателями, которые основаны на сопряженности релевантности и выдачи, целесообразно использовать также и другие показатели эффективности, что обычно и делается на практике. К основным из пих следует отнести: быстродействие ДИПС 1интервал времени между моментом формулировки запроса и получением ответа на него); Базы данных. Интеллектуальная обработка информации пропускная способность (оценивается количеством вводимых докумен- тов и количеством ответов в единицу времени при заданных значениях коэффициентов полноты и точности); производительность (оценивается количеством пользователей системы н частотой обращения с их стороны); надежность работы (оценивается вероятностью того, что система будет выполнять свои функции при заданных условиях в течение требуемого времени).„ тип запросов, обслуживаемых системой.
Глава 5. Семантическое моделирование в базах данных 5Л. Основные подходы к моделированию в базах данных Первоначально в теории БД основное внимание уделялось средствам эффективной организации данных и манипулирования ими. В результате возникли три основные модели данных: иерархическая, реляционная и сетевая. При этом явно или неявно предполагалось, что предложенные средства достаточно универсальны для представления знаний или информации о любых предметных областях. Так, и сегодня приверженцы получившей наибольшее распространение реляционной модели зачастую утверждают, будто табличная форма представления данных является наиболее удобной и интуитивно понятной проектировщику.
Однако проектирование базы данных в терминах этих моделей часто сводится к очень сложному и неудобному для проектировщика процессу, поскольку эти модели не содержат достаточных средств представления смысла данных. Семантика реальной предметной области должна независимым от модели способом представляться в сознании проектировщика. Такое положение вещей приводит к замедлению процесса разработки БД и является источником потенциальных ошибок, По этой причине в последние годы получило развитие направление, являвшееся предметом активных исследований в конце 70-х — начале 80-х годов,— семантическое, или концептуальное, моделирование в базах данных. Его основная цель — организация интерфейса проектировщика, а также конечного пользователя с информационной системой на уровне представлений о предметной области ~ПО), а не на уровне структур данных. Интерес к этому направлению возрос в связи с развитием средств автоматизированного проектирования БД на основе САБЕ-технологий.
В настоящее время определился основной подход к решению задач семантического моделирования в базах данных, Он заключается в выделении двух уровней моделирования: уровня концептуального моделирования ПО и уровня моделирования собственно базы данных ~22). На верхнем уровне осуществляется переход от неформализованноп'. описания ПО и информационных потребностей конечного пользователя к их формальному выражению с помощью специальных языковых средств. На нижнем — преобразование концептуальной модели ПО в схему БД и нормализация схемы БД. Базы данных. Интеллектуальная обработка информации 5.2. Предметная область и семантика предметной области Понятие "предметная область" является базисным понятием в теории БД и поэтому нс имеет строгого определения.
Чтобы выяснить его смысл, обратимся к понятиям объект и предмет. Объект — то, что существует вне нас и независимо от нашего сознания, явление внешнего мира, материальной действительности. Объекты потенциально обладают огромным количеством свойств и находятся в потенциально бесконечном числе взаимосвязей друг с другом. Однако среди всего множества свойств и взаимосвязей между объектами имеет смысл выделять лишь существенные, важные с точки зрения потребителя информации. Предмет — объект, ставший носителем определенной совокупности свойств и входящий в различные взаимоотношения, которые представляют интерес для потребителей информации.
Один и тот же объект может восприниматься разными системами как разные предметы. Таким образом, предмет — это модель реального объекта. Совокупность объектов, информация о которых представляет интерес для пользователей, образует объектное ядро предметной области. Понятие "предметная область" соответствует точке зрения потребителей информации на объектное ядро, при которой выделяются только те свойства объектов и взаимосвязи между ними, которые представляют определенную прагматическую ценность и должны фиксироваться в базе данных. Таким образом, яредчетпая область представляет собой абстрактную картину реальной действительности, определенная часть которой фиксируется в качестве модели фрагмента действительности.
В каждый момент времени ПО находится в одном из состояний, которое характеризуется совокупностью объектов и их взаимосвязей. Если объекты образуют объектное ядро, то совокупность взаимосвязей отражает структуру фрагмента действительности. С течением времени одни объекты исчезают, другие появляются, меняются свойства и взаимосвязи. Тем не менее, возникающие новые состояния считаются состояниями одной и той же ПО.
Таким образом„ПО целесообразно рассматривать как систему, переживающую свою историю. которая состоит из определенной последовательности состояний. Введя пространство состояний, можно рассматривать в нем определенные траектории или последовательности состояний зо,я,....,я,, в которых находится ПО в моменты времени 0,1,...4. Члены такой последовательности не могут быть совершенно произвольными, поскольку состояние я, обычно каким-либо образом связано с предшествующими состояниями ао, з„...,ь, г Поэтому ПО можно Глава 5.
Семантическое. моделирование в базах данньис определить как класс всех действительно возможных последовательностей состояний. Такие последовательности называются траекториями ПО. Совокупность всех общих свойств траекторий называется семантикой предметной обласпш. 5.3. Концептуальные средства описания предметной области Поскольку объектное ядро произвольной ПО потенциально содержит бесконечное число объектов, которые находятся в потенциально бесконечном множестве взаимосвязей, ясно, что прямой подход к описанию ПО через описание всех обьектов и взаимосвязей между ними обречен на провал.
Очевидной альтернативой в этой ситуации является подход к описанию ПО, фиксирующий только то общее, что является неизменным и характеризует ПО в любой момент времени или, говоря иными словами, отражающий семантику ПО. Отсюда следует, что необходимы специальные средства описания ПО, которые были бы применимы к любым ПО, достаточно просто интерпретировались людьми в конкретном фрагменте внешнего мира и одновременно являлись точными, структурированными и обозримыми (конечными). Последнее условие обеспечивает возможность применения ЭВМ. Приспособленность указанных средств для описания любой ПО означает, что они обязаны быть достаточно универсальными.
Для обеспечения универсализма необходима высокая общность, абстрактность системы базисных метапонятий и правил порождения новых понятий, которые допускают интерпретацию в любой ПО. В силу своей абстрактности средства описания ПО стали называться концептуальными. Поэтому в теории БД принято говорить о концептуальном, или информационно-логическом моделировании ПО. Результатом процесса моделирования является концептуальная схема (модель) ПО. Далее изложена суть подхода, предложенного М. Ш, Цаленко ~22], характерной чертой которого является то, что в нем впервые сведены воедино различные идеи, развитые во многих семантических моделях БД. 5.3.1.
Понятие типа Тип — это понятие, объединяющее все объекты данного типа. В отличие от объекта, существующего в конкретный момент в конкретном месте, тип не имеет пространственно-временной локализации. Он охватывает все существовавшие, существующие и мыслимые объекты, относимые к данному типу. Типы обеспечивают непротиворечивое объединение локальных "точек зрения" различных групп пользователей. Базы данных.
Инпюеллектуалвная обраО>пка информации Понятие типа не следует путать с понятием множества. По Кантору, под множеством М понимается любое объединение в одно целое определенных вполне различаемых объектов из нашего восприятия или мысли, которые называются элементами множества М [251. Т.е. между элементом множества и самим множеством существует отношение "часть — целое". Тип же является абстракцией реальных объектов, т.е.