Вопросы ГЭК 2009new (1094840), страница 22
Текст из файла (страница 22)
Таким образом, сферы информационного обеспечения:
-
Внемашинная сфера (внемашинная информационная база и средства организации и ведения внемашинной информационной базы)
-
Внутримашинная сфера (внутримашинная информационная база и средства организации и ведения внутримашинной информационной базы)
Внемашинная информационная база служит источником формирования внутримашинной информационной базы. Наиболее важными вопросами подготовки внемашинного информационного обеспечения предметной области являются:
-
определение состава документов, содержащих необходимую информацию для решения задач пользователя;
-
определение форм документов и структуры информации (выявление структурных единиц информации и их взаимосвязей);
-
классификация и кодирование информации, обрабатываемой в задачах пользователя;
-
разработка инструктивных и методических материалов по ведению документов информации для обработки.
К средствам организации и ведения внемашинной информационной базы относятся:
-
Системы классификации и кодирования информации
-
Унифицированные системы документов
-
Инструктивные и методические материалы по ведению документов
К внутримашинной информационной базе относятся:
-
базы данных;
-
базы знаний;
-
отдельные невзаимозависимые массивы входных, выходных и промежуточных данных, хранимых на машинном носителе.
К средствам организации и ведения внутримашинной информационной базы относятся:
-
программные средства организации и ведения внутримашинной информационной базы (системы, основанные на концепциях база данных и баз знаний, программные средства ввода и контроля данных, сервисные средства копирования и архивирования, прикладные программы пользователя и т.п.);
-
технологические инструкции по ведению информационной базы на машинных носителях.
База данных – организованная совокупность данных, состоящая из связанных между собой данных об объектах некоторой предметной области, их свойствах и характеристиках.
База знаний – организованная совокупность знаний, относящихся к какой-нибудь предметной области, представленная определенной структурой.
Данные - информация фактического характера, описывающая объекты, процессы и явления предметной области, а также их свойства.
Знания описывают не только отдельные факты, но и взаимосвязи между ними. В компьютере знания должны быть представлены определенными структурами данных, соответствующими среде разработки интеллектуальной информационной системе. По своей природе знания делятся на декларативные и процедурные. Декларативные знания представляют собой описания фактов и явлений, фиксируют наличие или отсутствие таких фактов, также включают описания основных связей и закономерностей, в которые эти факты и явления входят. Процедурные знания – это описания действий, которые возможны при манипулировании фактами и явлениями для достижения намеченных целей.
Система управления базами данных (СУБД) - программное средство, предназначенное для организации и ведения логически взаимосвязанных данных на внешнем носителе, а также обеспечивающее доступ к данным.
Интеллектуальная информационная система основана на концепции использования баз знаний для генерации алгоритмов решения прикладных задач различных классов в зависимости от конкретных информационных потребностей пользователей.
К функциям СУБД относят следующие (к лекции по СУБД):
-
управление данными непосредственно в БД – функция, обеспечивающая хранение данных, непосредственно входящих в БД и служебной информации, обеспечивающей работу СУБД;
-
управление данными в памяти компьютера – функция, связанная в первую очередь с тем, что СУБД работают с БД большого размера. В целях ускорения работы СУБД используется буферизация данных в оперативной памяти компьютера. При этом пользователь получает только необходимую для его конкретной задачи часть БД, а при необходимости получает новую «порцию» данных;
управление транзакциями – функция СУБД, которая производит ряд операций над БД, как единым целым. Транзакция – это последовательность операций над БД, рассматриваемых СУБД как единое целое. Транзакция переводит БД из одного целостного состояния в другое.
-
управление изменениями в БД и протоколирование – функция, связанная с надежностью хранения данных, то есть возможностью СУБД восстанавливать состояние БД в аварийных ситуациях, например, при случайном выключении питания или сбое носителя информации. Для восстановления БД нужно располагать дополнительной информацией, по которой осуществляется восстановление. С этой целью ведется протокол изменений БД, в которой перед манипуляциями с данными делается соответствующая запись. Для восстановления БД после сбоя СУБД используется протокол и архивная копия БД – полная копия БД к моменту начала заполнения протокола.
-
поддержка языков БД - для работы с БД используется специальные языки, в целом называемые языками баз данных. В СУБД обычно поддерживается единый язык, содержащий все необходимые средства – от создания БД до обеспечения пользовательского интерфейса при работе с данными. Наиболее распространенным в настоящее время языком СУБД является язык SQL (Structured Query Language).
Модели управления передачей, обработкой и хранением данных. В информационных системах.
Как правило, компьютеры и программы, входящие в состав информационной системы, не являются равноправными. Некоторые из них владеют ресурсами (файловая система, процессор, принтер, база данных и т.д.), другие имеют возможность обращаться к этим ресурсам. Компьютер (или программу), управляющий ресурсом, называют сервером этого ресурса (файл-сервер, сервер базы данных, вычислительный сервер...). Клиент и сервер какого-либо ресурса могут находиться, как в рамках одной вычислительной системы, так и на различных компьютерах, связанных сетью.
Основной принцип технологии "клиент-сервер" заключается в разделении функций приложения на три группы:
-
ввод и отображение данных (взаимодействие с пользователем);
-
прикладные функции, характерные для данной предметной области;
-
функции управления ресурсами (файловой системой, базой данных и т.д.)
Поэтому, в любом приложении выделяются следующие компоненты:
-
компонент представления данных
-
прикладной компонент
-
компонент управления ресурсом
Связь между компонентами осуществляется по определенным правилам, которые называют "протокол взаимодействия".
Компанией Gartner Group, специализирующейся в области исследования информационных технологий, предложена следующая классификация двухзвенных моделей взаимодействия клиент-сервер (двухзвенными эти модели называются потому, что три компонента приложения различным образом распределяются между двумя узлами):
Исторически первой появилась модель распределенного представления данных, которая реализовывалась на универсальной ЭВМ с подключенными к ней неинтеллектуальными терминалами. Управление данными и взаимодействие с пользователем при этом объединялись в одной программе, на терминал передавалась только "картинка", сформированная на центральном компьютере.
Затем, с появлением персональных компьютеров (ПК) и локальных сетей, были реализованы модели доступа к удаленной базе данных. Некоторое время базовой для сетей ПК была архитектура файлового сервера. При этом один из компьютеров является файловым сервером, на клиентах выполняются приложения, в которых совмещены компонент представления и прикладной компонент (СУБД и прикладная программа). Протокол обмена при этом представляет набор низкоуровненых вызовов операций файловой системы. Такая архитектура, реализуемая, как правило, с помощью персональных СУБД, имеет очевидные недостатки - высокий сетевой трафик и отсутствие унифицированного доступа к ресурсам.
С появлением первых специализированных серверов баз данных появилась возможность другой реализации модели доступа к удаленной базе данных. В этом случае ядро СУБД функционирует на сервере, протокол обмена обеспечивается с помощью языка SQL. Такой подход по сравнению с файловым сервером ведет к уменьшению загрузки сети и унификации интерфейса "клиент-сервер". Однако, сетевой трафик остается достаточно высоким, кроме того, по прежнему невозможно удовлетворительное администрирование приложений, поскольку в одной программе совмещаются различные функции.
Позже была разработана концепция активного сервера, который использовал механизм хранимых процедур. Это позволило часть прикладного компонента перенести на сервер (модель распределенного приложения). Процедуры хранятся в словаре базы данных, разделяются между несколькими клиентами и выполняются на том же компьютере, что и SQL-сервер. Преимущества такого подхода: возможно централизованное администрирование прикладных функций, значительно снижается сетевой трафик (т.к. передаются не SQL-запросы, а вызовы хранимых процедур). Недостаток - ограниченность средств разработки хранимых процедур по сравнению с языками общего назначения (C и Pascal).
На практике сейчас обычно используются смешанный подход:
-
простейшие прикладные функции выполняются хранимыми процедурами на сервере
-
более сложные реализуются на клиенте непосредственно в прикладной программе
На сегодня при создании ИС популярна концепция "тонкого клиента", функцией которого остается только отображение данных (модель удаленного представления данных). Данная концепция базируется на разработке компании MS Active Server Pages (ASP), основной целью которой является создание встроенных в Web-страницы серверных сценариев. Использование данной технологии позволяет использовать в стандартном тексте HTML-страниц фрагменты кода, которые будут выполняться непосредственно на Web-сервере. При этом пользователю будет представляться сформированная на основании приведенных действий ASP Web-страница.
В последнее время также наблюдается тенденция ко все большему использованию модели распределенного приложения. Характерной чертой таких приложений является логическое разделение приложения на две и более частей, каждая из которых может выполняться на отдельном компьютере. Выделенные части приложения взаимодействуют друг с другом, обмениваясь сообщениями в заранее согласованном формате. В этом случае двухзвенная архитектура клиент-сервер становится трехзвенной, а в некоторых случаях, она может включать и больше звеньев.
Оперативная аналитическая обработка данных: концепции и технологии.
В любой информационной системе (ИС) в той или иной степени присутствуют Подсистемы (системы) Поддержки Принятия Решений (СППР, DSS (Decision Support System)).
СППР можно, в зависимости от данных, c которыми они работают, разделить на оперативные, предназначенные для немедленного реагирования на текущую ситуацию, и стратегические - основанные на анализе большого количества информации из разных источников с привлечением сведений, содержащихся в системах, аккумулирующих опыт решения проблем.
СППР первого типа получили название Информационных Систем Руководства (Executive Information Systems, ИСР). По сути, они представляют собой конечные наборы отчетов, построенные на основании данных из транзакционной информационной системы предприятия или OLTP-системы (On-line transaction processing), в идеале адекватно отражающей в режиме реального времени все аспекты производственного цикла предприятия. Для ИСР характерны следующие основные черты:
-
отчеты, как правило, базируются на стандартных для организации запросах; число последних относительно невелико;
-
ИСР представляет отчеты в максимально удобном виде, включающем, наряду с таблицами, деловую графику, мультимедийные возможности и т. п.;
-
как правило, ИСР ориентированы на конкретный вертикальный рынок, например финансы, маркетинг, управление ресурсами.
СППР второго типа или предполагают достаточно глубокую проработку данных, специально преобразованных так, чтобы их было удобно использовать в ходе процесса принятия решений. СППР этого уровня может включать следующие компоненты:
-
информационное хранилище данных (Data Warehouse)
-
подсистему извлечения, преобразования и загрузки (импорта) данных (ETL – Extracting Transformating and Loading)
-
подсистемы анализа (OLAP и Data Mining).
Сравнительный анализ OLTP и систем анализа
Характеристика | Требования OLTP | Требования систем анализа |
Степень детализации хранимых данных | Детализированные данные, затрагиваются отдельные записи | Детализированные и обобщенные данные, выполняются запросы над большим количеством данных с применением группировок и агрегирования |
Качество данных | Допускаются «грязные» данные из-за ошибок ввода | Не допускаются ошибки в данных |
Формат хранения данных | Разный формат данных в зависимости от приложений | Единый согласованный формат хранения данных |
Избыточность данных | Максимальная нормализация | Допускается денормализация |
Время обработки обращений к данным | Режим реального времени | Допускается отклик через несколько минут |
Характер запросов к данным | Регламентированные запросы | Запросы к данным могут быть произвольными и заранее не оформлены |
Управление данными | Возможность добавления, удаления, изменения данных | Возможность добавления, данных |
Информация, на основе которой принимается решение, должна быть достоверной, полной, непротиворечивой и адекватной. В СППР второго типа традиционная технология подготовки интегрированной информации на основе запросов и отчетов стала неэффективной из-за резкого увеличения количества и разнообразия исходных данных.