46364 (630418), страница 3
Текст из файла (страница 3)
Неограниченный доступ ко всем данным;
Неограниченный доступ к группе данных;
Ограниченный доступ к группе данных. С ограничением как у субъекта, так и по видам операций.
Подход к управлению доступом.
Использование ключей и замков (идентификация и аутентификация пользователя). Идентификация – характеристики пользователя, которые его определяют. Идентификация позволяет определить себя пользователю, сообщив своё имя. Замок (средство аутентификации) позволяет 2-йстороне (ПК) убедиться что субъект – тот, за кого себя выдаёт.
Способы идентификации:
Пароль, личный идентификационный номер или криптографический ключ и т.д.;
Личная карточка;
Голос или отпечатки пальцев;
Нечто, ассоциируемое с субъектом.
Наиболее распространённый способ – использование паролей, когда аутентификация реализуется в программном обеспечении. Символически алгоритм аутентификации можно представить:
Выход в зависимости от
количества пользователей
Преимущество этого метода – гибкость, доступность и простота реализации.
Недостатки:
Нужно многократно вводить пароль;
Изменение замка оказывает влияние на большое число пользователей;
Замок управления может реализовать только то лицо, которое разрабатывает данное ПО.
Повышение надёжности парольной защиты осуществляется:
Пароль должен быть не слишком коротким и использовать различные символы;
Периодически менять пароли;
Если пароли не встроены в программу, а реализованы в виде файла, то ограничить доступ к файлу паролями;
Если возможны ошибки в пароле, то нужно ограничить число повторных вводов пароля;
Использование генераторов паролей, которые позволяют формировать благозвучные (хорошо запоминающиеся) пароли.
Если в качестве идентификатора используется личная карточка, для аутентификации используется устройство, называемое токеном – устройство, владение которым позволяет определить подлинность пользователя.
2 вида токенов:
Пассивные (токены с памятью);
Активные (интеллектуальные) токены.
Наиболее распространенными в силу дешевизны являются токены 1-го класса. Это устройства с клавиатурой и процессором, а личная карточка снабжена магнитной полосой. При использовании этого токена пользователь с клавиатуры вводит свой идентификационный номер, который проверяется процессором на совпадение с карточкой и далее проверяется подлинность самой карточки. Недостатки: дороговизна, использование специальных устройств чтения, неудобство использования. 22.Кластерные текстовые файлы.
Документы разбиваются на родственные группы, которые называют кластерами или классами. Каждый класс описывается центроидом (профилем) и вектор запроса прежде всего сравнивается с центроидами класса.
Преимущества:
Возможен быстрый поиск, т.к. число классов, как правило, невелико;
Возможно интерактивное сужение (расширение) поиска за счёт исключения или добавления дополнительных кластеров.
Недостатки:
Необходимость формировать кластеры;
Необходимость введения файла центроидов;
Дополнительный расход памяти для файла центроидов или профилей.
23.Основные способы определения центроидов.
1. Логический профиль (обозначается Р1).
Заданы вектора документов в следующем виде:
VDi = (d1 , d2 , d3 , … , dt), где t – число индексационных терминов, выделенных во всех документах нашего массива. Тогда логический профиль определяется как результат с логической “или”:
Р1 = VD1 v VD2 v VD3 v …
1, если термин tk входит в вектор документа Di;
dk (k = 1,t) = 0, в противном случае.
2.Профиль частотного документа (Р2).
Исходные данные также вектора документов. Исходная информация задана прошлой матрицей, а в формуле используются не логическое сложение, а арифметическое:
3.Профиль частотности термина (Р3).
Здесь используются веса терминов в документах:
VDi = (w1 , w2 , w3 , … , wt), где wi – веса терминов входящих в вектор документа VDi.
В вычислении Р3 участвуют веса.
Р3 (k = 1,t) = сумм(j = 1,N) wik , где j – порядковый номер документа; N – число документов кластера; t – число индексационных терминов в массиве; k – порядковый номер термина.
24. Логический способ определения центроидов.
Логический профиль (обозначается Р1).
Заданы вектора документов в следующем виде:
VDi = (d1 , d2 , d3 , … , dt), где t – число индексационных терминов, выделенных во всех документах нашего массива. Тогда логический профиль определяется как результат с логической “или”:
Р1 = VD1 v VD2 v VD3 v …
1, если термин tk входит в вектор документа Di;
dk (k = 1,t) = 0, в противном случае.
25.Профиль частотности документа.
Исходные данные также вектора документов. Исходная информация задана матрицей, а в формуле используются не логическое сложение, а арифметическое:
26.Профиль частотности термина.
Здесь используются веса терминов в документах:
VDi = (w1 , w2 , w3 , … , wt), где wi – веса терминов входящих в вектор документа VDi.
В вычислении Р3 участвуют веса.
Р3 (k = 1,t) = сумм(j = 1,N) wik , где j – порядковый номер документа; N – число документов кластера; t – число индексационных терминов в массиве; k – порядковый номер термина.
Вопрос 28(окончание).
Dp+1), если существуют пары: (Di , Dp+1) , (Dj , Dp+1) , … , (Dp , Dp+1).
Алгоритм заканчивается, когда дальнейшее слияние невозможно.
Недостаток метода: образуется большое число кластеров.
29.Метод одной связи.
Здесь классы представляются документами, между которыми установлены отношения подобия, которые подчиняются следующему требованию: между двумя документами устанавливается связь при выполнении одного из следующих условий: существуют Di , Dj,
S(Di , Dk) , S(Dk , Dj);
S(Di , Dk) , S(Dk , Dm) , S(Dm , Dj);
Самое сильное требование: S(Di , Dk) – если в матрице подобия уже существует подобие.
Если одно из условий выполняется, то документы в одном классе.
30.Кластеризация вокруг выборочных документов.
Вместо построения матрицы подобия используют плотность пространства некоторых документов. В качестве возможных центров кластера выступают те документы, которые по результатам расчётов оказались расположенными в плотных зонах пространства. Все документы в данном методе делятся на 3 класса:
Документы, уже включённые в кластеры;
Документы, ещё не подвергшиеся исследованию(не включенные в кластеры);
Свободные документы. Те документы, относительно которых делалась попытка включения в кластер, но она закончилась неудачей.
Берём документ, пробуем включить его в кластер. Если не получается, то заносим его в множество свободных документов. Далее из свободного множества пытаемся подключить документы к кластеру.
Алгоритм:
Выбирается очередной, не включённый в кластеры документ и считается возможным центром кластера;
Рассчитываются коэффициенты подобия между этим документом, документами свободного типа и документами, не включёнными в классы;
Плотность считается достаточной, если:
существует по меньшей мере n1 документов, коэффициенты подобия которых по отношению к выбранному документу превышает некоторое пороговое значение T1;
Существует по крайней мере n2 документов, коэффициенты подобия (КП) которых, по отношению к исследуемому документу превышают пороговое значение T2;
Если между n2 и T2 существует некоторое соотношение: n2>=n1; T2<=T1, тогда считается, что выбранный документ - “центр массы”, вокруг которого собраны другие документы. Если плотность недостаточна (если одно из условий не выполняется), то документ относят к свободным и аналогичным образом исследуют следующий документ из множества не включенных в кластеры. Если плотность достаточна, то формируют кластер, включающий все свободные документы и не включённые ранее в кластеры документы, для которых КП с исследуемым документом не меньше порогового значения T3. Для нового кластера строится вектор центроида, и все документы, включённые в этот кластер и те, которые включены в остальные кластеры сопоставляются с данным центроидом. Это сопоставление служит для отнесения каждого документа к одной из следующих категорий:
Вопрос 33(окончание).
Фиксированная адаптация. При этом пользователь сам явно выбирает свой уровень подготовки;
Полная адаптивность. Здесь диалоговая система строит модель пользователя, которая меняется автоматически по ходу работы системы.
Косметическая. Занимает промежуточное место между фиксированной полной и достигается использованием специальных приёмов:
Приём использования сокращений (md – mkdir , cd – chdir , *.bak);
Синонимы – пользователь выбирает то, что ему ближе;
Использование объектов по умолчанию и макросы.
34.Естественность и последовательность как критерии хорошего диалога.
Естественность – свойство диалога, в соответствии с которым пользователю не нужно менять свои традиционные способы решения задачи.
Свойство включает следующие аспекты:
Диалог должен вестись на родном языке пользователя;
Стиль ведения диалога должен быть разговорным, т.е. имеется в виду краткость;
Фразы не должны требовать дополнительных пояснений;
Допускается использование жаргона пользователя;
Порядок ведения диалога должен соответствовать порядку, которым обычно пользователь обрабатывает информацию;
Должна быть исключена предварительная обработка данных перед их вводом в систему.
Последовательность.
Это свойство гарантирует, что пользователь, освоивший работу в одной части системы не запутается, работая в другой её части.
Выражается в 3-х явлениях:
Последовательность в построении фраз. Т.е. вводимые коды или команды в системе всегда трактуются одинаково;
Последовательность в использовании форматов данных - аналогичные поля всегда представляются в одном формате (противоречит требованию гибкости);
Последовательность в размещении данных на экране.
Рекомендуется следующий шаблон для оформления экрана:
Вверху в 2-х, 3-х строках помещается заголовок и данные о состоянии системы;
Далее, под заголовком размещается область для вывода справочных сообщений;
Основная область – для рисования или для ввода данных;
Ниже – область для вывода сообщений об ошибках;
Описание функциональных клавиш.
Вопрос 37(окончание).
Командный язык (MS – DOS).
Используется для организации диалога с операционной системой. Требует хорошей квалификации пользователя и команды должны нести смысловую нагрузку.
Параметры командного языка могут быть 2-х типов: позиционные и ключевые.
Применение такого диалога:
Число значений для ввода мало и их можно запомнить;
Задача не требует много данных на вводе;
Опытность пользователя.
Экранная форма.
Позволяет получить сразу всю информацию от пользователя, поскольку он отвечает сразу на несколько вопросов. И, следовательно:
Она быстрее работает;
Может работать с более широким диапазоном данных, чем меню;
Может использоваться пользователем любой квалификации.
Широко используется в Windows.
38.Задача морфологического анализа естественно-языковых текстов.
Морфологический анализ (МА) – выделяет гипотетические основы слов и приписывает им различные грамматические категории. Может включать в себя морфографический анализ;
МА выполняется 2-мя способами:
Декларативный: т.е. словарь системы содержит все всевозможные словоформы языка, с приписанными им грамматическими характеристиками. Словоформы – все возможные модификации, которые существуют в языке;
Процедурный способ проведения МА – когда МА выделяет основу слова по словоизмерительным аффиксам и приписывает этой основе необходимые грамматические характеристики.
Рассмотрим 2-й способ. Состоит из 2-х шагов:
Определение морфологического типа и части речи;
Получение списка гипотетических основ и знаний грамматических категорий.
Для реализации 1-го шага используется таблица словоизмерительных аффиксов, которая приведена в приложении (Л – любой)
39.Задача синтаксического анализа естественно-языковых текстов.
Синтаксический анализ (СА). Преследует 2 цели:
Проверка правильности построения фраз, т.е. соответствие её правилам языка;
Построение синтаксической структуры фразы, которая используется при выполнении следующей фазы – семантического анализа (СеА);
СА использует правила сочетаемости грамматических категорий, например, по числу, падежу и правила построения типичных языковых конструкций.
В зависимости от направления СА он может быть левосторонним и правосторонним. В 1-ом случае исходная фраза анализируется слева направо, во втором – справа налево.
2-й подход классификации: в зависимости от правил применения продукций различают:
восходящий СА (свёртка) – дерево разбора строится от листьев к корню;
нисходящий СА (развёртка) – дерево разбора строится от корней к листьям.
42.Постановка задачи семантического анализа .
Выявляет смысл предложения и отвергает те фразы, которые бессмысленны для данной предметной области. При выполнении СеА используется база знаний(БЗ) по предметной области, представленная как правила для этих задач в виде семантических сетей или фреймов.
Грамматика фразы: “Зелёные идеи яростно спят.”.
Это результат СА структуры.
Семантический анализатор на основе дерева строит следующую семантическую сеть:
Идеи Что делают Спят
Какие как
Зелёные Яростно
Эти связи возникли:
Из-за свёртки глагола и наречия в группу глагола (нагружается весом “как”);
Из-за свёртки прилагательного и существительного в группу существительного и нагружается весом “какие”, т.к. прилагательное в предложении как правило является определением;
Из-за свёртки группы существительного и группы глагола в предложение и нагружается весом “что делают”, т.к. эта связка связывает существительное и глагол в предложении.
Построенная семантическая сеть называется ситуативной и возникает в системе по мере прихода и анализа естественно-языковых фраз. Одновременно с ситуативными фразами, в системе существует БЗ, включающая парадигматические отношения между понятиями предметной области, которые тоже представлены некоторой семантической сетью.
Рисунок в приложении.
Между этими вершинами существуют связи, которые носят аналоговый характер. Наша ситуативная семантическая сеть проецируется на БЗ, которая присутствует в системе. Возникают следующие противоречия:
“идеи” и “спят” относятся к таким классам, где существует отношение с весом “никогда”. Аналогично между “идеи и зелёные” и “спят и яростно ” никогда не установятся семантические отношения. Т.о. в исходной фразе найдены 3 противоречия, в соответствии с которыми она отвергается как семантически некорректная.
При фреймовом подходе:
К решению задач СеА, с каждым слотом связывается правило, по которому формируется его значение;
Выбор конкретного фрейма при анализе определяется некоторыми ключевыми словами во фразе, роль которых как правило играют глаголы.
С СеА тесно связана интерпретация понятий. Если фраза корректна, то каждому понятию даём поле БД, например, у нас было бы 4 поля (А,В,С,Д), т.е. заполнение информации в БД.
Вопрос 45(окончание).
Активные токены имеют собственную вычислительную мощность, т.е. способность не только к памяти, но и анализу. Пользователь вводит свой идентификационный номер, а дальнейшие действия токена определяются в зависимости от его вида:
Определяет статический обмен паролями. Пользователь вводит пароль, а затем он проверяется ПК;
Динамическая организация пароля. В ПК и в токене установлены синхронно работающие системы генерации паролей.
Запросно-ответная система. ПК выдаёт случайное число, которое преобразуется криптографическим механизмом, встроенным в токен. После чего этот пароль возвращается в ПК. Пользователь вводит его либо вручную, либо через электронный интерфейс.
Достоинство: обеспечивают ежедневно меняющийся пароль.
Недостаток: дороговизна.
Голос или отпечатки пальцев (сетчатка глаза). Средства биологической аутентификации очень сложны и используются в специальных случаях, когда объекту требуется дополнительное обеспечение безопасности.
Аутентификация путём определения координат. Целесообразно использовать для распределённых систем (клиент-сервер). Сервер аутентификации на основании положения спутника по имени ПК в сети определяет его географическое местоположение с точностью до метра.
2-й подход управления доступом:
Таблица управления доступом (таблица безопасности).
Поддерживается в локальных или распределённых БД и могут поддерживаться ОС.
Структура таблицы показана в приложении.
Определяются операции, которые доступны.
Достоинства: возможность построения таблицы пользователя, простота изменения, отсутствие необходимости многократного указания ключей.
Протоколирование и аудит.
3-й подход к управлению доступом.
Протоколирование – сбор и накопление информации о событиях, происходящих в информационной системе предприятия.
Аудит – периодический анализ накопленной информации.
Цели подхода:
Обеспечение подотчётности пользователей и администрации;
Обнаружение попыток нарушения ИБ.
Шифрование или криптографическое кодирование.
Экранирование.
Скрытие данных на экране (физически информация остаётся, но ёе не видно).
27.Постановка задачи кластеризации документов.
Задача кластеризации состоит в том, чтобы разнести документы по группам таким образом, чтобы документы одной группы были достаточно сходны друг с другом, так, чтобы индивидуальными различиями можно было пренебречь.
1.Нахождение КЛИК.
Клика – такой вид кластера, в котором каждый документ подобен любому другому документу. Клика формируется тогда, когда возникает полный граф, т.е. полное соотношение подобия между всеми элементами.
А В
С Д
Исходными данными для метода является матрица подобия документа массива, которая заполняется коэффициентами подобия всех пар документов.
Матрица: S(Di , Dj) – диагональная квадратная и симметричная.
i = 1,N ; j = 1,N.
Пусть задано множество пар:
VDi = {(ti , wi)}
VDj = {(tj , wj)}
Коэффициент подобия документов определяется:
S(Di , Dj) = сумм(k =1,N)rk/N
r – отношение; N – мощность множества документов.
0, wi = 0 или wj = 0
rk = wi / wj в противном случае
Чтобы задача решалась адекватно, вектора (*) должны быть упорядочены по терминам, т.е. одни и те же термины должны быть записаны в одних и тех же позициях этих векторов. Исходная матрица, которая получена в результате расчётов, преобразуется в бинарную следующим образом: вводится некоторое пороговое значение T коэффициента подобия, и те коэффициенты, которые меньше его заменяются на 0, в противном случае на 1:
S(Di , Dj) 0
S(Di , Dj) > T , => 1
2.Метод одной связи.
Здесь классы представляются документами, между которыми установлены отношения подобия, которые подчиняются следующему требованию: между двумя документами устанавливается связь при выполнении одного из следующих условий: существуют Di , Dj,
S(Di , Dk) , S(Dk , Dj);
S(Di , Dk) , S(Dk , Dm) , S(Dm , Dj);
Самое сильное требование: S(Di , Dk) – если в матрице подобия уже существует подобие.
Если одно из условий выполняется, то документы в одном классе.
3.Кластеризация вокруг выборочных документов.
Вместо построения матрицы подобия используют плотность пространства некоторых документов. В качестве возможных центров кластера выступают те документы, которые по результатам расчётов оказались расположенными в плотных зонах пространства. Все документы в данном методе делятся на 3 класса:
Документы, уже включённые в кластеры;
Документы, ещё не подвергшиеся исследованию(не включенные в кластеры);
Свободные документы. Те документы, относительно которых делалась попытка включения в кластер, но она закончилась неудачей.
Берём документ, пробуем включить его в кластер. Если не получается, то заносим его в множество свободных документов. Далее из свободного множества пытаемся подключить документы к кластеру.















