Вопросы ГЭК 2009new (1094840), страница 26
Текст из файла (страница 26)
Система кодирования - совокупность правил кодового обозначения объектов.
Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:
-
длиной - число позиций в коде (может быть постоянная и переменная);
-
структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака.
Можно выделить две группы методов, используемых в системе кодирования объектов которые образуют:
-
классификационную систему кодирования, ориентированную на проведение предварительной классификации объектов либо на основе иерархической системы, либо на основе фасетной системы;
-
регистрационную систему кодирования, не требующую предварительной классификации объектов
Различают последовательное и параллельное классификационное кодирование.
Последовательное кодирование используется для иерархической классификационной структуры. Параллельное кодирование используется для фасетной системы классификации.
Регистрационное кодирование используется для однозначной идентификации объектов и не требует предварительной классификации объектов. Различают порядковую и серийно-порядковую систему.
Порядковая система кодирования предполагает последовательную нумерацию объектов числами натурального ряда. Этот порядок может быть случайным или определяться после предварительного упорядочения объектов, например по алфавиту. Этот метод применяется в том случае, когда количество объектов невелико, например кодирование названий факультетов университета, кодирование студентов в учебной группе.
Серийно-порядковая система кодирования предусматривает предварительное выделение групп объектов, которые составляют серию, а затем в каждой серии производится порядковая нумерация объектов. Каждая серия также будет иметь порядковую нумерацию. По своей сути серийно-порядковая система является смешанной: классифицирующей и идентифицирующей. Применяется тогда, когда количество групп невелико.
Рассмотрим основные идеи методов классификации для создания систем классификации и кодирования.
Иерархическая система классификации — самая традиционная. Она имеет структуру «древа знаний», в котором определенная совокупность знаний (универсум) последовательно делится на все более узкие подклассы. Существует много универсальных иерархических классификаций, охватывающих сразу все отрасли человеческих знаний.
Например, в библиографической практике наиболее широко используются Библиотечно-библиографическая классификация (ББК), Универсальная десятичная классификация (УДК), Классификация для массовых библиотек и некоторые другие.
Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.
К достоинствам иерархической системы классификации можно отнести
простоту построения; использование независимых классификационных признаков в различных ветвях иерархической структуры.
А к недостаткам - жесткую структуру, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки; невозможность группировать объекты по заранее не предусмотренным сочетаниям признаков.
Суть метода последовательного кодирования заключается в следующем: сначала записывается код старшей группировки 1-го уровня, затем код группировки 2-го уровня, затем код группировки 3-го уровня и т.д. В результате получается кодовая комбинация, каждый разряд которой содержит информацию о специфике выделенной группы на каждом уровне иерархической структуры.
Фасетная система классификации (ее еще называют параллельной классификацией) в отличие от иерархической позволяет выбирать признаки классификации независимо как друг от друга, так и от семантического содержания классифицируемого объекта. Признаки классификации называются фасетами (facet - рамка). Каждый фасет (Фi) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение.
Первая фасетная классификация (Классификация двоеточием) была разработана известным индийским библиографом и библиотекарем Ш.Р. Ранганатаном в 1933 г.
Механизм построения фасетной классификации и ее использование при индексировании документов можно показать на примере классификации кинофильмов. В качестве основных фасетов для кинофильмов выделим, например, жанр, метраж, цвет и формат. В каждом фасете перечислим свойственные ему конкретные характеристики. В результате получим классификацию, представленную в таблице.
Используя методику параллельного кодирования с помощью фасетной формулы или кода можно выразить содержание документа, относящееся к кинофильму любого класса.
Например:
Ж1:М1:Ц2:Ф2 — художественный полнометражный цветной широкоэкранный.
Жанр | Метраж | Цвет | Формат |
Ж1 художественные | М1 полнометражные | Ц1 черно-белые | Ф1 обычные |
Ж2 документальные | М2 короткометражные | Ц2 цветные | Ф2 широкоэкранные |
Ж3 хроникальные | Ц3 комбинированные |
Ж2:М2:Ц1:Ф1 — документальный короткометражный черно-белый обычный. И т. д.
Рассмотрим приложение фасетной классификации к ресурсам Интернета каталога Яндекс.
Значения фасетов для ресурсов интернета проставляются вручную редакторами при описании ресурсов в каталоге Яндекс.
Каталог - (англ. web-directory) Систематизированная и рубрицированная подборка ссылок на интернет-ресурсы с описаниями. Каталоги делятся на специализированные (отраслевые) и общие, а также на региональные, национальные и глобальные. В отличие от поисковой машины, где индекс создается автоматически, составление каталога - ручная работа по классификации и аннотированию ресурсов.
Поэтому обычно в базе каталога меньше сайтов, чем в базе поисковой машины, то есть он уступает ей по покрытию. Каталогами удобно пользоваться, если вы ищете не ответ на конкретный вопрос, а сайты на какую-то тему.
Основные фасеты, используемые в каталоге, это: Тема, Регион, Жанр, Источник информации, Адресат информации, Сектор экономики.
Тема имеет порядка 600 значений и описывает предметную область интернет-ресурса. Значение признака определяется содержанием текстов, сферой деятельности представляемой организации или областью применения предлагаемого продукта.
Регион определяет принадлежность ресурса к одному из 230 географических областей. Принадлежность ресурса к региону может определяться несколькими показателями: географическим расположением представляемого объекта (например, местоположение торговой фирмы), сферой управления и влияния (регион действия политической партии), потенциальной аудиторией информации (целевая аудитория новостного издания) или информационным содержанием ресурса (справочник фирм города или история страны).
Источник информации имеет пять значений: Официальный, СМИ, Неформальный, Персональный Анонимный. С каждым из этих пяти типов источника информации связаны свои особенности подачи предоставляемых сведений – оперативность, достоверность, полнота, уникальность, объективность и т.п.
Адресат информации имеет четыре значения: Партнеры, Инвесторы, Потребители, Коллеги. Признак определяет аудиторию, для которой материалы могут представлять интерес – обычные покупатели, оптовики или фирмы-потребители, инвесторы или специалисты.
Сектор экономики имеет три значения: Государственный, Коммерческий, Некоммерческий. Признак присваивается сайтам организаций или частных предпринимателей и указывает на их экономико-правовой статус.
Значение фасета Жанр в каталоге "Яндекс" определяет принадлежность ресурса к одному из шести классов:
художественная литература (ХудЛит);
научно-техническая литература (НаучТех);
научно-популярная литература (НаучПоп);
нормативные документы (НормДок);
советы;
публицистика (Публиц).
Дескриптор — ключевое слово, определяющее некоторое понятие, которое формирует описание объекта и дает принадлежность этого объекта к классу, группе и т.д.
Введем понятие текстовой БД. Объектами хранения в текстовых БД являются тексты. Под текстом будут пониматься неструктурированные данные, построенные из строк.
Основной целью любой текстовой БД является хранение, поиск и выдача документов, соответствующих запросу пользователя. Такие документы принято называть релевантными.
Ввиду того, что автоматизированный поиск документов на естественных языках достаточно затруднен, возникает вопрос о проектировании некоторых формальных языков, предназначенных для отображения основного смыслового содержания документов и запросов в БД. Такие языки называют информационно-поисковыми. В настоящее время разработано достаточно большое количество информационно-поисковых языков, которые отличаются не только по своим изобразительным свойствам, но и по степени семантической силы.
Информационно – поисковые языки, получившие название дескрипторных, основаны на применении принципов координатного индексирования, при котором смысловое содержание документа может быть с определенной степенью точности и полноты задано списком ключевых слов, содержащихся в тексте.
Дескрипторные языки привязаны к лексике текстов. Ключевые слова из текстов выбираются исходя из разных целей, соответственно, критерии выбора могут различаться. Для построения дескрипторного языка критерием отбора ключевых слов, как правило, служат информативность слова и частота его встречаемости в тексте. Универсальными структурами дескрипторного языка являются лексические единицы, парадигматические и синтагматические отношения.
Парадигматические отношения могут задаваться как:
Отношения вид–род (вышестоящий дескриптор);
Отношения род–вид (нижестоящие дескрипторы);
Синонимы;
Ассоциативные связи.
В большинстве автоматизированных информационных систем при индексировании документов и запросов применяется контроль с помощью тезауруса.
В тезаурусы помещаются дескрипторы и недескрипторы, хотя существуют тезаурусы только из дескрипторов. Как дескрипторы, так и недескрипторы приводят к единой грамматической форме (нормализуют). Как правило, дескрипторы употребляются в форме существительных или именных словосочетаний. Тезаурус может быть построен по принципу дескрипторных статей, состоявших из заглавного дескриптора и списка дескрипторов и недескрипторов с обозначением парадигматических отношений.
Парадигматические отношения представляют собой внетекстовые отношения между лексическими единицами. На их основании происходит группировка лексических единиц в парадигмы.
Синтагматические отношения представляют собой отношения лексических единиц в тексте, т.е. они выражают семантику контекста.
При переводе основного смыслового содержания документов и запросов с естественного языка на дескрипторный информационно – поисковый язык существуют определенные правила, называемые системой индексирования. Результатом перевода документа является поисковый образ документа, а запроса–поисковый образ запроса.
Определение, назначение и классификация компьютерных сетей. Базовые топологии локальных компьютерных сетей.
Определение, назначение и классификация компьютерных сетей. Топология глобальной компьютерной сети.
Мультикомпьютерные системы - это компьютерные сети. Если в них применяется магистральный способ объединения, то это локальные сети, если иной способ - глобальные.
Под магистралью понимается шина, плата, кабель, обычная сеть и прочие носители электрических сигналов, объединяющие все процессоры (компьютеры). Другими словами, несколько устройств для взаимодействия подключаются к одной линии (отсюда и другое название - многоточечные).
Рис. 1. Магистральная система
Магистральные мультипроцессоры (рис.2). В таких системах несколько процессоров (CPU) и общая разделяемая память (Memory) объединены общей высокоскоростной шиной. Так как память общая, при обновлении одним процессором какой – либо ячейки памяти новое содержимое этой ячейки становится доступным сразу всем остальным процессорам. При объединении более 4-5 процессоров шина начинает перегружаться, а производительность падать. Для понижения занятости шины для каждого процессора вводят кэш-память (cache), которая хранит наиболее часто используемые данные. Это позволяет объединять в систему до 32-64 процессоров.Мультикомпьютеры, объединенные