Моор С.М., Моор П.К., Моор А.П. - Информационные технологии управления (1092190), страница 11
Текст из файла (страница 11)
7. Раскройте структуру банка данных.
Тема 5. АВТОМАТИЗИРОВАННЫЕ ПОИСКОВЫЕ СИСТЕМЫ
5.1. Понятие автоматизированных поисковых систем и их особенности
Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию поиска информации.
В поисковом процессе можно выделить четыре стадии: формулировка (до начала поиска); действие (начинающийся поиск); обзор результатов и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности).
Наиболее простой способ расширения информационного поиска в сети Интернет применен в метапоисковых системах и заключается в увеличении количества используемых первичных информационно-поисковых систем (ИПС). Задача распределения ресурсов поисковой системы по различным ИПС глобальной сети должна решаться адаптивно, на основании учета доли ссылок признанных релевантными во время предыдущих сеансов поиска.
Специальный блок автоматизированной поисковой системы отправляет созданный запрос в ИПС глобальной сети и осуществляет сортировку и отбор полученных ссылок, после чего обращается по выбранным адресам и получает из сети некоторое множество документов, также содержащих гиперссылки.
После получения в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные.
При отсутствии в исследуемом сегменте сети искомой информации следует перейти к другому сегменту, т. е. исследовать ресурсы, созданные на других языках.
Если найденные результаты содержат информацию не по требуемой тематике, а по другим темам, близким к искомой или обнаружено слишком большое количество информационных ресурсов, то необходимо осуществить автоматический перебор всех найденных документов и определить степень их близости к исходному запросу.
Во многих случаях поиска в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.
Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру.
5.2. Виды документальных информационных систем
Документальная информационная система (ДИС) - единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов. Поисковый характер документальных информационных систем определил еще одно их название - информационно-поисковые системы (ИПС).
В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС делят на: системы на основе индексирования и семантически-навигационные системы. В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов. Соответствие найденных документов запросу пользователя называется релевантностью.
Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса. Основными элементами ИПЯ являются алфавит, лексика и грамматика. Алфавит ИПЯ - система знаков, используемых для записи слов и выражений ИПЯ. Лексика, или словарный состав, ИПЯ - совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. Грамматика ИПЯ - совокупность средств и способов построения, изменения и сочетания лексических единиц.
Можно указать следующие требования, которым должен удовлетворять ИПЯ:
-
располагать лексико-грамматическими средствами для точного отображения темы документа и запроса;
-
не содержать полисемии, синонимии и омонимии;
-
отображать только объективные характеристики предметов и отношении между ними;
-
быть удобным для алгоритмического сопоставления ПОД и ПОЗ.
Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется их смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют. Парадигматические отношения - это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Естественный язык обладает высокой многозначностью, но в ИПЯ недопустима многозначность. Поэтому необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ. Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу. Синонимия - это совпадение слов по значению и несовпадение по написанию.
Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.
По способу организации понятий различают следующие ИПЯ: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов.
К классификационным языкам относят: информационно-поисковый язык иерархического типа; информационно-поисковый язык фасетного типа; алфавитно-предметную классификацию.
Основными показателями эффективности функционирования ДИС являются полнота и точность. Полнота информационного поиска R определяется отношением числа найденных релевантных документов к общему числу релевантных документов, имеющихся в системе. Точность информационного поиска определяется отношением числа найденных релевантных документов к общему числу документов, выданных на запрос пользователя.
Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы.
5.3. Информационно-поисковые языки
Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.
Первоначальные подходы к классификации тематики документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.
Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством рубрик, отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.
При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы Предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и классов.
Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.
Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком перечислительной и иерархической классификаций является принципиальная невозможность заранее перечислить все возможные темы документов. Фасетная классификация не связана подобными ограничениями – идея этой классификации состоит в том, что вся предметная область разбивается на ряд исходных рубрик (фасет) по семантическому принципу, отражающему специфику предметной области. Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу. Основное достоинство фасетной классификации заключается в возможности отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.
В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения.
В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Дескриптор— понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ) или словаря-справочника.
Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию. Словарная часть - алфавитный список дескрипторов с их словарными статьями. Семантическая карта – система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.
Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.
Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода.
Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами.
5.4. Системы индексирования
Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения.
По степени автоматизации процесса индексирования выделяют системы ручного индексирования, автоматического индексирования, автоматизированного индексирования. По степени контролируемости различают системы без словаря, с жестким словарем, со свободным словарем. По характеру алгоритма отбора слов текста выделяют следующие системы: с последовательным просмотром текста (отбираются все полнозначные слова); с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре): со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления). По характеру лексикографического контроля различают системы без лексикографического контроля, с полным контролем, с промежуточным контролем.
Лексикографический контроль предусматривает устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; нормализацию слов на основе морфологических нормативных словарей.
Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.