Главная » Просмотр файлов » Моор С.М., Моор П.К., Моор А.П. - Информационные технологии управления

Моор С.М., Моор П.К., Моор А.П. - Информационные технологии управления (1092190), страница 11

Файл №1092190 Моор С.М., Моор П.К., Моор А.П. - Информационные технологии управления (Моор С.М., Моор П.К., Моор А.П. - Информационные технологии управления) 11 страницаМоор С.М., Моор П.К., Моор А.П. - Информационные технологии управления (1092190) страница 112018-02-14СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 11)

7. Раскройте структуру банка данных.

Тема 5. АВТОМАТИЗИРОВАННЫЕ ПОИСКОВЫЕ СИСТЕМЫ

5.1. Понятие автоматизированных поисковых систем и их особенности

Автоматизированная поисковая система – система, состоящая из персонала и комплекса средств автоматизации его деятельности, реализующая информационную технологию поиска информации.

В поисковом процессе можно выделить четыре стадии: формулировка (до начала поиска); действие (начинающийся поиск); обзор результатов и усовершенствование (после обзора результатов и перед возвращением к поиску с иной формулировкой той же потребности).

Наиболее простой способ расширения информационного поиска в сети Интернет применен в метапоисковых системах и заключается в увеличении количества используемых первичных информационно-поисковых систем (ИПС). Задача распределения ресурсов поисковой системы по различным ИПС глобальной сети должна решаться адаптивно, на основании учета доли ссылок признанных релевантными во время предыдущих сеансов поиска.

Специальный блок автоматизированной поисковой системы отправляет созданный запрос в ИПС глобальной сети и осуществляет сортировку и отбор полученных ссылок, после чего обращается по выбранным адресам и получает из сети некоторое множество документов, также содержащих гиперссылки.

После получения в результате поиска в сети некоторого множества документов, среди них необходимо выделить наиболее релевантные.

При отсутствии в исследуемом сегменте сети искомой информации следует перейти к другому сегменту, т. е. исследовать ресурсы, созданные на других языках.

Если найденные результаты содержат информацию не по требуемой тематике, а по другим темам, близким к искомой или обнаружено слишком большое количество информационных ресурсов, то необходимо осуществить автоматический перебор всех найденных документов и определить степень их близости к исходному запросу.

Во многих случаях поиска в новой области, когда общий уровень пользователя недостаточно высок, желательно осуществлять фильтрацию выдаваемой информации по стилю текста так, чтобы начальное ознакомление с материалом происходило с использованием популярных и научно-популярных текстов.

Для уменьшения объема рассматриваемых материалов следует также осуществить фильтрацию результатов поиска по типу источников. Так очевидно, что документы, расположенные на научных сайтах, на коммерческих, или на серверах СМИ будут существенно различаться по своему характеру.

5.2. Виды документальных информационных систем

Документальная информационная система (ДИС) - единое хранилище документов с инструментарием поиска и выдачи, необходимых пользователю документов. Поисковый характер документальных информационных систем определил еще одно их название - информационно-поисковые системы (ИПС).

В зависимости от особенностей реализации хранилища документов и механизмов поиска, ДИС делят на: системы на основе индексирования и семантически-навигационные системы. В семантически-навигационных (гипертекстовых) системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями (гиперссылками), соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. В системах на основе индексирования исходные документы помещаются в базу без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа (ПОД). Пользователь выражает свои информационные потребности посредством специального языка, формируя поисковый образ запроса (ПОЗ) к базе документов. Соответствие найденных документов запросу пользователя называется релевантностью.

Информационно-поисковый язык (ИПЯ) представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и поискового запроса. Основными элементами ИПЯ являются алфавит, лексика и грамматика. Алфавит ИПЯ - система знаков, используемых для записи слов и выражений ИПЯ. Лексика, или словарный состав, ИПЯ - совокупность слов, словосочетаний и выражений, используемых для построения текстов ИПЯ. Грамматика ИПЯ - совокупность средств и способов построения, изменения и сочетания лексических единиц.

Можно указать следующие требования, которым должен удовлетворять ИПЯ:

  • располагать лексико-грамматическими средствами для точного отображения темы документа и запроса;

  • не содержать полисемии, синонимии и омонимии;

  • отображать только объективные характеристики предметов и отношении между ними;

  • быть удобным для алгоритмического сопоставления ПОД и ПОЗ.

Построение выражений ИПЯ требует решения, по крайней мере, двух проблем. Первая из них связана с выбором лексических единиц ИПЯ, необходимых для построения выражений. Выбор слов определяется их смыслом, обусловленным парадигматическими отношениями между предметами и явлениями, которые они определяют. Парадигматические отношения - это отношения, обусловленные наличием логических связей между предметами и явлениями, обозначенными данными словами. Естественный язык обладает высокой многозначностью, но в ИПЯ недопустима многозначность. Поэтому необходимо учитывать отношения синонимии и омонимии слов естественного языка, используемых в ИПЯ. Омонимия — это совпадение слов по написанию или звучанию и несовпадение по смыслу. Синонимия - это совпадение слов по значению и несовпадение по написанию.

Вторая проблема построения фраз ИПЯ связана с определением последовательности выбранных слов. Синтагматические отношения — отношения слов при соединении их в словосочетания и фразы. Для уточнения смысла документа или запроса, помимо ключевых слов, часто необходимо указывать, в каких синтагматических отношениях эти слова находятся. Так, фраза «защита окружающей среды от человека» и фраза «защита человека от окружающей среды» имеют совершенно разный смысл, хотя и состоят из одних и тех же ключевых слов.

По способу организации понятий различают следующие ИПЯ: предкоординируемые (классификационные) ИПЯ; посткоординируемые (дескрипторные) ИПЯ. Предкоординация — предварительное (до использования при индексировании) построение сложных классов путем логического умножения (координации) простых классов. Словарный состав задается в виде фиксированного списка слов, словосочетаний и фраз. Введение в язык новых лексических единиц строго ограничено и возможно лишь до индексирования документов.

К классификационным языкам относят: информационно-поисковый язык иерархического типа; информационно-поисковый язык фасетного типа; алфавитно-предметную классификацию.

Основными показателями эффективности функционирования ДИС являются полнота и точность. Полнота информационного поиска R определяется отношением числа найденных релевантных документов к общему числу релевантных документов, имеющихся в системе. Точность информационного поиска определяется отношением числа найденных релевантных документов к общему числу документов, выданных на запрос пользователя.

Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы.

5.3. Информационно-поисковые языки

Информационно-поисковые каталоги, основанные на классификации сведений по определенной предметной области, были первыми системами информационного поиска документов.

Первоначальные подходы к классификации тематики документов основывались на формировании списка предметных заголовков, располагаемых в алфавитном порядке. Каждая предметная рубрика получала определенный цифровой или буквенно-цифровой код. Содержание документа индексировалось перечислением кодов тех рубрик, которые отражали темы документа. Это перечислительная классификация.

Особенностью систем перечислительной классификации является возможность индексирования документов любым количеством рубрик, отражающих содержание документа. Для осуществления поиска необходимых документов по классификатору определяются коды интересующих пользователя рубрик и далее отбираются из хранилища те документы, которые проиндексированы соответствующими кодами. Отсутствие систематизированных связей и отношений между предметными рубриками является основным недостатком перечислительной классификации.

При систематизированной классификации список предметных рубрик строится как иерархическая структура, в виде перевернутого дерева. Вся предметная область разбивается на ряд взаимоисключающих (непересекающихся) рубрик. Каждая рубрика, в свою очередь, может включать несколько подрубрик. Таким образом, при систематизированной классификации учитываются уже некоторые семантические основы Предметной области, выражаемые в родовидовых отношениях основных категорий, понятий и классов.

Содержание документа индексируется кодами соответствующих рубрик, однако при этом отпадает необходимость в явном указании более общих рубрик, к которым относятся выделенные подрубрики. В результате индексирование и поиск документов на основе иерархической классификации позволяют более адекватно отражать содержание документов и обеспечивают большую точность поиска.

Перечислительный и иерархический подходы к классификации используются в алфавитно-предметных каталогах библиотек. Недостатком перечислительной и иерархической классификаций является принципиальная невозможность заранее перечислить все возможные темы документов. Фасетная классификация не связана подобными ограничениями – идея этой классификации состоит в том, что вся предметная область разбивается на ряд исходных рубрик (фасет) по семантическому принципу, отражающему специфику предметной области. Фасеты выступают в роли элементов, из которых можно сконструировать любую, даже самую сложную и узкую предметную рубрику. Внутри фасет предметные рубрики строятся и упорядочиваются по алфавитно-иерархическому принципу. Основное достоинство фасетной классификации заключается в возможности отразить большое количество специализированных рубрик и тем самым наиболее точно и полно проиндексировать содержание документов.

В основе построения дескрипторных ИПЯ лежит принцип координатного индексирования, который предполагает, что основное смысловое содержание документа может быть выражено списком ключевых слов. К ключевым словам относятся так называемые полнозначные слова — существительные, прилагательные, глаголы, наречия, числительные, местоимения.

В качестве лексических единиц основных словарей используются ключевые слова, словосочетания и дескрипторы. Дескриптор— понятие, обозначающее группу эквивалентных или близких по смыслу ключевых слов. В качестве дескрипторов могут быть использованы код, слово или словосочетание. Разработка дескрипторного языка фактически сводится к разработке информационно-поискового тезауруса (ИПТ) или словаря-справочника.

Обобщенная структура ИПТ включает как минимум три составляющих: словарную часть, семантическую карту, руководство по использованию. Словарная часть - алфавитный список дескрипторов с их словарными статьями. Семантическая карта – система тематических классов дескрипторов, представленная в виде графической схемы или таблицы. Руководство по использованию ИПТ содержит правила перевода ключевых слов и словосочетаний на ИПЯ, правила лексикографического контроля и редактирования ПОД и ПОЗ, а также правила ведения ИПТ.

Отличием информационно-поисковых тезаурусов от информационно-поисковых каталогов на основе предметной иерархической рубрикации является то, что в тезаурусах, помимо классификационной схемы, присутствуют сами ключевые слова и дескрипторы, объединяемые под названием классов, рубрик и т. д. В каталогах же присутствуют только лишь обозначения (названия) классов.

Главная идея информационно-поисковых тезаурусов заключается в повышении эффективности индексирования документов в рамках дескриптивного подхода.

Различают базовые и рабочие тезаурусы. Базовые тезаурусы включают основной набор лексики предметной области. Рабочие тезаурусы строятся на основе базовых тезаурусов и дополняются в процессе индексирования документов новыми терминами.

5.4. Системы индексирования

Система индексирования (СИ) - совокупность методов и средств перевода текстов с естественного языка на ИПЯ в соответствии с заданным набором словарей лексических единиц и с правилами применения.

По степени автоматизации процесса индексирования выделяют системы ручного индексирования, автоматического индексирования, автоматизированного индексирования. По степени контролируемости различают системы без словаря, с жестким словарем, со свободным словарем. По характеру алгоритма отбора слов текста выделяют следующие системы: с последовательным просмотром текста (отбираются все полнозначные слова); с эвристическими процедурами выбора слов текста (слова отбираются интуитивно или по заданной процедуре): со статистическими процедурами выбора слов (отбираются только информативные слова в соответствии с распределением частот их употребления). По характеру лексикографического контроля различают системы без лексикографического контроля, с полным контролем, с промежуточным контролем.

Лексикографический контроль предусматривает устранение синонимии, полисемии и омонимии на основе нормативных словарей лексических единиц с парадигматическими отношениями между ними; нормализацию слов на основе морфологических нормативных словарей.

Существуют два подхода к автоматическому индексированию. Первый основан на использовании словаря ключевых слов и применяется в системах на основе ИПТ. Индексирование в таких системах осуществляется путем последовательного автоматического поиска в тексте документа ключевых терминов. Строится индекс, представляющий поисковое пространство документов. Возможны два типа такого индекса - прямой и инвертированный.

Характеристики

Тип файла
Документ
Размер
7,81 Mb
Тип материала
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6382
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее