Методичка по первой части ModernLib.Ru (pdf) (1157206), страница 10
Текст из файла (страница 10)
Вслучаях, когда такой антецедент не найден или их найдено более одного, выдаетсясоответствующая диагностика.Пример работы программы:Каждому каналу сопоставлено определенное устройство. Они , в свою очередь,связаны с главной ЭВМ.ДЛЯ МЕСТОИМЕНИЯ они В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НЕ НАЙДЕНО СЛОВ,НА КОТОРЫЕ ЭТО МЕСТОИМЕНИЕ ССЫЛАЕТСЯРассмотрим структурупамятиЭВМ. Она состоит из двух основных частей.ДЛЯ МЕСТОИМЕНИЯ она В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НАЙДЕНО БОЛЕЕОДНОГО СЛОВА,НА КОТОРОЕ ССЫЛАЕТСЯ ЭТО МЕСТОИМЕНИЕ: ЭВМ, памяти, структуруПрограмма СЕМ4Программа проверяет, принадлежат ли значения количественно оцениваемых свойствописываемых в тексте объектов заданному диапазону. В случае, если значение свойствавыходит за границы диапазона, процедура выдает соответствующую диагностику.Пример работы программы:Информация передается в сопроцессор АК-34 по 16 каналу .ОБ'ЕКТ: сопроцессор АК-34ГРУППА: 16 каналуВЫХОД ЗНАЧЕНИЯ ЗА ВЕРХНЮЮ ГРАНИЦУ ДИАПАЗОНА(СОПРОЦЕССОР АК-34 ИМЕЕТ КАНАЛЫ: 0,1,2, ...
15)4. Информационно-поисковые системыПоиск информации является одной из основных составляющих человеческойдеятельности, с ним мы сталкиваемся ежедневно: изучая театральную афишу, чтобы выбратьинтересный спектакль, подбирая в расписании поездов удобную электричку, листаятелефонную книгу.
Человеку, в силу своей профессии или увлечений частосталкивающемуся с подбором и поиском какой-либо тематической информации, рано илипоздно (с возрастанием ее объема) приходится применять некоторые принципысистематизации и классификации имеющихся данных, обеспечивающие более удобный иэффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге поопределенной схеме записываются на карточку, туда же помещается шифр - несколько букви цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку);карточки расставляются в алфавитном или тематическом порядке.
Применение ЭВМ даетболее широкие возможности для работы с большими массивами информации.4.1. Основные определенияИнформационно-поисковая система (ИПС) - программная система для хранения,поиска и выдачи интересующей пользователя (абонента) информации. Абонент обращается кИПС с информационным запросом- текстом, отражающим информационнуюпотребность данного абонента, например, его желание найти список книг по теорииинформационного поиска или список аптек, в которых можно купить нужное лекарство.Поиск информации ведется в поисковом массиве , который формируется (и по меренеобходимости обновляется) разработчиками или администраторами системы.
Элементыпоискового массива вводятся в информационно-поисковую систему на естественном (илиблизком к нему) языке, а затем обычно подвергаются индексированию , т.е. переводу наформальный информационно-поисковый язык .Индексирование - выражение центральной темы или предмета какого-либо текста илиописание какого-либо объекта на информационно-поисковом языке[1].Предмет - объект (материальная вещь, понятие, свойство или отношение), которыйрассматривается или упоминается в документе/информационном запросе.Тема документа/информационного запроса - раздел науки или техники, областьпрактической деятельности или проблема, которой посвящен документ/ информационныйзапрос.По характеру поискового массива и выдаваемой информации ИПС подразделяют надокументальные и фактографические .Документальная ИПС предназначена для отыскания документов (статей, книг,отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимуюинформацию.
Поисковый массив такой ИПС состоит из поисковых образов документов (т.е.элементов, каждый из которых передает основное содержание документа) или из самихдокументов. В ответ на предъявляемый информационный запрос ИПС выдает некотороемножество документов (или адреса их хранения), содержащих искомую информацию.Документом называют любой осмысленный текст, который обладает определеннойлогической завершенностью и содержит сведения о его источнике и/или создателе.Фактографическая ИПСобеспечивает выдачу непосредственно фактическихсведений, затребованных потребителем в информационном запросе. Поисковый массивсостоит из фактографических записей, т.е.
из описаний фактов, извлеченных из документов ипредставленных на некотором формальном языке.Например, если бы Служба знакомств решила создать документальную ИПС,поисковый массив состоял бы непосредственно из писем ее клиентов типа: "Меня зовутИлья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...". Длясоздания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида:"Фамилия - Муромец. Имя - Илья. Возраст - 33.
Должность - секьюрити" . Соответственно изапросом в первом случае будет служить часть письма клиента с пожеланиями относительноего партнера: "Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашниминтересовалась" , а во втором - составленная по ней таблица: "Возраст ‹33, интеллект высокий, интересы - домашнее хозяйство" .В настоящее время фактографические ИПС (как специальный класс поисковых систем)практически не разрабатываются, выполняемые ими действия реализуются с помощьюштатных СУБД. Далее, говоря ИПС, будем иметь в виду документальнуюинформационно-поисковую систему.Одним из популярных способов перевода документа на внутренний язык системыявляется координатное индексирование - присвоение документу набора ключевых словили кодов, определяющих его содержание.
Возможны два способа индексирования:свободное, когда непосредственно из текста документа извлекаются ключевые слова безучета всех видоизменений их форм и отношений между ними; и контролируемое, когда впоисковый образ документа включаются только те слова, которые зафиксированы винформационно-поисковом тезаурусе , где указаны их синонимические, морфологическиеи ассоциативные отношения.4.2. ТезаурусТезаурус - специально организованный нормативный словарь лексических единицинформационно-поисковогоиестественногоязыка.Лексическимиединицамиинформационно-поискового языка являются дескрипторы.
Дескриптор ставится воднозначное соответствие группе ключевых слов естественного языка, отобранных из текстаопределенной предметной области. Например, в качестве дескриптора может быть выбранолюбое (предпочтительно наиболее часто используемое или короткое) ключевое слово илисловосочетание или же цифровой код. Многозначному слову естественного языкасоответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы,синонимы, гипонимы, гиперонимы, ассоциации.Синонимы - слова (словосочетания), разные по написанию, но одинаковые (врассматриваемой предметной области) по значению: ведьма = злая волшебница .
Антонимы- слова с противоположным значением: добрый - злой . Гипоним - термин, являющийсячастным случаем другого, более общего понятия. Гипероним- термин, наоборот,являющийся общим для ряда других, частных понятий.Солдат = гипоним (военный ); человек = гипероним (военный )гипероним (вкусно готовит )= гипероним (содержит дом в чистоте )=гипероним (умеет шить )= хорошая хозяйка.В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный"определены следующие типы связей:– род-вид: средства передвижения - телега , ковер-самолет , сапоги-скороходы , печка– часть-целое: стена , дверь , курья ножка - части избушки ;– причина-следствие: опустил меч - голова с плеч ;– сырье-продукт: сталь - меч ;– административная иерархия: султан - визирь - стражник ;– процесс-субъект: казнить - палач ;– процесс-объект: казнить - жертва ;– функциональное сходство: печка Емели - джип Cherokee ;– свойство - носитель свойства: огнедышащий - дракон ;– антонимия;– синонимия.Ассоциативное отношение является объединением других отношений, не входящих виерархические отношения или в отношения синонимии (то есть любые виды связей междусловами, возможно весьма специфичные, существующие только в определенной предметнойобласти).Словарная статья (на неформальном уровне) могла бы выглядеть так:ПРЕМУДРАЯ = умнаяАНТОНИМ - глупаяГИПОНИМЫ: знающая, образованная, догадливая, начитаннаяВИД - показатель интеллекта (высокий)Тезаурус и грамматика составляют информационно-поисковый язык .
Грамматикасодержит правила образования производных единиц языка (семантических кодов, синтагм,предложений) и регламентирует использование средств обозначения синтаксическихотношений (например, указателей связи).В рассмотренной выше сказочной информационной службе знакомств тезаурус долженописывать всевозможные качества и характеристики, встречающиеся в письмах клиентов,правила их классификации. Грамматика и тезаурус должны быть составлены таким образом,чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возрастили количество зубов (это может определяться по ключевому слову - единице измерения),уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесьпомогут словосочетания хотел бы познакомиться , должен соответствовать ).На основании тезауруса и правил грамматики формируются поисковые образыдокумента и запроса (поисковое предписание).
Поисковое предписание - текст наинформационно-поисковом языке, содержащий признаки документов, затребованныхпользователем в запросе.Поисковый образ документа- текст на информационно-поисковом языке,поставленный в однозначное соответствие документу и отражающий его признаки,необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающихсодержание документа или, как минимум, определяющих его тему, поисковый образдокумента обычно содержит также идентифицирующие и некоторые дополнительныесведения (выходные данные, тип документа, его язык и т.д.).