Методичка по первой части ModernLib.Ru (doc) (1157204), страница 8
Текст из файла (страница 8)
РЕАЛЬНЫЙ АКТАНТ ассемблере ИМЕЕТ СЕМ.-КЛАСС: =транслятор=
Схема прерываний подключается к магистрали.
НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ!
В ОПИСАНИИ ГЛАГОЛА "подключаться" СЕМ.-КЛАСС АКТАНТА:
=устройство=
РЕАЛЬНЫЙ АКТАНТ схема прерываний ИМЕЕТ СЕМ.-КЛАСС:
=структура2=
Программа СЕМ2
Программа проводит полный синтактико-семантический анализ фраз указанной области текста. При этом фиксируются случаи, когда фраза имеет (в контексте предметной области, к которой относится текст) более одной интерпретации, т.е. допускает неоднозначное толкование.
Пример работы программы:
Снижение напряжения вызвало отключение принтера.
НЕОДНОЗНАЧНАЯ ИНТЕРПРЕТАЦИЯ!
1 трактовка:
=причина= : снижение напряжения
=следствие= : отключение принтера
2 трактовка:
=причина= : отключение принтера
=следствие= : снижение напряжения
Программа СЕМ3
Программа СЕМ3 проверяет однозначность установления связи между личным местоимением и его антецедентом (словом, на которое ссылается данное местоимение). В случаях, когда такой антецедент не найден или их найдено более одного, выдается соответствующая диагностика.
Пример работы программы:
Каждому каналу сопоставлено определенное устройство. Они , в свою очередь, связаны с главной ЭВМ.
ДЛЯ МЕСТОИМЕНИЯ они В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НЕ НАЙДЕНО СЛОВ,
НА КОТОРЫЕ ЭТО МЕСТОИМЕНИЕ ССЫЛАЕТСЯ
Рассмотрим структурупамятиЭВМ. Она состоит из двух основных частей.
ДЛЯ МЕСТОИМЕНИЯ она В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НАЙДЕНО БОЛЕЕ ОДНОГО СЛОВА,
НА КОТОРОЕ ССЫЛАЕТСЯ ЭТО МЕСТОИМЕНИЕ: ЭВМ, памяти, структуру
Программа СЕМ4
Программа проверяет, принадлежат ли значения количественно оцениваемых свойств описываемых в тексте объектов заданному диапазону. В случае, если значение свойства выходит за границы диапазона, процедура выдает соответствующую диагностику.
Пример работы программы:
Информация передается в сопроцессор АК-34 по 16 каналу .
ОБ'ЕКТ: сопроцессор АК-34
ГРУППА: 16 каналу
ВЫХОД ЗНАЧЕНИЯ ЗА ВЕРХНЮЮ ГРАНИЦУ ДИАПАЗОНА
(СОПРОЦЕССОР АК-34 ИМЕЕТ КАНАЛЫ: 0,1,2, ... 15)
4. Информационно-поисковые системы
Поиск информации является одной из основных составляющих человеческой деятельности, с ним мы сталкиваемся ежедневно: изучая театральную афишу, чтобы выбрать интересный спектакль, подбирая в расписании поездов удобную электричку, листая телефонную книгу. Человеку, в силу своей профессии или увлечений часто сталкивающемуся с подбором и поиском какой-либо тематической информации, рано или поздно (с возрастанием ее объема) приходится применять некоторые принципы систематизации и классификации имеющихся данных, обеспечивающие более удобный и эффективный поиск. Так, в библиотеках составляют картотеку: сведения о книге по определенной схеме записываются на карточку, туда же помещается шифр - несколько букв и цифр, по которым можно определить местоположение книги (хранилище, стеллаж, полку); карточки расставляются в алфавитном или тематическом порядке. Применение ЭВМ дает более широкие возможности для работы с большими массивами информации.
4.1. Основные определения
Информационно-поисковая система (ИПС) - программная система для хранения, поиска и выдачи интересующей пользователя (абонента) информации. Абонент обращается к ИПС с информационным запросом - текстом, отражающим информационную потребность данного абонента, например, его желание найти список книг по теории информационного поиска или список аптек, в которых можно купить нужное лекарство. Поиск информации ведется в поисковом массиве , который формируется (и по мере необходимости обновляется) разработчиками или администраторами системы. Элементы поискового массива вводятся в информационно-поисковую систему на естественном (или близком к нему) языке, а затем обычно подвергаются индексированию , т.е. переводу на формальный информационно-поисковый язык .
Индексирование - выражение центральной темы или предмета какого-либо текста или описание какого-либо объекта на информационно-поисковом языке[1].
Предмет - объект (материальная вещь, понятие, свойство или отношение), который рассматривается или упоминается в документе/информационном запросе.
Тема документа/информационного запроса - раздел науки или техники, область практической деятельности или проблема, которой посвящен документ/ информационный запрос.
По характеру поискового массива и выдаваемой информации ИПС подразделяют на документальные и фактографические .
Документальная ИПС предназначена для отыскания документов (статей, книг, отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимую информацию. Поисковый массив такой ИПС состоит из поисковых образов документов (т.е. элементов, каждый из которых передает основное содержание документа) или из самих документов. В ответ на предъявляемый информационный запрос ИПС выдает некоторое множество документов (или адреса их хранения), содержащих искомую информацию. Документом называют любой осмысленный текст, который обладает определенной логической завершенностью и содержит сведения о его источнике и/или создателе.
Фактографическая ИПС обеспечивает выдачу непосредственно фактических сведений, затребованных потребителем в информационном запросе. Поисковый массив состоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов и представленных на некотором формальном языке.
Например, если бы Служба знакомств решила создать документальную ИПС, поисковый массив состоял бы непосредственно из писем ее клиентов типа: "Меня зовут Илья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...". Для создания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида: "Фамилия - Муромец. Имя - Илья. Возраст - 33. Должность - секьюрити" . Соответственно и запросом в первом случае будет служить часть письма клиента с пожеланиями относительно его партнера: "Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашним интересовалась" , а во втором - составленная по ней таблица: "Возраст ‹33, интеллект - высокий, интересы - домашнее хозяйство" .
В настоящее время фактографические ИПС (как специальный класс поисковых систем) практически не разрабатываются, выполняемые ими действия реализуются с помощью штатных СУБД. Далее, говоря ИПС, будем иметь в виду документальную информационно-поисковую систему.
Одним из популярных способов перевода документа на внутренний язык системы является координатное индексирование - присвоение документу набора ключевых слов или кодов, определяющих его содержание. Возможны два способа индексирования: свободное, когда непосредственно из текста документа извлекаются ключевые слова без учета всех видоизменений их форм и отношений между ними; и контролируемое, когда в поисковый образ документа включаются только те слова, которые зафиксированы в информационно-поисковом тезаурусе , где указаны их синонимические, морфологические и ассоциативные отношения.
4.2. Тезаурус
Тезаурус - специально организованный нормативный словарь лексических единиц информационно-поискового и естественного языка. Лексическими единицами информационно-поискового языка являются дескрипторы . Дескриптор ставится в однозначное соответствие группе ключевых слов естественного языка, отобранных из текста определенной предметной области. Например, в качестве дескриптора может быть выбрано любое (предпочтительно наиболее часто используемое или короткое) ключевое слово или словосочетание или же цифровой код. Многозначному слову естественного языка соответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям - один дескриптор. Тезаурус учитывает семантические связи между словами: антонимы, синонимы, гипонимы, гиперонимы, ассоциации.
Синонимы - слова (словосочетания), разные по написанию, но одинаковые (в рассматриваемой предметной области) по значению: ведьма = злая волшебница . Антонимы - слова с противоположным значением: добрый - злой . Гипоним - термин, являющийся частным случаем другого, более общего понятия. Гипероним - термин, наоборот, являющийся общим для ряда других, частных понятий.
Солдат = гипоним (военный ); человек = гипероним (военный )
гипероним (вкусно готовит )= гипероним (содержит дом в чистоте )=
гипероним (умеет шить )= хорошая хозяйка.
В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный" определены следующие типы связей:
– род-вид: средства передвижения - телега , ковер-самолет , сапоги-скороходы , печка
– часть-целое: стена , дверь , курья ножка - части избушки ;
– причина-следствие: опустил меч - голова с плеч ;
– сырье-продукт: сталь - меч ;
– административная иерархия: султан - визирь - стражник ;
– процесс-субъект: казнить - палач ;
– процесс-объект: казнить - жертва ;
– функциональное сходство: печка Емели - джип Cherokee ;
– свойство - носитель свойства: огнедышащий - дракон ;
– антонимия;
– синонимия.
Ассоциативное отношение является объединением других отношений, не входящих в иерархические отношения или в отношения синонимии (то есть любые виды связей между словами, возможно весьма специфичные, существующие только в определенной предметной области).
Словарная статья (на неформальном уровне) могла бы выглядеть так:
ПРЕМУДРАЯ = умная
АНТОНИМ - глупая
ГИПОНИМЫ: знающая, образованная, догадливая, начитанная
ВИД - показатель интеллекта (высокий)
Тезаурус и грамматика составляют информационно-поисковый язык . Грамматика содержит правила образования производных единиц языка (семантических кодов, синтагм, предложений) и регламентирует использование средств обозначения синтаксических отношений (например, указателей связи).
В рассмотренной выше сказочной информационной службе знакомств тезаурус должен описывать всевозможные качества и характеристики, встречающиеся в письмах клиентов, правила их классификации. Грамматика и тезаурус должны быть составлены таким образом, чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возраст или количество зубов (это может определяться по ключевому слову - единице измерения), уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесь помогут словосочетания хотел бы познакомиться , должен соответствовать ).
На основании тезауруса и правил грамматики формируются поисковые образы документа и запроса (поисковое предписание). Поисковое предписание - текст на информационно-поисковом языке, содержащий признаки документов, затребованных пользователем в запросе.
Поисковый образ документа - текст на информационно-поисковом языке, поставленный в однозначное соответствие документу и отражающий его признаки, необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающих содержание документа или, как минимум, определяющих его тему, поисковый образ документа обычно содержит также идентифицирующие и некоторые дополнительные сведения (выходные данные, тип документа, его язык и т.д.). Поисковые предписания формируются при поступлении запросов, а поисковые образы документов могут создаваться как при пополнении системы новыми документами, так и при поиске ответа на запрос. В системах, где потоки информации велики и часто обновляемы, нет необходимости тратить ресурсы на индексирование, и за поисковый образ документа часто принимается сам документ или же его название.
4.3. Релевантность
Целью ИПС является выдача документов, релевантных (семантически соответствующих) запросу (по-английски relevant - относящийся к делу). Различают релевантностьсодержательную и формальную . Релевантность содержательная трактуется как соответствие документа информационному запросу, определяемое неформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев и выберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи .
Критерий выдачи - формальное правило, совокупность признаков, по которым определяется степень формальной релевантности поискового образа документа и поискового предписания и принимается решение о выдаче/невыдаче некоторого документа в ответ на информационный запрос.
Информационная