М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 11
Описание файла
PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 11 страницы из PDF
Абонент обращается кИПС с информационным запросом- текстом, отражающим информационнуюпотребностьданного абонента, например, его желание найти список книг по теорииинформационного поиска или список аптек, в которых можно купить нужное лекарство.Поиск информации ведется в поисковом массиве , который формируется (и по меренеобходимости обновляется) разработчиками или администраторами системы.
Элементыпоискового массива вводятся в информационно-поисковую систему на естественном (илиблизком к нему) языке, а затем обычно подвергаются индексированию , т.е. переводу наформальный информационно-поисковый язык .Индексирование - выражение центральной темы или предмета какого-либо текстаили описание какого-либо объекта на информационно-поисковом языке[1].Предмет - объект (материальная вещь, понятие, свойство или отношение), которыйрассматривается или упоминается в документе/информационном запросе.Темадокумента/информационного запроса - раздел науки или техники, областьпрактической деятельности или проблема, которой посвящен документ/ информационныйзапрос.По характеру поискового массива и выдаваемой информации ИПС подразделяют надокументальные и фактографические .Документальная ИПСпредназначена для отыскания документов (статей, книг,отчетов, описаний к авторским свидетельствам и патентам), содержащих необходимуюинформацию.
Поисковый массив такой ИПС состоит из поисковых образов документов (т.е.элементов, каждый из которых передает основное содержание документа) или из самихдокументов. В ответ на предъявляемый информационный запрос ИПС выдает некотороемножество документов (или адреса их хранения), содержащих искомую информацию.Документом называют любой осмысленный текст, который обладает определеннойлогической завершенностью и содержит сведения о его источнике и/или создателе.Фактографическая ИПСобеспечивает выдачу непосредственно фактическихсведений, затребованных потребителем в информационном запросе. Поисковый массивсостоит из фактографических записей, т.е. из описаний фактов, извлеченных из документов ипредставленных на некотором формальном языке.Например, если бы Служба знакомств решила создать документальную ИПС,поисковый массив состоял бы непосредственно из писем ее клиентов типа: "Меня зовутИлья Муромец. Просидел я сиднем на печи 33 года, а теперь у царя в охранниках...".
Длясоздания фактографической ИПС по письмам клиентов заполнялись бы таблицы вида:"Фамилия - Муромец. Имя - Илья. Возраст - 33. Должность - секьюрити" . Соответственно изапросом в первом случае будет служить часть письма клиента с пожеланиями относительноего партнера: "Невесту хочу моложе меня, но премудрую и чтоб хозяйством домашниминтересовалась" , а во втором - составленная по ней таблица: "Возраст ‹33, интеллект высокий, интересы - домашнее хозяйство" .В настоящее время фактографические ИПС (как специальный класс поисковых систем)практически не разрабатываются, выполняемые ими действия реализуются с помощьюштатных СУБД.
Далее, говоря ИПС, будем иметь в виду документальнуюинформационно-поисковую систему.Одним из популярных способов перевода документа на внутренний язык системыявляется координатное индексирование - присвоение документу набора ключевых словили кодов, определяющих его содержание. Возможны два способа индексирования:свободное, когда непосредственно из текста документа извлекаются ключевые слова безучета всех видоизменений их форм и отношений между ними; и контролируемое, когда впоисковый образ документа включаются только те слова, которые зафиксированы винформационно-поисковом тезаурусе , где указаны их синонимические, морфологическиеи ассоциативные отношения.4.2.
ТезаурусТезаурус - специально организованный нормативный словарь лексических единицинформационно-поисковогоиестественногоязыка.Лексическимиединицамиинформационно-поискового языка являются дескрипторы. Дескриптор ставится воднозначное соответствие группе ключевых слов естественного языка, отобранных из текстаопределенной предметной области. Например, в качестве дескриптора может быть выбранолюбое (предпочтительно наиболее часто используемое или короткое) ключевое слово илисловосочетание или же цифровой код. Многозначному слову естественного языкасоответствует несколько дескрипторов, а нескольким синонимичным словам и выражениям один дескриптор.
Тезаурус учитывает семантические связи между словами: антонимы,синонимы, гипонимы, гиперонимы, ассоциации.Синонимы- слова (словосочетания), разные по написанию, но одинаковые (врассматриваемой предметной области) по значению: ведьма= злая волшебница .Антонимы - слова с противоположным значением: добрый - злой . Гипоним - термин,являющийся частным случаем другого, более общего понятия. Гипероним- термин,наоборот, являющийся общим для ряда других, частных понятий.Солдат = гипоним (военный ); человек = гипероним (военный )гипероним (вкусно готовит )= гипероним (содержит дом в чистоте )=гипероним (умеет шить )= хорошая хозяйка.В Государственном стандарте на "Тезаурус информационно-поисковый одноязычный"определены следующие типы связей:– род-вид: средства передвижения - телега , ковер-самолет , сапоги-скороходы ,печка– часть-целое: стена , дверь , курья ножка - части избушки ;– причина-следствие: опустил меч - голова с плеч ;– сырье-продукт: сталь - меч ;– административная иерархия: султан - визирь - стражник ;– процесс-субъект: казнить - палач ;– процесс-объект: казнить - жертва ;– функциональное сходство: печка Емели - джип Cherokee ;– свойство - носитель свойства: огнедышащий - дракон ;– антонимия;– синонимия.Ассоциативное отношение является объединением других отношений, не входящих виерархические отношения или в отношения синонимии (то есть любые виды связей междусловами, возможно весьма специфичные, существующие только в определенной предметнойобласти).Словарная статья (на неформальном уровне) могла бы выглядеть так:ПРЕМУДРАЯ = умнаяАНТОНИМ - глупаяГИПОНИМЫ: знающая, образованная, догадливая, начитаннаяВИД - показатель интеллекта (высокий)Тезаурус и грамматика составляют информационно-поисковый язык .
Грамматикасодержит правила образования производных единиц языка (семантических кодов, синтагм,предложений) и регламентирует использование средств обозначения синтаксическихотношений (например, указателей связи).В рассмотренной выше сказочной информационной службе знакомств тезаурус долженописывать всевозможные качества и характеристики, встречающиеся в письмах клиентов,правила их классификации. Грамматика и тезаурус должны быть составлены таким образом,чтобы система могла понимать, что задает, скажем, число, указанное в запросе: рост, возрастили количество зубов (это может определяться по ключевому слову - единице измерения),уметь отличить сведения, сообщаемые клиентом о себе, от его требований к партнеру (здесьпомогут словосочетания хотел бы познакомиться , должен соответствовать ).На основании тезауруса и правил грамматики формируются поисковые образыдокумента и запроса (поисковое предписание).
Поисковое предписание- текст наинформационно-поисковом языке, содержащий признаки документов, затребованныхпользователем в запросе.Поисковый образ документа- текст на информационно-поисковом языке,поставленный в однозначное соответствие документу и отражающий его признаки,необходимые для поиска его по запросу. Кроме поисковых признаков, раскрывающихсодержание документа или, как минимум, определяющих его тему, поисковый образдокумента обычно содержит также идентифицирующие и некоторые дополнительныесведения (выходные данные, тип документа, его язык и т.д.). Поисковые предписанияформируются при поступлении запросов, а поисковые образы документов могут создаватьсякак при пополнении системы новыми документами, так и при поиске ответа на запрос. Всистемах, где потоки информации велики и часто обновляемы, нет необходимости тратитьресурсы на индексирование, и за поисковый образ документа часто принимается самдокумент или же его название.4.3.
РелевантностьЦелью ИПС является выдача документов, релевантных(семантическисоответствующих) запросу (по-английски relevant - относящийся к делу). Различаютрелевантностьсодержательнуюи формальную. Релевантность содержательнаятрактуется как соответствие документа информационному запросу, определяемоенеформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев ивыберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная как соответствие, определяемое алгоритмически путем сравнения поискового предписания ипоискового образа документа на основании применяемого в информационно-поисковойсистеме критерия выдачи .Критерий выдачи- формальное правило, совокупность признаков, по которымопределяется степень формальной релевантности поискового образа документа и поисковогопредписания и принимается решение о выдаче/невыдаче некоторого документа в ответ наинформационный запрос.ИнформационнаяпотребностьèФормулировкаинформационногозапросаèПоисковоепредписаниеô Релевантность Релевантность ôсодержательная формальная: ДокументыèИндексированиеèПоисковыймассивВ автоматизированных системах поиск основан на формальной релевантности,содержательная релевантность в них определяется, например, путем экспертных оценок ииспользуется для получения данных об эффективности информационного поиска всистеме (качестве ее работы).
В качестве критерия выдачи может быть выбрано полноесовпадение поисковых образов документа и запроса, включение множества ключевых словзапроса во множество ключевых слов документа, пересечение этих множеств и др.В рассматриваемом примере при выборе в качестве критерия выдачи полногосовпадения ключевых слов документа и запроса клиенту должны быть предоставленыписьма персонажей, полностью отвечающих его требованиям. Навряд ли это ихудовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше быподошел для системы, где необходима точность, например, определяющей выбор лекарствапри лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же,наверное, уместен критерий на пересечение.Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степениих соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и взапросе и в документе, суммируются, и документы выдаются в зависимости от значения этойсуммы (например, если она превысила некоторое значение).
Таким образом, если указать,что наиболее весомыми являются характеристики богатство и могущество , а не добротаи возраст , можно заполучить в женихи Кощея Бессмертного. При использовании весовтакже может применяться эшелонированная выдачаотобранные документыпредъявляются пользователю не в произвольном порядке, а по степени релевантности (поубыванию сумм весов), право окончательного выбора релевантных документов - запользователем.Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, иничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчаниеИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишнихдокументов). Массив документов разделяется на выданные и невыданные - по одномукритерию, и на релевантные и нерелевантные - по другому.Таким образом, для каждого запроса получаем 4 группы документов:Соотношение количества документов в каждой из этих групп определяетэффективность информационного поиска.