Методичка по первой части ModernLib.Ru (pdf) (1157206), страница 11
Текст из файла (страница 11)
Поисковые предписанияформируются при поступлении запросов, а поисковые образы документов могут создаватьсякак при пополнении системы новыми документами, так и при поиске ответа на запрос. Всистемах, где потоки информации велики и часто обновляемы, нет необходимости тратитьресурсы на индексирование, и за поисковый образ документа часто принимается самдокумент или же его название.4.3. РелевантностьЦелью ИПС является выдача документов, релевантных(семантическисоответствующих) запросу (по-английски relevant - относящийся к делу).
Различаютрелевантностьсодержательнуюи формальную. Релевантность содержательнаятрактуется как соответствие документа информационному запросу, определяемоенеформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев ивыберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная как соответствие, определяемое алгоритмически путем сравнения поискового предписания ипоискового образа документа на основании применяемого в информационно-поисковойсистеме критерия выдачи .Критерий выдачи - формальное правило, совокупность признаков, по которымопределяется степень формальной релевантности поискового образа документа и поисковогопредписания и принимается решение о выдаче/невыдаче некоторого документа в ответ наинформационный запрос.Информационнаяпотребность?Формулировкаинформационногозапроса?Поисковоепредписание? Релевантность Релевантность ?содержательная формальная: Документы?Индексирование?ПоисковыймассивВ автоматизированных системах поиск основан на формальной релевантности,содержательная релевантность в них определяется, например, путем экспертных оценок ииспользуется для получения данных об эффективности информационного поиска всистеме (качестве ее работы).
В качестве критерия выдачи может быть выбрано полноесовпадение поисковых образов документа и запроса, включение множества ключевых словзапроса во множество ключевых слов документа, пересечение этих множеств и др.В рассматриваемом примере при выборе в качестве критерия выдачи полногосовпадения ключевых слов документа и запроса клиенту должны быть предоставленыписьма персонажей, полностью отвечающих его требованиям. Навряд ли это ихудовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше быподошел для системы, где необходима точность, например, определяющей выбор лекарствапри лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же,наверное, уместен критерий на пересечение.Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степениих соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и взапросе и в документе, суммируются, и документы выдаются в зависимости от значения этойсуммы (например, если она превысила некоторое значение).
Таким образом, если указать,что наиболее весомыми являются характеристики богатство и могущество , а не доброта ивозраст , можно заполучить в женихи Кощея Бессмертного. При использовании весов такжеможет применяться эшелонированная выдача - отобранные документы предъявляютсяпользователю не в произвольном порядке, а по степени релевантности (по убыванию суммвесов), право окончательного выбора релевантных документов - за пользователем.Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, иничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчаниеИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишнихдокументов).
Массив документов разделяется на выданные и невыданные - по одномукритерию, и на релевантные и нерелевантные - по другому.Таким образом, для каждого запроса получаем 4 группы документов:Соотношение количества документов в каждой из этих групп определяетэффективность информационного поиска. Для оценки эффективности используютследующие характеристики:РвПолнота выдачи =tabletable-х 100%Рв+РнРвТочность выдачи =tabletable-х 100%Рв+НвРнПотери информации =tabletable-х 100%Рв+РрНвИнформационный шум =tabletable-х 100 %Рв+НвРвЧувствительность =tabletable-x 100 %Рв+РнНнСпецифичность =tabletable-x 100%Нн+НвВ идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найденывсе документы и ни одного лишнего).
В реальных системах коэффициент полноты достигает70%, а коэффициент точности поиска колеблется в очень широких пределах, иногдаснижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: каквнутренних свойств собственно поисковой системы (объема и характеристикинформационного массива, информационно-поискового языка, критерия выдачи), так и отмногих "внешних" условий: степени специфичности информационных запросов,способности пользователя правильно сформулировать свои информационные потребностина естественном языке, правильности построения конкретного запроса, а также отсубъективного представления пользователя о том, что такое нужная ему информация.
Из-заошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так исистемы, результаты могут сильно отличаться от того, что хотел получить пользователь,обращаясь к ИПС.Существует понятие устойчивость поиска - характеристика изменения полноты иточности при малых (семантически незначительных) изменениях запроса. Средние значенияполноты и точности для конкретной системы обычно вычисляют путем тестирования ее наэталонной базе документов.В зависимости от требований к количеству и качеству выдаваемой ИПС информациивыбираются разные критерии выдачи. Если важно не упустить нужную информацию(патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемойинформации (библиотека) - следует улучшить точность.Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой иточностью поиска в одной системе (при использовании одного и того жеинформационно-поискового языка), т.е. повышение точности ведет к увеличению шума и,наоборот, при уменьшении шума снижается точность.
Улучшить оба эти показателяодновременно можно, только внося изменения в информационно-поисковый язык, делаяграмматику и тезаурус более лингвистически развитыми. При этом достижение максимальновозможной полноты поиска связано с огромными сложностями. Последние 5-10% требуюттакого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечет засобой увеличение трудоемкости обработки входной информации и времени поиска.4.4. Языковой компонентУвеличению эффективности ИПС в большой степени помогает более детальнаяобработка текста документа. Так, существуют системы, которые для простоты в качествепоискового образа документа принимают его название, однако оно в силу разныхобстоятельств не всегда формально отражает содержание текста. Например, при подготовкеданного материала была использована статья "А глаз как у орла", не имеющая никакогоотношения ни к орнитологии, ни к окулистам.
Также большое значение имеет применениепрограмм, производящих лингвистически содержательную обработку текстов наестественном языке (учитывающую морфологию, синтаксис). Только с их помощью можноустановить, являются ли похожие слова (почти все буквы одинаковые) формами одногослова или же это совершенно разные слова, в соответствие которым поставлены разныесемантические единицы.Более примитивные, лежащие на поверхности приемы могут подвести разработчикаИПС. Так, если система не учитывает никакие правила русского языка и работает сшаблонами (типа var*, text*.exe), то при поиске для Золушки кавалера, интересующегосябальными танцами, в качестве ключевого слова-шаблона придется выбрать бал * (чтобы небыло потери информации, иначе можно пропустить эту характеристику, высказаннуюсловами люблю танцевать на балах ).
Тогда в результате поиска ей может быть предложенопознакомиться со всеми любителями балета , балыка , Бальмонта , Бальзака , со всеми,живущими около Балтийского моря, в домах с балконом , а также со всевозможнымибаловниками и баловнями судьбы .Все эти претенденты будут отсеяны, если в качестве ключевого слова будет заданоприлагательное бальный и система сможет распознавать его во всех его формах (применениеморфологического анализа слов также дает возможность уменьшить объем тезауруса,избавив его от избыточной информации - иначе все формы одного слова приходитсяопределять как синонимы).
Еще один способ уменьшения шума и повышения точности введение в информационно-поисковый язык аппарата работы с однокоренными словами. Внашем примере при задании ключа-корня бал выданными оказались бы только документы,содержащие разные формы слов бал и бальный . Однако и в этом случае письмо желанногопринца затеряется между сообщениями о салонах бального платья , владельцах бальныхзалов , музыкантах и официантах, обслуживающих балы . С помощью синтаксическогоанализа можно более точно определять словосочетания (например, распознавать их нетолько когда слова стоят друг за другом, но и когда они разделены рядом других слов).
Вприведенном примере в системе с синтаксическим компонентом можно было бы вести поискдокументов со словосочетаниями бальный танец и танцевать на балу . Конечно, и это необеспечивает 100% точности (например, ничто не запрещает выдачу сообщений об учителяхбальных танцев ), однако понятно, что количество выданных документов значительносократится, и Золушка уже не превратится в старую деву, просматривая предложенную ейсистемой информацию.Развитые информационно-поисковые языки допускают использование логическихсвязок: дурак =NOT(умный ), добрый молодец =(мужчина ) AND (молодой ).
В перспективе возможность описания на информационно-поисковом языке смысла целой фразы (которыйне всегда складывается из смыслов входящих в нее слов) и возможность формулировкисоответствующих семантически сложных запросов.[1]Отметим, что в рекламе или обзорах поисковых средств часто можно встретить слова"индексирование" или "индексация". Там эти термины означают создание общего глоссарияпо всему массиву для увеличения скорости поиска.
Для всей текстовой базы составляетсясписок встречающихся в ней терминов, и каждому из них ставится в соответствие некоторыйиндекс (координаты в текстовой базе); чаще всего это номер документа и номер слова вдокументе. При поступлении запроса слово сначала ищется в этом списке, и по найденнымкоординатам выдаются нужные документы. Если слов в запросе несколько, над ихкоординатами производится операция пересечения. Именно так организован поиск статей,включающих заданное слово, в подсистемах помощи Windows.Спасибо, что скачали книгу в бесплатной электронной библиотеке ModernLib.RuВсе книги автораЭта же книга в других форматах.