М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов (1156451), страница 12
Текст из файла (страница 12)
Для оценки эффективности используютследующие характеристики:РвПолнота выдачи =tabletable--х 100%Рв+РнРвТочность выдачи =tabletable-х 100%Рв+НвРнПотери информации =tabletable-х 100%Рв+РрНвИнформационный шум =tabletable-х 100 %Рв+НвРвЧувствительность =tabletable-x 100 %Рв+РнНнСпецифичность =tabletable-x 100%Нн+НвВ идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найденывсе документы и ни одного лишнего). В реальных системах коэффициент полноты достигает70%, а коэффициент точности поиска колеблется в очень широких пределах, иногдаснижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: каквнутренних свойств собственно поисковой системы (объема и характеристикинформационного массива, информационно-поискового языка, критерия выдачи), так и отмногих "внешних" условий: степени специфичности информационных запросов,способности пользователя правильно сформулировать свои информационные потребностина естественном языке, правильности построения конкретного запроса, а также отсубъективного представления пользователя о том, что такое нужная ему информация.
Из-заошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так исистемы, результаты могут сильно отличаться от того, что хотел получить пользователь,обращаясь к ИПС.Существует понятие устойчивость поиска - характеристика изменения полноты иточности при малых (семантически незначительных) изменениях запроса. Средние значенияполноты и точности для конкретной системы обычно вычисляют путем тестирования ее наэталонной базе документов.В зависимости от требований к количеству и качеству выдаваемой ИПС информациивыбираются разные критерии выдачи.
Если важно не упустить нужную информацию(патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемойинформации (библиотека) - следует улучшить точность.Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой иточностью поиска в одной системе (при использовании одного и того жеинформационно-поискового языка), т.е.
повышение точности ведет к увеличению шума и,наоборот, при уменьшении шума снижается точность. Улучшить оба эти показателяодновременно можно, только внося изменения в информационно-поисковый язык, делаяграмматику и тезаурус более лингвистически развитыми. При этом достижение максимальновозможной полноты поиска связано с огромными сложностями. Последние 5-10% требуюттакого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечет засобой увеличение трудоемкости обработки входной информации и времени поиска.4.4.
Языковой компонентУвеличению эффективности ИПС в большой степени помогает более детальнаяобработка текста документа. Так, существуют системы, которые для простоты в качествепоискового образа документа принимают его название, однако оно в силу разныхобстоятельств не всегда формально отражает содержание текста. Например, при подготовкеданного материала была использована статья "А глаз как у орла", не имеющая никакогоотношения ни к орнитологии, ни к окулистам. Также большое значение имеет применениепрограмм, производящих лингвистически содержательную обработку текстов наестественном языке (учитывающую морфологию, синтаксис).
Только с их помощью можноустановить, являются ли похожие слова (почти все буквы одинаковые) формами одногослова или же это совершенно разные слова, в соответствие которым поставлены разныесемантические единицы.Более примитивные, лежащие на поверхности приемы могут подвести разработчикаИПС. Так, если система не учитывает никакие правила русского языка и работает сшаблонами (типа var*, text*.exe), то при поиске для Золушки кавалера, интересующегосябальными танцами, в качестве ключевого слова-шаблона придется выбрать бал * (чтобы небыло потери информации, иначе можно пропустить эту характеристику, высказаннуюсловами люблю танцевать на балах ). Тогда в результате поиска ей может быть предложенопознакомиться со всеми любителями балета , балыка , Бальмонта , Бальзака , со всеми,живущими около Балтийского моря, в домах с балконом , а также со всевозможнымибаловниками и баловнями судьбы .Все эти претенденты будут отсеяны, если в качестве ключевого слова будет заданоприлагательное бальныйи система сможет распознавать его во всех его формах(применение морфологического анализа слов также дает возможность уменьшить объемтезауруса, избавив его от избыточной информации - иначе все формы одного словаприходится определять как синонимы).
Еще один способ уменьшения шума и повышенияточности - введение в информационно-поисковый язык аппарата работы с однокореннымисловами. В нашем примере при задании ключа-корня бал выданными оказались бы толькодокументы, содержащие разные формы слов бал и бальный . Однако и в этом случае письможеланного принца затеряется между сообщениями о салонах бального платья , владельцахбальных залов , музыкантах и официантах, обслуживающих балы . С помощьюсинтаксического анализа можно более точно определять словосочетания (например,распознавать их не только когда слова стоят друг за другом, но и когда они разделены рядомдругих слов).
В приведенном примере в системе с синтаксическим компонентом можно былобы вести поиск документов со словосочетаниями бальный танец и танцевать на балу .Конечно, и это не обеспечивает 100% точности (например, ничто не запрещает выдачусообщений об учителях бальных танцев ), однако понятно, что количество выданныхдокументов значительно сократится, и Золушка уже не превратится в старую деву,просматривая предложенную ей системой информацию.Развитые информационно-поисковые языки допускают использование логическихсвязок: дурак =NOT(умный ), добрый молодец =(мужчина ) AND (молодой ). В перспективе возможность описания на информационно-поисковом языке смысла целой фразы (которыйне всегда складывается из смыслов входящих в нее слов) и возможность формулировкисоответствующих семантически сложных запросов.[1] Отметим, что в рекламе или обзорах поисковых средств часто можно встретитьслова "индексирование" или "индексация". Там эти термины означают создание общегоглоссария по всему массиву для увеличения скорости поиска.
Для всей текстовой базысоставляется список встречающихся в ней терминов, и каждому из них ставится всоответствие некоторый индекс (координаты в текстовой базе); чаще всего это номердокумента и номер слова в документе. При поступлении запроса слово сначала ищется вэтом списке, и по найденным координатам выдаются нужные документы. Если слов взапросе несколько, над их координатами производится операция пересечения. Именно такорганизован поиск статей, включающих заданное слово, в подсистемах помощи Windows..