Методичка по первой части ModernLib.Ru (pdf) (1157206), страница 11

Файл №1157206 Методичка по первой части ModernLib.Ru (pdf) (Методичка по первой части ModernLib.Ru (pdf)) 11 страницаМетодичка по первой части ModernLib.Ru (pdf) (1157206) страница 112019-09-182019-09-18СтудИзба

Методичка по первой части ModernLib.Ru (pdf)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 11)

Поисковые предписанияформируются при поступлении запросов, а поисковые образы документов могут создаватьсякак при пополнении системы новыми документами, так и при поиске ответа на запрос. Всистемах, где потоки информации велики и часто обновляемы, нет необходимости тратитьресурсы на индексирование, и за поисковый образ документа часто принимается самдокумент или же его название.4.3. РелевантностьЦелью ИПС является выдача документов, релевантных(семантическисоответствующих) запросу (по-английски relevant - относящийся к делу).

Различаютрелевантностьсодержательнуюи формальную. Релевантность содержательнаятрактуется как соответствие документа информационному запросу, определяемоенеформальным путем (Василиса Премудрая сама прочитает письма всех добрых молодцев ивыберет кандидатов в женихи, отвечающих ее требованиям), а релевантность формальная как соответствие, определяемое алгоритмически путем сравнения поискового предписания ипоискового образа документа на основании применяемого в информационно-поисковойсистеме критерия выдачи .Критерий выдачи - формальное правило, совокупность признаков, по которымопределяется степень формальной релевантности поискового образа документа и поисковогопредписания и принимается решение о выдаче/невыдаче некоторого документа в ответ наинформационный запрос.Информационнаяпотребность?Формулировкаинформационногозапроса?Поисковоепредписание? Релевантность Релевантность ?содержательная формальная: Документы?Индексирование?ПоисковыймассивВ автоматизированных системах поиск основан на формальной релевантности,содержательная релевантность в них определяется, например, путем экспертных оценок ииспользуется для получения данных об эффективности информационного поиска всистеме (качестве ее работы).

В качестве критерия выдачи может быть выбрано полноесовпадение поисковых образов документа и запроса, включение множества ключевых словзапроса во множество ключевых слов документа, пересечение этих множеств и др.В рассматриваемом примере при выборе в качестве критерия выдачи полногосовпадения ключевых слов документа и запроса клиенту должны быть предоставленыписьма персонажей, полностью отвечающих его требованиям. Навряд ли это ихудовлетворит, так как явно выбор будет не слишком велик. Этот критерий больше быподошел для системы, где необходима точность, например, определяющей выбор лекарствапри лечении определенной болезни (пусть их будет немного, зато все подходящие), здесь же,наверное, уместен критерий на пересечение.Дескрипторам могут быть приданы весовые коэффициенты в зависимости от степениих соответствия запросу; при поиске коэффициенты дескрипторов, обнаруженных и взапросе и в документе, суммируются, и документы выдаются в зависимости от значения этойсуммы (например, если она превысила некоторое значение).

Таким образом, если указать,что наиболее весомыми являются характеристики богатство и могущество , а не доброта ивозраст , можно заполучить в женихи Кощея Бессмертного. При использовании весов такжеможет применяться эшелонированная выдача - отобранные документы предъявляютсяпользователю не в произвольном порядке, а по степени релевантности (по убыванию суммвесов), право окончательного выбора релевантных документов - за пользователем.Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, иничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчаниеИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишнихдокументов).

Массив документов разделяется на выданные и невыданные - по одномукритерию, и на релевантные и нерелевантные - по другому.Таким образом, для каждого запроса получаем 4 группы документов:Соотношение количества документов в каждой из этих групп определяетэффективность информационного поиска. Для оценки эффективности используютследующие характеристики:РвПолнота выдачи =tabletable-х 100%Рв+РнРвТочность выдачи =tabletable-х 100%Рв+НвРнПотери информации =tabletable-х 100%Рв+РрНвИнформационный шум =tabletable-х 100 %Рв+НвРвЧувствительность =tabletable-x 100 %Рв+РнНнСпецифичность =tabletable-x 100%Нн+НвВ идеальной ИПС Рн=Нв=0 и поэтому полнота и точность= 100%, а шум = 0 (найденывсе документы и ни одного лишнего).

В реальных системах коэффициент полноты достигает70%, а коэффициент точности поиска колеблется в очень широких пределах, иногдаснижаясь до 10%. Величины этих коэффициентов зависят от целого ряда факторов: каквнутренних свойств собственно поисковой системы (объема и характеристикинформационного массива, информационно-поискового языка, критерия выдачи), так и отмногих "внешних" условий: степени специфичности информационных запросов,способности пользователя правильно сформулировать свои информационные потребностина естественном языке, правильности построения конкретного запроса, а также отсубъективного представления пользователя о том, что такое нужная ему информация.

Из-заошибок и неточностей, возникающих на каждом из этапов работы как пользователя, так исистемы, результаты могут сильно отличаться от того, что хотел получить пользователь,обращаясь к ИПС.Существует понятие устойчивость поиска - характеристика изменения полноты иточности при малых (семантически незначительных) изменениях запроса. Средние значенияполноты и точности для конкретной системы обычно вычисляют путем тестирования ее наэталонной базе документов.В зависимости от требований к количеству и качеству выдаваемой ИПС информациивыбираются разные критерии выдачи. Если важно не упустить нужную информацию(патентная экспертиза) - нужно повысить полноту, если надо сократить объем выдаваемойинформации (библиотека) - следует улучшить точность.Английским ученым С.Клевердоном выявлена обратная зависимость между полнотой иточностью поиска в одной системе (при использовании одного и того жеинформационно-поискового языка), т.е. повышение точности ведет к увеличению шума и,наоборот, при уменьшении шума снижается точность.

Улучшить оба эти показателяодновременно можно, только внося изменения в информационно-поисковый язык, делаяграмматику и тезаурус более лингвистически развитыми. При этом достижение максимальновозможной полноты поиска связано с огромными сложностями. Последние 5-10% требуюттакого же усложнения языкового аппарата системы, как и предыдущие 90-95%, что влечет засобой увеличение трудоемкости обработки входной информации и времени поиска.4.4. Языковой компонентУвеличению эффективности ИПС в большой степени помогает более детальнаяобработка текста документа. Так, существуют системы, которые для простоты в качествепоискового образа документа принимают его название, однако оно в силу разныхобстоятельств не всегда формально отражает содержание текста. Например, при подготовкеданного материала была использована статья "А глаз как у орла", не имеющая никакогоотношения ни к орнитологии, ни к окулистам.

Также большое значение имеет применениепрограмм, производящих лингвистически содержательную обработку текстов наестественном языке (учитывающую морфологию, синтаксис). Только с их помощью можноустановить, являются ли похожие слова (почти все буквы одинаковые) формами одногослова или же это совершенно разные слова, в соответствие которым поставлены разныесемантические единицы.Более примитивные, лежащие на поверхности приемы могут подвести разработчикаИПС. Так, если система не учитывает никакие правила русского языка и работает сшаблонами (типа var*, text*.exe), то при поиске для Золушки кавалера, интересующегосябальными танцами, в качестве ключевого слова-шаблона придется выбрать бал * (чтобы небыло потери информации, иначе можно пропустить эту характеристику, высказаннуюсловами люблю танцевать на балах ).

Тогда в результате поиска ей может быть предложенопознакомиться со всеми любителями балета , балыка , Бальмонта , Бальзака , со всеми,живущими около Балтийского моря, в домах с балконом , а также со всевозможнымибаловниками и баловнями судьбы .Все эти претенденты будут отсеяны, если в качестве ключевого слова будет заданоприлагательное бальный и система сможет распознавать его во всех его формах (применениеморфологического анализа слов также дает возможность уменьшить объем тезауруса,избавив его от избыточной информации - иначе все формы одного слова приходитсяопределять как синонимы).

Еще один способ уменьшения шума и повышения точности введение в информационно-поисковый язык аппарата работы с однокоренными словами. Внашем примере при задании ключа-корня бал выданными оказались бы только документы,содержащие разные формы слов бал и бальный . Однако и в этом случае письмо желанногопринца затеряется между сообщениями о салонах бального платья , владельцах бальныхзалов , музыкантах и официантах, обслуживающих балы . С помощью синтаксическогоанализа можно более точно определять словосочетания (например, распознавать их нетолько когда слова стоят друг за другом, но и когда они разделены рядом других слов).

Вприведенном примере в системе с синтаксическим компонентом можно было бы вести поискдокументов со словосочетаниями бальный танец и танцевать на балу . Конечно, и это необеспечивает 100% точности (например, ничто не запрещает выдачу сообщений об учителяхбальных танцев ), однако понятно, что количество выданных документов значительносократится, и Золушка уже не превратится в старую деву, просматривая предложенную ейсистемой информацию.Развитые информационно-поисковые языки допускают использование логическихсвязок: дурак =NOT(умный ), добрый молодец =(мужчина ) AND (молодой ).

В перспективе возможность описания на информационно-поисковом языке смысла целой фразы (которыйне всегда складывается из смыслов входящих в нее слов) и возможность формулировкисоответствующих семантически сложных запросов.[1]Отметим, что в рекламе или обзорах поисковых средств часто можно встретить слова"индексирование" или "индексация". Там эти термины означают создание общего глоссарияпо всему массиву для увеличения скорости поиска.

Для всей текстовой базы составляетсясписок встречающихся в ней терминов, и каждому из них ставится в соответствие некоторыйиндекс (координаты в текстовой базе); чаще всего это номер документа и номер слова вдокументе. При поступлении запроса слово сначала ищется в этом списке, и по найденнымкоординатам выдаются нужные документы. Если слов в запросе несколько, над ихкоординатами производится операция пересечения. Именно так организован поиск статей,включающих заданное слово, в подсистемах помощи Windows.Спасибо, что скачали книгу в бесплатной электронной библиотеке ModernLib.RuВсе книги автораЭта же книга в других форматах.

Характеристики

Тип файла

PDF-файл

Размер

569,35 Kb

Материал

Методичка по первой части ModernLib.Ru (pdf)

Тип материала

Книга

Предмет

Компьютерная лингвистика

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

metodichka-po-pervoj-chasti-modernlib.ru-pdf.rar

Методичка по первой части ModernLib.Ru (pdf).pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.