Главная » Просмотр файлов » 1626434812-e667f6b6e7e69d3a0798830a58e9075b

1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 17

Файл №844135 1626434812-e667f6b6e7e69d3a0798830a58e9075b (Корнеев, Гареев, Васютьн, Райх - Базы данных) 17 страница1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135) страница 172021-07-16СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 17)

Подразумевается, что релевантность является бинарным свойством, и поэтому Рг(ге!) = 1 — Рг(попге1). Кроме того, в этой модели применяются два стоимостных параметра: а1 и а2. Они характеризуют соответственно потери, связанные с включением в результат нерелевантного документа и пропуском релевантного документа. Данная модель требует определения вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, оценить которые довольно сложно. Между тем она выполняет важную функцию, обьясняя процесс поиска и предлагая теоретическое обоснование методов, применявшихся ранее эмпирически (например, введение некоторых систем определения весовых коэффициентов терминов).

4.5.2. Методы введении обратной связи с пользователеы В отличие от среды баз данных в ДИПС нет четкого представления документов и пользовательских запросов. Пользователи обычно начинают с неточного и неполного запроса, а следовательно — с низкой эффективности поиска, постепенно уточняя его методом итераций. Система поддерживает обратную связь с пользователем, позволяя тем самым оценить релевантность документов„найденных по первоначальному запросу. Такой подход позволяет повысить эффективность поиска.

Чтобы упростить представление обратной связи, будем считать, что используется пространственно-векторная модель поиска, а пользователю предоставлена возможность просто отметить: релевантен документ или нет. Множество документов, считающихся релевантными, формиру|от положительную обратную связь, а множество документов, рассматриваемых как нерелевантные, — отрицательную.

Существуют два основных подхода к использованию такой обратной связи: модификация запроса и модификация представления документов. Методы, модифицирующие представление запроса, влияют только на текущий сеанс, но никак не сказываются на обработке других запросов. Методы, основанные на модификации представления документов, оказывают влияние и на эффективность поиска в последующих запросах. Базы данных.

Интеллектуальная обработка информации Базовое допущение, на которое опирается методология обратной связи, состоит в том, что документы, релевантные некоторому пользовательскому запросу, близки друг к другу в векторном пространстве, т. е, соответствующие векторы в каком-то смысле "похожи" друг на друга.

Использование обратной связи в механизмах поиска информации требует более описательного и семантически богатого представления документов, чем то, что получается в результате индексирования лишь названий или рефератов документов. Один из возможных способов — индексирование всего документа. Пространственно-векторную модель нетрудно адаптировать ко всем методам поиска с обратной связью, в то время как вероятностная модель требует специальных расширений.

Модификация представления запроса. Существуют три способа повышения эффективности поиска путем модификации представления запроса. Первый — модификация весов терминов — предусматривает корректировку весов терминов в запросе, осуществляемую путем сложения вектора запроса и векторов, представляющих документы, которые получили положительную оценку (положительную обратную связь). Наряду с этим возможна дополнительная корректировка за счет вычитания векторов, входящих во множество с отрицательной обратной связью. Переформулированный таким образом запрос должен возвращать дополнительные релевантные документы, аналогичные тем, что попали во множество с положительной обратной связью.

Данный процесс можно повторять итерационно до тех пор, пока качество выборки и число документов в ней не достигнут приемлемого уровня. Результаты экспериментов показывают, что положительная обратная связь более содержательна и эффективна. Причина в том, что документы из множества с положительной обратной связью обычно более однородны, чем формирующие отрицательную обратную связь. Один из эффективных методов использует все документы с положительной обратной связью, но для вычитания из запроса берет только те векторы с отрицательной обратной связью, которые обладают наибольшим рангом нерелевантности. Второй метод, называемый методом расширения запроса, модифицирует исходный запрос путем добавления к нему новых терминов.

Эти термины выбираются из документа с положительной обратной связью и сортируются на основе их весов. К запросу добавляется заранее заданное число терминов из начала отсортированного списка. Эксперименты показывают, что последние три метода сортировки дают наилучшие результаты и добавление ограниченного числа наиболее важных терминов предпочтительнее учета всех терминов. При включении в запрос более 20 дополнительных терминов эффективность практически не увеличивается. 85 Глава 4. Докумеитальиые системы В некоторых случаях представленные два метода не дают удовлетворительных результатов из-за неоднородности документов с положительной обратной связью (иными словами, они не образуют компактного кластера в пространстве документов) или из-за "вкрапления" нерелевантных документов во множество релевантных.

Один из способов обнаружения указанной ситуации— кластеризация документов с положительной обратной связью и выявление нескольких однородных кластеров. Такой метод называется расщеплением запроса. Если множество документов кластеризуемо, то запрос разбивается на подзапросы таким образом, чтобы каждый подзапрос представлял один кластер. Затем можно настроить весовые коэффициенты терминов подзапроса или расширить его с помощью методов, уже описанных выше. Модификация представления дакументпов.

Данный подход предусматривает настройку векторов документов на основе обратной связи. Его называют также кластеризацией, ориентированной на пользователя. Суть метода — коррекция весовых коэффициентов векторов, попавших в выборку, с тем чтобы приблизить их к вектору запроса. В то же время веса найденных нерелевантных документов модифицируются таким образом, чтобы отдалить их от вектора запроса. При этом следует соблюдать осторожность — отдельные смещения документов должны быть невелики, так как оценка релевантности пользователем неизбежно бывает субъективной. Более подробно модели поиска и механизмы обратной связи рассмотрены в статье 116). 4.б. Оценка качества документальных информационно-поисковых систем Ранее отмечалось, что в ПОД и ПП отражается лишь основное смысловое содержание поступающих сообщений в сокращенном виде.

Поэтому метод информационного поиска, основанный на сопоставлении ПП с ПОД, не в состоянии полностью обеспечить отыскания всех документов отвечающих информационному запросу. Это приводит к тому, что часть документов, отвечающих запросу, т.е. релевантных ему, остается невыданной потребителю. В то же время во множестве выданных ему документов присутствуют и такие, которые не отвечают запросу, т.е. не являются релевантными.

Таким образом, практически любой реальной ДИПС присущи два основных типа ошибок: ° ошибки 1-го рода (или пропуск цели): невыдача потребителю фактически релевантных его запросу документов, ошибки 2-го рода (или ложная тревога, иначе шум): выдача потребителю нерелевантных документов, которые не отвечают поставленному запросу. Базы данных. Интеллектуальная обработка инфориации Наличие ошибок 1-го и 2-го рода в реальной системе обуславливает разбиение всего массива документов системы по отношению к запросу на 4 подмассива: Разбиение массива документов А — массив выданных релевантных документов;  — массив выданных нерелевантных документов; С вЂ” массив невыданных релевантных документов; 0 — массив невыданных нерелевантных документов; Введем следующие обозначения: а — количество выданных релевантных документов; Ь вЂ” количество выданных нерелевантных документов; с — количество невыданных релевантных документов; д — количество невыданных нерелевантных документов; Существуют следующие показатели эффективности ДИПС: 1.

Коэффициент полноты р, характеризующий долю выданных релевантных документов во всем массиве релевантных документов: а а+с 2, Коэффициент точности и, характеризующий долю выданных релсвантных документов во всем массиве выданных документов: а и = а+Ь. 3. Коэффициент шуиа е, характеризующий долю выданных нерелевантных документов во всем массиве выданных документов: Ь е = 1-и а+Ь 4. Коэффициент осадка о, характеризующий долю выданных нерелевант- ных документов во всем массиве нерелевантных документов: Гпаеа 4. Документальные системы 5. Коэффициент специфичности 1с, характеризующий долю невыданных нерелевантных документов во всем массиве нерелевантных документов: д 1с=- Ь+ с1 Часто для удобства перечисленные показатели измеряют в %, т.е. в указанных формулах появляется дополнительный сомножитель 100 %.

Характеристики

Тип файла
DJVU-файл
Размер
10,72 Mb
Тип материала
Предмет
Высшее учебное заведение

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6529
Авторов
на СтудИзбе
301
Средний доход
с одного платного файла
Обучение Подробнее