1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 16

Файл №844135 1626434812-e667f6b6e7e69d3a0798830a58e9075b (Корнеев, Гареев, Васютьн, Райх - Базы данных) 16 страница1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135) страница 162021-07-162021-07-16СтудИзба

Корнеев, Гареев, Васютьн, Райх - Базы данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 16)

Например, можно считать, что документ принадлежит рубрике г, если Х~~гЖ Г ~ ~~.' где ф вЂ” частота встречаемости термина г в документе, 1 вЂ” пороговое значение для рубрики г. Значение левой части указанного выражения может использоваться в качестве количественной оценки релевантности документов рубрикам. Пороговые значения для каждой из рубрик определяются таким образом, чтобы при применении решающего правила ко всей обучающей выборке к данной рубрике было отнесено максимальное количество релевантных и минимальное Глава 4.

Документальные системы количество пе релевантных ей текстов. Вычисление может производиться как при помощи различных математических методов, так и эмпирическим путем. К достоинствам такого подхода относятся: ° простота определения семантики рубрики, что дает возможность организовать автоматическое обучение рубрик; ° универсальность подхода, заключающаяся в том, что таким способом может быть определена семантика очень широкого класса рубрик из любой предметной области; ° наличие аппарата количественной оценки релевантности документов рубрикам; ° высокое быстродействие. Главным недостатком данной группы методов является болес низкое по сравнению с методами„основанными на знаниях, качество рубрицирования. Основой нейросетевыхметодов рубрицирования текстов является использование нейронной сети (НС) в качестве обучаемого классификатора.

Считается, что в наличии имеется подборка примеров текстов, каждый из которых помечен как релевантный или нерелевантный определенной рубрике. Задача НС, обученной на этих примерах, состоит в определении степени релевантности любого нового текста данной рубрике. Данный подход предполагает, что семантика рубрики однозначно задается примерами принадлежащих ей текстов.

Поскольку НС оперирует векторами, для представления текста используется одна из векторных моделей, например 1191: мс>а, еТ 1 У=вЂ” (г~,".,1о): ~ О,у Т ° ~ =1,1), а где В вЂ” мощность словаря; Ы,вЂ” лексическая единица из словаря; Т вЂ” текст, рассматриваемый как неупорядоченное множество лексических единиц; Ф вЂ” количество Е,. е Т. Поскольку обучающая выборка состоит из примеров с заранее известной принадлежностью текстов рубрикам, то имеет смысл использовать НС, в которых реализована парадигма обучения с учителем. Так, в [191 предлагается использовать вероятностную нейросеть ~ВНС).

НС имеет 0 входов и 2 выхода, один из которых отражает вероятность принадлежности предъявляемого текста к классу релевантных запросу текстов (Ррел), другой вЂ” к классу нерелевантных, На практике имеет смысл использовать лишь первый, поскольку сумма значений на выходах равна 1. Схематично описываемый процесс представлен на рис. 4.4 и рис. 4.5. Базы даииых. Иктеллектуальная обработка ииформации Рис.

4.4. Обучсаие Рис. 4.5. Определение вероятности релевантности текста рубрике Словарь рубрики могут составлять как простые, так и составные термины. Его формирование производится так же, как и в статистических методах, с той лишь разницей, что веса терминов в дальнейшем не используются. По качеству рубрицирования нейросетевые методы рубрицирования занимают среднее положение между статистическими методами и методами, основанными на знаниях. К основным недостаткам нейронных сетей чаще всего относят два факта: Экспертам непонятно, как нейронная сеть работает. 2. На обучение сети требуется очень много времени.

Однако, ВНС выгодно отличается тем, что имеет; 1. строгое математическое обоснование (по сути ВНС представляет собой оптимальный по Байесу классификатор); 2. огромное ~в тьгсячи раз большее) по сравнению с другими нейросетевы- ми парадигмами быстродействие. Глава 4. Документальные системы Кроме того, характер решаемой задачи позволяет существенно оптимизировать ВНС, а также устранить зависимость объема вычислений от мощности словаря 119~.

Этот факт позволяет полностью отказаться от усечения словаря, опасного тем, что в ходе его могут быть отброшены существенные для классификации термины. В целом, выбор данной нейросетевой парадигмы позволяет свести к минимуму указанные недостатки. 4.5. Поиск текстовой информации 4.5.1. Модели поиска текстовой информации Модель поиска текстовой информации характеризуется четырьмя параметрами: ° представлением документов и запросов; критерием смыслового соответствия; ° методами ранжирования результатов запроса; ° механизмами обратной связи, обеспечивающими оценку релевантности пользователем.

Рассмотрим наиболее распространенные модели поиска с позиции первых трех параметров ~обсуждению четвертого посвящен и. 4.5.2). Булееа модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение Ттце. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: АХР, ОК или НОТ. Мерой соответствия запроса документу служит значение статуса выборки (В5Ч„ге!г1еча1 зсашз ча1це).

В булевой модели В5ч' равно либо 1, если для данного документа вычисление выражения запроса дает Тгце, либо О в противном случае. Все документы с КБЧ = 1 считаются релевантными запросу. Такая модель проста в реализации и применяется во многих коммерческих системах. Она позволяет пользователям вводить в свои запросы произвольные сложные выражения. Однако эффективность поиска обычно невысока. К тому же, ранжировать результаты невозможно, так как все найденные документы имеют одинаковые КБ ч', а терминам нельзя присвоить весовые коэффициенты.

Нередко результаты выглядят противоестественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией АЯР, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в ИПС часто Базы данных. Интеллектуальная обработка информации применяется обратная связь с пользователем. Как правило, система просит пользователя указать релевантность или нерелевантность нескольких документов, включенных в начало списка вывода. Поскольку результаты не ранжируются, выбор документов для подобной экспертной оценки релевантности затруднен. Модель нечетких множеств основывается на теории нечетких множеств, допускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству.

Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели. Тем не менее ИПС на основе подобной модели оказывается практически столь же не способной классифицировать полученные результаты, что и системы, базирующиеся на булевой модели. Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели.

Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов. Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из и нормализованных векторов терминов. Значение первого компонента вектора представляющего документ отражает вес термина в нем. Запрос пользователя также представляется и-мерным вектором. Показатель КБУ, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа.

Чем больше КБЧ, тем выше релевантность документа запросу. Достоинство подобной модели в ее простоте. Она позволяет легко реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модсли. Вероятностные модели. В пространственно-векторной модели подразумевается, что векторы терминов, ортогональны и существующие взаимосвязи между терминами не должны приниматься во внимание.

Кроме того, в такой модели не специфицируется степень соответствия "запрос вЂ” документ" и она оценивается достаточно произвольно. Вероятностная модель учитывает все взаимозависимости и связи терминов, а также определяет Глава 4. Документальные системы такие основные параметры, как веса терминов запросов и форма соответствия "запрос вЂ” документ". Данная модель базируется на двух главных параметрах: Рг(ге1) и Рг(попге1), т.е. на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе.

Характеристики

Тип файла

DJVU-файл

Размер

10,72 Mb

Материал

Корнеев, Гареев, Васютьн, Райх - Базы данных

Тип материала

Книга

Предмет

Базы данных

Высшее учебное заведение

НГУ

Список файлов книги

korneev-gareev-vasjutn-rajh-bazy-dannyh.zip

1626434812-e667f6b6e7e69d3a0798830a58e9075b.djvu

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.