1626434812-e667f6b6e7e69d3a0798830a58e9075b (844135), страница 16
Текст из файла (страница 16)
Например, можно считать, что документ принадлежит рубрике г, если Х~~гЖ Г ~ ~~.' где ф — частота встречаемости термина г в документе, 1 — пороговое значение для рубрики г. Значение левой части указанного выражения может использоваться в качестве количественной оценки релевантности документов рубрикам. Пороговые значения для каждой из рубрик определяются таким образом, чтобы при применении решающего правила ко всей обучающей выборке к данной рубрике было отнесено максимальное количество релевантных и минимальное Глава 4.
Документальные системы количество пе релевантных ей текстов. Вычисление может производиться как при помощи различных математических методов, так и эмпирическим путем. К достоинствам такого подхода относятся: ° простота определения семантики рубрики, что дает возможность организовать автоматическое обучение рубрик; ° универсальность подхода, заключающаяся в том, что таким способом может быть определена семантика очень широкого класса рубрик из любой предметной области; ° наличие аппарата количественной оценки релевантности документов рубрикам; ° высокое быстродействие. Главным недостатком данной группы методов является болес низкое по сравнению с методами„основанными на знаниях, качество рубрицирования. Основой нейросетевыхметодов рубрицирования текстов является использование нейронной сети (НС) в качестве обучаемого классификатора.
Считается, что в наличии имеется подборка примеров текстов, каждый из которых помечен как релевантный или нерелевантный определенной рубрике. Задача НС, обученной на этих примерах, состоит в определении степени релевантности любого нового текста данной рубрике. Данный подход предполагает, что семантика рубрики однозначно задается примерами принадлежащих ей текстов.
Поскольку НС оперирует векторами, для представления текста используется одна из векторных моделей, например 1191: мс>а, еТ 1 У=— (г~,".,1о): ~ О,у Т ° ~ =1,1), а где  — мощность словаря; Ы,— лексическая единица из словаря; Т вЂ” текст, рассматриваемый как неупорядоченное множество лексических единиц; Ф вЂ” количество Е,. е Т. Поскольку обучающая выборка состоит из примеров с заранее известной принадлежностью текстов рубрикам, то имеет смысл использовать НС, в которых реализована парадигма обучения с учителем. Так, в [191 предлагается использовать вероятностную нейросеть ~ВНС).
НС имеет 0 входов и 2 выхода, один из которых отражает вероятность принадлежности предъявляемого текста к классу релевантных запросу текстов (Ррел), другой — к классу нерелевантных, На практике имеет смысл использовать лишь первый, поскольку сумма значений на выходах равна 1. Схематично описываемый процесс представлен на рис. 4.4 и рис. 4.5. Базы даииых. Иктеллектуальная обработка ииформации Рис.
4.4. Обучсаие Рис. 4.5. Определение вероятности релевантности текста рубрике Словарь рубрики могут составлять как простые, так и составные термины. Его формирование производится так же, как и в статистических методах, с той лишь разницей, что веса терминов в дальнейшем не используются. По качеству рубрицирования нейросетевые методы рубрицирования занимают среднее положение между статистическими методами и методами, основанными на знаниях. К основным недостаткам нейронных сетей чаще всего относят два факта: Экспертам непонятно, как нейронная сеть работает. 2. На обучение сети требуется очень много времени.
Однако, ВНС выгодно отличается тем, что имеет; 1. строгое математическое обоснование (по сути ВНС представляет собой оптимальный по Байесу классификатор); 2. огромное ~в тьгсячи раз большее) по сравнению с другими нейросетевы- ми парадигмами быстродействие. Глава 4. Документальные системы Кроме того, характер решаемой задачи позволяет существенно оптимизировать ВНС, а также устранить зависимость объема вычислений от мощности словаря 119~.
Этот факт позволяет полностью отказаться от усечения словаря, опасного тем, что в ходе его могут быть отброшены существенные для классификации термины. В целом, выбор данной нейросетевой парадигмы позволяет свести к минимуму указанные недостатки. 4.5. Поиск текстовой информации 4.5.1. Модели поиска текстовой информации Модель поиска текстовой информации характеризуется четырьмя параметрами: ° представлением документов и запросов; критерием смыслового соответствия; ° методами ранжирования результатов запроса; ° механизмами обратной связи, обеспечивающими оценку релевантности пользователем.
Рассмотрим наиболее распространенные модели поиска с позиции первых трех параметров ~обсуждению четвертого посвящен и. 4.5.2). Булееа модель представляет документы с помощью набора терминов, присутствующих в индексе, каждый из которых рассматривается как булева переменная. При наличии термина в документе соответствующая переменная принимает значение Ттце. Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: АХР, ОК или НОТ. Мерой соответствия запроса документу служит значение статуса выборки (В5Ч„ге!г1еча1 зсашз ча1це).
В булевой модели В5ч' равно либо 1, если для данного документа вычисление выражения запроса дает Тгце, либо О в противном случае. Все документы с КБЧ = 1 считаются релевантными запросу. Такая модель проста в реализации и применяется во многих коммерческих системах. Она позволяет пользователям вводить в свои запросы произвольные сложные выражения. Однако эффективность поиска обычно невысока. К тому же, ранжировать результаты невозможно, так как все найденные документы имеют одинаковые КБ ч', а терминам нельзя присвоить весовые коэффициенты.
Нередко результаты выглядят противоестественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией АЯР, документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в ИПС часто Базы данных. Интеллектуальная обработка информации применяется обратная связь с пользователем. Как правило, система просит пользователя указать релевантность или нерелевантность нескольких документов, включенных в начало списка вывода. Поскольку результаты не ранжируются, выбор документов для подобной экспертной оценки релевантности затруднен. Модель нечетких множеств основывается на теории нечетких множеств, допускающей (в отличие от обычной теории множеств) частичную принадлежность элемента тому или иному множеству.
Здесь логические операции переопределены таким образом, чтобы учесть возможность неполной принадлежности множеству, а обработка запросов пользователя выполняется аналогично булевой модели. Тем не менее ИПС на основе подобной модели оказывается практически столь же не способной классифицировать полученные результаты, что и системы, базирующиеся на булевой модели. Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели.
Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов. Пространственно-векторная модель основана на предположении, что совокупность документов можно представить набором векторов в пространстве, определяемом базисом, из и нормализованных векторов терминов. Значение первого компонента вектора представляющего документ отражает вес термина в нем. Запрос пользователя также представляется и-мерным вектором. Показатель КБУ, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа.
Чем больше КБЧ, тем выше релевантность документа запросу. Достоинство подобной модели в ее простоте. Она позволяет легко реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модсли. Вероятностные модели. В пространственно-векторной модели подразумевается, что векторы терминов, ортогональны и существующие взаимосвязи между терминами не должны приниматься во внимание.
Кроме того, в такой модели не специфицируется степень соответствия "запрос — документ" и она оценивается достаточно произвольно. Вероятностная модель учитывает все взаимозависимости и связи терминов, а также определяет Глава 4. Документальные системы такие основные параметры, как веса терминов запросов и форма соответствия "запрос — документ". Данная модель базируется на двух главных параметрах: Рг(ге1) и Рг(попге1), т.е. на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе.