Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 303
Текст из файла (страница 303)
Очевидно, что эти документы имеют разный смысл, но верно также то, что оба они являются релевантными по отношению к запросам о собаках и укусах. Теперь, чтобы рассчитать вероятность запроса при наличии релевантного документа, достаточно просто перемножить вероятности слов в запросе, руководствуясь моделью однословных сочетаний данного документа. В этом и состоит наивная байесовская модель данного запроса. Используя 0, для обозначения)-го слова в запросе, получим следующее: Это соотношение позволяет ввести такое упрощение: ее О) Г~с~я = х) дг . (д,)ц, -) ьч г))э, д) Р( г) О) 3 Наконец, мы получили возможность применить эти математические модели к некоторому примеру.
В табл. 23.1 приведены статистические данные по количеству однословных сочетаний применительно к словам в запросе [Вауеэ з пбогюае хоп геггхеча). вос)е1], выполняемом на коллекции документов, состоящей из пяти отдельных глав оригинала настоящей книги. Предполагается, что эти главы имеют одинаковое качество, поэтому требуется лишь вычислить вероятность запроса применительно к данному документу, для каждого документа.
Такая процедура выполнена дважды, причем в первый раз использовалось выражение оценки несглаженного максимального правдоподобия )эг, а во второй раз — модель г), ' со сглаживанием путем добавления единицы. Можно было бы предположить, что текущая глава должна получить наивысший ранг применительно к этому запросу, и в действительности были получены такие данные при использовании в каждой модели.
Преимушеством сглаженной модели является то, что она менее восприимчива к шуму и позволяет присвоить ненулевую вероятность релевантности документу, не содержащему все слова запроса. А преимушеством несглаженной модели является то, что она позволяет проще выполнить вычисления применительно к коллекциям с многочисленными документами, поскольку после создания индекса, где указано, в каких документах упоминается каждое слово, появляется возможность быстро формировать результирующий набор путем применения операции пересечения Часть ЪЧ1. Общение, восприятие и осуществление действий 1114 к этим спискам, после чего остается вычислить Р( О( Р„) только для документов, входящих в полученное пересечение, а не для каждого документа. Таблица 23.1.
Вероятностная модель информационного поиска для запроса [ваувя 1неохягаезоп хвехйета1 юоцо11, применяемого к коллекции документов, состоящей из пяти глав оригинала настоящей книги. В этой таблице указано количество слов, относящееся к каждой паре "документ- слово", и общее количество слов ьтлля каждого документа.
Используются две модели документа (И:;— это несглажениая модель однословных сочетаний для 1-го документа; п, ' — та же модель со сглаживаннем путем добавления единицы) и вычисляется вероятность запроса применительно к каждому документу для обеих моделей. Очевидно, что текущая глава (глава 23) имеет наивысшие показатели при использовании любой модели, поскольку в ней появление искомых слов имеет в 200 раз более высокую вероятность по сравнению с любой другой главой Слова Запрос Глава 1 Глава 13 Глава 15 Глава 22 Глава 23 32 38 Вауез !п[оппаиоп 12 39 15 18 17 ге!нега! 160 63 тоде! Р(Д!Ис, Г) Р(010, ', г! 16397 12574 1.2х10 " 1. 5х10 " 14680 1.5х10 ы 4.1х10 ы 10941 2.8х10 зз 7.0х10 'з 18186 5.2х10 ы 1.7х10 ы Сравнительный анализ систем информационного поиска Важная проблема состоит в том, как оценить показатели работы рассматриваемой системы информационного поиска.
Проведем эксперимент, в котором системе предъявляется ряд запросов, а результирующие наборы оцениваются с учетом суждений людей о релевантности полученных результатов. По традиции при такой оценке применяются два критерия: полнота выборки и точность. Сформулируем определения этих критериев с помощью примера. Предположим, что некоторая система информационного поиска возвратила результирую!ций набор, относя!цийся к одному запросу, применительно к которому известно, какие документы являются и не являются релевантными, из совокупности в 100 документов. Количество документов в каждой категории приведено в табл.
23.2. Таблица 23.2. Количество документов в каждой категории В результирующем наборе Не в результирующем наборе Релевантный Не релсвантный 30 10 20 40 Показатель 'в. точности измеряет долю документов в результирующем наборе, которые действительно являются релевантными. В данном примере точность составляет 30/(30+10)=0,75. Относительное количество ложных положительных оценок равно 1 — 0,75=0,25.
Показатель 'в. полноты выборки измеряет долю всех релевантных документов в коллекции, которые находятся в результирую!цем наборе. В данном примере полнота выборки составляет 30/(30+20)=0,60. Относительное количество ложных отрицательных опенок равно 1 — 0,60=0,40. Вычисление показателя полноты выборки в очень большой коллекции документов, такой как %ог10 Ъ%[[е %еЬ, стано- 1115 Глава 23. Вероятностная обработка лингвистической информации вится сложным, поскольку отсутствует удобный способ проверки каждой страницы в %еЬ на релевантность. Самое лучшее решение, которое может быть принято в данном случае, состоит в том, чтобы оценивать полноту выборки путем исследования определенной части документов или совсем игнорировать показатель полноты выборки и оценивать коллекцию документов только по показателю точности. В некоторых системах может происходить потеря точности из-за увеличения полноты выборки.
В крайнем случае в системе, которая возвращает в составе результирующего набора каждый документ из коллекции документов, гарантированно достигается полнота выборки, равная 100% но точность становится низкой. Еше один вариант состоит в том, что система может возвращать единственный документ и показывать низкую полноту выборки, но достигать высокой вероятности получения 100%-ной точности. Один из способов достижения компромисса между точностью и полнотой выборки состоит в использовании 'в.
кривой КОС. Аббревиатура "КОС" сокращенно обозначает показатель "рабочая характеристика приемника" (гесенчег орегайпа сйагасгепзйс), который требует дополнительных пояснений. Он представляет собой график, на котором относительное количество ложных отрицательных оценок измеряется по оси у, а относительное количество ложно положительных оценок измеряется по оси х, что позволяет находить различные точки компромиссов.
Плогцадь под этой кривой представляет собой суммарную оценку эффективности системы информационного поиска. Показатели полноты выборки и точности были определены в то время, когда задачи информационного поиска решались главным образом библиотекарями, которые были заинтересованы в получении исчерпывающих, научно обоснованных результатов. В настоящее время большинство запросов (количество которых измеряется сотнями миллионов в сутки) выполняется пользователями 1пгегпец которых в меньшей степени интересует исчерпывающая полнота ответов и требуется лишь немедленно найти ответ. Для таких пользователей одним из наиболее приемлемых критериев является средний ~в.
обратный ранг первого релевантного результата. Это означает, что если первый результат, полученный системой, является релевантным, он получает применительно к данному запросу оценку 1, а если первые два результата не релевантны, а третий является таковым, он получает оценку 1/3.
Еще одним критерием служит Ж время ожидания ответа, который позволяет измерить продолжительность времени, требуемую для поиска желаемого ответа на поставленный пользователем вопрос. Этот показатель лучше оценивает те характеристики систем информационного поиска, которые действительно хотелось бы точно измерить, но обладает одним недостатком, связанным с тем, что для проведения каждого нового эксперимента приходится привлекать новую партию испытуемых субъектов — людей. Совершенствование информационного поиска В модели однословных сочетаний все слова рассматриваются как полностью независимые, но носителям языка известно, что некоторые слова обладают определенными связями, например, слово "соис1т" (кушетка) тесно связано со словами "соисйез" и "зога". Во многих системах информационного поиска предпринимаются попытки учитывать подобные корреляции.
Например, если запрос сформулирован как [соцсЬ), то исключение из результирующего набора таких документов, в которых упоминаются слова "СО()СН" или 111б Часть Ъ'11. Общение, восприятие и осуществление действий "соисЬез", но не "соцсЬ", было бы неправильным. В большинстве систем информационного поиска используются средства 'з. приведения к нижнему регистру, с помощью которых слово "СО()СН" преобразуется в "соис1з", а во многих дополнительно применяется алгоритм ск выделения основы, позволяющий преобразовать слово "соисЬез" в основную форму "соисЬ".
Применение указанных средств обычно позволяет добиться небольшого увеличения полноты выборки (для английского языка такое увеличение составляет порядка 2%). Но использование таких средств может привести к снижению точности. Например, после преобразования слова "згосЫпа" в чдос)г" с помощью выделения основы обычно снижается точность применительно к запросам, относящимся либо к чулочно-носочным изделиям, либо к финансовым инструментам, хотя и может увеличить полноту выборки применительно к запросам о ведении домашнего хозяйства. Алгоритмы выделения основы, действующие с помощью фиксированных правил (например, правил, предусматривающих удаление суффикса "-1пя"), не позволяют предотвратить возникновение этой проблемы, но новейшие алгоритмы, действующие на базе словаря (в которых суффикс "-1пя" не удаляется, если слово с этим суффиксом имеется в словаре), позволяют решить эту проблему.