Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 303

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 303 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 3032021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 303)

Очевидно, что эти документы имеют разный смысл, но верно также то, что оба они являются релевантными по отношению к запросам о собаках и укусах. Теперь, чтобы рассчитать вероятность запроса при наличии релевантного документа, достаточно просто перемножить вероятности слов в запросе, руководствуясь моделью однословных сочетаний данного документа. В этом и состоит наивная байесовская модель данного запроса. Используя 0, для обозначения)-го слова в запросе, получим следующее: Это соотношение позволяет ввести такое упрощение: ее О) Г~с~я = х) дг . (д,)ц, -) ьч г))э, д) Р( г) О) 3 Наконец, мы получили возможность применить эти математические модели к некоторому примеру.

В табл. 23.1 приведены статистические данные по количеству однословных сочетаний применительно к словам в запросе [Вауеэ з пбогюае хоп геггхеча). вос)е1], выполняемом на коллекции документов, состоящей из пяти отдельных глав оригинала настоящей книги. Предполагается, что эти главы имеют одинаковое качество, поэтому требуется лишь вычислить вероятность запроса применительно к данному документу, для каждого документа.

Такая процедура выполнена дважды, причем в первый раз использовалось выражение оценки несглаженного максимального правдоподобия )эг, а во второй раз — модель г), ' со сглаживанием путем добавления единицы. Можно было бы предположить, что текущая глава должна получить наивысший ранг применительно к этому запросу, и в действительности были получены такие данные при использовании в каждой модели.

Преимушеством сглаженной модели является то, что она менее восприимчива к шуму и позволяет присвоить ненулевую вероятность релевантности документу, не содержащему все слова запроса. А преимушеством несглаженной модели является то, что она позволяет проще выполнить вычисления применительно к коллекциям с многочисленными документами, поскольку после создания индекса, где указано, в каких документах упоминается каждое слово, появляется возможность быстро формировать результирующий набор путем применения операции пересечения Часть ЪЧ1. Общение, восприятие и осуществление действий 1114 к этим спискам, после чего остается вычислить Р( О( Р„) только для документов, входящих в полученное пересечение, а не для каждого документа. Таблица 23.1.

Вероятностная модель информационного поиска для запроса [ваувя 1неохягаезоп хвехйета1 юоцо11, применяемого к коллекции документов, состоящей из пяти глав оригинала настоящей книги. В этой таблице указано количество слов, относящееся к каждой паре "документ- слово", и общее количество слов ьтлля каждого документа.

Используются две модели документа (И:;— это несглажениая модель однословных сочетаний для 1-го документа; п, ' — та же модель со сглаживаннем путем добавления единицы) и вычисляется вероятность запроса применительно к каждому документу для обеих моделей. Очевидно, что текущая глава (глава 23) имеет наивысшие показатели при использовании любой модели, поскольку в ней появление искомых слов имеет в 200 раз более высокую вероятность по сравнению с любой другой главой Слова Запрос Глава 1 Глава 13 Глава 15 Глава 22 Глава 23 32 38 Вауез !п[оппаиоп 12 39 15 18 17 ге!нега! 160 63 тоде! Р(Д!Ис, Г) Р(010, ', г! 16397 12574 1.2х10 " 1. 5х10 " 14680 1.5х10 ы 4.1х10 ы 10941 2.8х10 зз 7.0х10 'з 18186 5.2х10 ы 1.7х10 ы Сравнительный анализ систем информационного поиска Важная проблема состоит в том, как оценить показатели работы рассматриваемой системы информационного поиска.

Проведем эксперимент, в котором системе предъявляется ряд запросов, а результирующие наборы оцениваются с учетом суждений людей о релевантности полученных результатов. По традиции при такой оценке применяются два критерия: полнота выборки и точность. Сформулируем определения этих критериев с помощью примера. Предположим, что некоторая система информационного поиска возвратила результирую!ций набор, относя!цийся к одному запросу, применительно к которому известно, какие документы являются и не являются релевантными, из совокупности в 100 документов. Количество документов в каждой категории приведено в табл.

23.2. Таблица 23.2. Количество документов в каждой категории В результирующем наборе Не в результирующем наборе Релевантный Не релсвантный 30 10 20 40 Показатель 'в. точности измеряет долю документов в результирующем наборе, которые действительно являются релевантными. В данном примере точность составляет 30/(30+10)=0,75. Относительное количество ложных положительных оценок равно 1 — 0,75=0,25.

Показатель 'в. полноты выборки измеряет долю всех релевантных документов в коллекции, которые находятся в результирую!цем наборе. В данном примере полнота выборки составляет 30/(30+20)=0,60. Относительное количество ложных отрицательных опенок равно 1 — 0,60=0,40. Вычисление показателя полноты выборки в очень большой коллекции документов, такой как %ог10 Ъ%[[е %еЬ, стано- 1115 Глава 23. Вероятностная обработка лингвистической информации вится сложным, поскольку отсутствует удобный способ проверки каждой страницы в %еЬ на релевантность. Самое лучшее решение, которое может быть принято в данном случае, состоит в том, чтобы оценивать полноту выборки путем исследования определенной части документов или совсем игнорировать показатель полноты выборки и оценивать коллекцию документов только по показателю точности. В некоторых системах может происходить потеря точности из-за увеличения полноты выборки.

В крайнем случае в системе, которая возвращает в составе результирующего набора каждый документ из коллекции документов, гарантированно достигается полнота выборки, равная 100% но точность становится низкой. Еше один вариант состоит в том, что система может возвращать единственный документ и показывать низкую полноту выборки, но достигать высокой вероятности получения 100%-ной точности. Один из способов достижения компромисса между точностью и полнотой выборки состоит в использовании 'в.

кривой КОС. Аббревиатура "КОС" сокращенно обозначает показатель "рабочая характеристика приемника" (гесенчег орегайпа сйагасгепзйс), который требует дополнительных пояснений. Он представляет собой график, на котором относительное количество ложных отрицательных оценок измеряется по оси у, а относительное количество ложно положительных оценок измеряется по оси х, что позволяет находить различные точки компромиссов.

Плогцадь под этой кривой представляет собой суммарную оценку эффективности системы информационного поиска. Показатели полноты выборки и точности были определены в то время, когда задачи информационного поиска решались главным образом библиотекарями, которые были заинтересованы в получении исчерпывающих, научно обоснованных результатов. В настоящее время большинство запросов (количество которых измеряется сотнями миллионов в сутки) выполняется пользователями 1пгегпец которых в меньшей степени интересует исчерпывающая полнота ответов и требуется лишь немедленно найти ответ. Для таких пользователей одним из наиболее приемлемых критериев является средний ~в.

обратный ранг первого релевантного результата. Это означает, что если первый результат, полученный системой, является релевантным, он получает применительно к данному запросу оценку 1, а если первые два результата не релевантны, а третий является таковым, он получает оценку 1/3.

Еще одним критерием служит Ж время ожидания ответа, который позволяет измерить продолжительность времени, требуемую для поиска желаемого ответа на поставленный пользователем вопрос. Этот показатель лучше оценивает те характеристики систем информационного поиска, которые действительно хотелось бы точно измерить, но обладает одним недостатком, связанным с тем, что для проведения каждого нового эксперимента приходится привлекать новую партию испытуемых субъектов — людей. Совершенствование информационного поиска В модели однословных сочетаний все слова рассматриваются как полностью независимые, но носителям языка известно, что некоторые слова обладают определенными связями, например, слово "соис1т" (кушетка) тесно связано со словами "соисйез" и "зога". Во многих системах информационного поиска предпринимаются попытки учитывать подобные корреляции.

Например, если запрос сформулирован как [соцсЬ), то исключение из результирующего набора таких документов, в которых упоминаются слова "СО()СН" или 111б Часть Ъ'11. Общение, восприятие и осуществление действий "соисЬез", но не "соцсЬ", было бы неправильным. В большинстве систем информационного поиска используются средства 'з. приведения к нижнему регистру, с помощью которых слово "СО()СН" преобразуется в "соис1з", а во многих дополнительно применяется алгоритм ск выделения основы, позволяющий преобразовать слово "соисЬез" в основную форму "соисЬ".

Применение указанных средств обычно позволяет добиться небольшого увеличения полноты выборки (для английского языка такое увеличение составляет порядка 2%). Но использование таких средств может привести к снижению точности. Например, после преобразования слова "згосЫпа" в чдос)г" с помощью выделения основы обычно снижается точность применительно к запросам, относящимся либо к чулочно-носочным изделиям, либо к финансовым инструментам, хотя и может увеличить полноту выборки применительно к запросам о ведении домашнего хозяйства. Алгоритмы выделения основы, действующие с помощью фиксированных правил (например, правил, предусматривающих удаление суффикса "-1пя"), не позволяют предотвратить возникновение этой проблемы, но новейшие алгоритмы, действующие на базе словаря (в которых суффикс "-1пя" не удаляется, если слово с этим суффиксом имеется в словаре), позволяют решить эту проблему.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее