Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 302

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 302 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 3022021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 302)

слиянием байесовских моделей, аналогичный подходу с применением модели Веошгог (раздел 22.8). В этом подходе предусматривается формирование на первом этапе локальных моделей (грамматик) для каждого предложения, а затем использование минимальной длины описания для слияния моделей. 23.2. ИНФОРМАЦИОННЫЙ ПОИСК Ъ.

Информационный поиск — это задача поиска документов, отвечающих потребностям пользователя в информации. Наиболее широко известными примерами систем информационного поиска являются поисковые машины %огЫ %Ые %еЬ. Пользователь %еЬ может ввести в приглашении поисковой машины такой запрос, как [А1 Ьоо]с], и получить список подходящих страниц. В данном разделе показано, как создаются подобные системы.

Для систем информационного поиска (называемых сокращенно системами ИП) применяются перечисленные ниже характеристики. 1. Определение коллекции документов. В каждой системе должно быть принято определенное решение о том, что рассматривается в ней как документ — отдельный абзац, страница или многостраничный текст. 2.

Способ формулировки ~ запроса на Ж языке запросов. Запрос указывает, какая информация требуется пользователях Язык запросов может предусматривать лишь возможность составления списка слов, такого как [А1 Ьоо]с], или может позволять задавать сочетание слов, которые должны быть расположены близко друг от друга, как в запросе [ "А1 Ьоо)с" ]; он может содержать логические операторы, как в запросе [А1 Аь[гз Ьоо]с]; а также включать операторы, отличные от логических, как в запросе [А1 ]ЧЕАП Ьоо]с] или [А1 Ьоо]с Б1ТЕ:ыьля.аааа.охд]. Глава 23. Вероятностная обработка лингвистической информации 3. Ъ.

Результирующий набор. Таковым является подмножество документов, которые система информационного поиска определяет как Ж релевантиые данному запросу. Под словом релевантный подразумевается вероятно полезный (согласно конкретным информационным потребностям, сформулированным в запросе) для того лица, которое сформулировало запрос. 4. Способ Ъ. представления результирующего набора. Он может быть настолько простым, как ранжпрованный список названий документов, или настолько сложным, как врашаюшаяся цветная карта результируюшего набора, спроектированная на трехмерное пространство. После чтения предыдушей главы могло сложиться впечатление, что систему информационного поиска возможно создать, преобразовав с помощью синтаксического анализа коллекцию документов в базу знаний, состоящую из логических высказываний, после чего в ней будет выполняться синтаксический анализ каждого запроса и поиск ответа в базе знаний с помощью предиката лвк. Но, к сожалению, еше никому не удалось создать крупномасштабную систему информационного поиска таким образом.

Дело в том, что составить словарь и грамматику, которые охватывают большую коллекцию документов, слишком сложно, поэтому во всех системах информационного поиска используются более простые языковые модели. Самые ранние системы информационного поиска действовали на основе сь булевой модели ключевых слов. Каждое слово в коллекции документов рассматривалось как булева характеристика, которая является истинной применительно к данному документу, если соответствующее слово встречается в документе, и ложной в противном случае. Поэтому характеристика "поиск*' является истинной лля текушей главы, но ложной для главы 15. В таком случае язык запросов представляет собой язык булевых выражений, заданных на характеристиках. Документ считается релевантным, только если соответствуюшее выражение принимает истинное значение.

Например, запрос [информация лип поиск] принимает истинное значение для текушей главы и ложное для главы 15. Преимуществом такой модели является то, что ее несложно описать и реализовать. Но она имеет некоторые недостатки. Во-первых, степень релевантности документа измеряется одним битом, поэтому отсутствуют руководяшие данные, на основании которых можно было бы упорядочить релевантные документы для презентации. Вовторых, булевы выражения могуг оказаться непривычными для пользователей, не являюшихся программистами или логиками.

В-третьих, задача формулировки подходящего запроса может оказаться сложной даже для квалифицированного пользователя. Предположим, что предпринимается попытка выполнить запрос [информация дь]п поиск АЫ0 модели АМп оптимизация], что приводит к получению пустого результирующего набора. После этого осушествляется попытка выполнить запрос [информация ОК поиск ОП модели Оя оптимизация), но если он возврашает слишком большой обьем результатов, то нелегко определить, какую попытку следует предпринять после этого. В большинстве систем информационного поиска используются модели, основанные на статистических сведениях о количестве слов (а иногда и другие характеристики низкого уровня). В этой главе будет описана вероятностная инфраструктура, которая хорошо согласуется с описанными ранее языковыми моделями.

Основная идея состоит в том, что после формулировки некоторого запроса требуется ))(г Часть уг!. Общение, восприятие и осуществление действий найти документы, которые с наибольшей вероятностью будут релевантными по отношению к нему. Иными словами, необходимо вычислить следующее значение вероятности: Р(Я=С -це~)э,д) где () — документ; д — запрос;)( — булева случайная переменная, обозначающая релевантность. После получения этого значения можно применить принцип ранжирования вероятностей, который указывает, что если результирующий набор должен быть представлен в виде упорядоченного списка, это следует сделать в порядке уменьшения вероятности релевантности.

Существует несколько способов декомпозиции совместного распределения Р (и= сгие ~ и, О) . В настоящей главе будет описан подход, известный под названием Ж языкового моделирования, в котором предусматривается получение оценки языковой модели для каждого документа, а затем вычисление для каждого запроса вероятности этого запроса с учетом языковой модели документа. Используя г для обозначения выражения )(= сгие, можно перезаписать приведенное выше определение вероятности следующим образом: Р(г~р, а) = Р(П, а(г) Р(г) /Р(т),(З) (согласно правилу Байеса) Р(Д) Р,г) Р(Р)г) Р(г) /Р(П, Д) (согласно цепному правилу) ар(м) 0,г) Р(г) р) /Р(р,(з) (согласно правилу Байеса, лля фиксированного р) Как уже было сказано, может быть предпринята попытка максимизировать значение Р(г~ (), О), но равным образом можно максимизировать отношение вероятностей Р ( г ~ г), Ц) /Р (~ г ~ г), ()) .

Это означает, что ранжирование документов может осуществляться на основе следующей оценки: Р(-,г(р,р) Р(0(П, г) Р( г(()) Преимущество такого подхода состоит в том, что из процедуры вычисления устраняется терм Р(Г), (Э) . Теперь примем предположение, что в случае нерелевантных документов каждый документ является независимым по отношению к запросу. Иными словами, если какой-то документ нерелевантен по отношению к запросу, то получение информации о существовании этого документа не позволит определить, в чем состоит сам запрос. Это предположение может быть выражено с помощью такой формулы: Р((), Д(-г) = Р(0(-~г) Р(Д) г) На основании этого предположения получим следующее: пня,в ппя Р( г(Р,Р) .

(-г(٠— Р(Д((), г) Коэффициент Р(г!()) /Р( г/Р) измеряет независимую от запроса вероятность того, что документ является релевантным. Таким образом, этот коэффициент представляет собой меру качества документа; некоторые документы с большей вероятностью будут релевантными по отношению к любому запросу, поскольку сами эти документы имеют изначально высокое качество. Применительно к статьям для академических журналов качество можно оценить на основании количества упоминаний об этих статьях в других источниках, а для оценки ЖеЬ-страниц можно использовать 1113 Глава 23.

Вероятностная обработка лингвистической информации количество гиперссылок на ту или иную страницу. В каждом из этих случаев можно присвоить больший вес адресатам ссылок, характеризующимся высоким качеством. Одним из факторов оценки релевантности документа, независимой от запроса, может также служить продолжительность существования этого документа. Первый коэффициент, г(0()),х), представляет собой вероятность запроса с учетом релевантного документа. Для оценки этой вероятности необходимо выбрать языковую модель, описывакццую то, как связаны запросы с релевантными документами. Один из широко распространенных подходов состоит в том, что документы представляются с помощью модели однословных сочетаний.

В проблематике информационного поиска она известна также под названием модели сь мультимножества слов, поскольку в ней учитывается только часп)та появления каждого слова в документе, а не их порядок. При использовании такой модели следукнцие (очень короткие) примеры документов рассматриваются как идентичные: "тап Ь|гез ))оя" (человек кусает собаку) и "г)оя Ьйез шап" (собака кусает человека).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее