Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 302
Текст из файла (страница 302)
слиянием байесовских моделей, аналогичный подходу с применением модели Веошгог (раздел 22.8). В этом подходе предусматривается формирование на первом этапе локальных моделей (грамматик) для каждого предложения, а затем использование минимальной длины описания для слияния моделей. 23.2. ИНФОРМАЦИОННЫЙ ПОИСК Ъ.
Информационный поиск — это задача поиска документов, отвечающих потребностям пользователя в информации. Наиболее широко известными примерами систем информационного поиска являются поисковые машины %огЫ %Ые %еЬ. Пользователь %еЬ может ввести в приглашении поисковой машины такой запрос, как [А1 Ьоо]с], и получить список подходящих страниц. В данном разделе показано, как создаются подобные системы.
Для систем информационного поиска (называемых сокращенно системами ИП) применяются перечисленные ниже характеристики. 1. Определение коллекции документов. В каждой системе должно быть принято определенное решение о том, что рассматривается в ней как документ — отдельный абзац, страница или многостраничный текст. 2.
Способ формулировки ~ запроса на Ж языке запросов. Запрос указывает, какая информация требуется пользователях Язык запросов может предусматривать лишь возможность составления списка слов, такого как [А1 Ьоо]с], или может позволять задавать сочетание слов, которые должны быть расположены близко друг от друга, как в запросе [ "А1 Ьоо)с" ]; он может содержать логические операторы, как в запросе [А1 Аь[гз Ьоо]с]; а также включать операторы, отличные от логических, как в запросе [А1 ]ЧЕАП Ьоо]с] или [А1 Ьоо]с Б1ТЕ:ыьля.аааа.охд]. Глава 23. Вероятностная обработка лингвистической информации 3. Ъ.
Результирующий набор. Таковым является подмножество документов, которые система информационного поиска определяет как Ж релевантиые данному запросу. Под словом релевантный подразумевается вероятно полезный (согласно конкретным информационным потребностям, сформулированным в запросе) для того лица, которое сформулировало запрос. 4. Способ Ъ. представления результирующего набора. Он может быть настолько простым, как ранжпрованный список названий документов, или настолько сложным, как врашаюшаяся цветная карта результируюшего набора, спроектированная на трехмерное пространство. После чтения предыдушей главы могло сложиться впечатление, что систему информационного поиска возможно создать, преобразовав с помощью синтаксического анализа коллекцию документов в базу знаний, состоящую из логических высказываний, после чего в ней будет выполняться синтаксический анализ каждого запроса и поиск ответа в базе знаний с помощью предиката лвк. Но, к сожалению, еше никому не удалось создать крупномасштабную систему информационного поиска таким образом.
Дело в том, что составить словарь и грамматику, которые охватывают большую коллекцию документов, слишком сложно, поэтому во всех системах информационного поиска используются более простые языковые модели. Самые ранние системы информационного поиска действовали на основе сь булевой модели ключевых слов. Каждое слово в коллекции документов рассматривалось как булева характеристика, которая является истинной применительно к данному документу, если соответствующее слово встречается в документе, и ложной в противном случае. Поэтому характеристика "поиск*' является истинной лля текушей главы, но ложной для главы 15. В таком случае язык запросов представляет собой язык булевых выражений, заданных на характеристиках. Документ считается релевантным, только если соответствуюшее выражение принимает истинное значение.
Например, запрос [информация лип поиск] принимает истинное значение для текушей главы и ложное для главы 15. Преимуществом такой модели является то, что ее несложно описать и реализовать. Но она имеет некоторые недостатки. Во-первых, степень релевантности документа измеряется одним битом, поэтому отсутствуют руководяшие данные, на основании которых можно было бы упорядочить релевантные документы для презентации. Вовторых, булевы выражения могуг оказаться непривычными для пользователей, не являюшихся программистами или логиками.
В-третьих, задача формулировки подходящего запроса может оказаться сложной даже для квалифицированного пользователя. Предположим, что предпринимается попытка выполнить запрос [информация дь]п поиск АЫ0 модели АМп оптимизация], что приводит к получению пустого результирующего набора. После этого осушествляется попытка выполнить запрос [информация ОК поиск ОП модели Оя оптимизация), но если он возврашает слишком большой обьем результатов, то нелегко определить, какую попытку следует предпринять после этого. В большинстве систем информационного поиска используются модели, основанные на статистических сведениях о количестве слов (а иногда и другие характеристики низкого уровня). В этой главе будет описана вероятностная инфраструктура, которая хорошо согласуется с описанными ранее языковыми моделями.
Основная идея состоит в том, что после формулировки некоторого запроса требуется ))(г Часть уг!. Общение, восприятие и осуществление действий найти документы, которые с наибольшей вероятностью будут релевантными по отношению к нему. Иными словами, необходимо вычислить следующее значение вероятности: Р(Я=С -це~)э,д) где () — документ; д — запрос;)( — булева случайная переменная, обозначающая релевантность. После получения этого значения можно применить принцип ранжирования вероятностей, который указывает, что если результирующий набор должен быть представлен в виде упорядоченного списка, это следует сделать в порядке уменьшения вероятности релевантности.
Существует несколько способов декомпозиции совместного распределения Р (и= сгие ~ и, О) . В настоящей главе будет описан подход, известный под названием Ж языкового моделирования, в котором предусматривается получение оценки языковой модели для каждого документа, а затем вычисление для каждого запроса вероятности этого запроса с учетом языковой модели документа. Используя г для обозначения выражения )(= сгие, можно перезаписать приведенное выше определение вероятности следующим образом: Р(г~р, а) = Р(П, а(г) Р(г) /Р(т),(З) (согласно правилу Байеса) Р(Д) Р,г) Р(Р)г) Р(г) /Р(П, Д) (согласно цепному правилу) ар(м) 0,г) Р(г) р) /Р(р,(з) (согласно правилу Байеса, лля фиксированного р) Как уже было сказано, может быть предпринята попытка максимизировать значение Р(г~ (), О), но равным образом можно максимизировать отношение вероятностей Р ( г ~ г), Ц) /Р (~ г ~ г), ()) .
Это означает, что ранжирование документов может осуществляться на основе следующей оценки: Р(-,г(р,р) Р(0(П, г) Р( г(()) Преимущество такого подхода состоит в том, что из процедуры вычисления устраняется терм Р(Г), (Э) . Теперь примем предположение, что в случае нерелевантных документов каждый документ является независимым по отношению к запросу. Иными словами, если какой-то документ нерелевантен по отношению к запросу, то получение информации о существовании этого документа не позволит определить, в чем состоит сам запрос. Это предположение может быть выражено с помощью такой формулы: Р((), Д(-г) = Р(0(-~г) Р(Д) г) На основании этого предположения получим следующее: пня,в ппя Р( г(Р,Р) .
(-г(٠— Р(Д((), г) Коэффициент Р(г!()) /Р( г/Р) измеряет независимую от запроса вероятность того, что документ является релевантным. Таким образом, этот коэффициент представляет собой меру качества документа; некоторые документы с большей вероятностью будут релевантными по отношению к любому запросу, поскольку сами эти документы имеют изначально высокое качество. Применительно к статьям для академических журналов качество можно оценить на основании количества упоминаний об этих статьях в других источниках, а для оценки ЖеЬ-страниц можно использовать 1113 Глава 23.
Вероятностная обработка лингвистической информации количество гиперссылок на ту или иную страницу. В каждом из этих случаев можно присвоить больший вес адресатам ссылок, характеризующимся высоким качеством. Одним из факторов оценки релевантности документа, независимой от запроса, может также служить продолжительность существования этого документа. Первый коэффициент, г(0()),х), представляет собой вероятность запроса с учетом релевантного документа. Для оценки этой вероятности необходимо выбрать языковую модель, описывакццую то, как связаны запросы с релевантными документами. Один из широко распространенных подходов состоит в том, что документы представляются с помощью модели однословных сочетаний.
В проблематике информационного поиска она известна также под названием модели сь мультимножества слов, поскольку в ней учитывается только часп)та появления каждого слова в документе, а не их порядок. При использовании такой модели следукнцие (очень короткие) примеры документов рассматриваются как идентичные: "тап Ь|гез ))оя" (человек кусает собаку) и "г)оя Ьйез шап" (собака кусает человека).