Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 304
Текст из файла (страница 304)
Применение средств выделения основы в английском языке не позволяет добиться существенных результатов, но играет более важную роль в других языках. Например, в тексте на немецком языке нередко можно встретить слова наподобие "ЕеЬепзчепйсЬепшязяезеПзсЬайзапяезгеПгег" (служащий компании страхования жизни). В таких языках, как финский, турецкий, инупик и юпик, имеются рекурсивные морфологические правила, которые позволяют в принципе составлять слова неограниченнойдлины.
Следующий этап состоит в том, что в системе предусматривается распознавание Ж синонимов, например, таких, как "зо(а" и "соцсЬ". Как и при использовании средств выделения основы, это позволяет добиться неболъшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности. Пользователи, желающие получить информацию о футболисте Тиме Коуче (Тпп СоцсЬ), вряд ли хотели бы погрузиться в бесконечные объемы сведений о кушетках и диванах.
Проблема состоит в том, что "языки не терпят абсолютной синонимии, так же как природа не терпит вакуума" 1312). Это означает, что при появлении в языке двух слов, соответствующих одному и тому же понятию, люди, говорящие на этом языке, совместными усилиями уточняют толкование таких слов для устранения путаницы. Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах.
Кроме того, для исправления опечаток как в документах, так и в запросах могут использоваться процедуры 'ж коррекции орфографических ошибок. В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования Ъ. метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами. Глава 23.
Вероятностная обработка лингвистической информации Способы представления результирующих наборов В соответствии с принципом вероятностного ранжирования должен быть получен результирующий набор и представлен пользователю в виде списка, отсортированного с учетом вероятности релевантности.
Такой способ представления имеет смысл, если пользователь заинтересован в поиске всех релевантных документов, проведенном настолько быстро, насколько это возможно. Но он оказывается не совсем приемлемым, прскольку в нем не учитывается полезность. Например, если в коллекции имеются две копии наиболее релевантного документа, то после просмотра первой копии полезность второй, имеющей такую же релевантность, становится равной нулю. Во многих системах информационного поиска имеются механизмы, позволяющие исключать результаты, которые слишком подобны ранее полученным результатам.
Один из наиболее мощных способов повышения производительности системы информационного поиска состоит в обеспечении возможности использовать 'в. отзывы, касающиеся релевантности. В этих отзывах пользователь указывает, какие документы из первоначального результирующего набора являются релевантными. После этого система может представить второй результируюгций набор документов с документами, подобными указанным. Еше один подход состоит в том, что результирующий набор представляется в виде размеченного дерева, а не упорядоченного списка.
С помощью средств Ъ. классификации документов эти результаты оформляются в виде заранее определенной таксономии тем. Например, коллекция новостных сообщений может кпассифицироваться на "%огЫ Ь)еюз" (Зарубежные новости), "!оса! Хехгз" (Местные новости), "Вцз1пезз" (Новости экономики), "ЕпгегГа)птеп!" (Новости культуры) и "Врог!з" (Новости спорта). А при использовании средств Ж кластеризации документов дерево категорий создается для каждого результирующего набора с нуля.
Методы классификации являются приемлемыми, если количество тем в коллекции невелико, а методы кластеризации в большей степени подходят для более широких коллекций, таких как %от!б %Ые %еЬ. И в том и в другом случае после выполнения запроса пользователя результирующий набор предъявляется ему в виде папок, составленных по категориям. Классификация — это задача контролируемого обучения, поэтому для ее решения может применяться любой из методов, описанных в главе 18.
Один из широко используемых подходов состоит в формировании деревьев решений. После подготовки обучающего множества документов, обозначенных правильными категориями, может быть сформировано единственное дерево решений, листьям которого поставлены в соответствие документы, принадлежащие к той или иной категории. Такой подход полностью себя оправдывает, если имеется лишь несколько категорий, но при наличии более крупных множеств категорий приходится формировать по одному дереву решений для каждой категории, притом что листья этого дерева обозначают документ как принадлежащий или не принадлежащий к данной категории. Обычно характеристиками, проверяемыми в каждом узле, являются отдельные слова.
Например, в одном из узлов дерева решений для категории "Брог!з" может быть предусмотрена проверка наличия слова "Ьазке!Ьа!1". Для классификации текстов были опробованы такие средства, как усиленные деревья решений, наивные байесовские модели и машины поддерживающих векторов; во многих случаях точность при использовании булевой классификации находилась в пределах 90 — 98% 1118 Часть ЧИ. Общение, восприятие и осуществление действий Кластеризация относится к типу задач неконтролируемого обучения. В разделе 20. 3 было показано, как может использоваться алгоритм ЕМ для улучшения начальной оценки кластеризации на основе сочетания гауссовых моделей.
Задача кластеризации документов является более сложной, поскольку неизвестно, было ли выполнено формирование данных с помощью правильной гауссовой модели, а также в связи с тем, что приходится действовать в условиях пространства поиска, имеющего намного больше размерностей. Для решения этой задачи был разработан целый ряд подходов. В методе Ъ.
агломеративной кластеризации создается дерево кластеров путем выполнения полной обработки совокупности вплоть до отдельных документов. Отсечение ветвей этого дерева для получения меньшего количества категорий может быть выполнено на любом уровне, но такая операция рассматривается как выходящая за рамки самого алгоритма. На первом этапе каждый документ рассматривается как отдельный кластер.
После этого отыскиваются два кластера, наиболее близкие друг кдругу согласно определенному критерию расстояния, и эти два кластера сливаются в один. Такой процесс повторяется до тех пор, пока не остается только один кластер. Критерием расстояния между двумя документами является некоторый критерий, измеряющий совпадение слов в этих документах. Например, документ может быть представлен как вектор количества слов, а само расстояние определено как евклидово расстояние между двумя векторами. Критерием расстояния между двумя кластерами может служить расстояние до середины кластера или может учитываться среднее расстояние между элементами кластеров.
Метод агломеративной кластеризации требует затрат времени, пропорциональных о1п'1, где и — количество документов. В методе 'ъ. кластеризации по )е средним создается плоское множество, состоящее точно из )с категорий. Этот метод действует, как описано ниже. 1. Случайным образом осуществляется выборка )с документов для представления )г категорий.
2. Каждый документ обозначается как принадлежащий к ближайшей категории. 3. Вычисляется среднее каждого кластера и используются )с средних для представления новых значений )г категорий. 4. Этапы 2) и 3) повторяются до тех пор, пока алгоритм не сходится. Для метода кластеризации по )г средним требуются затраты времени, пропорциональные 0[п), в чем состоит одно из его преимуществ над агломеративной кластеризацией.
Но в литературе часто приходится встречать сообщение о том, что этот метод является менее точным по сравнению с агломеративной кластеризацией, хотя некоторые исследователи сообщают, что он позволяет добиться почти таких же высоких показателей 11460).