Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 304

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 304 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 3042021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 304)

Применение средств выделения основы в английском языке не позволяет добиться существенных результатов, но играет более важную роль в других языках. Например, в тексте на немецком языке нередко можно встретить слова наподобие "ЕеЬепзчепйсЬепшязяезеПзсЬайзапяезгеПгег" (служащий компании страхования жизни). В таких языках, как финский, турецкий, инупик и юпик, имеются рекурсивные морфологические правила, которые позволяют в принципе составлять слова неограниченнойдлины.

Следующий этап состоит в том, что в системе предусматривается распознавание Ж синонимов, например, таких, как "зо(а" и "соцсЬ". Как и при использовании средств выделения основы, это позволяет добиться неболъшого увеличения полноты выборки, но при непродуманном использовании этих средств возникает опасность снижения точности. Пользователи, желающие получить информацию о футболисте Тиме Коуче (Тпп СоцсЬ), вряд ли хотели бы погрузиться в бесконечные объемы сведений о кушетках и диванах.

Проблема состоит в том, что "языки не терпят абсолютной синонимии, так же как природа не терпит вакуума" 1312). Это означает, что при появлении в языке двух слов, соответствующих одному и тому же понятию, люди, говорящие на этом языке, совместными усилиями уточняют толкование таких слов для устранения путаницы. Во многих системах информационного поиска в определенной степени используются двухсловные сочетания, но полная вероятностная модель двухсловных сочетаний реализована лишь в немногих системах.

Кроме того, для исправления опечаток как в документах, так и в запросах могут использоваться процедуры 'ж коррекции орфографических ошибок. В качестве последнего усовершенствования можно указать, что повышение качества функционирования системы информационного поиска достигается также с помощью использования Ъ. метаданных — данных, внешних по отношению к тексту самого документа. К примерам таких данных относятся ключевые слова, подготовленные разработчиком документа, и гипертекстовые ссылки между документами. Глава 23.

Вероятностная обработка лингвистической информации Способы представления результирующих наборов В соответствии с принципом вероятностного ранжирования должен быть получен результирующий набор и представлен пользователю в виде списка, отсортированного с учетом вероятности релевантности.

Такой способ представления имеет смысл, если пользователь заинтересован в поиске всех релевантных документов, проведенном настолько быстро, насколько это возможно. Но он оказывается не совсем приемлемым, прскольку в нем не учитывается полезность. Например, если в коллекции имеются две копии наиболее релевантного документа, то после просмотра первой копии полезность второй, имеющей такую же релевантность, становится равной нулю. Во многих системах информационного поиска имеются механизмы, позволяющие исключать результаты, которые слишком подобны ранее полученным результатам.

Один из наиболее мощных способов повышения производительности системы информационного поиска состоит в обеспечении возможности использовать 'в. отзывы, касающиеся релевантности. В этих отзывах пользователь указывает, какие документы из первоначального результирующего набора являются релевантными. После этого система может представить второй результируюгций набор документов с документами, подобными указанным. Еше один подход состоит в том, что результирующий набор представляется в виде размеченного дерева, а не упорядоченного списка.

С помощью средств Ъ. классификации документов эти результаты оформляются в виде заранее определенной таксономии тем. Например, коллекция новостных сообщений может кпассифицироваться на "%огЫ Ь)еюз" (Зарубежные новости), "!оса! Хехгз" (Местные новости), "Вцз1пезз" (Новости экономики), "ЕпгегГа)птеп!" (Новости культуры) и "Врог!з" (Новости спорта). А при использовании средств Ж кластеризации документов дерево категорий создается для каждого результирующего набора с нуля.

Методы классификации являются приемлемыми, если количество тем в коллекции невелико, а методы кластеризации в большей степени подходят для более широких коллекций, таких как %от!б %Ые %еЬ. И в том и в другом случае после выполнения запроса пользователя результирующий набор предъявляется ему в виде папок, составленных по категориям. Классификация — это задача контролируемого обучения, поэтому для ее решения может применяться любой из методов, описанных в главе 18.

Один из широко используемых подходов состоит в формировании деревьев решений. После подготовки обучающего множества документов, обозначенных правильными категориями, может быть сформировано единственное дерево решений, листьям которого поставлены в соответствие документы, принадлежащие к той или иной категории. Такой подход полностью себя оправдывает, если имеется лишь несколько категорий, но при наличии более крупных множеств категорий приходится формировать по одному дереву решений для каждой категории, притом что листья этого дерева обозначают документ как принадлежащий или не принадлежащий к данной категории. Обычно характеристиками, проверяемыми в каждом узле, являются отдельные слова.

Например, в одном из узлов дерева решений для категории "Брог!з" может быть предусмотрена проверка наличия слова "Ьазке!Ьа!1". Для классификации текстов были опробованы такие средства, как усиленные деревья решений, наивные байесовские модели и машины поддерживающих векторов; во многих случаях точность при использовании булевой классификации находилась в пределах 90 — 98% 1118 Часть ЧИ. Общение, восприятие и осуществление действий Кластеризация относится к типу задач неконтролируемого обучения. В разделе 20. 3 было показано, как может использоваться алгоритм ЕМ для улучшения начальной оценки кластеризации на основе сочетания гауссовых моделей.

Задача кластеризации документов является более сложной, поскольку неизвестно, было ли выполнено формирование данных с помощью правильной гауссовой модели, а также в связи с тем, что приходится действовать в условиях пространства поиска, имеющего намного больше размерностей. Для решения этой задачи был разработан целый ряд подходов. В методе Ъ.

агломеративной кластеризации создается дерево кластеров путем выполнения полной обработки совокупности вплоть до отдельных документов. Отсечение ветвей этого дерева для получения меньшего количества категорий может быть выполнено на любом уровне, но такая операция рассматривается как выходящая за рамки самого алгоритма. На первом этапе каждый документ рассматривается как отдельный кластер.

После этого отыскиваются два кластера, наиболее близкие друг кдругу согласно определенному критерию расстояния, и эти два кластера сливаются в один. Такой процесс повторяется до тех пор, пока не остается только один кластер. Критерием расстояния между двумя документами является некоторый критерий, измеряющий совпадение слов в этих документах. Например, документ может быть представлен как вектор количества слов, а само расстояние определено как евклидово расстояние между двумя векторами. Критерием расстояния между двумя кластерами может служить расстояние до середины кластера или может учитываться среднее расстояние между элементами кластеров.

Метод агломеративной кластеризации требует затрат времени, пропорциональных о1п'1, где и — количество документов. В методе 'ъ. кластеризации по )е средним создается плоское множество, состоящее точно из )с категорий. Этот метод действует, как описано ниже. 1. Случайным образом осуществляется выборка )с документов для представления )г категорий.

2. Каждый документ обозначается как принадлежащий к ближайшей категории. 3. Вычисляется среднее каждого кластера и используются )с средних для представления новых значений )г категорий. 4. Этапы 2) и 3) повторяются до тех пор, пока алгоритм не сходится. Для метода кластеризации по )г средним требуются затраты времени, пропорциональные 0[п), в чем состоит одно из его преимуществ над агломеративной кластеризацией.

Но в литературе часто приходится встречать сообщение о том, что этот метод является менее точным по сравнению с агломеративной кластеризацией, хотя некоторые исследователи сообщают, что он позволяет добиться почти таких же высоких показателей 11460).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее