Главная » Просмотр файлов » Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)

Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267), страница 239

Файл №1245267 Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (Рассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006)) 239 страницаРассел С., Норвиг П. Искусственный интеллект. Современный подход (2-е изд., 2006) (1245267) страница 2392021-01-15СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 239)

Предположим, что обучающее множество включает р положительных примеров и л отрицательных. В таком случае оценка информации, содержащейся в правильном ответе, равна: р и 1 р Р Л л 1од~ 1одг р+л р+и/ р+и р+п рел р+л Обучающее множество для задачи с рестораном, приведенное в табл. 18.1, включает количество примеров р=п= 6, поэтому требуется 1 бит информации. Теперь отметим, что обычно проверка по одному атрибуту А не позволит нам получать такой объем информации, но по меньшей мере предоставит часть этой информации.

Мы можем точно измерить, какова эта часть, определяя, сколько еше информации нам потребуется после проверки этого атрибута. Любой атрибут А делит обучающее множество я на подмножества Е,, ..., Е, в соответствии со значениями атрибута А, если А может иметь и различных значений. Каждое подмножество Яз включает р, положительных примеров и л, отрицательных примеров, поэтому после перехода по ветви этого атрибута нам потребуется дополнительно Т(р,/ (р,+и,), и,/ (рь+и,) ) битов информации, чтобы ответить на вопрос. Случайно выбранный пример из обучающего множества содержит 1-е значение рассматриваемого атрибута с вероятностью (р,+и,) 7 (р+л), поэтому в среднем после проверки атрибута А для классификации данного примера потребуется показанное ниже количество бит информации.

"рьи ( р, л, Леоавлбеп(А) = ~ ' * 1 ~ р + и 1 р + и, р, -> и, 2 'в. Приращение информации, полученное в результате проверки атрибута, представляет собой разность между первоначальной потребностью в информации и новой потребностью: Вавл (А) = 1, — — летаТпоел(А) р л рел р+и Эвристика, используемая в функции С)зооэе-)(ссху)зисе, состоит в том, что следует выбирать атрибут с наиболыпим приращением. Возвращаясь к атрибутам, показанным на рис. 18.3, получаем следующее: Г2 4 б 2 41 ВаЯл(раз голе) = 1 — ~ — Г(0, 1) Ь вЂ” 1(1, О) + — 1(-, — )~ = О.

541 бит 'ь12 12 12 5 б ~ Г2 1 1 2 1 1 4 2 2 4 2 21 Ва1п(туре) = 1 — — 1( —, -) е — 1(-, -) + — 1( —, — ) 4 — Е( —, — ) = 0 (12 2 2 12 2 2 12 4 4 12 4 4~ Глава 18. Обучение на основе наблюдений 879 Эти соотношения подтверждают интуитивное предположение о том, что Раскопа — наилучший атрибут, по которому следует выполнять разбиение. В действительности атрибут раскопа позволяет получить наибольшее приращение информации по сравнению с любыми другими атрибутами и должен быть выбран алгоритмом обучения дерева решений в качестве корневого. Оценка производительности обучающего алгоритма Обучающий алгоритм является приемлемым, если он вырабатывает гипотезы, обеспечивающие качественные предсказания в отношении того, к какому классу будут относиться еше не встречавшиеся примеры.

В разделе 18.5 будет показано, как можно заранее оценить качество предсказания. А в данном разделе рассматривается методология оценки качества предсказания после его фактического получения. Очевидно, что предсказание является качественным, если оказалось, что оно— истинное, поэтому можно оценить качество гипотезы, сверяя ее предсказания с правильной классификацией после того, как она становится известной. Такая задача осуществляется с помощью множества примеров, которые принято называть 'сь проверочным множеством.

Дело в том, что если обучение проведено по всем доступным примерам, то приходится возвращаться к действительности и заниматься подбором дополнительных примеров для проведения по ним проверки, поэтому чаше более удобно использовать описанную ниже методологию. 1. Собрать множество примеров большого объема. 2. Разделить его на два непересекаюшихся подмножества: обучаюшее множество и проверочное множество. 3.

Применить обучаюший алгоритм к обучающему множеству для формирования гипотезы )з. 4. Определить, какой процент примеров в проверочном множестве правильно классифицируется с помощью гипотезы й. 5. Повторять этапы 2 — 4 для различных размеров обучающих множеств и различных случайно выбранных обучаюших множеств каждого размера. Результатом применения этой процедуры становится набор данных, которые можно обрабатывать для получения среднего качества предсказаний, которое выражается в виде некоторой функциональной зависимости от размера обучаюшего множества.

Эта функция может быть изображена в виде графика, представляюшего собой так называемую 'в. кривую обучения для данного алгоритма в данной конкретной проблемной области. Кривая обучения для алгоритма пествгоп-тгеег.еагпйпд, полученная с использованием примеров из задачи с рестораном, показана на рис. 18.5. Обратите внимание на то, что качество предсказания повышается по мере увеличения размера обучающего множества (по этой причине подобные кривые часто называют счастливыми графиками). Это — хороший признак, который показывает, что в данных действительно есть какие-то повторяющиеся шаблоны (закономерности) и обучаюший ачгоритм их выделяет.

Безусловно, что обучаюшему алгоритму не должно быть разрешено "касаться" проверочных данных перед тем, как по ним будет проверена изученная гипотеза. К сожалению, часто очень легко можно попасть в ловушку, связанную с тем, что 880 Часть ггг. Обучение алгоритм ск компрометирует проверочные данные.

Компрометация обычно происходит следующим образом: в обучающем алгоритме могут быть предусмотрены всевозможные "регуляторы", предназначенные для настройки его поведения, например различные и разнотипные критерии выбора следующего атрибута в процессе обучения дерева решений. Итак, формируются гипотезы для всевозможных различных установок этих регуляторов, измеряется их производительность на проверочном множестве и формируется отчет о производительности предсказания наилучшей гипотезы. К сожалению, при этом происходит компрометация! Причина этого состоит в том, что гипотеза была выбрана по результатам измерения ее производительности на проверочном множестве, поэтому информация о проверочном множестве проникла в обучающий алгоритм.

Мораль этой истории состоит в том, что в любом процессе, предусматривающем сравнение производительностей гипотез на проверочном множестве, необходимо использовать новое проверочное множество для измерения производительности окончательно выбранной гипотезы. Но на практике такой подход осуществить слишком сложно, поэтому исследователи по-прежнему продолжают выполнять эксперименты на бывших в употреблении множествах примеров. о~ИОВ и Ы И 0,8 3 Я 0,7 й а о сего 05 ол 0 20 40 60 80 100 Размер обггаюшего нножссгаа Рис.!8.5. Кривая обучения для алгоритма обучения дерева решений на 700 случайно сформированных примерок в проблемной области задачи с рестораном.

В атом графике подытожены результаты 20 попыток Шум и чрезмерно тщательная подгонка Как было показано выше, если имеются два или несколько примеров с одинаковым описанием (с точки зрения атрибутов), но с разными классификациями, то работа алгоритма гзесйв1оп-0 сее-ьес спьпд обязательно окончится неудачей, поскольку невозможно будет найти дерево решений, совместимое со всеми примерами.

Кроме того, уже упоминалось, что приемлемый способ решения этой проблемы может предусматривать либо применение в каждом листовом узле мажоритарной классификации для относягцегося к нему множества примеров (если требуется детерминированная гипотеза), либо формирование оценок вероятностей каждой классификации с использованием относительных частот.

К сожалению, описанные выше ситуации не исчерпывают перечень всех возможных нарушений в процессе фор- Глава 18. Обучение на основе наблюдений 88! мирования дерева решений. Вполне возможна такая ситуация (которая действительно часто встречается на практике), что алгоритм обучения деревьев решений формирует дерево решений, совместимое со всеми примерами, даже несмотря на то, что эти примеры не содержат крайне важной информации для данной задачи классификации. Это связано с тем, что в рассматриваемом алгоритме могут использоваться не относящиеся к делу атрибуты (если они имеются), в результате чего проводятся несуществующие различия между примерами.

Рассмотрим задачу, в которой осуществляются попытки предсказать результаты броска игральной кости. Предположим, что эксперименты проводятся в течение продолжительного периода времени с различными игральными костями и что атрибуты, описывающие каждый обучающий пример, являются следующими: 1. пау (День недели). День, в который был выполнен бросок игральной кости (1чоп (Понедельник), тце (Вторник), 1уес) (Среда), тЬи (Четверг)).

2. 1чопсЬ (Месяц). Месяц, в который был выполнен бросок игральной кости (.тап (Январь) или деЬ (Февраль)). 3. Со2оз-(Цвет). Цвет игральной кости (пес1(Красный) или п2ие(Синий)). При условии, что не существует двух примеров с одинаковыми описаниями и разными классификациями, алгоритм Гзес1в топ-Тгее-Пеагпупд позволяет найти точную гипотезу. Чем больше количество используемых атрибутов, тем выше вероятность, что будет найдена точная гипотеза.

Но все такие гипотезы будут полностью не связанными с действительностью, поскольку рассматриваемые атрибуты не влияют на выпадение игральной кости. Требуется лишь то, чтобы алгоритм Песхвзоп-Тгее-Ьеатпзпд возвратил единственный листовой узел с вероятностями, близкими к 1/6, для каждого результата выпадения очков на игральной кости, как только будет получено достаточное количество примеров. Каждый раз, когда приходится сталкиваться с множеством возможных гипотез, имеющим большой объем, необходимо тщательно следить за тем, чтобы возникающая при этом свобода выбора не использовалась для поиска бессмысленных "закономерностей" в данных.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6472
Авторов
на СтудИзбе
304
Средний доход
с одного платного файла
Обучение Подробнее