Боровиков В.П. - Нейронные сети (778916), страница 63
Текст из файла (страница 63)
Переменные такого вида будем называть многомерными. Любимый автомобиль (переменная с многомерными откликами). В этом опросе субъектов просят назвать три самых любимых типа автомобиля (фактор денег, стоимость машины не учитывается, просто спрашивается о некотором идеальном автомобиле). Эти ответы (определенные марки и модели) были закодированы следующим образом: 1.
Отечеспгвенный спорпгивный автомобиль — Ротезггс зротгз сат, 2. Отпечественный седан (закрытый автомобиль) — Ротезпс зег1ап. 3. Иностранная спортивная мишина — Ротегяп зротгз сат. 4. Иностранный седан — Ротегяп зедап. Данная переменная рассматривается как переменная с многомерными откликами, подобно персменной любимая система быстрого питания— )анотгге(азг-~ооЫ. Это означает, что ответы респондентов были введены в переменные Машина 1 — Сат 1, Машина 2 — Сат 2, Машина 3 — Сат 3.
Заметьте, что в данном случае субъекты могли повторить один и тот же ответ три раза 1напримср, они могли назвать одну и ту же машину трижды). В слу- 349 Нвсронныв свеи. 8ТАТ!ВТ!СА Нвога! Нв!погас чае с быстрым питанием — тазг-~оог1 идентичные ответы не допускаются (игнорируются). Например, если респондент назвал три любимых блюда Гамбургер— НатЬигдег, Гамбургер — НатЬигяег и Гамбургер — НатЬигяег, тогда Гамбургер — Натбигяег НатЬигяег в обработку вводился только однажды (в переменную Еда 1 — гоаб 1), а соответствующие ячейки переменных Еда 2 — Еоод 2 и Еда 3 — аоод 3 рассматривались как пустые.
Недавние посетители ресторанов (многомерпая дихотомия). Посетителей ресторана попросили назвать, какие из четырех ресторанов они посещали за последние две недели. Полученные данные были введены в файл так, что для каждого ресторана имелась своя переменная. Всего использовано четыре переменных Хозяин 1 — Хозяин 4 — Вигдег 1 — Вигдег 4 для следующих ресторанов: 1. Бутерброд Мейстер — Вигдег Меигег. 2. Лучшие бутерброды у Билла — ВИГз Везг Вигдегз. 3. Гамбургер «Блаженство» вЂ” НатЬиг11ег Неареп. 4.
Большой бутерброд — Выжег Вигуег. Если респондент сообщил, что в течение двух недель обедал в одном или нескольких ресторанах, то в соответствующий столбец (столбцы) ставилась единичка; если нет, столбец оставался пустым. Таким образом, псременная представляет собой многомерную дихотомию (со значениями Да или Пропуск), которую желательно табулировать, т.е. указать число (или долю) респондентов, обедавших в каждом из четырех ресторанов.
Заметьте, можно было бы рассмотреть эту переменную как переменную с многомерными откликами. Однако для этого нужно создать не менее четырех переменных(например, Пища 1 — Еаг 1, ..., Пища 4 — Еаг 4) и затем ввести названия ресторанов (например, Хозяин 1 — Вигяег 1, Хозяин 2 — Вигдег 2, ...) как значения этих переменных в столбцы таблицы (аналогично персмснным любимая машина — 1арог)е саг и любимая система быстрого питания -1амогйе)ав!-~оой, см. выше). Начнем с анализа предпочтений блюд в ресторанчиках быстрого питания. Шаг 2. Открываем добычу данных, запускаем модуль Правила связи, как показано на рис. 11.12. Шаг 3. Задаем переменные для анализа.
В следующем диалоге нажимаем кнопку Переменные (рис. 11.13) и выбираем переменные для анализа (рис. 11.14). В левой половине окна указывают переменныс многомерного отклика. Категориальную переменную Пол необходимо указать в правом поле диалогового окна. Нажимаем ОК. В поле Коды дихотомии выбираем все коды. 350 Глава 11.
0обыча данных в ЗТАТ18Т!СЯ бм ее»а Оеб в сеекс В» ° вера ВХ са овею м.„об к ° раке стс «п ктсб м немев»»м Вмюкпе КВ Лмювммммам»в Орс> $' '.а В рев В смакстаакп м (,-и мрр а з В т а»бама»«мва»«ма и '!б Ф Пюсс каюк»авва мз» ме ,'бб си сс карме мс в .спас»Мам»ам "'$ В «маркс»в а»ма сбмм месм» . тл н»З» »в сап ,41 Еасб» аа»та»врем,е»юмм ф тт смв» к 6 в с» ее» «ИМ с»к~ Щ В»»с» вс в тю Щ втаеттма Вам втм т'В Вмк т к»»аква тапср Рис. 1!.12. Выбор правил связи в добьпчике данных '"фас: ктбд~,' х ! Ен н.ди1 3 вмом г Рис, 11.13. Окно Правила связи, вкладка Быслврввй Рис.
11.14. Выбор переменных для аналаза 351 Нейронные серго. ЗТАТ!ЗТ!СА Непге! Негегог!ге Ркс. 11.15. Осяпваые устаапвка правка связв Шаг 4. Переходим во вкладку Дополнительно, в которой можно задать параметры анализа (рис. 11.15). По умолчанию значение Минимальной поддержки равно 0,50. Установим его значение 0,40. Нажимаем ОК, выбираем вкладку Дополнительно. Шаг 5. Просматриваем результаты (графически). Посмотрим на двумерный график связи на рис. 11. 16 (значения минимального/максимального числа связей оставим по умолчанию), Непгьпгдег Оепг!ег=Ме!е Р!сее Негпьпгдег Риге Оепг!ег=ме!е гьггйню вь еьк Причина Объединенная Сеяэь поддержка Рас.
11.16. Двумераый график правил связи Пункты, определяющие причины, показаны слева, а следствие— справа. Линии, соединяющие причину со следствием, задают правила связи. Значения поддержки для компонентов Причина и Следствие каждой связи отражаются в величине и цвете окружностей. Толщина каждой линии отражает доверительное значение (условную вероятность, которую для Причины определяет Следствие) для соответствующей связи; размеры и цвета окружностей в центре 352 Глава 11. побыча данных в ЗТАТ1ЗТ1СА Мн Мзт а А: В Рис. 11.17. Трехмериый график вравил связи отражают обьединенную поддержку (для тех, что встретились) соответствующих компонентов Причина и Следствие.
Можно построить трехмерный график связи (рис. 11.17). Толщина каждой линии отражает значение доверия (возможность объединения) для соответствующей связи; размеры и цвет «плавающих» окружностей, построенных напротив оси У (вертикальной), указывают на соединение поддержки (для частоты повторений) соответствующих компонентов Причина и Следствие правил связи. Из графика можно сделать следующий вывод: опрашиваемые, указавшие Пиццу как самое их любимое блюдо, также назвали Гамбургер, и наоборот. Шаг 6. Таблица Правил связи (рис. 11.18) подтверждает наши выводы. Можно просмотреть результаты также в виде таблицы, аналогичной таблице частот: Наиболее частые события. Рис. 11.18. Таблица связей Рис, 11.19.
Таблица частот 353 несрочные сета. ЗТАТГЗТ!СА Неога! Не!ггогггз Во второй колонке таблицы (рис. 11.19) приводятся частоты событий, т.с. количество наблзодегпгй в исходной таблице данных. Рассмотрим пример применения добычи данных в задаче выбора жилья. Будем использовать процедуру оптимизации отклика. ПРИМЕР 3. Оягпымызацыя огпкпыка яры выборе живья Модуль Оппгимизация отклика для моделей добычи данных(для краткости просто Оггтимизацигг отклика) представляет собой часть набора методов о7АТ!БТ1СА, предназначенных для оптимизации и исследования прогностических моделей добычи данных. Можно представить себе прогностическую модель, как черный ящик, внутри которого заложена некоторая связь между набором независимых переменных и одной, илн несколькими, зависимыми переменными, которые называются опгкликами.
Независимые переменные и отклики могут быть как непрерывными, так н категорнальными. Непрерывныс переменныс используются в задачах регрессии, категориальные предназначены для задач классификации. Итак, задача прогностнческой модели состоит в том, чтобы по набору независимых переменных построить соответствующий отклик. Такой процесс называется прогнозированием. В нем па вход модели подается набор независимых переменных, а на выходе выдается оценка значения зависимой переменной. Имеются случаи, когда нужно решать обратную задачу: переменная отклика известна и необходимо определить множество значений независимых переменных, на которых прогностическая модель дает желаемый изпг близкий к желаемому отклик.
Подобные задачи возникают на производстве, где в качестве персмснной отклика можно рассматривать параметр качества, а независимые переменные — характеристики технологического процесса. Модуль $ТАГ!о Т1СА Оптимизация отклика решает эту задачу с помощью дискретного (управляемого или неуправляемого) поиска в пространстве независимых переменных. Для каждого выбранного множества независимых переменных прогноз модели сравнивается с желаемым значением отклика. Этот процесс повторяется до тех пор, пока не будет найдено множество значений независимых переменных, на котором модель дает равное нли близкое, насколько зто возможно, к желаемому значение переменной отклика.
Доступны следующие методы: симплекс, сеточныи и случайный поиск. Симплекс-метод представляет собой неградиентный метод оптимизации, применяемый для минимизации (максимизации) произвольной функции за конечное число шагов. Алгоритм рассчитан на работу с любым числом не- 354 Гпава 1! .
добыча ванных в ьТАТ)ЗТГСА зависимых переменных н не накладывает никаких ограничений, кроме непрерывности, на целевую функцию. Методы сеточного и случийпого поиска представляют собой неуправляемыс алгоритмы, требующие значительных вычислительных мощностей. Эти алгоритмы «дорожс», чем симплекс-метод в вычислительном плане, однако они полезны в том случае, когда симплекс-мешод не лает результатов. Идеи работы методов сешочноги и случийного поиска похожи: вначале последовательно извлекаются выборки из пространства независимых переменных.















