Боровиков В.П. - Нейронные сети (778916), страница 62
Текст из файла (страница 62)
Рабочее окно с результатами Источник данных автоматически соединяется с узлами выбранных анализов. Преобразование данных в этом примере отсутствует, поэтому поле Подготовка, чистка и преобразование данных является пустым (см. рис. 11.7). Операции создания или удаления связей можно производить вручную с помогцью рисования стрелок в рабочем окне (рис. 11.8). Это удобно на всех этапах анализа. Шаг 4. Проект определен, теперь запустим его на выполнение. Все узлы, соединенные с источниками данных активными стрелками, будут приведены в действие. Рис. 11.9. Рабочая кинга Описательные слготи стоки 344 Гпааа 11.
Побыча Ванных а ЗТАТ18Т!СА Шаг 5. В рабочем окне можно просмотреть результаты, Щелкните на верхнем значке в поле Отчеты, На экране появится рабочая книга с описательными статистиками (рис. 11.9). Щелкните на втором значке в поле Отчеты. На экране появится рабочая книга с деревьями классификации (рис. 11.10). Рпс. 11.10. Класспфпкаппа участков под застройку Подробные отчеты создаются по умолчанию для каждого инда анализа. Участки с близкими свойствами объединены в группьь Далее рассмотрим более сложный пример 2.
ПРИМЕР 2. Правипа ассоциаций Термин «ассоциации» означает связи, Цель данного метода — выявить отношения или связи между значениями юзтегориальных переменных в больших базах данных. Такая задача часто встречается в проектах по добыче данных, Мы будем работать с файлом Гаароос1ега в папке Ехатр1еа. Файл содержит результаты массового опроса. В нем присутствуют категориальные переменные, многомерные отклики, многомерные дихотомии. Правила связи в БТАТ1БПСА поддерживают все основные типы данных и форматов, в которых обычно записываются результаты опросов.
Переменные с многомерными опзкпиками Кодирование ответов переменными с многомерными откликами необходимо, когда возможен более, чем один ответ на поставленный вопрос. 345 Неаронные сети. ЗТАТ18Т1СА Неова! Не1иогха Представьте, что в процессе большого маркетингового исследования вы попросили покупателей назвать три лучших, с их точки зрения, безалкогольных напитка. Обычный вопрос может выглядеть следующим образом.
Напишите три ваших любимых нааитка; 1: 2: 3: Анкета содержит от нуля до трех ответов, но список напитков может быть и очень большим. Цель исследования — свести результаты в таблицу, в которой будет подсчитан, например, процент респондентов, предпочитающих определенный напиток. Таблица 1!.1 Более разумным является следующий подход. Выбираем три лерелве!!- ные с многамер!1ыми откликами н определяем схему кодирования для 50 напитков. Затем введсм соответствующие коды (альфа-метки) значений переменных для получения табл.
11.1. Многомерные оцхоп!омцц Одним из способов кодирования ответов, когда возможно более одного ответа, является кодирование с использованием Многомерных дихотаиий. Проводим такое жс исследование, как и в предыдущем случае. Предположим, что вас интересуют только Со1сс, Рсрз! и Брп!с. Очевидный способ кодирования показан в табл.
11.2. Здесь каждая переменная используется для одного напитка. Код 1 будет введен в таблицу и в переменную всякий раз, когда соответствующий респондент указал ее в своем ответе. Заметим, что каждая переменная является дихотомией, так как принимает только два значения: «1» и «нс 1» (можно ввести Таблица !12 346 Гоава 11. Побыча Ванных в 8ТАТ!ЗТ!СА 1 и О, но так обычно не делается, можно просто рассматривать О как пустую ячейку или пропуск).
Когда табулируются такие значения, получается итоговая таблица, из которой можно вычислить число и процент респондентов (и ответов) для каждого напитка. Таким образом, вы компактно представили три переменные Сойе, Рерз1, Бргйе одной переменной — м!!огамерной дихотомией. Первичная обработка цанных: поццержка В первую очередь БТАГБТ1СА будет сканировать все переменные, чтобы определить уникальныс кодовые или текстовые значения, найденные среди переменных для анализа. При этой первичной обработке соответствуюшая частота, с которой уникальные кодовые или текстовые значения встречаются в каждой транзакции, также будут вычислены.
Возможность того, что транзакция содержит определенное кодовое или текстовое значение, называется Поддержка. Поддержка также вычисляется при дальнейших последовательных обработках данных как вероятность встречи (то, как часто встречается среди данных) двойных, тройных и т д. кодовых или текстовых значений. Вторичная обрабоп1ка данных: доверие, коррепяция После первичной обработки данных все объекты, у которых значение поддержки меньше, чем некоторый определенный заранес минимум, будут сохранены в памяти для последуюшнх обработок данных.
Особенностью является то, что о ТАГ1ЯТ1СА будет вычислять условные вероятности для всех пар кодовых и текстовых значений, у которых значение поддержки больше, чем некоторый определенный минимум поддержки. Эга условная вероятность (рсзу пь тат, который содержит кодовое или текстовое значение Х, также содержит кодовое или текстовое значение У) называется Доверие. В дополнение ЯТАГ1БТ1СА вычислит поддержку для каждой пары кодовых или текстовых значений и основанную на ней Корреляцию. Значение корреляции для пары кодовых или текстовых значений (Х, У) вычисляется как поддержка этой пары, деленная на квадратный корень из величины поддержки Хи К После второй обработки данных программа сохранит в памяти те пары кодовых илн текстовых значений, которые: ° имеют значение доверия большее, чем некоторый определенный пользователем минимум доверия; ° имсют поддержку большую, чем некоторый определенный пользователем минимум поддержки; ° имеют значение корреляции большее, чем некоторая минимальная корреляция.
347 Нейронные сенте. ЯТАТгвт!СА Немге! Негяогнз Поспецующие обработки санных: максимапьный размер объекта в прааипах связи Причина и Следствие ЕТАТ1БТ1СА будет продолжать сканировать данные, вычисляя поддержку, доверие и корреляцию для двойных кодовых или текстовых значений (связи между единичными кодовыми или текстовыми значениями), тройных и т.д. При каждом повторении программа будет извлекать правила связи вида: если Причини, то Следствие, где Причини и Следствие представлены кодовыми или текстовыми значениями (объектами) или комбинацией кодовых или текстовых значений (объектов), Процесс будет продолжаться до тех пор, пока еще могут быть найдены связи, удовлетворяющие минимуму значения поддержки, доверия и условия корреляции; процесс может продолжать выстраивать очень сложные правила связи (например, Если Х1 и Х2 ..., и Х20, то У1 и У2 ..., и У20).
Чтобы избежать нежелательного усложнения, пользователь дополнительно может установить максимальное количество кодовых или текстовых значений (объектов) в правилах связи Причигго и Следствие; тогда зто значение будет восприниматься как максимальный размер объекта в связи Причина и Следствие. Приступим к выполнению примера. Шаг 1. Откройте файл ров11оойлга в папке Ехотр1ек Фрагмент файла показан на рис.
11.11. Файл содержит следующие переменные: Пол (простая группирующая переменная). Пол респондента записывается в группирующую переменную (Пол — Сеепг1ег) (Мужчигго — 1тго1е, Женщини — Репга1е). е*»ьею вью!с э 5 е»анисе«сювс» юя сю Вава» Ревю 1 Геев 2' Гам С» ! ' О» 2 .т, з Овгз ЯВ 5 аЬюа Ьс! ОЬ Мю а СЬ се СЬ саю Н с В»Вн 5»4 смс Раса Уа! Не В Ве м 5 ! свес Уев У» Уюэ те н в,и СВ ю Р»а .2 М вм ВГ ,,'эа мн -тю мн е2 М тзз э4 М ' Дзг „' тзм» , "ям ' ЯВ сз вм фю 2! Г Им ЮГ Таю ! Теа ! ! тю уев уав ом 5ю Ььм! нв Ьстн СЬсэе Ню Вава ОР» нэььвя Ьусе ом СЬсэа 5 Рсмс асан нью Ев Рм ам»се Уав 5»4 свюа Рма Св юю саве ню» уа Н Юутв Вь.,св Смею 5»ьюю Увв Уе! Ряс 11.11. Файл леггггых 348 !* м» М ! 44 Ь ге се М»в ие саь эь 4ав Ь а ю Лай Ь Ню ю Н Мю Ра! 5авь 4 Р иа 5»Ь 4 н взн сь ю* ьм Сыэа Рясе сьсве м эю 5»ьс»М На»а»Ю» ова н»юэа Вв СЬсэю Ню Вю!» Рнс 5»а»аас Раса С! ю мс ю Р! е СОМ 5ЯЮ гсн зют ООМ ВЕСИ оом я'ят Гой воат СОМ ВЕОН гой знят ГЯ! 5РЯТ сам" я ят Гай 5РЯТ гся зеов ГОР ВРРУ ООМ ВЕОН оам вют гон "Веаи гон згйт гоя„звйт ГОР 5РЯТ ГОР 5РЯТ Оам„зеаи Гон 5Рйт Сам ВРй! гай згят ОСМ 5ЕСИ оом зют оам Вмн ООМ ВВОИ Гай 5мтГ СОМ 5РЯТ ГОЯ ВЕОИ оом зеои ятм зют ООМ 5РРТ оам зют гай Вгят ЮМ ВСОИ Гой 5РЯТ оам„зют юя Вют ЕОЯ ВРРТ сон Вгят ООМ зйй ГОЯ 5РЯТ Гай ВРЯТ Гай„5Рйт ООМ„ВЕОИ гсн Вют ган яин ООМ Яснг тю* Гсн вют Еай ЯСй У*в Еайвю Оавс„5есй СОМ"ВРРТ оам я нт ть ООМ ЕЕОИ Гай ЗМИ т с Сам вют СОМ ВЕСИ Гай ЮОй Уюс ган яют Гай анйт таю ЕОР ВРЯТ гай ВРЯТ ГОЯЗЕОИ Гай Зййт тю Оам ВЕОИ Уав оом„зют ГОР ВРРТ аам згн ОСМ„ВЕОИ У гай яси Гпввв 11.
добыча Ванных в 8ТАТ18Т>СА Лучшая «быспграя» еда (переменная с многомерными откликами). Вопросник, используемый в данном исследовании, предлагает респондентам выбрать любимос «быстрое» блюдо (до трех блюд) из следующего списка: 1. Гамбургер — НатЬитяет. 2. Сэндвич — Кап«1>«гс1гез. 3.
Цыгглеггок — С1г1с1геп. 4. Пицца — Рггги. 5. Мексиканские блюда — Мехгсап /азг-1оо«1. 6. Китайские блюда — Сй)пезе 1из~-~оог1. 7. Еда из морепродуктов — Беа1оог1. Ь. Другие национальные б«гюда — Ог1гет ег)гпгс ог' теропа11у рори1атГазг~оой. Выбор каждого респондента был введен в файл как переменная с многомерными откликами. Это означает, что первый пункт ответа записьваегся в столбец Еди 1 — Роог1 1 Гпервое предпочтение), второй пункт (если он имеется)— в переменную Еда 2 — Роо«1 2 и третий — в переменную Еда 3 — Роог1 3. В анализе псремснная Еда 1 — Рооиг 1 может рассматриваться как простая группирующая переменная. Далее можно задать вопрос: «Какое число респондентов (или их доля) назвали определенный тип быстрого питания своим лгобимььч (1а»отгге)Ъ> Интерес может представлять также то, сколько респондентов выбрали определенную систему быстрого питания как одну из любимых. Такой вопрос приводит нас к тому, чтобы рассмотреть переменные Еда 1 — Роог1 1, Еда 2— Роод 2 и Еда 3 — Роо«1 3 как одну переменную с многомерным откликом.















