Боровиков В.П. - Нейронные сети (778916), страница 55
Текст из файла (страница 55)
При отборе персонала вам могут понадобиться переменные, позволяющие отличить хороших работников от работников, которые не пригодны к данной работе. Хотя настоящий пример взят из биологии, рассматриваемые процедуры применимы во многих областях. Выбор анапегза Фабп данных Набор данных содержится в файле 1ггзт1аьзга. Часть файла приведена на рис. 10.1. Первые две персменные (Длина чашелиспгиков — Бери!1егг, Ширина чашелистиков — Лера!и !6!) относятся к длине и ширине листьев ириса; следующие две переменные (Длина лепестков — Рега1!ен, Ширина лепестков— Рега!20151) относятся к длине и ширине лепестков ириса.
Последняя переменная определяет принадлежность цветка к определенному типу ириса (Ириса щепгиниспгого — Бегова, 1'егзгсо! и Ириса разноивепгного — 1?!г8!п!с). Всего в выборке имеются 150 цветков, по 50 каждого типа. Вы видитс, что ирис с параметрами 5,0; 3,3; 1,4; 0,2 относится к типу Бегова (см. первую строчку файла); ирис с параметрами 6,4; 2,8; 5,6; 2,2 отно- знз !1ащаз са14 !ва и аз!с!з с!ааааа аас зв!а!з,3 119.« „г«З1фЛ С«аа«2'... 3 О« '-Я 4 **, '5' ',, ЯеРАЙеи ! Еера6йг Реглг Ринг. '1й!Егуав Рис. 10Л. Файл лаииых Лла классификации ирисов 300 1 2 ..з ° 5 Б .«Е? гога 9 660 '11 12 .,;1З 50 6,4 65 6? 62 4В 69 62 5Р 46 6,1 60 6,6 зз г,а з) г,з З,з з,! 22 22 з,ь Зо 2? З,о \ 4 5$ 46 56 51 14 51 45 46 10 46 51 „2 0.2 бегова 2 2 Мкеег!с ! 5 'аенз!со! 2 4 мйогв!с ! 5 аале!нс СЗ БЕТОЯА г з меана!с 1,5 а еаз!сос 1 6 а«елз!с ос с г вегоза ! 4 0енз!сог 1 5 а«ЕЙЗ!Сог .0 нае!нз .0л Гпава 10.
Кпассические меп~овы, апыпернативные неаронным сетям сится к классу Игал!с (см. вторую строчку файла). Задача состоит в том, чтобы построить автоматический классификатор. Выберите Дискриминантный анализ в меню Анализ — Многомерный разведочный анализ. На экране появится стартовос окно модуля (рис, 10. 2). Рве. 10.2. Стартовая лавель двскрвмппвптяото апаяпза $ТАТ1$Т1СА После нажатия кнопки Переменные откроется стандартное диалоговое окно Выбор переменных. В этом окне нужно указать группирующую переменную (переменная 1ГЫуре) и независимые переменные (Яера!!еп, Лера!и'Щ Ре!а!!еп, Рега!виГ), которые должны быть использованы для дискриминации типов ириса.
Далее необходимо указать коды группирующей переменной (рис. 10.3). Для этого нажать кнопку Коды для группирующей переменной и ввести 1 — 3 или выбрать кнопку Все. ;Вв®~Х тк '";: ";,'Ъ~~ ива): ок ' 5е коаьмяа!н!с х г Рпс. 10.3. Коды перемеппых Вы можете также нажать кнопку ОК в стартовой панели модуля. БТАТ1БТ1СА автоматически определит коды группирующей переменной.
Удапенце пропущенных данных Этот файл не содержит пропущенных данных. Если в файле имеются пропуски, вы можете или игнорировать наблюдения с пропущенными данными (установить в поле Удаление ЦД значение Построчно), или заменить их средними. 301 Неоронные сети. ВТАТгЗТ!СА йеога! МегпогМа Просмотр оппсатепьных статцстпк Чтобы начать анализ, необходимо нажать на кнопку ОК. Откроется диалоговое окно Определение модели, которое позволит задать модель дискри. минантного анализа и просмотреть описательные статистики (рис. 10.4). мВО еагггйъРь и ниа~ а «е ° ой ем в ~ Рас. 10.4, Вкладка Описггтельггые стптистики Перед запуском анализа нажмите кнопку Просмотреть описательные слгатистики для того, чтобы взглянугь на распределения некоторых переменных и их взаимные корреляции (рис.
10. 5). Рас. 10.5. Опнсательпые статастака Рпс. 10.б. Срелпае по группам 302 Гпааа 10. Кпасссяескее метояы, апьтернатсеные нейронным сетям Во вкладке Быстрый нажмите кнопку Средние и число наблюдений. На экране появится таблица со значениями (рис. 10.6), из которой видно, что для Бегака средние значения Яера11еп — 5,0, Бера1ялЫ вЂ” 3,4, Рега11еп — 1,4б, Рега1юЫ вЂ” 0,2, Попучение гистограммы из табпицы резупьтатов Полсзно визуализировать результаты. Для получения гистограммы какой-либо переменной нужно выделить нужный столбец в таблице.
Например, для получения гистограммы переменной Юера1и Ы для ириса 1гегз1со1 следует передвинуть курсор на пересечение второй строки и второго столбца таблицы. Затем нажать на правую кнопку мыши, чтобы открыть контекстное меню, и выбрать команду Графики исходных данных Рис. 10.7. Гистограмма иеремеииов Яера11еп При выборс Гистограмма — Нормальная подгонка получаем график, представленный на рис.
10.7. Пиаграмма размаха Во вкладке Все наблюдения нажмите на кнопку Диаграмма размаха для получения диаграммы размаха независимых переменных. Первым отобразится стандартное диалоговое окно Выбор переменных, в котором нужно указать все переменные, а затем нажать кнопку ОК. При этом откроется диалог Тип диаграммы размаха, в нем следует отметить опцию Среднее/БИ1.9беБР и нажать на кнопку ОК. Зтот график (рис. 10. 8) полезен для представления распределений переменных: центральная точка указывает на положение среднего или медианы; 303 Неоронные сети.
ЗТАТ!ЗТ!СА Пеша! Пе!ио!не ° прямоугольник показывает характер изменчивости вокруг квартили, стандартные ошибки или стандартные отклонения; ° отрезки вокруг прямоугольников указывают на диапазон значений переменной 1например, стандартные отклонения, умноженные на 1,9б, 95%-й доверительный интервал).
Среднее для групп отличается, поэтому задача классификации разумна. Ркс. 10.8. Графики кщккк-усы Ркс. 10.9. Графика ящика-усы для трех групп Можно взглянуть на распределение переменных внутри каждой группы, нажав на кнопку Диаграмма размаха 1по группам) во вкладке Впул!ригрупг!овые статистики и выбрав переменную РегаНеп (рис. 10.9). 304 Гсава 1О. Кпасссческсе ыевсды, апьварнавсвные наврснным севам Категоризованные гистограммы Чтобы построить гистограммы для переменных на каждом уровне группируюшей переменной, следует нажать на кнопку Категоризоеанная гистограмма 1по группам) во вкладке Внутригрупповые статистики диалогового окна Описательные статистики.
Когда вы нажимаете на эту кнопку, то получаете возможность выбрать переменные из списка предварительно отобранных независимых переменных. Для этого примера укажите переменную Бера1вИ. Рве. 10.10. Составвод график Гистограммы для каждой из совокупностей представлены на рис. 10.10. Как можно увидеть, переменная имеет распределение, близкое к нормальному. диаграмма рассеяния Другим интересным графиком является диаграмма рассеяния между переменными, используемыми в анализе. Нажмите кнопку График полных корреляций во вкладке Все наблюдения диалогового окна Описательные статистики. Выберите все наблюдения в диалоговом окне Выбрать переменные. На экране появится график, представленный на рис.
10.11. Теперь посмотрим на диаграмму рассеяния для переменных ЯераПеп и Ре(айеп (рис. 10.12), На диаграмме имеются два «облака» точек. Вероятно, точки в нижнем левом углу принадлежат одному типу ириса. Выберите Диаграммы размаха в меню Графика — Категоризироеапные графики для отображения диалогового окна 2М Категоризироеаннал Диаграмма размаха. 305 Гпава 10. Кпассоческое методы, епыпернааоеные неоронным сетям Эта диаграмма (рис. 10.13) предоставляет зависимость между переменными Бера11еп и РегаПеп внутри совокупностей. Выбор анапцза Вернемся к цели нашего анализа. Нажмем на кнопку Отмена в диалоговом окне Описательные статистики, чтобы вернуться к диалоговому окну Определение Модели. Укажем вкладку Дополни тельно, на которой можно выбрать процедуру с включснисм предикторов или с исключением.
Остановимся, например, на процедуре с включением. На вкладке Дополнительно, в списке Метод установим значение Пошаговый с включением (рис. 10.14). При такой установке программа будет последовательно вводить переменные в модель одну за другой, каждый раз выбирая переменную, вносящую наибольший вклад в разделение цветков. Ф х 1" .Ье мД1 Бляхе депоеюаеыа ~ сеергеаюье1 Рвс.
10.14. Пошаговый метод с вкдшчеаясм Ключевым при включении переменной в модель является значение Рстатистики Фишера. Программа прервет пошаговую процедуру, если: ° все переменные введены (процедура с включением) или отброшены (процедура с исключением); ° достигнуто максимальное число шагов, установленное в по.пе Число шагов; ° нет других переменных вне модели, имеющих большее значение статистики Р, чсм значение Г-включить, указанное в этом диалоговом окне, 30? неаронные сети, атАт!Зт!СА неша! Ме!ашмз и нет других переменных, имеющих меньшее значение Р, чем значение Р-искл!очить, указанное в этом диалоговом окне; какая-либо переменная на следующем шаге имеет значение толерантности меньше, чем выбранное значение Толерантность. Топерантность На каждом шаге программа вычисляет коэффициент множественной корреляции (Я-кеадран!) переменной со всеми другими переменными, которые были включены модель.
Значение толераитности вычисляется как 1 минус Я-квадрат, поэтому оно является мерой избыточности переменной. Например, если переменная, предназначенная для включения в модель, имеет значение толерантности, равное.01, то эта переменная может рассматриваться как на 99% избыточная с уже включенными переменными. В общем случае рекомендуется оставлять толерантность, равную.01, установленную в программе по умолчанию. Отметим, если положить для толерантности значительно меньшее значение, то ошибки в вычислительной процедуре округления могут привести к неустойчивым результатам. Просмотр резупьтатов на каждом шаге Резупьтаты на шаге 0 Сначала отображаются Результаты на нулееам шаге. Слова Шаг 0 означают, что еще ни одной переменной в модель не было включено (рис. 10.15).
Ряс. 10.15. Результаты авалвза ва шаге 0 Так как ни одной переменной не включено в модель, большинство операций недоступно. Однако можно взглянуть на переменные, которые не включены в модель, нажав кнопку Переменные ене модели (рис. 10.16). 308 Гпава 10. Кпассочвское методы, апыпернавовные неаронным сетям Рис. 10д6. Переменные аие модели Лямбда Уилкса. В общем, статистика Уилкса лямбда является стандартной статистикой, используемой для обозначения статистической значимости мощности дискриминации в текущей модели. Ее значение меняется от 1,0 (нет дискриминации) до 0,0 (полная дискриминация). Каждое значение в первой колонке таблицы (см. рис.
10.16) является значением статистики Уилкса ля ибда после того, как соответствующая переменная вводится в модель. Частная лямбда Уилкса. Это статистика Уилкса лямбда для одиночного вклада соответствующей переменной в дискриминацию между совокупностями является аналогом частной корреляции. Так как лямбда 0,0 означает полную дискриминацию, то чем ниже величина в данном столбце, тем больше одиночный вклад соответствующей переменной в степень дискриминации.















