Боровиков В.П. - Нейронные сети (778916), страница 7
Текст из файла (страница 7)
в в в г внкв Рис. 122 Рис. 1.23 38 Нейронные сева. ЗТАТ!ВТ!СА Меага! не!все!хе Шаг 5. В правом верхнем углу окна нажмите кнопку В. В появившемся окне Задание веса (рис. 1.22) выберите вес из переменной ЧАСТОТА. Нажмите ОК. Шаг б. Нажмите кнопку Другие статггсгпики и дайте указание системс, что вам нужно вычислить асимметрию и эксцесс, а также их стандартные ошибки. Шаг 7. Нажмите ОК в окне Статистики (рис. 1.23) и далее нажмиге ОК в появившемся окне Описательггые статистики.
На экране появится таблица с результатами (рис. 1. 24). Из этой таблицы видно, что по абсолютной величине оценки асимметрии и эксцесса имеют тот же порядок, что их ошибки. Следовательно, ни одна из Гв в ~юв г гв ° . гг гв гс гв ° Гс в е в гв Гев ° в в в Гв в ° в гв гв Г ввввв Юа в ез Вгв* в ° й ° Еовв в ° в Р Фв Гнааа 1. Основные ааннпан ананаса Санных полученных величин нс значима. Поэтому можно сказать, что данные согласованы с гипотезой нормальности. Рвс. 1.24 Продопжение примера (испопьзование криперия хи-квадрапз дпя проверки нормапьноспзи) Мы работаем с теми жс данными по осадкам, что и в предыдущем примере.
Шаг 1. Запустите модуль Нелсраметричвские ститистики. В стартовой панели модуля выберите опцию Подгонки рисиределвния (рис. 1.25). Так как нужно проверить согласие данных с нормальным распределением, в списке Непрерывные риспределвнил выберите Нормальное. Далее нажмите кнопку ОК. Рас. 1.2а Шаг 2. В появившемся диалоговом окне Подгонка непрерывных распределений нажмите кнопку Переменные и выберите переменную УРОВЕНЬ (рис. 1.26). Нажмите ОК. Рис. 1М 39 Неаронхые сеп))3. ЗТАТ) ЗТ)СА Не)37а) йеЭВ)ог)ЯО Шаг 3. Далее в правом верхнем углу окна нажмите кнопку В.
Выберите веса из переменной ЧАСТОТА (рис. 1.27). Шаг 4. В диалоговом окне Подгонка ненрерьгвных рисиределени31 (рис. 1.28) нажмите кнопку ОК. Рис. 1.27 Рис. 1.28 На экране появится электронная таблица с результатами(рис. 1.29). Пх с!атиса »Кап Си 8.0Э996% р.не ияаелрас 5 09Э237. сс. 6. р БЗ1 9227 Бес се саар) НЕПАРАМ СЗАТИСТ Вр а* р»на»с йабпах нв Оп'х апнаеанс небпае Абссата "9 О абпащ ° с 14. !Б 16 го гг 24 гв эо зг Э4 ЗВ Рис. 1.29 Во второй строке заголовка таблицы показано значение статистики хн-квадрат и уровень значимости р = 0,532.
Снова мы можем сказать, что данные согласованы с гипотезой нормальности. Результат согласуется с тем, который был получен в первой части примера, когда в качестве критерия нормальности использовались коэффициенты асимметрии и эксцесса. 40 0 1 0 5 3 5 16 1! 17 и 6 7 3 О 1 1 6 9 14 ЗО 41 58 П 79 86 89 90 90 О ООООО 1 П1П О ООООО 5 55556 3 ЗЗЭЭЗ 5 5555Б П 777РЗ )г ггггг 18 88809 И 44444 8 8989 77на 3ЭИЗЗ 1П)П В ООООО 0 ОООО 1 П11 1 П11 6ББ57 10 0096 155556 зз зззз 465556 64 4444 78 8689 97 гаО 95 МББ 98 8869 100 ОООО 100 В%О 2 х ааа ие аеас»сеансе ~ 1К 1 РИ816 ссеасаиар 1 ( !) ЯР 0573 ) сапере»7аи»6и ~С ВИБО ~, 10964 29009 84542 гиви 43!762 7 56582 П 19396 13 97050 1473523 !ЗП186 9 64691 Б24468 334222 150990 ООИВ ! Гпввв 1.
Основные понппвп внвповв данных Замечание. В первой строке таблицы указаны значения статистики Колмогорова-Смирнова. Этот критерий также можно использовать для провсрки нормальности. Результат также не значим. Посмотрим на результаты в графическом виде (рис. 1. 30). Рво. 1.30 Шаг 5. В диалоговом окне Лодгонка непрерывных распределений нажмите кнопку График. На экране появится гистограмма значений переменной Осадки.
Из графика также видно хорошее согласие данных с нормальным распределением. Этот классический пример иллюстрирует схему действий в системе ЬТХГ1ЬТ1СА при проверке нормальности данных. Понижение размерносгпи Исследователи из различных областей часто сталкиваются с данными большой размерности, иными словами, с таблицами данных, в которых много переменных. Например, количество товаров в современном супермаркете исчисляется десятками тысяч, н даже простейшая задача — нахождение пар и троек товаров, продаваемых совместно, представляется сложной проблемой.
В задачах скоринга мы имеем десятки переменных, описывающих поведение клиента. Естественное желание исследователя — разумно сократить число переменных, вводя новые и объединяя группы переменных в одну. Зто позволяет снизить размерность и правильно организовать исследование. Конечно, хотелось, чтобы новые переменные имели определенный смысл и допускали разумную интерпретацию, а нс вводились чисто формально.
Если вы хотите понизить размерность непрерывных данных, то можете воспользоваться методами факторного анализа. Аналогом факторного анализа для категориальных переменных является анализ соответствий, в котором роль компонент дисперсии играют компоненты статистики хи-квадрат. В анализе главнььт компонент определяются попарно ортогональные направления максимальной вариации исходных данных, после чего данные про- 41 Неаронные сепы.
ЗТАТ!ЗТ!СА Неига! Нв!аогКа ектируются на подпространство меньшей размерности, порожденное найденными компонентамн. Далее эти компоненты могут рассматриваться как новые переменные, к которым применяются обычные методы многомерного анализа, например, регрессионный анализ. Для того чтобы понять основную идею, рассмотрим две зависимые непрерывные переменные.
Зависимость между двумя переменными можно обнаружить с помощью двумерной диаграммы рассеяния. Полеченная путем подгонки линия регрессии дает графическое представление зависимости. Если определить новую переменную на основе линии регрессии, изображенной на этой диаграмме, то такая псрсменная будет вюпочать в себя наиболее существенные черты обеих коррслированных переменных.
Итак, фактически, вы сократили число переменных и заменили две зависимые переменные одной переменной. Если имеются трн зависимые переменные, то аналогичным образом мох~но построить трехмерную диаграмму рассеяния н вновь провести линию регрессии, вдоль которой разброс данных максимальный. После того, как вы нашли линию регрессии, для которой дисперсия максимальна, вокруг нее остается некоторый разброс данных, поэтому процедуру естественно повторить.
В анализе главных компонент именно так и поступают: после выделения первого фактора определяется следующий фактор, максимизирующий остаточную вариацию н т.д. Таким образом, последовательно выделяются главные компоненты, которые по самому способу построения оказываются некоррелированными между собой. Эта идея распространяется на любое число переменных. Классические методы снижения размерности естественно дополняются методами нейросетей. ПРИМЕР (Понижение размерносгпи с помощью ЗТАТ!ЗТ!СА йеига! Ме1вгог!гз) Откроем файл данных Сгеай5)ЧИьга.
(рис. 1. 31). Здесь переменные Ч1 — Ч9 представляют собой независимыс переменныс, которые характеризуют заявителей. Обычно такая таблица формируется по данным анкет, которые заполняются заявителями для получения кредита. Эти псрсменныс имеют различную структуру. Так, Ч1, Ч2 — непрерывные переменные, ЧЗ вЂ” Ч7 и Ч9 — категорнальные, а Ч8 — порядковая. Переменная К1БК обозначает решение банка о предоставлении кредита. На данном этапе наша задача заключается в выявлении значимых переменных. Шаг 1.
Запускаем модуль Нейронные сети и переходим на вкладку Дополнительно (рнс. 1.32). 42 Гпввв 1. Основные понзптан внвпаэв данных Раа. 1.31 Ркс. 1.32 Сначала указываем тнп переменных, как показано на рисунке (Ч1 — Ч2, Ч8 — непрерывные, ЧЗ вЂ” Ч7, Ч9, ИБК вЂ” категориальные, МХБЕТ вЂ” коды выборок). Далее указываем входные — выходные переменныс (Ч1 — Ч9 — неза- висимые, ИБК вЂ” зависимая переменная) и задаем коды выборок. Выбираем инструмент Понигссеттие рпзАтериости и нажимаем ОК (стет. рис.
1. 32). Шаг 2. На вкладке Быстрый выберем Гестетиэгеский плгори>пм (рис. 1.33). 43 э!есг Тгвп Тгэв Тпэп Зэ!ес! Теэ! Тю!и а11!гвтвв Щттгзгп Зэ!эс\ 81!1~зе!ев Зэ!ес! Тпэп Тгэв Те в Тгэв Зе!ес! 1,64 ОЯСО А тгго ааи А эао 1гао А гак огоо А 000 Огвг А 076 0.006 А З,тт э,ий А И 76' 0,166 А 1СО 01ЪА 10,00 0,076 А ига 'г,166А ЗЭО Огса А зао' эгтю А ыаа аааа А 0,60 6,000'А тэ со огоа А !в зс' аэоа'А А т А т А Г т А т А Е А т А Г А 'т А А т А т А т А Е 'А 'С А А т Е Е Е Е Е с Е с с Е Е г Е Е Е т т т т т т 'Т т т т т т т т т т т гт Зэа ет вэь ис ва ЗТ Вэа вы ит вэь о'т вы г'т 'вэь иг вы ! Г Оээа !тг ьа мг вэа Зт Веа !Е Вэь г Е Вэа о'т ' З.а 1Т т Вэа Нейронные сапа, ЗТАТрвТ!СА панга| НеГагогКа Рас.
1.33 Шаг 3. На вкладке Интерактивный укажем Все проверенные сочетания (рис. 1. 34), чтобы в таблице результатов быяи выведены все сочетания, проверенные в анализе. Рвс. 1.34 Шаг 4. Оставляем все остальные установки по умолчанию и нажимаем ОК. На время обучения на экране отображается окно, в котором показываются тестируемые сочетания переменных (рис.
1.35). Ркс. 1.35 Шаг 5. Открываем теперь таблицу результатов работы генетического алгоритма (рис. 1. 36). В последней строчке показан набор переменных, который является наилучшим с точки зрения процедуры генетического алгоритма. Гаева 1. Основныв поняпвя анаявза данных Рис. 1.3б Итак, для построения модели необходимо использонать все переменные кроме переменных Ч2 и Ч9. Мощные алгоритмы, реализоваппые в Нейроппых сетях БТАТГБТ!СА, лвллютсл зффективпым средством попижепил размершкти во мпогих задачах бизнеса, промаиглеипости, фипапсов, Гпава 2 ВВЕОЕНИЕ В ТЕОРИЮ ВЕРОЯТНОСТЕЙ гвгы будем исходить из опыта...
Данная глава необходима для углубленного понимания принципов нейронных сетей и может быть опущена при первом чтении. Мы начинаем с общих положений теории вероятностей и заканчиваем построением оптимального байесовского классификатора. Байесовский классификатор иераенг важную роль в теории нейронных сетей, так как являегпся индикатором качества построенггой классификации. Доказано, что в определенных условиях — нормальность распределения исходных данных и равенство корреляционных матриц — байесовский классификатор является оптимальным. Далее мы описываем аксиоматику теории вероятностей, известную по многим книгам.
Основной формапизм теории вероятностей Предположим, что в результате опыта происходит один из взаимно исключающих друг друга исходов, которые будем обозначать греческой буквой о и называть злемеггтарггыми собыпгиями нлн элементарными исходами. Например, вы подбрасываете игральную кость и наблюдаете результаты бросков.















