Боровиков В.П. - Нейронные сети (778916), страница 43
Текст из файла (страница 43)
Диалог задания параметров обучения представлен на рис. 8,4.5. ~н ~ ~~вйЧненю а ю м~~ ~акоемнам 1 ~мамона~ и Рпс. 8.4.5. Диалог звдвпия параметров обучеиик свмооргввизующеясп карты На вкладке Быстрый содержатся основные параметры алгоритма, который состоит из двух этапов (второй можно отменить). Обучение является итеративным, занимает несколько эпох, использует значение скорости обучения и аналогичные окрестности, которые корректируются на каждой эпохе.
В поле Эпохи задается число эпох, используемых на каждом этапе обучения. Параметр Скорость обучения изменяется линейно с первой до последней эпохи. Можно задать значение Начальное и Конечное. Обычно используют две различных величины скорости на двух этапах: на первом этапе — высокую скорость обучения 214 Гаавв В. Прчмвры оримвнвнив (например, с 0,9 по 0,1), большую окрестность (например, от 2 до 1) и л|алое число эпох (например, 100); на втором этапе — малую скорость обучения (например, 0,01), малую окрестность (например, О) и большое количество эпох (например, 10,000).
В поле Окрестность задается «радиус» окрестности выигравшего элемента. Например, параметр 2 задаст квадрат размером 5х5. Если выигравший нейрон расположен рядом илн на границе топологической карты, окрестность содержит этот отрезок. Парамегры, которые по умолчанию предлагаются программой, в основном обеспечивают устойчивое обучение и редко требуют корректировки. Шаг 4.
Перейдем к изучению результатов. После обучения карты вы можете исследовать ее, чтобы определить, где бьши сформированы кластеры и чему они соответствуют. Для этого используйте диалог Топологическая карта, где можно задать название для каждого кластера. Напомним, что частота выигрышей используется для выявления места на топологической карте, где были сформированы кластеры. В нейронную сеть подаются все наблюдения из обучающей выборки, и при этом вычисляется количество выигрышей для каждого нейрона.
Высокие частоты выигрьппей свидетельствуют о центрах кластеров на топологической карте. В нашем примере мы выделим пять кластеров (в качестве названия будем использовать номера 1-5). йуннг ДЬЕМ~! в ~.3 нич«и!Зча!Чюювчней га~ рч еви Г Л ! гач к чг ь'а ,гм Рве. 8.4.6. Окко Тоаологическаа каргпа 215 Не0ронные оео>и. ЗТАТ!ЗТ!СА Нее>а! Не>а>о>из Карта, на которой были предварительно заданы имена кластеров, представлена на рис. 8.4.6. После завершения общего распределения центров кластеров можно использовать топологическую карту для проверки ней- ронной сети, определив значение каждого кластера.
Топологическая карта отображает выходной слой в двух измере- ниях. Г1ри анализе отдельного наблюдения каждый элемент ото- бражает собственную близость к этому наблюдению с помощью сплошного черного квадрата (большой квадрат свидетельствует о большей близости), а выигравший элемент подсвечивается дру- гим цветом.
Величина близости является в действительности уровнем акти- вации нейрона. При перемещении указателя мыши по вкладке Тонологическая кар>пи уровень активации нейрона под указате- лем отображается в соответствующем полс в правом никнем углу. Можно также выбрать опцию, которая отображает уровни акти- вации нейронов на самой топологической карте. Перейдем на вкладку Дополнительно и выберем опцию Уровень активации, затем — вкладку Тоналогическал карта. Если вы проверяете несколько наблюдений (наиболее удобный способ заклточается в использовании прокрутки рядом с полем Оабл>оде»ие), то увидите на основе данных об активации, как группируются связанные элементы.
Шаг 5. После определения классов можно переходить к анализу качества модели. На текущсм окне нажимаем Он>мена. В окне Результаты построим таблицу предсказанной классификации (рис. 8.4.7). 'Т>>й,:д.ь' ..й ~~~ а> ы ! ь с ее ь щ Вэа )ою и ы еь кп~ р, г > Рис. 8.4.7.
Окно результатов анализа 216 Глава В. Промеры применено~ ~~'.ф"'. ' !и! х! !!»444!»»»а!»4 ИМ!»»44 2 446 446 4»1 452 464 4"6 466 467 456 463 46! Рвс. 8.4.8. Таблица предсказанной классификации Рис. 8.4.9. Таблица оиисательпых статыстык классыфыкацыы Нажимаем кнопку Лредсказаш4ые. Фрагмент таблицы показан на рис. 8.4.8. Если исходная классификация известна, то наряду с таблицей предсказанных значений можно будет вывести таблицу описательных статистик (рис.
8.4.9). Как видно из таблицы, построенная модель дает большие ошибки при классификации пятого и третьего кластеров. Ошибки возникли из-за небольшой размерности топологической карты. Шаг б. Вернемся к начальному пункту анализа и укажем размерность карты 7х7. Топологическая карта в этом случае показана парис. 8 4.10. 3в»88с'",' с ! »! 4и »»4$!4!. ° ».!»» ° н» Г! Я ! Г Б »» !» м!ае Рис.
8.4.10. Окио То44ологическал кирога 217 Чецронные севе. ЗТАТ! ЗТЮА Неога! НеГегогхе Рис, 8.4.11. Таблица оиисатсльиых статистик классифакации Из анализа топологической карты можно сделать вывод, что класс 1 более близок к классу 5, чем к классу 3 или 4; класс 3 близок к классу 5 и 4 и т.д. Матрица классификации показана на рис. 8.4.11.
В данном случае процент правильно классифицированных примерно одинаков для всех классов. Мы видим достаточно хороший результат. ПРИМЕР б. Построение ьлодепи поведенческого скоринаа Рассмотрим схему построения нейросетейвой модели для задачи поведенческого скоринга. Поведенческий скоринг (Ьела ног лсогтщ) используется для принятия решений по уже выданным кредитам. Основные решения, принимаемые с использованием поведенческого скоринга, можно сформулировать следующим образом: ° предложение новых услуг и улучшение уже предоставляемых услуг; ° решение, выдавать ли кредитную карту заново после истечения срока действия или нет; ° меньший стартовый кредитный лимит или максимальное значение кре- дита на кредитной карточке; ° более строгий сбор платежей с нарушителей илн отправка данных о них в агентства сбора платежей; ° повышение кредитного лимита; ° помещение под наблюдение ввиду потенциальных мошеннических действий и т.д.
В данном примере необходимо оценить кредитоспособность существующих заемщиков на основании данных о графике погашения кредитов и динамики движения средств на счетах клиента. Структура данных Каждого клиента будем характеризовать 22-мя признаками. К анкетным дан ным относятся 20 переменных, которые вписываются для получения кредита. 218 Гпааа В. Примеры применения К этим псрсмснным принадлежат.
1) Текущий баланс счета. 2) Продолжительность (в мсс.). 3) Выплаты по предыдущим кредитам. 4) Назначение кредита, сумма кредита. 5) Объем сбережений. 6) Обьсм сбсрсжсний и акций. 7) Время работы на данном рабочем месте. 8) Частичный доход от доступного дохода (в %). 9) Ссмсйнос положснис/пол. 10) Поручители.
11) Длительность проживания по текущему адресу. 12) Нанболсс ценные активы. 13) Возраст в годах. 14) Добавочные выплаты по кредитам. 15) Тип жилья. 16) Число предыдущих кредитов в банке. 17) Должность. 18) Число чсловск в подчинении. 19) Наличие телефона. 20) Иностранный работник.
График погашения кредита будем характеризовать двумя псрсмснными: количество мссяцсв с момснта выдачи кредита, общее количество невыплат или просрочск. На основании псрсчислснных факторов всс клиенты подразделяются на «хороших» и «плохих». Разбиение на эти группы записано в переменной Кредитоспособность (СгесйаЬгшу).
Всего имеются данные по тысячи клиентам. При этом, 30«4 относятся к «плохим», а остальные 70% — к «хорошим». Процент невыплат по всей совокупности данных — около 3%о (данная величина относится к одному мссяцу). Элсмснт таблицы данных показан на рис. 8.5.1. Поскольку количество наблюдсний, относящихся к разным группам («хороший» и «плохой»), существенно различается, то необходимо задать дополнитсльную переменную, содержащую веса наблюдений (рис. 8.5.2). В противном случае группа «хороших» будет оказывать большсс влияние на построение модели, чсм группа «плохих». Для группы «хороший» зададим вес равный 3, а для группы «плохой»вЂ” равный 7 (т, с.
каждая группа будет оказывать одинаковое влияние на постросннс модели). Псрсмснпую, содсржащую веса, назовсм н. 219 Нейронные сеюо. ВТАТ!ВТ!СА Меобе! Мебзгорне ! «щиач««а щщцпрщ 1 Ццаю' щФдищ«сои«в б Дрщще- ~ тщтщцс бпвщп, , '° ц«дее«сщ, счпа .,' Фщц"вщв Ф ' щц аа ° еров А пповс1 щащ А еращ А ор«а аа Фд Фроще ре«а цц А пв ФА ааазаа юа ВА «ос«ФА «щ««щ ВОР«и А «ареи«А пщ аа Вещ«й Звере«М ЬО ФС Рис. 8.5.1.
Фрапиеат исходной таблицы данных Рис. 8.5.2. Фрагмент исходной таблицы данных с весовой веремевиой Пооптроенпе модены На первом шаге необходимо исключить из анализа переменные, которые нс оказывают значимого влияния на принадлежность к тому или иному классу (на зависимую переменную). Шаг 1. Задание анализа (рис. 8.5.3). Заходим в меню Анализ и выбираем Нейронные сети. В стартовом окне выбираем тип анализа: Классификация (тип задачи определяется типом зависимой переменной).
220 1 2 . б б б 5 ' ю ' 10 'и а 15 14 15 !б "е За Лт «Щ ЩЩЩЕЩ С««е игпеава щпщс *зю «гпгрщщо счещ »зю ирщва баещс «щ цгщвщсчэщ «риаеса бащ с зю «г «еаа бощ«с гавщп бм с пег гещщвга счэщ гиееаа беае с -зю ° гщрщпщ о Ф Ф лю егщ гщщесщщ гщвеа бава«с «1«щеа бащис «развед б аз с чб щч ВРебщи ° б «вуаерещае % ебз«опрвд се 24 щпгщ « 24 вб ««ц«дщщ 12 ие Ьв«роднов Ю ебщ«рвдщое 15 щ«пзщ«« 15 ° ч ° Ф 27 ° Ощ ащ 24 ебгио род Оа 1б е б«вв ред це 26 щг Орсбщ« 6 пэ пребаа« 12 ебщц раа се 42 ° б«щ щщищв Е аб«пацгее«щ 24 с гроВщ«1«в 24 щи«ее«щ 46 ФЩ«вщацпщ пврепсщгщое а Г«РЭПОЦЩГЩ В ппдерс« Фи «авва «В«пщз пвр«щащ а пФнпгдгщса э «вдарю щ « пред *» «пав р д«ег б прод щ вба Одер Ф* РФ ОМ щр«цащгеащ Фреюсд асса э дрр га прадищ «вбе «щзе «зи» о Раи«п дн 1 Гпава 8.














