Боровиков В.П. - Нейронные сети (778916), страница 61
Текст из файла (страница 61)
Может показаться, что эта простая операция. На самом деле, она часто является очень сложным процессом. Имеется ряд методов, разработанных для достижения этой цели, многие из которых основаны на так называемой конкурентной оценке моделей, которая состоит в применении различных моделей к одному и тому же набору данных„например, различных моделей нейронных сетей и сравнении результатов.
Эти методы часто рассматриваются как ядро предсказывающей добычи данных. Этап 3. Развертывание Тритий завершающий этап включает использование модели, выбранной в качсстве наилучшей, и ее применение к новым данным с целью получения прогнозов или оценок ожидаемых рсзультатов. Заметим, в отличие от оперативной аналитической обработки данных (ОЬАР) в 1Ъги Мгп(пд, бремя формулировки гипотез и выявления скрытых закономерностей переложено с человска на компьютер. ггига Мтгпе — это совопуппость большого числа раэпообраэпых хче- пгодов обпаружепип эпагшй. Выбор метода часто зависит от типа имеющихся данных и от того, какую информацию вы собирастссь из них извлечь. Сделаем обзор 1га'ги М(п1пд $ТАТ1БТ1СА.
Наряду с термином 1гаги М1п1пя (Добычи диниых) далее употребляется 'термин 1гага М1пег (Добытчик данных). 339 Нейронные сеато, ЗТАТ!ЗТ!СА песта! Не!всегда В оТАТБТ!СА представлен обширный набор процедур современной добычи данных. Откройтс модуль Вага Мгпгпл в ВТАГ1ЯТ1СА. Для этого нужно зайти в меню Анализ и выбрать пункт Добыча данных, как показано на рис. 11.1. Далее на экране появится стартовое меню модуля (рис.
11.2), Посмотрим на список методов, прсдд ' а гюм ба а и о» ' лагасмых о ТХГБТ1СА Ва!а Мгпгид. Здесь представлены различные процедуры чистки и фильтрации данных, бурение и расслоение, методы анализа, вклгочая нейронныс сети, анализ независимых компонент, обобщенные методы кпастер- 1.;т фттепке««пагод» ачаиоа ного атилиза, правила ассоциаций, общие тьи' .Гаси««Н«е! павам авй ана«« деревья классификации и регрессии, общие «В а, .Ыбсс ..
СНА1Ь)-МОДЕЛИ, ИитсравтИВНЫС дерЕВЬя, обобщенные аддитивныс модели, много- ~ а,г, „ „ . мерные адаптивные сплайны, процедуры б1дб««тю«мдюб«чаискеакм«а«всю ° '' Обуясиня И друГИЕ. Щ 9««сею«статнсие« Выберем, например, пункт Добытчик !В! идпякд вне еаюс данных — Мои процедуры илиДобыгпчик данных — Все процедуры. На экране появится рабочее окно в ЯТАТ1КТ1СА БТАГБТ1СА Вага Мгпгпя — удобное средство визуального построения моделей. ьйс сено«««статистики и тюб«вюе ! ~ юю«««меннаи анте«см Я днп«юои««а «««и йбд! 1сю а««ю««чнчккм стаи«п«« ! ае ою«нвм ювд»еде«и«в 1та вюю««нюстмсд кмькткетсю тн д«м«ь ь с В«и с «с сд «дл см ь -В ««м« чтд«а .Вч ь Ю«и ь а Рас. 11.2. Стартовое меьчо добыча данных 340 «;дам а «Вс о.
с Л Дсб «оа ~-тт~Ф~ «мтоа о «он ьак !йма -Е ь с» о ю ю Юй дд амм .н««катаном«юю са маи 1ас ь ми, «сч св сб««в ь м ос««м«««о ааааа 'ь.!» ав с юба со««ммььь и«Ммм ь ««« ;;, Обсе«ОФЮ « с«Г Вчн асои с!сап,пмют От'. оь«ки«с «с ма к«сод«с«с» ом«со« В оо«м ««а ",«с««ми ю в бии' ю ! с' тт«ьмкемт ь«ьсвьи«е и.с««ею«ос сем ! .тю«Р «ь и 7'к ссю« ~«м, с б, с«н ° 'о ь» «а««м ,с ою««с«( ««т Изучим структуру рабочего окна Добытчик данных. В верхней части находится панель инструментов, с помощью которой вы можете открывать файлы, выбирать и запускать процедуры анализа. В главной части окна задаются источники данных, процедуры чистки и преобразования, методы классификации и прогнозирования.
Типичный вид окна при проведении исследования показан на рис. 11.4. В окне появились значки, сосдиненныестрелками. Этизначкиназываютсяузлами. Узлы могут относиться к различным типам анализа и источникам данных. В качестве узла могут выступать как файл данных, так и аналитические и графические процедуры БТАПо Т1СА. Гоава 11 Побынв Винных в ЗТАТ18Т!СА Рис. 11.3. Рабочее окно добычи дапиых оТАТ1КТ1СА ° аз.и" ' Ф ~'зов Рис.
11А. Рабочее окно добычи данных е указанием источников дивных и процедур анализа й ЯТАТ!КТ1СА Эа1а Мтег содерзкитсл более 2бб узлов анализа, которые соединены с одним или несколькими источниками данных. Узлы анализа можно рассматривать как независимые объекты статистического анализа. Опишем подробней различные типы узлов в окне Добытчик данных. Узлы источника данных. Для подготовки и преобразования данных или проведения анализа необходимо, во-первых, указать файлы, с которыми мы работаем (поместить их в поле источник данных), во-вторых, соединить исходные данные в поле Источник данных рабочей области Рага Мтег с узлами подготовки и преобразования данных и узлами анализа. В качестве источника данных могут использоваться обычные таблицы данных КТАГБТ1С4.
Источники данных могут содержать нс только данные, но и типы переменных, условия выбора, веса и т.д. Соответствующие установки можно сделать в диалоге выбора зависимых переменных и предикгоров (подробный пример будет показан ниже). Эти установки будут действовать именно в данном узле, а не в исходном файле данных.
В полс Источник данных допускается использовать одну и ту же таблицу данных, но с разными переменными, условиями выбора и т.д. При таком выборе источника данных реализуются связи о ТАГБТ1СА с базами данных. 341 Нейронные сева, ЗТАТ!ЗТ!СА Неога! Ив!аогхв Большинство процедур могут обрабатывать данные в удаленных базах, не копируя их на локальный компьютер. Например, вы можете подгонять обобщенные линейные модели, не сохраняя исходные значения переменных на своем локальном компьютере. Тем не менее, некоторые операции по чистке и фильтрации могут потребовать изменения исходных данных. В этих случаях преобразованные, отфильтрованные или отобранные случайным образом данные сохраняются в поле Подготовка, числ!ко и вреобразовиние данных среды 1)ага М!пег и отображаются с помощью значка таблицы данных (см.
рис. 11.4). Узлы подготовки, чистки и преобразования. Узлы данного типа могут иметь «на входе» один и более источник данных (из поля Источник данных илн из поля Подготовка, чистка и преобразование даппых). За выполнением действия можно следовать как в анализ, так и к переходу на следующий узел фильтрации. Обратите внимание, что некоторые процедуры в данной категории узлов меняют выбор переменных для последующих действий.
Значки данной категории могут быть двух типов: сгенерированные источники данных, сгенерированные связи с источниками данных. Двойным щелчком по этим значкам вы можете изменить нх параметры. Узлы анализа, классификации и прогнозирования. Любой необходимый анализ, например, анализ с помощью нейронных сетей, можно выбрать в качестве узла.
Узел может быть соединен с несколькими источниками данных, а в качестве результата выдать рабочую книгу, таблицу данных, отчет, графики. Узлы отчетов. Результаты работы можно получать в формате рабочих книг или отчетов, а затем интерактивно просмотреть их. ПРИМЕР 1. Шаг 1.
В качестве учебного примера работы в 1)ага Мпипя откроем файл Воз1оп2 зга из папки БТАГ1БТ1СА. В файле содержатся данные о строительстве в Бостоне. Цена участка под застройку классифицируется как Низкая— 1.о!«, Средняя — Мейит или Высокая — Ня)! в зависимости от значения переменной Рпсе.
Имеется один категориальный предиктор — Са11 и 12 порядковых предикторов — О!т11 — ОЫ12, характеризующих качество участков. Весь набор данных состоит из 1012 наблюдений. Шаг 2. После открытия файла появится окно выбора зависимых переменных и предикторов (предсказательных переменных). 342 Гпава 11, Побыча Ванных в ВТАТ18Т!СА Рнс.
11.5. Открытые файна данных Рнс. 11.6. Окно выбора переменных Выбираем зависимые переменные (непрерывные и категориальные) и предикторы (непрерывные и категориальные), исходя из знаний о структуре данных, описанной выше. Нажимаем ОК. Шаг 3. Запускаем Диспетчер узлов (нажимаем на кнопку зги в окне Вага Мгпег). В данном диалоге мы можем выбрать вид анализа или задать операцию преобразования данных. Диспетчер узлов включает в себя все доступные процедуры для добычи данных. Яоступно около 260 мепгодов филыпрации и чисгпки данных, лсетодов анализа. По умолчанию процедуры помещены в папки и отсортированы в соответствии с типом анализа, который они выполняют. Чтобы выбрать необходимьш анализ, выделите его и нажмите кнопку Всгггавить го Выберем, например, Описательные стапгистики — Юезсггргггге огаггвггсв и Стандартные деревьл классификации — Бгапг1агт1 С!азвг)гсаггоп 7геев.
На рис. 11.7 прсдставлсно рабочее окно 0ага Магог после выбора методов. 343 Неароииые сето. ЯТАТ!ЗТ!СА Неога! Нетлогкз мин- ь е ив и т Рвс. 11.7. Рабочее окно добычи данных с указанием источника данных в методоа анализа етаззт х' н иии т Рнс 11.8.















