Диссертация (1172891), страница 11
Текст из файла (страница 11)
Процедура выделения главных компонент подобнавращению, максимизирующему остаточную дисперсию исходного пространствапризнаков. Вычисления основаны на определении собственных значенийкорреляционной матрицы исходных показателей.Опыт показывает, что наиболее практически ценной является плоскостьпервых двух главных компонент, дающая возможность представить многомерноеоблако данных в виде двумерной картинки. Такая наглядная визуализация позволяетвыявить: внутреннюю структуру набора исходных данных, начальное разделениеданных на типы, наличие зависимостей между признаками и другие особенности.Используя рассчитанные факторные нагрузки как коэффициенты линейногопреобразования, формируется редуцированная матрица исходных данных, где65столбцами являются новые факторизованные признаки.Отображение с помощью линейных факторов является оптимальным лишь вслучае нормального или близкого к нормальному распределению изучаемыхтерриторий в пространстве исходных данных.Многомерное шкалирование данныхОсобыйинтереспредставляютнелинейныеметодыредукцииивизуализации, позволяющие построить эффективную технологию анализа таблицреальных показателей.
Одним из таких методов является алгоритм многомерногошкалирования (МШ) данных [119], также основанный на целенаправленномпреобразовании матриц, сформированных на исходном множестве показателей.При этом нужно заметить, что МШ – это по сути метод размещения территорийс разной пожарной опасностью, приближенно сохраняющий расстояние между нимив новом пространстве признаков, размерность которого существенно меньшеисходного. Основным недостатком является отсутствие точной математическойзависимости для функции ошибки отображения данных. Это приводит к тому, что,если совершен переход из исходного многомерного пространства в пространствоменьшей размерности, то обратное отображение невозможно.Нейронные сетиЭффективным способом углубленного анализа структуры исходных данныхи редукции пространства является нелинейный метод, основанный на примененииавтоассоциативных нейронных сетей [61].Автоассоциативная сеть – это сеть, предназначенная для воспроизведенияна выходе своих же сигналов и у которой число выходов совпадает с числомвходов.Приуменьшениичислаэлементовпромежуточногослоясеть"сжимается", представляя информацию в меньшей размерности.Самоорганизующиеся карты КохоненаЗадачатипологизациизаключаетсявразбиенииобъектов на типы,причем объекты в пределах одного типа считаются эквивалентными с точкизрения критерия разбиения.
Сами типы неизвестны заранее, что означает - сетиКохоненаивсерассмотренныевышеметодыреализуютконцепцию66"классификации без учителя". При этом состав и количество полученных типовзависят только от предъявляемых территорий. Поэтому добавление новойтерритории или исключение рассматриваемой может вызвать корректировкусистемы типов.Основные особенности нейронных сетей Кохонена связаны с тремяаспектами [188]: определяются ядра типов как типичные территории. Далее вводится мерадистанции - скалярная функция от конкретной территории и ядра класса, котораятем меньше, чем больше избранная территория похожа на ядро типа; после задания числа типов ставится задача типологизации: разбитьтерритории на типы, т.е.
построить некоторую функцию таким образом, чтобыминимизировать сумму мер дистанции территорий от типовых ядер; указанная сумма, по сути, является взвешенной суммой, рассчитываемойформальным нейроном, поэтому алгоритм нахождения приведенного оптимумалегко реализуется в виде нейронной сети.Анализ, проведенный автором диссертации, показал, что наиболееподходящим в силу его простоты (особенно для аналитиков-практиков в областипожарной безопасности) и одновременно – полноты описания такого феномена,как пожарные риски, выступает кластерный анализ.Методы многомерной классификации, в частности, кластерного анализанаиболееэффективныприактивномприменениипакетовприкладныхстатистических программ. Стандартные статистические методы обработкиданных включены в состав электронных таблиц, таких как Excel, Lotus 1-2-3,QuattroPro, и в математические пакеты общего назначения, например Mathcad,Matlab.Но гораздо большие возможности для решения задач классификации имеютспециализированные статистические пакеты для обработки данных.
Cредипрограммных средств данного типа можно выделить пакеты Statistica, SPSS,Stadia,Statgraphics,которые,крометого,чтоимеютбольшойнаборстатистических функций: факторный анализ, регрессионный анализ, кластерный67анализ, критерии согласия и т. д., еще содержат и средства для качественнойвизуальной интерпретации полученных результатов.Для решения задачи многомерной классификации провинций Вьетнама попожарнымрискамавторомвыбранадостаточнохорошоописаннаяизарекомендовавшая себя программная система Statistica, в рамках которойимеется развитый модуль кластерного анализа.Важное достоинство кластерного анализа состоит в том, что он позволяетпроизводить разбиение провинций страны не по одной характеристике, а поцелому набору их признаков.Кроме того, кластерный анализ отличается от большинства математикостатистических методов тем, что не накладывает никаких ограничений на видрассматриваемых объектов, позволяя рассматривать в качестве исходных данныхмножества практически произвольной природы, в то же время рассматриваядостаточно большие объемы исходной информации, он дает возможностьсущественно её сокращать, делая классификационные схемы их компактными инаглядными.Важное значение кластерный анализ имеет применительно к исследованиюдинамики пожарных рисков путем выделения временных периодов, когдатенденции определенных характеристик были схожи или достаточно близки.В задачах анализа и прогнозирования пожарной обстановки весьмаперспективно сочетание кластерного анализа с другими количественнымиметодами (например, с корреляционным и регрессионным).Однако существуют определенные недостатки и ограничения в применениикластерного анализа: состав и количество кластеров зависят от выбираемых критериевразбиения; при преобразовании исходного массива данных к более компактному видумогут возникать определенные искажения, теряться индивидуальные чертыобъектов классификации за счет обобщения характеристик кластера; априори предполагается, что выбранные характеристики кластеров в68принципе допускают желательное разбиение рассматриваемой совокупностиобъектов на их достаточно однородные группы, а также то, что единицыизмерения (масштабы) характеристик выбраны корректно.Выбор сопоставимого корректного масштаба, как правило, осуществляетсяпутем стандартизации – вычитанием среднего и делением на стандартноеотклонение, так что дисперсия оказывается равной единице.Возвращаясь к формальной постановке задачи кластерного анализапровинций по уровню пожарного риска, уточним, что она заключается в том,чтобы на основании нормализованных данных, содержащихся в двухмернойматрице Х (размером G*F, где G – число провинций, F – число социальноэкономических,климатическиххарактеристик,оперативно-служебныхпараметров противопожарных служб и иных показателей, связанных с пожарнымриском), разбить множество провинций G на m кластеров (достаточнооднородных подгрупп) Q1,Q2,…,Qm, так, чтобы каждый объект Gj принадлежалоднойитолькооднойподгрупперазбиения.Приэтомпровинции,принадлежащие одному и тому же кластеру, должны быть сходными, в то времякак провинции, принадлежащие разным кластерам, - разными.Таким образом, решением задачи кластерного анализа являются разбиения,удовлетворяющие некоторому критерию оптимальности.
Этот критерий можетпредставлять собой функционал, выражающий уровни желательности различныхразбиений и группировок, который называют целевой функцией. В качествецелевой функции в настоящей работе взята внутригрупповая сумма квадратовотклонения (СКО): = ∑=1 ∑=1( − )2(2.1)где – представляет собой измерение j-ой характеристики в i-ой провинции; I –число провинций в подгруппе; J – число характеристик провинции.Кластер имеет следующие математические характеристики: центр,радиус, среднеквадратическое отклонение, размер кластера. Определим их длячеткого понимания методических аспектов решения задачи классификациипровинций по пожарным рискам.69Центр кластера - это среднее геометрическое место точек в пространствепеременных.Радиус кластера - максимальное расстояние точек от центра кластера.Размер кластера может быть определен либо по радиусу кластера, либо посреднеквадратичному отклонению провинций для этого кластера.Принято следующее правило – провинция относится к кластеру, еслирасстояние от объекта до центра кластера меньше радиуса кластера.
Если этоусловие выполняется для двух и более кластеров, объект является спорным.Очевидно, что такая неопределенность может быть устранена экспертом илианалитиком, хорошо разбирающимися в практических аспектах пожарных рисковв стране.Нарядуснеобходимостьюрешениязадачипредварительнойстандартизации переменных, то есть приведения значений всех характеристик кединомудиапазонукоэффициентазначений,важностиилинередковеса,решаетсякоторыйзадачаопределенияотражаетзначимостьсоответствующей характеристики провинции. Как правило, в качестве весоввыступают экспертные оценки, полученные в ходе опроса специалистовпредметной области.В настоящей работе применялись равнозначные весовые коэффициенты покаждому из показателей , использованных при кластеризации, а ихстандартизация осуществлялась по формуле: = −̅2√∑=1 ∑=1( − ).(2.2)где i=1, …, n; j=1, …, J; J – общее количество показателей, включенных вкластеризацию; ̅ – среднее значение j – го показателя по стране.2.2.
Отбор показателей факторного комплекса детерминации пожарнойопасности во ВьетнамеИсходя из результатов анализа факторов, определяющих состояние70пожарных рисков на территориях Вьетнама, предлагается для решения задачи ихтипологизации по состоянию пожарной опасности опираться на следующую схему,отражающую факторный комплекс детерминации пожаров в стране (рис.
2.1).КлиматическиефакторыЭкономическиефакторыФакторы, связанные сэлектрификациейФакторытранспортнойдоступностиПоказателикадровогопотенциалапротивопожарнойслужбыДемографическиефакторыПоказателипожарнойобстановкитерриторийВьетнамаПоказатели мат.тех. обеспеченияпротивопожарнойслужбыФакторыурбанизацииФакторы развитияторговлиФакторы, связанные спожарной опасностьюобъектовПоказателипредупрежденияпожаровФакторы,связанные стяжестьюпоследствийпожаровРисунок 2.1 – Факторный комплекс детерминации пожаров во ВьетнамеВ обоснование факторного комплекса легли результаты экспертныхпроцедур по отбору практиками и научными работниками показателей, наиболееполно характеризующих пожарные риски в провинциях Вьетнама, а такжерезультаты работ [58, 67, 68, 74].Исследования автора с использованием корреляционного анализа дляустранениясильносвязанныхпоказателей(коэффициенткорреляциивабсолютном выражении больше 0,85), показали, что конкретные характеристики,детерминирующие пожарные риски в жилом секторе и секторе хозяйствующихсубъектов различаются, пересекаясь в некоторой своей части.
Рассмотренадинамика характеристик с 2006 по 2015 годы, а также их усредненный показательза те же годы (приложение А).Итак, применительно к жилому сектору при решении задачи типологизацииметодом кластеризации рассматривалась матрица размером 63 провинции, 27характеристик (таблица 2.1); при решении той же задачи применительно ксектору хозяйствующих субъектов – матрица 63 провинции, 18 характеристик(таблица 2.2).Таблица 2.1 – Показатели факторного комплекса пожарных рисков в жилом сектореДоля городского населения, %Средняя температура января, 0CСредняя температура июля, 0CСреднее количество осадков в январе, ммОбщая численность населения, млн.