Диссертация (1137117), страница 6
Текст из файла (страница 6)
Ординальная парно-сопоставительная модельАнализ паттернов является относительно новым и перспективным методоманализа данных. Понятие «паттерн» является весьма распространенным вразличных видах деятельности, однако современное толкование сложилосьотносительно недавно. В работе используется определение из [2]: «под паттерномпонимается такая комбинация определѐнных, с точностью до погрешности,значений некоторого подмножества признаков, что объекты с этими значениямидостаточно сильно отличаются от других объектов».
Сам метод базируется наразбиении исходного множества исследуемых объектовподмножества,причемполученныеподмножествана непересекающиесядолжныотличаться по некоторой, заранее выбранной мере близости d.Приведем краткое описание метода анализа паттернов.38существенноВ качестве исходных данных рассматривается некоторое множествоОбъектампоставлены во взаимно однозначное соответствиевектора, где– значение j-го показателя i-гообъекта.
Задача: разбить множество X на v непересекающихся подмножеств.Полученные подмножества должны содержать схожие по некоторой мереблизости объекты, причѐм сами подмножества должны существенно отличатьсямежду собой. При решении данной задачи используется система параллельныхкоординат14, состоящая из m вертикальных и равномерно распределѐнных осей,отражающих исследуемые показатели. В данной системе строится кривая,проходящаячерез,т.е.функция,. Для удобства визуального восприятия используютсякусочно-линейные функции. Таким образом{}.ИнтерваламфункцииДалее,ставится в соответствие пара– векторпосле, а каждой.визуализацииданных,требуетсяразделитьисходноемножество X на определѐнные подмножества.
С этой целью, требуетсяиспользовать определѐнную меру близости. Для этого возможно использованиеряда методов кластерного анализа [7, 39, 40].Часто весьма удобным является использование углов наклона кусочнолинейной функции, описывающей исследуемые объекты. Таким образом, весьма14Краткий обзор системы параллельных координат приведен в разделе 1.39удобно использование разности показателейзначения возможно провести прямуюи, поскольку через данные15:.Таким образом, в предложенных терминах, тангенс угла наклона будетзависеть от разности значений соседних показателей.Наглядно продемонстрируем метод анализа паттернов на примере данных[4]. Исследуется множество X: |X| = 3.
Используемые показатели: депозиты,кредиты и валютные операции (значения приведены в таблице 3).Таблица 3. Показатели гипотетических банковДепозитыКредитыБанк 15020Валютныеоперации40Банк 2551045Банк 3106020Отметим, что часто, для удобства, значения используемых показателейперед применением нормируются, к примеру, по следующей формуле:где:– нормированное значение j-ого показателя i-ого объекта;– минимального значение j-ого показателя;– максимальное значение j-ого показателя.В данном примере нормирование показателей не требуется, поскольку ихсопоставление и визуальное представление не вызывает затруднений.Далее, в 3-мерной системе параллельных координат построим кусочнолинейные функции приведѐнных в таблице 3 банков.15Уравнение прямой, проходящей через 2 точки, приведено в общепринятых обозначениях.4070605040Банк 130Банк 220Банк 3100ДепозитыКредитыВалютныеоперацииРисунок 3.
Кусочно-линейные функции гипотетических банковНа рисунке 3 наглядно видно, что банки 1 и 2 имеют схожие внутренниеструктуры (по выбранным показателям), тогда как структура банка 3 существенноотличается, что выражается в иной форме кусочно-линейной функции данногобанка. Кроме визуального восприятия данный факт можно отметить и прииспользовании различных мер близости [7, 39, 40], в том числе основываясь назначениях тангенсов угла наклона.
Исходя из этого, задачей анализа паттернов вданном случае является разбиение исследуемого множества 3-х банков на 2подмножества: {банк 1, банк 2} и {банк 3}.Другуюотличительнуюособенностьметодаанализапаттерновпродемонстрируем на следующем примере. Пусть исследуется множество из 4объектов по 3 показателям (A, B, C), значения которых приведены в таблице 4.Таблица 4. Гипотетический пример анализа паттерновОбъект 1Объект 2Объект 3Объект 4A3003065065B7007035035C4004070070Для данных объектов построим кусочно-линейные функции (в 3-мернойсистеме параллельных координат). Отличительной особенностью метода анализапаттернов является возможность объединения весьма различных по значениям, носхожих по внутренней структуре объектов. Приведенный пример иллюстрируетданную особенность.41800700600500Объект 1400Объект 2300Объект 3200Объект 41000ABCРисунок 4.
Кусочно-линейные функции гипотетических объектовПри использовании некоторых классических методов кластерного анализаполучим следующее разбиение: {объект 1, объект 3} и {объект 2, объект 4}.Однако, очевидно, что внутренние структуры объектов 1 и 2, и объектов 3 и 4весьма схожи. Значения показателей объекта 1 есть значения показателей объекта2, умноженные на 10 (аналогично для объектов 3 и 4).
При использовании методаанализа паттернов мы получим следующее разбиение: {объект 1, объект 2} и{объект 3, объект 4}.Приведѐм некоторые примеры успешного использования метода анализапаттернов при решении прикладных задач.В [3, 16] используется метод анализа паттернов для исследования данныхнауки, образования и инновационной деятельности. На базе Российскогорегионального инновационного индекса 16 строятся 5 агрегированных блоков(социально-экономическиерезультативностьусловия,исследованийиобразовательныйразработок,потенциалпотенциал,инновационнойдеятельности, результативность инновационной деятельности) 17 , при помощикоторых формируются 25 паттернов. В качестве исследуемых объектоввыступают регионы Российской Федерации за 2007-2010 гг.1617Краткое описание данного индекса приведено в разделе 1.Изначально построены 6 блоков показателей.
5 используются после проведениякорреляционного анализа.42В [4] при помощи метода анализа паттернов исследовано 1018 банковРоссийской Федерации на базе показателей системы СAMEL [24, 35, 36].Результатом является 151 паттерн, причѐм 50 из них содержат 90,14%исследуемых банков.В [19] исследуются турецкие коммерческие банки на базе системы CAMEL.Результатом являются 27 паттернов.В [41] при помощи метода анализа паттернов исследуются 37 стран запериод 1979-2006 по следующим показателям: общий прием в начальноеобразование (государственные и частные школы); общий приѐм в среднееобразование (государственные и частные школы); общее количество учителейсреднего образования (государственные и частные школы, полные и неполныерабочие дни); общий набор в высшее образование (государственные и частныеВУЗы); общее число профессорско-преподавательского состава в системевысшего образования (государственные и частные ВУЗы); количество поданныхпатентных заявок; количество выданных патентов.В [17] исследуются 347 отделений банков.
Результатом являются 30паттернов.Анализ паттернов также успешно зарекомендовал себя в макроэкономике[14,15], политологии [20], менеджменте [18].Широкая сфера использования анализа паттернов демонстрирует высокуюэффективность применения метода с использованием параллельных координатдля анализа больших объемов данных различной природы. Вместе с тем, какуказано в разделе 1, ряд исследований отмечает необходимость «крайнеосторожного выбора последовательности анализируемых показателей» при егоиспользовании, поскольку данная последовательность напрямую влияет нахарактер формируемых паттернов. В связи с этим, актуальной представляетсязадача развития данного метода и формирования математического аппарата,позволяющего получать паттерны, не теряющие своей схожести при выбореальтернативной исходной последовательности входных данных.
В связи с этим,предлагается к рассмотрению новая оригинальная модель выявления паттернов,43названная «ординарной парно-сопоставительной моделью», реализуемая в виде 3новых методов анализа паттернов: порядково-фиксированной, порядковоинваринатной и диффузионно-инвариантной паттерн-кластеризаций, описаниекоторых приведено в подразделах 2.2-2.4.2.2 Порядково-фиксированная паттерн-кластеризацияПервый из новых оригинальных методов, на котором основываетсяординальная парно-сопоставительная модель, позволяет разбивать исходноемножество X на непересекающиеся подмножества, и базируется на парномсравненииисследуемыхпоказателейводной,заранеезаданнойпоследовательности. Описание данного метода приведено в [11, 42].Как сказано выше, для данного метода учитывается характер парныхотношений смежных показателей.
Каждому объектупоставим во взаимнооднозначное соответствие последовательность символов,такую, чтоCледует отметить, что значения исходных показателей исследуемых объектовпринадлежат множеству действительных чисел. В силу дискретности иограниченности множества значений парных отношений возможно использованиесимвольной последовательностикодав качестве позиционногонекоторого числа, что весьма удобно при оптимизации ипостроении компьютерного алгоритма, в частности, в связи с возможностьюзамены операции кодового сравнения объектов на простую арифметическуюоперацию сравнения чисел. Таким образом, в качестве кодировки объектовпредлагается использование,̅̅̅̅̅44∑Выбор данного представления объектов обуславливается удобством виспользовании и однозначностью кодирования.
Таким образом, исследуемыеобъектыхарактеризуютсядесятичными кодировкамивекторамии. Для разбиения данных объектов на подмножестватребуется оценить меру близости сформированных по формуле (4) кодировок. Вданном методе предложено использовать расстояние Хемминга18:∑Таким образом, рассматриваются 2 случая:– объекты1)иобъединяем в единое подмножество(кластер);– относим объекты2)ик различным подмножествам(кластерам).Описанный выше метод позволяет разбить исходное множество объектов нанекоторое число подмножеств (кластеров), число которых обозначим.Определение 1. Процедуру кластеризации, проведѐнную при помощиописанного выше алгоритма (т.е. с заранее заданной последовательностьюисследуемыхкластеризацией.показателей),Кластеры,назовѐмпорядково-фиксированнойполученныеприиспользованиипаттернпорядково-фиксированной паттерн-кластеризации, назовѐм порядково-фиксированнымипаттерн-кластерами.18Подразумевается использование общего случая расстояния Хемминга для кодовыхпоследовательностей одинаковой длины произвольного алфавита [5].45Замечание 1.
Учитывая, что формулы (1)-(3) определяют всего 3возможные значения, а длинасоставляет m-1 символов, максимальное числопорядково-фиксированных паттерн-кластеров определяется как.Далее,определимвычислительную(6)сложностьпорядково-фиксированной паттерн-кластеризации. Множество X содержит всего k объектов,описанных кодировками из m-1 символов, определяемых формулами (1)-(3).Всего требуется произвести k(k-1)/2 сравнений объектов. Таким образом,Для наглядной демонстрации используем данные из таблицы 4. Объекты 1-4представимввекторомвиде:x1 = (300; 700; 400);x2 = (30; 70; 40);x3 = (650; 350; 700), x4 = (65; 35; 70) соответственно. Таким образом, для каждогоисследуемого объекта требуется провести два парных сравнения:Объект 1:;Объект 2:;Объект 3:;Объект 4:.Формируем кодировки объектов:Проводим∑∑∑∑сравнениерасстоянийХемминга:46Таким образом, формируются 2 поряково-фиксированных паттерн-кластера:и.Замечание 2.