Диссертация (1138748), страница 9
Текст из файла (страница 9)
Если для выявления предпочтений клиентов использовать неопросную форму, а уже имеющиеся статистические данные, содержащиевыбор тарифного плана и использование трафика телекоммуникационнойсвязи, уже сделанные каждым потребителем, то такой подход обеспечитдостаточно объективную оценку предпочтений клиентов. Применениестатистических методов и методов data mining (Клейнер, Смоляк, 2003)расширяетвозможностителекоммуникационнойкомпанииприформировании ее тарифной политики по предоставлению услуг сотовой связи.2.1 Кластеризация как инструмент сегментации данныхОднимизнаиболеепопулярныхвнастоящеевремяметодов,позволяющих проводить сегментацию данных, является кластерный анализ.«Кластер-анализ – это способ группировки многомерных объектов,основанный на представлении результатов отдельных наблюдений, точкамиподходящего геометрического пространства с последующим выделением47групп как «сгусток» этих точек.
Собственно, «кластер» (cluster) в английскомязыке и означает «сгусток»…» (Мандель, 1988, с. 4).Целью кластерного анализа является выявление внутренней структурыанализируемых данных. С помощью кластеризации исследуемая совокупностьобъектов разбивается на однородные группы (кластеры или классы), имеющиеобщие свойства. Характеристиками кластера являются два признака:внутренняя однородность и внешняя изолированность. Получение кластеров,имеющих сходные характеристики, позволяет перейти к исследованию иуправлению группами наблюдений, что в большинстве случаев является болееполезным и эффективным.Методы кластерного анализа делятся на две группы: иерархические инеиерархические (метод K-средних и самоорганизующаяся карта Кохонена идр.).Иерархические методы имеют большой и развитый набор вариантовреализаций алгоритмов.
Среди них можно перечислить: метод ближнегососеда (односвязывающий метод), метод дальнего соседа (полносвязывающийметод), центроид, средняя связь (взвешенная), средняя связь (простая),медианный метод, минимальный внутриклассовый разброс и т.д. Основнойпринцип работы методов иерархического кластерного анализа, один и тот же.Работа алгоритма начинается с того, что на первом шаге каждоенаблюдение представляет собой отдельный кластер. На втором, происходитобъединение двух наблюдений в соответствии с иерархическим методом, иони представляют собой отдельный класс, рассчитываются расстояния от негодо всех остальных наблюдений, и матрица расстояний сокращается наединицу. На шаге p, производится та же процедура для матрицы расстоянийразмерности (n-p) на (n-p), где n – количество наблюдений. Процедураповторяется пока все наблюдения и классы наблюдений не будут объединеныв один класс, или n=p.Результатыработыалгоритмачастопредставляютсяввидедендрограммы, где в основании (по горизонтали или слева, если по вертикали)48указываются номера наблюдений, а по вертикали (или горизонтали справа,соответственно) указываются значения межклассовых расстояний d, прикотором произошло объединение.Методближнегососеда(односвязывающийметод)объединяетнаблюдения в класс через выбор класса с наименьшим расстоянием междуближайшими наблюдениями каждого класса.
В качестве меры расстояниячасто используют евклидово расстояние, также и в остальных иерархическихметодах.Метод дальнего соседа (полносвязывающий метод). На первом шаге нетотличия от метода ближнего соседа, со второго шага, выбирается класснаблюденийвкоторомминимальнорасстояниессамымдалекимнаблюдением каждого класса.Метод центроид. На первом шаге нет отличия от метода ближнего соседа,со второго шага, выбирается класс наблюдений в котором минимальнорасстояние между центрами тяжести (средним значением всех наблюдений)двух классов.Метод средняя связь (взвешенная). На первом шаге нет отличия от методаближнего соседа, со второго шага, выбирается класс наблюдений в которомминимально средневзвешенное расстояние между всеми наблюдениями двухклассов.Метод средняя связь (простая).
На первом шаге нет отличия от методаближнего соседа, со второго шага, объединение происходит для классовнаблюдений в которых минимально среднее расстояние между всеминаблюдениями двух классов.Медианный метод. На первом шаге нет отличия от метода ближнегососеда, со второго шага, объединение происходит для классов наблюдений вкоторыхминимально расстояние междумедианами всех признаковнаблюдений двух классов.Метод минимального внутриклассового разброса. На первом шаге нетотличия от метода ближнего соседа, со второго шага, объединение происходит49для классов наблюдений при котором увеличение дисперсии наблюденийвнутри класса будет минимальным.Когда все наблюдения объединены в один класс с помощью предпосылоки анализа дендрограммы выбирается необходимое количество кластеров.Пример дендрограммы представлена на Рис.
5.Рис. 5 Примеры дендрограммы, формируемой в результате иерархическогокластерного анализа, по методу ближнего соседа (Источник: Мандель,1988, с. 53.).Вариации различных алгоритмов во многом сосредоточены вокругпримененияразличныхвариациймеханизмовоценкивеличинымежклассовых расстояний d, но, существует множество и других вариацийиерархических методов, которые достаточно подробно рассмотрены в работеИ.Д. Манделя (Мандель, 1988).Из группы неиерархических методов нейронная сеть Кохонена (илисамоорганизующиеся карты Кохонена, или self-organizing map) и K-средний(или K-means) в наибольшей степени распространены в настоящее время.Популярность данных алгоритмов обусловлена некоторыми преимуществамиперед другими методами кластерного анализа.Сети Кохонена (Кохонен, 2008, Олдендерфер, Блэшфилд, 1989) относятсяк самоорганизующимся нейронным сетям.
Самоорганизующаяся сетьКохонена выявляет кластеры (группы) из всего множества объектов, гдекаждый объект описывается как вектор. Кластеры формируются таким50образом, что обладают некоторыми общими свойствами, статистическиотличающими каждый кластер от другого. Выделяют разные виды сети: С неупорядоченными нейронами (слои Кохонена) Сети с упорядочиванием нейронов (самоорганизующиеся карты,SOM – self-organizing map).Карту Кохонена возможно удобно отразить на двумерном пространстве внаглядной форме, где будут показаны все анализируемые объекты, имеющиесхожие свойства.Нейронная сеть Кохонена представляет собой однослойную сеть, гдекаждый нейрон имеет соединение с каждым элементом n – мерного вектора,поданного на вход алгоритму.Входной вектор – это описание каждого объекта из числа подлежащихкластеризации.В результате обучения сети каждый нейрон представляет отдельныйкластер, и совокупное количество нейронов равняется количеству полученныхкластеров, по итогам скоринга всех входных векторов.
Нейронами сетиКохонена являются линейные взвешенные сумматоры. Функционированиекаждого j-ого нейрона описывается вектором весов = (1 , 2 , … , ),где m – количество переменных входного вектора. Сам же входной векторпредставляется следующим видом = (1 , 2 , … , ).Важной особенностью сетей Кохонена является обучение без учителя, т.е.при обучении нейронной сети используются механизмы конкуренции. Приподаче на входную сеть вектора анализируемого объекта определяется нейронпобедитель, путем оценки расстояния между входным вектором и векторомвесов нейронов и выбора наименьшего расстояния. Формально это означает,что для победившего нейрона верно следующее:(, ) = min (, )1≤≤51(14)Где n – это количество нейронов; j – индекс нейрона, который является победителем; (, ) – характеризует расстояние (определенное в терминахзаданной метрики) от вектора x, до вектора w.Обычно в качестве меры расстояния используется метрика евклидоварасстояния(, ) = ‖ − ‖ = √∑=1( − )2(15)Допустимо использование и других мер расстояния (метрик).Длянейрона-победителя(neighborhood), согласноопределяетсярадиусу обученияближайшее(radius ofокружениеlearning).
Онхарактеризует, количество нейронов, кроме нейрона-победителя, котороебудет участвовать в обучении (т.е. скорректируют свои веса) на даннойитерации обучения. Радиус физически представляет собой расстояние отнейрона победителя, которое описывается в пространстве векторов весовнейронов. И все нейроны, которые находятся на расстоянии меньшем радиусаот нейрона победителя, будут скорректированы на данной итерации обучения.Принято, что радиус, используемый для определения ближайших нейронов,является максимальным в начале обучения и он уменьшается по мере процессаобучения.
Радиус в итоге уменьшается до нуля, и корректировка производитсятолько для нейрона, который является победителем.В соответствии с правилом Кохонена проводится обучение (адаптация)всех нейронов, находящихся в пределах радиуса от нейрона-победителя,включая сам нейрон-победитель. Правило Кохонена для адаптации:(+1)= + [ − ]52(16)Где: x – описывает вектор, поданный на вход k – является индексом текущего цикла обучения ηki – представляет собой коэффициент, который характеризуетскорость, с которой происходит обучение i-го нейрона, попавшегов радиус обучения в k-ый цикл.Изменению подвергаются только веса нейронов внутри радиусаобучения, остальные же нейроны, которые не попали в соответствующийрадиус, никак не будут изменены. Скорость обучения состоит из двухчастей: функция соседства (, ) и функция скорости обучения a(k) = (, )()(17)В качестве функции соседства применяется или константа, ≤ () (, ) = {0, > ()(18)или Гауссова функция (, ) = 2()−(19)Применение Гауссовой функции расстояния зачастую показываетлучший результат.
В (1) и (2) – это расстояние от нейрона-победителя(находящегося в центре) и до i-ого нейрона. Функция () плавно убывающаясо значением, зависящим от того, какой сейчас проходит номер циклаобучения. Не редко применяется именно линейный вид функции, значениекоторой уменьшается в зависимости от индекса цикла обучения сети.Функция скорости обучения обозначается при помощи (). Она такжеявляется функцией, зависящей от текущего индекса цикла обучения имонотонно убывающей от значения цикла.
Ее вид характеризуется или53линейной функцией, или обратно пропорциональной индексу циклапроведения обучения, реже применяются более сложные функции. Видфункции изменения скорости обучения:() =+,(20)Где, значения A и B являются константами. Это означает, что, используяданную монотонную функцию все входные наблюдения (векторы данных)будут иметь похожую силу влияния на обучение нейронной сети.При проведении обучения нейронной сети существует две фазы. Напервом этапе устанавливается высокая скорость и большая величина радиусаобучения,этораспределениедаствекторамвекторовнейронов(наблюдений)изполучитьсоответствующеевыборки.Вторымэтапомпроисходит точная выверка весов переменных в каждом нейроне, путем болеенизкой скорости обучения.