Диссертация (1138748), страница 10
Текст из файла (страница 10)
Сам же процесс обучения нейронной сетипроисходит так долго, пока погрешность квантования (или погрешность сети)для входных векторов p, оцениваемая по функции:1 = ∑=1‖ − ‖2(21)не примет крайне малое значение. Где, – это вектор весов нейронапобедителя.В процессе обучения нейронной сети Кохонена существует проблеманейронов, которые исключаются из процесса обучения, их еще называют«мёртвые».
Это связанно с самой процедурой обучения, когда идетконкуренция между различными нейронами за входные вектора и в процессеобучения некоторые нейроны оказываются не использованными. Если унейрона начальные весовые вектора окажутся слишком удаленными отосновной массы входных наблюдений данных, то у них не будет возможностиникогда выиграть конкуренции других нейронов, при этом не важно насколькодолго будет происходить обучение сети. Это означает, что они никогда не54будут победителями и вот их и называют «мертвые», поскольку в итоге ихполезность в сети будет равна нулю. Что означает, несмотря на затраченныересурсы при обучении, входные данные будут представлены меньшим числомнейронов, а величина погрешности квантования (21) будет больше, что такженегативно отразится на всей сети.
Обучение остановится с потерей некоторой,возможно, важной информации. И вследствие подобных результатоввозникает потребность дать реальный шанс на победу каждого нейрона, чтобыобучение сети происходило равномерно и значения входных векторов данныхбыли также равномерно распределены по сети, тогда сеть сможетмаксимально «изучить» структуру входных данных. Данная проблемарешается достаточно просто, нейрон, победивший на прошедшем циклеобучения, должен выключаться из процесса обучения на некоторое время.Также рассчитывается потенциал активности каждого -ого нейрона во времяпроцесса обучения сети. При запуске обучения потенциал каждого нейрона1оцениваться величиной (0) = , где n – число нейронов. На каждомпоследующем k-ом шаге обучения, определение потенциала каждого нейронапроисходит согласно правилам:1 () = { ( − 1) + , ≠ , ( − 1) − , = ,(22)Где j – индекс нейрона-победителя.
Если величина потенциала () ниженекоторого фиксированного уровня , то происходит исключениеконкретно данного нейрона из процесса обучения на некоторое время исчитается, что нейрон «отдыхает». Если уровень установить равным 0, тонейроны прекратят выбывать из конкуренции за вектора входных данных.Если же задать величину уровня равной 1, то получится так, что каждыйцикл будет побеждать один нейрон и это будет происходить последовательнодля каждого нейрона. Обычно лучший результат обучения сети достигаетсяпри величине уровня отключения примерно 0,75.55Другим допустимым решением проблемы «мертвых» нейронов можетслужить добавление положительного смещения для сильно удаленныхнейронов от нейрона победителя, что даст отдаленным нейронам, получивсмещение, стать конкурентным при обучении.Данные поступающих векторов рекомендуется нормировать. Хотянормирование не является обязательным условием.
Нормировку стоитпроизводить в соответствии с одной из функций: =2√∑=1 = ||(23)(24)где – пронормированный элемент входного вектора.Одно из назначений карты Кохонена (SOM – self-organizing map,самоорганизующиеся карты) – визуальное отражение многомерных объектовна плоскости из двух измерений.Обычно карта Кохонена представляется в виде ячеек, имеющих формупрямоугольника или шестиугольника. На данной карте каждый нейрон сетипредставляется в виде ячейки. Обучение данных нейронов является тем же,что и у нейронов самой сети. Если вектора наблюдений схожи по своимзначениям, то они попадут в одну и ту же ячейку, если не так сильно близки,то могут попасть в соседние.
По сути, карта Кохонена показывает степеньблизости входных векторов данных. Ячейки прямоугольной формыинтуитивно ближе человеку, но отображение карты в виде шестиугольниковявляется более корректным, так как расстояние между центрами соседнихнейронов в этом случае будет одинаковым, обычно используется именноотображение с применением шестиугольников.Хотя применение карты позволяет наглядно рассмотреть степеньблизости между получившимися группами, но, все равно, необходимо56анализировать полученные группы в исходных метриках. Чтобы разобратьсяпо каким именно метрикам удалось получить различия и сходства междуисследуемыми объектами, необходимо построить количество карт равноеколичеству значений параметров входного вектора. При этом сходства иразличия объектов по каждому параметру отображаются цветом (допустимораскрашивать и в оттенки серого) в зависимости от величины значенияпараметра.
Обычно в каждой ячейке больше одного наблюдения, поэтомуотображается именно значение среднего для каждого параметра исследуемогообъекта. Вместо среднего могут быть применены и другие расчетные меры –минимум, максимум, медиана и т.д., это зависит от поставленной задачи ижелаемого эффекта. В случае, если в ячейке не оказалось ни одного входногонаблюдения, то в качестве веса ячейки берется сам вес нейрона посоответствующему параметру.В качестве примера можно рассмотреть выдачу кредитов физическимлицам. Задача может состоять в выделении групп заемщиков и определенииих платежеспособности, и ожидаемом возврате кредита. Объединениезаемщиков будет производиться по схожим параметрам, описанным вовходном векторе наблюдения.
Выполнив данную задачу, получается наборкарт, отражающих различные аспекты объекта исследования – заемщика. Нарис. 6 представлены карты, которые были построены на базе платформыDeductor.Платформа Deductor может выстраивать собственные кластеры на базеполученных карт.
Например, как видно из рис. 6, в качестве кластера былавыделена группа молодых кредиторов, берущая большие суммы кредитов,можно предположить, что это ипотечные кредиты.57Рис. 6 Примеры карт Кохонена (Источник: Аналитическая платформаDeductor, BaseGroup Labs.)Преимуществом сетей Кохонена перед возможными альтернативнымиметодами,решающимианалогичныезадачи,являетсявозможностьинтуитивно интерпретировать и использовать результаты кластеризации.Карты Кохонена упрощают сложные многомерные структуры и отображаютихдвумернуюплоскость,вцеломонитакжевыполняютзадачупроецирования многомерного пространства в двумерное представление синтенсивностью цвета в качестве описательного свойства полученныхкластеров.Несомненно, одним из наиболее важных особенностей карт Кохоненаявляется обучение без учителя, когда происходит неуправляемый процессобучения.
Это механизм, который стремится понять структуру данных, онможет показать скрытые закономерности в данных, которые другимисредствами может и не получиться обнаружить. А также изучение структурыданных позволяет алгоритму самостоятельно решить какое количествокластеров представлено в данных.Альтернативным методом кластеризации может быть k-means. K-means,вероятно самый популярный метод в группе неиерархических методовкластеризации, иногда ему приписывают называние – быстрый кластерныйанализ. Особенность группы иерархических методов, в том, что для ихфункционированиянеттребования58выставлятьгипотезувозможногоколичества кластеров в данных, но для k-means обязательно требуется делатьпредположение числа кластеров.
Он хорошо подходит в случае, если известнокакое число требуется в данной задаче. При построении k кластеров алгоритмk-means рассчитывает значение положения бедующих кластеров так, что онирасполагаются максимально удаленно друг от друга, но при этом являютсяцентрами масс своего кластера. Определение возможного количествакластеров вопрос сложный, он может определяться результатами другихисследований или требованиями задачи, а может быть определен экспертно,интуитивно. В действительности всегда стоит помнить, что понятие группыили кластера несколько условно, любые равномерно распределенные данныеможно разбить до такого числа кластеров покуда сравнение средних их будетразличать, а это может оказаться весьма большим числом. Алгоритмы типанейронной сети Кохонена стремятся понять структуру, найти «уплотнения» вданных и выделяют их в кластер, k-means лишь косвенно пытаетсяотлавливать скопление данных.Пусть для n исследуемых объектов, определено в качестве количествакластеров k, которые и сформируют будущие кластеры.
После начала работыалгоритма все n объектов разделяются на k групп. Строгое ограничение, n>=k,где каждая группа является кластером. Формирование кластеров происходитв соответствии с функцией схожести, величину которой необходимоминимизировать. Обычно функция схожести рассчитывается исходя изцентров масс полученных кластеров. После первичной расстановки, гдеизначальные центры k объектов определяются случайно, производится оценкацентров масс кластеров и запускается циклический алгоритм: Измеряется расстояние – от оставшихся исследуемых объектов довыбранных центров кластеров, и каждое наблюдение присваивается кближайшему центру кластера, в терминах какой-либо меры расстояния.