Секция 4 - Нейросетевые технологии (1250001), страница 11
Текст из файла (страница 11)
Именно с такой ситуацией мы сталкиваемся в геологических исследованиях при попытке анализа взаимосвязи двух- и трехмерных полей характеристик геологической среды. В частности, при прогнозеполезных ископаемых это взаимосвязь целевых характеристик (плотностиоруденения, концентрации каких-либо металлов и т.
д.) с прогнозирующими характеристиками, описывающими вещественные, структурные, геометрические свойства геологической среды. Если такие взаимосвязи устойчивы, обладают достаточной силой (в статистической трактовке) и содержательно интерпретируются, то они называются закономерностямиразмещения полезных ископаемых и являются геологической основой прогноза.Введем общее понятие расстояния между двумя множествами, которые при пространственной привязке их элементов могут рассматриватьсякак два тела (структуры) размерностью 2D или 3D.Для двух непустых конечных множеств А и В их пересечение A ∩ Bопределяет элементы, принадлежащие и множеству А, и множеству В.Обозначим число элементов, входящих в такое пересечение, символом абсолютной величины А ∩ В .
Аналогичным образом А ∪ В будет даватьчисло элементов, входящих в объединение.Отношение числа элементов, входящих в пересечение множеств, кчислу элементов, входящих в объединение,А∩ В / А∪ Вдопускает эвристическую интерпретацию. Это отношение измеряет вероятность того, что элемент, по крайней мере, одного из двух множеств является элементом обоих. Оно, таким образом, дает разумную меру «близости», между рассматриваемыми множествами. ВеличинуDIST (A, B) = 1 - А ∩ В / А ∪ В1290Секция 4.
Нейро-сетевые технологииследует рассматривать [6] как меру расстояния (меру «удаленности») междумножествами A и В.Если А = В, DIST (А, В) = 0.Если А ∩ В = ∅ , DIST(A, В) = 1Определенная таким образом величина DIST (А, В) удовлетворяет [6] всемсвойствам функции метрики в пространстве, элементами которого являются конечные непустые множества:DIST (А, В) + DIST (В, С) > DIST (А, С), неравенство треугольника;DIST (А, В) = 0 если и только если А = В, положительная определенность;DIST (А, В) = DIST (В, А), симметрия.В геологии при прогнозировании полезных ископаемых особый интерес представляет исследование взаимосвязи характеристик, представляющихпространственные 2D поля.Для примера на рис. 1 показаны графики DIST, описывающие взаимосвязь полей плотности оруденения Fe–Au и Pb–Zn на свободной от современных рыхлых отложений территории Казахстана.
Между полямиплотности Pb–Zn в зависимости от относительной концентрации металловфиксируются небольшие расстояния, которые плавно увеличиваются до0,4 — 0,5 только при высоких относительных концентрациях ≈ 0,8, т. е. вдиапазоне самих «вершин» полей плотности Pb и Zn. В то же время величина DIST в паре Fe–Au резко возрастает и достигает 1, т.
е. максимума, уже при относительных концентрациях ≈ 0,5.Рис. 1. Анализ расстояний между множествами концентраций Fe — Au, Pb — Zn.Для величин относительных концентраций, превышающих пороговые значения 0.1, 0.3, 0.6 соответственно, на рис. 2 приводятся поля плотности оруденения (в логарифмической шкале) для пары металлов Pb-Zn, ана рис. 3 — для пары Fe-Au [7].Как и следовало ожидать, металлы Pb и Zn тесно ассоциируют между собой, а Fe-Au являются «антагонистами».1291Труды II научной конференции «Проектирование инженерных и научных приложений в среде MATLAB»Анализ расстояний между множествами концентраци Pb - Zn550-5-10-15-20-25-30-35-5 05 10 15 20 25 30 35 40 45 503.403.203.002.802.602.402.202.001.801.601.401.201.000.800.600.400.200.100-5-10-15-20-25-30-35-505 10 15 20 25 30 35 40 45 50Pb : conc.
> 0.0 (0.1)Zn : conc. > 0.0 (0.1)53.4003.203.00-52.8053.803.603.403.203.002.802.602.402.202.001.801.601.401.201.000.800.700.600-52.60-102.40-102.20-152.00-151.80-201.60-201.40-251.20-251.00-300.80-300.70-350.60-503.803.603.403.203.002.802.602.402.202.001.801.601.401.201.000.800.600.400.200.105 10 15 20 25 30 35 40 45 50-35-50Pb : conc. > 0.73 (0.3)5 10 15 20 25 30 35 40 45 50Zn : conc. > 0.78 (0.3)553.4003.20-53.00-102.803.8003.60-53.40-103.203.00-152.60-15-202.40-202.20-252.40-302.20-252.00-301.80-351.60-505 10 15 20 25 30 35 40 45 50Pb : conc.
> 1.81 (0.6)2.802.602.00-351.80-50510 15 20 25 30 35 40 45 50Zn : conc. > 1.94 (0.6)Рис. 2. Геологическая карта концентраций Pb–Zn.1292Секция 4. Нейро-сетевые технологииАнализ расстояний между множествами концентраций Au - Fe553.23.02.82.62.42.22.01.80-5-10-151.61.41.21.00.80.60.40.20.0-0.2-20-25-30-35-5053.83.63.43.23.02.82.62.42.22.01.81.61.41.21.00.80.60.40.20.0-0.1-0.20-5-10-15-20-25-30-35-510 15 20 25 30 35 40 45 500510 15 20 25 30 35 40 45 50Au : conc. >- 0.03 (0.1)Fe : conc.
>- 0.24 (0.1)553.203.04.03.83.63.43.23.02.82.62.42.22.01.81.61.41.21.00.80.70.602.8-52.6-52.4-102.22.0-151.81.6-201.41.2-251.00.8-300.60.4-350.2-505-10-15-20-25-30-35-510 15 20 25 30 35 40 45 500510 15 20 25 30 35 40 45 50Fe : conc. > 0.5 (0.3)Au : conc. > 0.78 (0.3)553.20403.83-52.8-5-102.6-10-152.4-15-202.2-20-2523.63.43.232.82.6-252.41.8-301.6-351.4-50510 15 20 25 30 35 40 45 50Au : conc. > 2.00 (0.6)2.2-302-351.8-50510 15 20 25 30 35 40 45 50Fe : conc. > 1.61 (0.6)Рис.
3. Геологическая карта концентраций Au–Fe.Значение DIST и ее изменение в зависимости от выбранного порогаконцентрации позволяет описать структуру взаимоотношений полей распределения характеристик геологической среды. Такой подход достаточно1293Труды II научной конференции «Проектирование инженерных и научных приложений в среде MATLAB»тесно связан с методами исследования морфологии случайных структур наоснове функционалов Минковского.При необходимости разным значениям полей можно на основе каких-либо содержательных соображений приписать различные «веса».
Например, обычно при прогнозе полезных ископаемых нас особенно интересуют области высокой плотности оруденения. Поэтому соответствующимзначениям поля при вычислении DIST можно придать «вес», пропорциональный их информативности по Шеннону. Обычно вероятность встречивысоких плотностей оруденения мала, а «вес», соответственно, ставитсябольшим.3. Кластеризация данныхСуществуют серьезные основания полагать, что структура экспериментальных данных отражает структуру изучаемых процессов в фазовомпространстве соответствующей размерности. Поэтому понятие «изучениеструктуры данных» становится почти синонимом понятия «изучениеструктуры процессов». Классификация помогает найти ключевые абстракции и механизмы, позволяет получить более простую архитектуру изучаемой системы. Классифицируя, мы объединяем в одну группу объекты,имеющие одинаковое строение или одинаковое поведение.
Основу классификации в отсутствии априорных знаний составляет кластерный анализ[8, 9].Кластерные алгоритмы, в принципе, обеспечивают количественныйанализ выделения групп, находящихся в исходных данных. Следует, однако, подчеркнуть, что решение задач кластеризации является исключительно сложным процессом [10–12]: в реальной ситуации кластеры редко бывают компактными и хорошо разделенными друг от друга. Поэтому вместоодного единственного алгоритма разделения данных на составляющиекластеры чаще используется итеративная последовательность итеративныхалгоритмов. В настоящей работе последовательно использованы алгоритмсамоорганизующихся карт Кохонена и алгоритм К-средних.
SOM-анализ[13, 14] переводит большую совокупность многомерных данных (тысячи,десятки тысяч значений) в карту с несколькими десяткам (сотнями) ячеек.Алгоритм К-средних [15, 16] выполняет кластерный анализ на этой сеткеячеек SOM-карты.Сеть Кохонена распознает многомерные кластеры в данных, оценивает близость классов. Упорядочение многомерных входных векторов ввиде двухмерной выходной карты выражается в том, что чем ближе координаты двух векторов на карте, тем ближе они и в пространстве входов (ноне наоборот!) Таким образом, исследователь может улучшить свое понимание структуры данных — выполнить разведочный анализ данных. СетиКохонена можно использовать и в тех задачах классификации, где классы1294Секция 4.
Нейро-сетевые технологииуже заданы, тогда преимущество будет в том, что сеть сможет выявитьсходство между различными классами.Основное назначение SOM-карт заключается в преобразовании иотображении многомерных входных данных в виде (обычно) двухмерногомассива выходных данных: выходной или топологической карты Кохонена. Каждый элемент выходной карты — нейрон i описывается векторомвесов w = [w i1 , w i 2 ,…, w id ] T , имеющим ту же размерность d, что и размерность входных данных. Число нейронов в топологическом слое определяется эвристически.На стадии инициализации весам всех нейронов присваиваются случайные значения в интервале 0.0–1.0. Перед началом работы все компоненты вектора входных данных также нормируются на 1.0.Принципиальным для процедуры SOM анализа является соревновательный принцип нахождения нейрона с набором весов, ближайшим к набору компонент выбранного вектора x.
В качестве меры расстояния || · ||обычно применяется евклидово расстояние:|| x - w c || = min i {|| x — w i ||}по минимуму которого и выбирается нейрон-победитель w c .Второй принципиальный элемент алгоритма состоит в обучении нетолько нейрона-победителя, но и его «соседей», хотя и с меньшей скоростью; для этого нейроны выходного слоя упорядочиваются, образуя двухмерные решетки, в которых положение нейронов маркируется вектором r :w i (t + 1) = w i ( t ) + η( t ) Λ ci ( t ) [x( t ) - w i ( t )]Λ ci ( t ) = Λ(||rc- r i ||, t )Здесь t задает шаг обучения, x( t ) — случайно выбранный входной векторна шаге t, η( t ) — темп обучения, Λ ci ( t ) — функция соседства. При гауссовской форме функции соседства она равна единице для нейронапобедителя с индексом c и экспоненциально уменьшается с расстоянием.Как темп обучения η( t ), так и радиус взаимодействия нейронов Λ ci ( t ) постепенно уменьшаются в процессе обучения, так что на конечной стадииобучения адаптируются веса только нейронов-победителей.Результаты SOM анализа трудно интерпретировать.