Интеграция автономных источников данных для прогнозирования свойств неорганических веществ (1090500), страница 3
Текст из файла (страница 3)
Первоначально этот метод былразработан для разделения имеющихся объектов на 2 класса [15]. Основнаяидея метода заключается в проекции векторов признаков на некоторуюпрямую, что эквивалентно вычислению линейной комбинации их компонент.Сама прямая (коэффициенты линейной комбинации) выбирается такимобразом, чтобы отношение расстояния между проекциями средних векторовразличаемых классов к сумме разброса проекций векторов внутри каждого13 класса было максимально. Таким образом, линейный дискриминант Фишерапереводит многомерное пространство признаков в одномерное.
Известнымодификации этого метода для большего количества классов.Более общим методом является построение линейной разделяющейгиперплоскости. Задача при построении такой поверхности состоит ввычислениинекоторойлинейнойотносительнопризнаковфункцииf(x) = a1x1 + a2x2 + … + anxn + an+1. Рассмотрим случай с двумя классами. Приклассификации используется следующее решающее правило: если f(u)>0, тообъект u относится к первому классу, если f(u)<0, то ко второму, а еслиf(u)=0, то - отказ от классификации объекта.Основной задачей является поиск такой функции f(x), для которойчисло невыполненных неравенств в системе:Af(ui)>0, i=1..m1Af(ui)<0, i=m1..mявляется минимальным (m – количество объектов). Если системасовместна, то достаточно найти любое ее решение a1, a2,…, an, an+1, если жеона несовместна, то находится некоторое «обобщенное» решение, т.е.решение некоторой ее максимальной совместной подсистемы.
В результатенаходитсяспециальнаякусочно-линейнаяповерхность,правильноразделяющая максимальное число элементов обучающей выборкиИскусственные нейронные сети (ИНС) базируются на упрощеннойматематическоймоделибиологическихнейронныхсистем[16].Элементарной единицей обрабатываемой информации в ИНС являетсяобразпроизвольнойдлины,обычнопредставляемыйввиделибоодномерного вектора, либо двумерной матрицы чисел, а элементарнойоперацией - срабатывание искусственного нейрона. Множество входныхсигналов, обозначенных x1, x2,…, xn, поступает на искусственный нейрон.Эти входные сигналы, в совокупности обозначаемые вектором X,соответствуют сигналам, приходящим в синапсы биологического нейрона.Каждый сигнал умножается на соответствующий вес w1, w2,…, wn, и14 поступаетнасоответствуетсуммирующий«силе»однойблок,обозначенныйбиологическойΣ.Каждыйсинаптическойвессвязи.Суммирующий блок, соответствующий телу биологического элемента,складывает взвешенные входы алгебраически.
Далее этот результатпреобразуется с помощью активационной функции.Активационнаяфункциямоделируетнелинейнуюпередаточнуюхарактеристику биологического нейрона. В качестве активационной функциичастоиспользуется логистическаяили «сигмоидальная» (S-образная)функцияf(u) = 1/(1 + е-au).При уменьшении а функция становится более пологой, в пределе при а= 0 вырождаясь в горизонтальную линию на уровне 0,5, при увеличении афункция приближается к виду функции скачка с порогом 0.
Выходноезначение нейрона для такой функции лежит в диапазоне (0, 1). Следуетотметить, что сигмоидальная функция дифференцируема на всей осиабсцисс, что используется в некоторых алгоритмах обучения. Кроме того,она обладает свойством усиливать слабые сигналы лучше, чем большие, ипредотвращает насыщение от больших сигналов, так как они соответствуютобластям аргументов, где функция имеет пологий наклон.Другой широко используемой активационной функцией являетсягиперболический тангенс. По форме это функция сходна с логистическойфункцией и часто используется биологами в качестве математическоймодели активации нервной клетки. Подобно логистической функциигиперболический тангенс является S-образной функцией, но он симметриченотносительно начала координат, и в точке u = 0 значение выходного сигналаравно нулю.
В отличие от логистической функции гиперболический тангенспринимает значения различных знаков, что оказывается выгодным для рядасетей.15 Нейронная сеть представляет собой совокупность искусственныхнейронов, определенным образом соединенных друг с другом и с внешнейсредой с помощью связей, определяемых весовыми коэффициентами [17].Каждый элемент из множества входов Х отдельным весом соединен скаждым искусственным нейроном. Вычисление выходного вектора U,компонентами которого являются выходы нейронов, сводится к матричномуумножениюU = XW, где U и Х – векторы-строки.Конкретныйвидвыполняемогосетьюпреобразованияданныхобусловливается не только характеристиками нейронов, но и особенностямиее архитектуры. Нейронные сети являются универсальным аппаратом длязадания алгоритмов, т.к.
можно использовать нейроны с различнымифункциями состояния и активации, двоичными, целочисленными и другимизначениями весов и входов. В ходе прогнозирования ИНС относит к той илииной области каждый новый объект, поданный на вход сети в видесовокупности значений признаков.В основе применения ИНС лежит использование алгоритмов,получаемых при помощи обучения на примерах. Эти алгоритмыкодируются в ИНС в виде значений весов нейронов. Обученная такимобразом ИНС способна решать задачу распознавания образов. Обучениеосуществляется путем последовательного предъявления входных векторов содновременнойподстройкойвесоввсоответствиисопределеннойпроцедурой.
В процессе обучения веса сети постепенно становятся такими,чтобы каждый входной вектор вырабатывал требуемый выходной вектор.Таким образом, по конечному набору пар (вход, выход), называемомуобучающей выборкой, формируется отображение f(x)=y.Для обучения многослойных нейронных сетей с последовательнымисвязями используется алгоритм «обратного распространения ошибки»(backpropagation). Это итеративный градиентный алгоритм, целью которогоявляется минимизация среднеквадратичного отклонения текущего выхода и16 желаемого выхода.
Алгоритм основан на последовательной настройкевначале выходных нейронов сети, а затем проходит сеть в обратномнаправлении до первого слоя. Веса настраиваются в соответствии сформулой:wij (t + 1) = wij (t ) + rg j xiгде wij - вес от нейрона i или от элемента входного сигнала i к нейрону jв момент времени t, xi - выход нейрона i или i-ый элемент входного сигнала, r- шаг обучения, g j - значение ошибки для нейрона j.Если нейрон с номером j принадлежит последнему слою, тоg j = y j (1 − y j )(d j − y j )где dj - желаемый выход нейрона j, yj - текущий выход нейрона j.Если нейрон с номером j принадлежит одному из слоев с первого попредпоследний, тоg j = x j (1 − x j )∑ g k w jkkгде k пробегает все нейроны слоя с номером на единицу больше, чем утого, которому принадлежит нейрон j.Одним из наиболее известных и хорошо зарекомендовавших себяалгоритмовобратногораспространенияошибкиявляетсяалгоритмЛевенберга-Маркардта [18, 19]. Минимизируемой целевой функцией ошибкиИНС является величина:1E ( w) = ∑ ( y (j N, p) − d j , p ) 22 j, p(N )где y j , p – реальное выходное состояние нейрона j выходного слоя Nнейронной сети при подаче на ее входы p-го вектора; djp – идеальное(желаемое) выходное состояние этого нейрона.
Суммирование ведется повсем нейронам выходного слоя и по всем обрабатываемым сетью входнымвекторам. Минимизация ведется методом градиентного спуска, что означает17 подстройку весовых коэффициентов следующим образом:∆w ij( n ) = −η ⋅∂E∂w ijЗдесь wij – весовой коэффициент связи, соединяющей i-ый нейрон слояn-1 с j-ым нейроном слоя n, η – коэффициент скорости обучения, 0<η<1.Одним из недостатков использования ИНС в распознавании образовявляется большое время обучения сети, а также сложность подбораоптимальной архитектуры нейросети для решения конкретных задач.
В связис этим в последние годы применяют модели коллективов нейросетей, врамках которых несколько нейронных сетей объединяются и используютсясовместно для решения задачи.Для повышения достоверности прогнозов необходимо применятьнесколько алгоритмов распознавания образов, основанных на различныхподходах, например, методы прикладной статистики, нейронные сети,методы, основанные на математической логике. Интеграция прогнозов,полученных с помощью различных методов, представляет собой отдельнуюзадачу. Коллективные подходы для решения задач распознавания позволяютнекоторым образом объединить разнотипные алгоритмы распознавания инаходить оптимальные коллективные решения, в которых компенсируютсянеточности каждого из используемых базовых методов [20].
В настоящеевремяизвестнонесколькоспособовконструированияколлективныхрешений, наиболее общая теория алгоритмических композиций разработанавалгебраическомподходекпостроениюкорректныхалгоритмов,предложенном академиком Ю.И. Журавлёвым и активно развиваемом егоучениками [21].Данный подход базируется на понятии алгоритмической композиции.Наряду с пространством объектов обучающей выборки X и множествомклассовY,пространствомвводитсяоценок.вспомогательноемножествоРассматриваютсяалгоритмы,R,называемоеимеющиевид18 суперпозиции a(x) = C(b(x)), где функция b : X → R называетсяалгоритмическим оператором, функция C : R → Y - решающим правилом.Многие алгоритмы классификации имеют именно такую двухстадийнуюструктуру: сначала вычисляются оценки принадлежности объекта к классам,затем решающее правило переводит эти оценки в наименование класса.Значениеоценки,какправило,характеризуетстепеньуверенностиклассификации.
В одних алгоритмах это вероятность принадлежностиобъекта заданному классу, в других - расстояние от объекта до разделяющейповерхности.Алгоритмической композицией, составленной изоператоров bt: X→R, t=1, ... , T,корректирующей операции F : RT → Rрешающего правила C : R → Yназывается алгоритм a: X → Y вида a(x) = C(F(b1(x), . . . , bT(x))), x ∈ X.Функции at(x) = C(bt(x)) называются базовыми алгоритмами, t = 1, .
. . , T.Суперпозиции вида F(b1, . . . , bT) являются отображениями из X в R, тоесть алгоритмическими операторами.Коллективный метод распознавания образов представляет собой новыйалгоритм распознавания, являющийся некоторой суперпозицией имеющихсяалгоритмов. Отметим, что коллективный алгоритм не должен относитьраспознаваемый объект к классу, к которому его не отнес ни один изисходных алгоритмов.Простейшим комитетным методом является усреднение оценок заклассы:1 pPA (t | x) = ∑ PAi (t | x)p i =1где A - полученный алгоритм в виде композиции p алгоритмов A1,…,Ap.Используются также комитетный метод взятия максимума оценкипринадлежности к данному классу по всем исходным алгоритмам:19 PA (t | x) ∼ max PAi (t | x)1≤ i ≤ pМетод взятия минимума оценки:PA (t | x) ∼ min PAi (t | x)1≤i≤ pМетод произведения оценок принадлежности к классу:pPA (t | x) ∼ ∏ PAi (t | x)i =1В трех последних случаях апостериорные вероятности требуютмасштабирования, чтобы их сумма по всем классам l давала единицу:∑lt =1PA (t | x) = 1Другая концепция построения комитетных решений заключается виспользовании решающих правил исходных алгоритмов вместо оценокпринадлежности за классы:PA (t | x) =гдеI At i (x)1 p t∑ I A ( x)p i =1 i- бинарная величина, индикатор классификации объекта x кклассу t алгоритмом Ai.Критериемоценкипрогностическихвозможностейфункции-классификатора является отношение количества неверных прогнозов,полученных с помощью функции F(x), к количеству пар, входящих вобучающую выборку:P=ЧемF ( x) ≠ ySменьшеэтавеличина,темлучшеподобранафункция-классификатор.