Диссертация (1090638), страница 5
Текст из файла (страница 5)
1.3. Классифицированные примеры типов прогнозов [61, 62]Одним из наиболее часто используемых средств распознавания образовявляются метод нейронных сетей [61]. В настоящее время получили распространение глубинные нейросети. Для решения задачи распознавания применялось большое количество нейронных сетей различных архитектур. Основнаяидея, лежащая в основе глубинных нейронных сетей, это последовательноепреобразование сигнала и применение слоёв выполняющих операцию свертки.Основой глубинной нейронной сети является искусственный нейрон. Нейронсостоит из трех логических блоков: входы, функция преобразования и выход.Под структурой (топологией) нейронной сети [62, 63] понимаетсянаправленный граф, вершинами которого являются преобразующие элементы –нейроны, а взвешенными дугами – связи между нейронами (синапсы). Топология нейронной сети – графическая иллюстрация соединений нейронов между25собой в сети.
Структуру сети определяют: тип преобразующего элемента –нейрона, вид функции активации в нейроне, характер связей в сети (рис.1.4).Рис. 1.4. Структура глубинной нейронной сетиДля того, чтобы глубинная нейронная сеть выполняла желаемое отображение в вероятное состояние пространства классов, требуется особым образомнастроить функции преобразования нейронов и внутреннюю архитектуру связей, в том числе и глубинных слоев. Чаще всего архитектура связей выбираетсязаранее из известных моделей и остаётся неизменной во время работы инастройки сети; настраиваемой же является функция преобразования.
Как правило, применяется следующий подход построения функции преобразования:все элементы вектора входа суммируются с некоторыми весами (синаптическиевеса), а далее сумма преобразуется нелинейной функцией (самый простой случай – пороговая функция) и результат работы данной функции и есть выходнейрона. В процессе настройки сети (обучение) происходит подстройка толькосинаптических весов у нейронов. Для каждой нейросетевой архитектуры существуют различные методы обучения.
Одним из наиболее распространенных методов является метод обратного распространения. Основным плюсом нейросетей является возможность решения широкого класса задач алгоритмически не26разрешимых или задач с нечёткими условиями. Определенным недостатком такого подхода можно считать недостаточную точность решений и рекомендацийв определенном классе задач.В настоящее время наиболее распространенными нейросетевыми архитектурами являются: модель Хопфилда с ассоциативной памятью; многослойный персептрон, решающий обширный класс задач распознавания образов; самоорганизующиеся карты Кохенена, обладающие возможностью самостоятельно выявлять закономерности в данных и разбивать входные данные на кластеры; рекурсивные сети Элмана, способные обрабатывать последовательностивекторов; вероятностные сети, аппроксимирующие байесовские классификаторы с любой степенью точности.Если однослойная нейросеть, хорошо справляясь с задачами классификации, не способна решать большинство практических задач, то многослойныйперцептрон способен аппроксимировать и интерполировать любую функциональную зависимость.
Но при этом не известно ни нужное число слоев, нинужное количество скрытых нейронов, ни требуемое время для обучения сети[32].Байесовские сетиОдним из наиболее простых и распространенных методов для решениязадачи прогнозирования событий является метод Байеса [21, 25, 39]. Суть данного метода состоит в анализе вероятностей появления отдельных факторов дляданного признака события. На основе этого вычисляется вероятность того, чтоданный объект относится к одному из рассматриваемых классов.Существуют системы прогнозирования последовательностей, основанныена "наивном" Байесовском методе [25]. Данный метод основывается на построении эмпирической плотности распределения вероятностей классов по обучающей выборке в предположении о независимости компонентов вектора признаков.
Проблема слабой обусловленности решается за счет выбора компактного представления вектора признаков. Данный подход является аппроксимациейметода максимума апостериорной вероятности и поэтому не обладает опти-27мальностью с точки зрения общего риска. Метод зависит от выбора модуляпреобразования, обычно признаками являются достаточно сложные характеристики изображения объекта интереса, подбираемые эвристически.Основой модели является формула апостериорной вероятности Байеса[3].{| }{ },{| }{ }P{ |} = ∑(1.1)где Xi – событие, для которого нужно найти вероятность, Y – событие, которое уже произошло, P{ |} – вероятность события.Байесовские сети – подход к классификации и прогнозированию, основанный на совмещении Байесовского подхода и теории графов [3, 28, 64].Строится граф, каждая вершина которого соответствует какой-либо компонентевектора признаков, дуги обозначают причинно-следственную связь.
Построение сети может быть осуществлено автоматически за счет анализа корреляциикомпонент вектора признаков. Такой подход не требует столь сильных предположений, как принцип максимума апостериорной вероятности, однако при отсутствии априорных данных сеть не будет доставлять минимум общему риску.Особенности метода:"наивный" Байесовский классификатор склонен к переобучению;"наивный" Байесовский классификатор чувствителен к шуму, т.к.
основывается на эмпирических функциях плотности распределения;скорость работы самого классификатора крайне высока, основное времяможет занимать вычисление вектора признаков.Анализируя основу модели апостериорной вероятности Байеса в рамкахосновных задач исследования, принимаем решение, что допустимо применениеданного метода для подготовки принятия решений на основе признаков анализируемого события кризисной ситуации и полноты развития обновленных аргументаций в блоке активного моделирования намерений.
Далее рассмотримеще один распространенный метод [65, 66].28Метод «опорных векторов»Идея метода опорных векторов состоит в построении гиперплоскости,выступающей в качестве поверхности решений, максимально разделяющей положительные и отрицательные примеры. По сути метод опорных векторов является аппроксимирующей реализацией метода минимизации структурногориска [67]. Этот принцип основан на том, что уровень ошибок на данных тестирования (т.е. уровень ошибок обобщения) можно представить в виде суммыошибки обучения и слагаемого. В случае разделяемых множеств метод опорных векторов выдает значение "нуль" для первого слагаемого, минимизируяпри этом второе слагаемое. Поэтому, метод опорных векторов может обеспечить хорошее качество обобщения в задаче прогнозирования, не обладая априорными знаниями о предметной области конкретной задачи.
Именно это свойство является уникальным для метода опорных векторов.Построение классифицирующей функции с помощью опорных векторовзаключается в поиске линейной функции, правильно разделяющей тренировочный набор на два класса при минимально возможной для данного набора оценке VC размерности сверху. Таким образом, для линейно разделяемых данныхмы получаем функцию классификации, минимизирующую верхнюю оценкуожидаемого риска.Возможности линейного классификатора можно значительно расширитьпутем нелинейного отображения исходного пространства в пространство потенциально намного более высокой размерности Ф: Rn —> F и применения линейного классификатора в пространстве F.
Сложность заключается в том, чточем выше размерность пространства, тем сложнее с ним работать.Ценным свойством прогнозирования с помощью гиперплоскостей является то, что классифицирующую функцию f(x) можно преобразовать таким образом, что она будет представлять собой линейную комбинацию скалярных произведений тестового вектора х с векторами тренировочного набора, а линейныйклассификатор, использующий только скалярные произведения, может неявнооперировать в пространстве F, используя аппарат ядерных функций. Таким об-29разом, можно использовать линейный классификатор (например, опорные вектора) для корректной работы с нелинейно разделяемыми классами без существенного усложнения вычислительных операций.