Диссертация (1090638), страница 4
Текст из файла (страница 4)
Использование робастных методов получения статистических оценок для информации, содержащейаномальные"выбранные"наблюдения,позволяетзначительноповыситьнадежность получаемых оценок по сравнению с обычным методом наименьших квадратов.Метод группового учета аргументовМетод группового учета аргументов, представляющий собой дальнейшееразвитие метода регрессионного анализа.
Он основан на некоторых принципахтеории обучения и самоорганизации, в частности на принципе "селекции", илинаправленного отбора [25, 50].Метод осуществляет синтез оптимальных моделей высокой сложностиисследуемого объекта (под моделями понимается система регрессионных уравнений). Так, алгоритмы метода группового учета аргументов, построенные посхеме массовой селекции, осуществляют перебор функциональных описанийобъекта.19Среди алгоритмов метода группового учета аргументов наибольший интерес для построения блока активного моделирования намерений представляетобобщенный алгоритм, обеспечивающий получение наиболее точных моделей,благодаря использованию в качестве опорной функции аддитивной и мультипликативной модели трендов.При получении долгосрочных дифференциальных прогнозов важным является установление устойчивости поведения системы.
Наиболее распространенным способом установления области устойчивости (для линейных моделей)являются методы Ляпунова, критерии Гурвица – Рауса.Факторный анализВ анализе данного многомерного метода, применяемого для изучениявзаимосвязей между значениями переменных на предмет использования его вблоке активного моделирования намерений, было установлено, что в исследовании причинно-следственных связей возможно применение методики динамического факторного анализа в динамике наблюдаемых событий кризисной ситуации.Методы машинного обученияСуществует множество различных методов машинного обучения. Каждый из них специализируется на своем круге задач. Разновидности машинногообучения [25, 51]:1.Контролируемое – алгоритмы обучения работают на основе исход-ных эталонных данных.
Эталонные данные, по которым обучается алгоритм,обладают значениями, которые нам необходимы. Алгоритм пытается найти закономерность (или шаблон) изменения этих значений, для этого используютсясовершенно любые данные. После нахождения всех возможных шаблонов выбирается оптимальный по которому осуществляется дальнейшая работа системы. Это одна из самых популярных разновидностей машинного обучения, которая включает в себя следующие типы алгоритмов [52, 53]:1.1.Классификация – если по выходным параметрам можно категори-ровать данные.
Если категорий (классов) всего две, то это двухклассная (бино-20минальная) классификация, в остальных случаях классификация является много классовой;1.2.Обнаружение аномалий – используется для задач нахождения нети-повых входных данных в наборе. В связи с тем, что предугадать все возможныенаборы нетиповых данных невозможно, данные алгоритмы базируются на обучении системы определять все типы входных данных, т.е.
система пытаетсянайти такие данные, которые существенно отличаются от типовых;2.Неконтролируемое – отличается от контролируемого тем, что эта-лонным данным не присваивается значение. Задача этих алгоритмов определить структуру данных или произвести их упорядочивание. Другими словами,это анализ данных для их упрощения или объединение данных в группы (кластеры);3.Обучение с подкреплением – при таком типе обучения, алгоритмвыбирает свое действие на каждый набор эталонных данных, затем посылаетинформацию о том, насколько адекватно было выбрано решение алгоритмуобучения.
Исходя из полученных данных, меняется стратегия работы алгоритмас целью получения наилучшего результата. По имеющейся информации, такойтип алгоритмов широко используется в робототехнике.Алгоритмы контролируемого машинного обучения, характеризуются четырьмя основными параметрами:1.Точность – как правило, не во всех случаях необходимо минималь-ное значение ошибки. Подобные алгоритмы позволяют избежать чрезмерно высокой точности и недопустимо большого времени на обработку входных данных;2.Время обучения – время, за которое модель начнет выполнять по-ставленные задачи в пределах допустимой погрешности. В условиях ограниченного времени разработки, данный параметр может существенно повлиять навыбор алгоритма;3.Линейность – на этом параметре основано достаточно много алго-ритмов машинного обучения.
Линейная классификация осуществляет подход,21при котором данные могут быть разделены на классы прямой линией. Такойподход допустим для ряда специальных задач, а для всех остальных лишь отрицательно влияет на точность модели. Данные алгоритмы практичны для первичного тестирование модели, поскольку алгоритмически просты и ускоренноосваиваются;4.Количество параметров – параметры представляют собой «рычаги»,которыми оперирует эксперт при настройке алгоритма. Обычно включают в себя числа чувствительности к ошибкам, варианты поведения или количествоитераций обучения. Достаточно часто от их настройки и подбора, зависят точность и время обучения алгоритма. Чем больше параметров, тем большее количество итераций необходимо применять алгоритм, с целью найти наилучшийвариант их сочетания, что способствует высокой гибкости алгоритма и даетвозможность получить высокую точность.Для задач мультипараметрической классификации используют один изчетырёх алгоритмов [54, 55].1.Логическая регрессия – инструмент для классификации.
Вместопрямой линии в нем используется S-образная кривая, с помощью которой происходит деление данных на группы.2.Лес решений основан на деревьях решений [93], которые являютсяосновной концепцией алгоритмов машинного обучения. Существует нескольковариантов построения деревьев решений, с общим подходом: разделение пространства на плоскости с одинаковыми значениями. Из-за неопределённости вразмере искомых плоскостей, возможна ситуация, при которой данные окажутся в полученной плоскости.
Деревья решений строятся так, чтобы между нимиотсутствовала корреляция, и эту проблему решают установкой ограничений наминимальное количество необходимых данных, для образования отдельнойплоскости или уменьшают общее количество повторных делений. Создаетсяпоследовательность деревьев, в которой каждое следующее дерево обучаетсякомпенсировать ошибки предыдущих. Как правило, в своей работе алгоритмиспользует большой объем памяти электронно-вычислительной машины.223.Джунгли решений – алгоритм практически аналогичен лесу реше-ния, за исключением того, что он использует значительно меньший объем памяти, за счет увеличения времени обучения алгоритма.4.Нейронные сети – один из самых мощных алгоритмов машинногообучения [56, 57]. Алгоритм основан на принципе работы человеческого мозга.Основная масса нейронных сетей имеет форму направленного ацикличногографа.
Таким образом, исходные данные передаются только вперед, от текущего слоя к следующему, и преобразуются в выходные данные. На каждом слоевходные данные рассчитываются на разнообразных наборах весов, суммируются и посылаются на следующий слой, что позволяет достичь наиболее точныхграниц между всеми имеющимися исходными классами. Недостатком алгоритма можно считать, что достижение с помощью него высокой точности повышает время обучения, которое увеличивается пропорционально объему эталонныхданных и количеству функций.
Важно отметить, что в них используется намного большее количество настраиваемых параметров, подбор которых способствует увеличению времени обучения, но благодаря этому гибкость нейронныхсетей очень велика.Табл. 1.1. Сводная оценка алгоритмов контролируемого машинного обученияАлгоритмТочностьВремяобученияЛинейностьОбъемпамятиПараметры123456СредняяНизкоеДаНизкий5ВысокаяСреднееНетСредний6ВысокаяВысокоеНетНизкий6НаивысшаяВысокоеНетВысокий9ЛогическаярегрессияЛесрешенийДжунглирешенийНейроннаясетьЕсли время обучения не ограничено жесткими рамками, то рациональнымалгоритмом для ее решения является нейронная сеть. В табл. 1.1 представленасводная оценка алгоритмов контролируемого машинного обучения [50, 58].23Возможности существующей теории распознавания образовВ качестве основы данной теории выступает многомерный статистический анализ, представленный в форме теории распознавания образов. В рамкахданной теории стилистика текста интерпретируется как набор свойств (параметров),характеризующих состав,способы объединенияи статистико-вероятностные закономерности употребления речевых средств, образующихданную разновидность языка [59, 60].Процедура прогнозирования проходит в несколько этапов:1.
Определение информативного набора параметров. Этот этап атрибуциизаключается в выделении из имеющегося информационного параметрическогопространства необходимого и достаточного числа параметров для отнесенияобъекта к классу, благодаря чему удаляются "шумовые" параметры.2. Выбор решающего правила. Решается задача нахождения расстояниямежду многомерным вектором, соответствующим априорному классу M1, имногомерным вектором, соответствующим априорному классу M2.
Решающимправилом называется функция, выбранная для измерения этого расстояния ипринятия решения о сходстве или различии этих объектов. Применяемый алгоритм распознавания должен обеспечивать разделение пространства признаковна области, соответствующие классам, с минимумом ошибок распознавания.Алгоритм распознавания предусматривает двухступенчатую процедуру распознавания: детерминированную и вероятностную.3. Оценка качества прогноза. Полученные в результате математическихпроцедур классы прогнозов могут представлять собой артефакты. Необходимопроведение оценки качества прогноза, которая влечет за собой корректировкусоставов полученных классов представленных на рис. 1.3 [61, 62].24Рис.