_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005) (_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf)
Описание файла
PDF-файл из архива "_учебник_ Журавлев Ю.И. Распознавание. Математические методы. Программная система. Практические применения (2005).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Ю.И.Журавлев, В.В.Рязанов, О.В.СенькоРАСПОЗНАВАНИЕМатематические методы. Программная система.Практические применения.ИЗДАТЕЛЬСТВО ФАЗИСМОСКВА 20052ВведениеВразличныхобластяхчеловеческойдеятельности(экономике,финансах,медицине, бизнесе, геологии, химии, и др.) повседневно возникает необходимостьрешения задач анализа, прогноза и диагностики, выявления скрытых зависимостей иподдержки принятия оптимальных решений. Вследствие бурного роста объемаинформации, развития технологий ее сбора, хранения и организации в базах ихранилищах данных (в том числе интернет-технологий), точные методы анализаинформации и моделирования исследуемых объектов зачастую отстают от потребностейреальной жизни.
Здесь требуются универсальные и надежные подходы, пригодные дляобработки информации из различных областей, в том числе для решения проблем,которые могут возникнуть в ближайшем будущем. В качестве подобного базиса могутбыть использованы технологии и подходы математической теории распознавания иклассификации /19, 25, 26/.Действительно, данные подходы в качестве исходной информации используютлишь наборы описаний-наблюдений объектов, предметов, ситуаций или процессов(выборки прецедентов), при этом каждое отдельное наблюдение-прецедент записываетсяв виде вектора значений отдельных его свойств-признаков.
Выборки признаковыхописаний являются простейшими стандартизованными представлениями первичныхисходных данных, которые возникают в различных предметных областях в процессесбора однотипной информации, и которые могут быть использованы для решенияследующих задач:-распознавание (классификация, диагностика) ситуаций, явлений, объектов илипроцессов с обоснованием решений;-прогнозирование ситуаций, явлений, процессов или состояний по выборкамдинамических данных;-кластерный анализ и исследование структуры данных;-выявление существенных признаков и нахождение простейших описаний;-нахождение эмпирических закономерностей различного вида;-построение аналитических описаний множеств (классов) объектов;-нахождение нестандартных или критических случаев;-формирование эталонных описаний образов.Первые работы в области теории распознавания и классификации по прецедентампоявились в 30-х годах прошлого столетия и были связаны с байесовской теориейпринятия решений (работы Неймана, Пирсона /74/), применением разделяющих функций3к задаче классификации (Фишер /63/), решением вопросов проверки гипотез (Вальд /85/).В 50-х годах появились первые нейросетевые модели распознавания (перцептронРозенблата /48/), связанные с успехами в моделировании головного мозга.
К концу 60-хгодов уже были разработаны и детально исследованы различные подходы для решениязадач распознавания в рамках статистических, перцептронных моделей, и моделей сразделяющими функциями. Итоги данных и последующих исследований былипредставлены в ряде монографий /1, 2, 8, 11, 25, 30, 31, 33, 41, 45, 48, 55, 57, 58, 64, 73, 75/.Большой вклад в развитие теории распознавания и классификации внесли советские и, впоследующем, российские ученые: Айзерман, Браверман, Розоноэр (метод потенциальныхфункций /2/), Вапник, Червоненкис (статистическая теория распознавания, метод«обобщенный портрет» /11/), Мазуров (метод комитетов /42, 43, 45/), Ивахненко (методгруппового учета аргументов /33/), Загоруйко (алгоритмы таксономии и анализа знаний/30, 31/), Лбов (логические методы распознавания и поиска зависимостей /41/).Интенсивные исследования проводились с конца 60-х годов в ВЦ АН СССР (в настоящеевремя ВЦ им А.А.Дородницына РАН).
Еще в начале 60-х академиком РАН Журавлевымбыл предложен тестовый алгоритм распознавания – логический метод эффективногорешения задач распознавания при малом числе обучающих прецедентов /15/. Вдальнейшем на базе этого алгоритма Журавлевым был построен новый классраспознающих процедур – алгоритмы вычисления оценок /27/, а затем введена иисследована алгебраическая теория распознавания /26, 28/.
В этом направлениифундаментальные результаты получили также чл.корр. РАН Рудаков (общая теорияпроблемно-ориентированного алгебраического синтеза корректных алгоритмов /49/,чл.корр. РАН Матросов (статистическое обоснование алгебраического подхода /44/),Рязанов (оптимизация моделей классификации /50/, коллективные решения задачкластерногоанализа/51,52/),Дюкова(асимптотически-оптимальныелогическиеалгоритмы /21,22/), Сенько (алгоритмы взвешенного статистического распознавания /56/),Асланян (логические алгоритмы распознавания) /60/, Донской (решающие деревья /16,17/) и многие другие исследователи России, СНГ и дальнего зарубежья.Разработки программных систем анализа данных и прогноза по прецедентам такжеактивно ведутся в России и ведущих зарубежных странах. Прежде всего, этостатистическиепакетыобработкиданныхивизуализации(SPSS,STADIA,STATGRAPHICS, STATISTICA, SYSTAT, Олимп:СтатЭксперт Prof., Forecast Expert, идругие), в основе которых лежат методы различных разделов математической статистики– проверка статистических гипотез, регрессионный анализ, дисперсионный анализ, анализвременных рядов, и др.
Использование статистических программных продуктов стало4стандартным и эффективным инструментом анализа данных, и, прежде всего, начальногоэтапа исследований, когда находятся значения различных усредненных показателей,проверяется статистическая достоверность различных гипотез, находятся регрессионныезависимости. Вместе с тем статистические подходы имеют и существенные недостатки.Они позволяют оценить (при выполнении некоторых условий)статистическуюдостоверность значения прогнозируемого параметра, гипотезы или зависимости, однакосами методы вычисления прогнозируемых величин, выдвижения гипотез или нахождениязависимостей имеют очевидные ограничения.
Прежде всего находятся усредненные повыборкевеличины,анализируемыхиличтоможетбытьпрогнозируемыхдостаточнопараметрах.грубымЛюбаяпредставлениемстатистическаяобмодельиспользует понятия «случайных событий», «функций распределения случайных величин»и т.п., в то время как взаимосвязи между различными параметрами исследуемых объектов,ситуаций или явлений являются детерминированными.
Само применение статистическихметодов подразумевает наличие определенного числа наблюдений для обоснованностиконечного результата, в то время как данное число может быть существенно большеимеющегося или возможного. Т.е. в ситуациях анализа в принципе непредставительныхданных, или на этапах начала накопления данных, статистические подходы становятсянеэффективными как средство анализа и прогноза.В последние годы появились узкоспециализированные пакеты интеллектуальногоанализа данных. Для данных пакетов часто характерна ориентация на узкий кругпрактических задач, а их алгоритмической основой является какая-либо одна изальтернативныхмоделей,использующаянейроннуюсеть,решающиедеревья,ограниченный перебор, и т.п.
/20/. Ясно, что подобные разработки существенноограничены при практическом использовании. Во-первых, заложенные в них подходы неявляется универсальными относительно размерностей задач, типа, сложности иструктурированностиданных, величины шума, противоречивости данных, и т.п. Во-вторых, созданные и «настроенные» на решение определенных задач, они могут оказатьсясовершенно бесполезными для других. Наконец, множество задач, представляющихинтерес практическому пользователю, обычно шире возможностей отдельного подхода.Например, пользователю может быть важно иметь численную характеристику надежностинекоторого прогноза, но «решающее дерево» ее не вычисляет.
«Нейронная сеть»выступает в роли «черного ящика», предлагающего некоторый прогноз без егообоснования. Логические методы распознавания позволяют выявлять логическиезакономерности в данных и использовать их при прогнозировании, но при наличии5линейных зависимостей между признаками и прогнозируемой величиной точностьпрогноза, сделанного «линейной машиной», может быть заметно выше.Таким образом, на настоящем уровне развития методов решения задач анализаданных и распознавания, представляется предпочтительным путь создания программныхсредств, включающих основные существующие разнообразные подходы.
В данном случаеповышаются шансы подбора из имеющихся алгоритмов такого алгоритма, которыйобеспечит наиболее точное решение интересующих пользователя задач на новых данных.Другим важным атрибутом систем анализа и классификации должно быть наличиесредств автоматического решения задач распознавания и классификации коллективамиалгоритмов. Действительно, стандартной ситуацией является наличие несколькихальтернативных алгоритмов или решений, равнозначных для пользователя. Для выбора изних одного наиболее предпочтительного не хватает информации.
Тогда естественнойальтернативой выбору является создание на базе имеющихся алгоритмов или решенийновых, более предпочтительных.Теоретические основы практической реализации идеи решения задач анализаданных коллективами алгоритмов были разработаны в ВЦ РАН в рамках алгебраическогоподхода для решения задач распознавания (логическая и алгебраическая коррекцияалгоритмов) в 1976-1980 /25, 26, 28/ и комитетного синтеза классификаций для задачкластерного анализа (автоматической классификации) в 1981-1982 годах /51,52/.