Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика, страница 10
Описание файла
DJVU-файл из архива "Айвазян С.А., Бухшгабер В.М., Енюков И.С., Мешалкин Л.Д. - Прикладная статистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 10 - страница
п. Практическая реализация этих методов требует весьма сложных и трудоемких расчетов и стала возможной приблизительно лишь к середине нашего столетия, когда была создана необходимая вычислительная' база. 4. К числу основных методологических принципов, которые лежат в основе большинства конструкций многомерного статистического анализа, следует отнести: а) необходимость, учета эффекта существенной многомерности анализируемых данных (используемые в конструкциях характеристики должны учитывать структуру и характер статистических взаимосвязей исследуемых признаков); б) воэможность лаконичного объяснения природы анализируемых многомерных структур (допущение, в с<ютветствии с которым существует сравнительно небольшое число определяющих, подчас латентных, т. е.
непосредственно не наблюдаемых, факторов, с помощью которых могут быть достаточно точно описаны все наблюдаемые исходные данные, структура и характер связей между ними); в) максимальное использование аобучения» в настройке математических моделей классификации н снижения размерности (под «обучением» понимается та часть исходных данных, в которой представлены «статистические фотогРафии» соотношений «входов» и «выходов» анализируемой системы); г) возможность оптимизационной формулировки задач многомерного статистического анализа (в том числе задач классификации и снижения размерности), т.
е. нахождение наилучшей процедуры статистической обработки данных с помощью оптимизации некоторого экзогеино заданного критерия качества метода. 44 Первые два принципа относятся к природе обрабатываемых даииых, а следующие два — к логике построения соответствующих аппаратных средств. 5. Среди типов прикладных задач (коиечиых прикладных целей) классификации следует выделить: 1) комбинационные группировки и их непрерывные обобщения — разбиение совокупности иа интервалы (области) группироваиия; 2) простая типологизация: выявлеиие естественного расслоения анализируемых данных (объектов) иа четко выражеииые «сгустки» (кластеры), лежащие друг от друга иа некотором расстоянии, ио ие разбивающиеся иа столь же удаленные друг от друга части; 3) связная неупорядоченная типологизация: использование реализованной в пространстве результирук«цих показателей простой типологизации в качестве обучающих выборок при классификации той же совокупиости объектов в пространстве описательных признаков; 4) связная упорядоченная типологизация, которая отличается от связной неупорядоченной возможностью зкспертного упорядочения классов, полученных в пространстве результирующих показателей, и использованием этого упорядочения для построения сводного латентного результирующего показателя как функции от описательных перемеииых; 5) структурная типологизация дает иа «выходе» задачи дополиительио к описанию классов еще и описание существующих между ними и их элементами структурных (в том числе иерархических) связей; б) типологизация динамических траекторий системы: в качестве классифицируемых объектов выступают характеристики динамики исследуемых систем, например дискретные или непрерывные временные ряды или траектории систем, которые в каждый момент времени могут находиться в одном из заданных состояний.
6. Основные типы прикладных задач снижения размерности: 1) отбор наиболее информ тивной системы показателей (в задачах регрессии, классификации и т.п.); 2) сжатие больших массивов информации; 3) визуализация (иаглядиое представление многомерных данных); 4) построение условного координатного пространства, в терминах переменных которого в некотором смысле наилучшим образом описываются и интерпретируются анализируемые свойства объектов рассматриваемой совокупности. 7. При выборе подходящего математического инструментария для решения конкретной задачи классификации следует исходить из согласованного с «заказчиком» типа конечных прикладных целей исследования и характера априорной и выборочной информации (см. табл. В.4); при определении 45 математической модели, лежащей в основе выбора метода решения задачи снижения размерности, следует идти от типа прикладной задачи (см.
предыдущий пункт выводов) к характеристике состава и формы исходных данных, а затем — к смысловой нацеленности и конкретному виду подходящего критерия информативности (см. табл. В.5). 8. Вся процедура статистического исследования, нацелен« ного на решение задачи классификации или снижения размерности, может быть условно разбита на восемь этапов (см. рис.
В.1): 1) установочный (предметно-содержательное определение целей исследования); 2) постановочный (определение типа прикладной задачи в терминах теории классификации и снижения размерности); 3) информационный (составление плана сбора исходной информации и его реализация, если ее не было уже на этапе 1, затем предварительный анализ исходной информации, ее ввод в ЭВМ, сверка, редактирование); 4) априорный математика-поспшновочный (осуществляемый до каких бы то ни было расчетов выбор базовой математической модели механизма генерации исходных данных); 5) разведочный (специальные методы статистической обработки исходных данных, например целенаправленное проецирование, нацеленные иа выявление их вероятностной и геометрической природы); б) апостериорный математико-постановочный (уточнение выбора базовой математической модели с учетом результатов предыдущего этапа); 7) вычислительный (реализация на ЭВМ уточненного на предыдущем этапе плана математико-статистического анализа данных); 8) итоговый ( подведение итогов исследования, формулировка научных нли практических выводов).
Раздел Е ОТНЕСЕНИЕ К ОДНОМУ ИЗ НЕСКОЛЬКИХ КЛАССОВ, ЗАДАН НЫХ ПРЕДПОЛОЖЕНИЯМИ И ОБУЧАЮЩИМИ ВЫБОРКАМИ Глава 1. КЛАССИФИКАЦИЯ В СЛУЧАЕ, КОГДА РАСПРЕДЕЛЕНИЯ КЛАССОВ ОПРЕДЕЛЕНЫ ПОЛНОСТЬЮ Два класса, заданные функциями распределения Т(Х) = (. (х)н,) 1, (х) 1. (х(((>) П (х) где Ь вЂ” функция правдоподобия П1, с. 289). (1.1) 1.1.1.
Критерий отношения правдоподобия как правило классификации. В настоящей главе наблюдение Х' -=. = (х('>, ..., х(г>) всегда является упорядоченным набором из р признаков-координат. Событие, что наблюдение извлечено из )кго класса, а также соответствующая гипотеза обозначаются Нб распределение вектора Х, принадлежащего 1-му классу () =- 1, ..., л), обозначается Р((...) = Р (... ) Нт), плотности вероятностей (вероятности) — соответственно (;(...)= — ->(...)Н!).
Задача построения классификационных правил рассматривается при двух способах задания распределений Х в классах: аналитическом, когда непосредственно задаются Р, с помощью подходящей математической формулы, и выборочном, когда распределения в классах задаются с помощью указания соответствующих генеральных совокупностей. Сюда в принципе можно было бы отнести и случаи дискриминантного анализа с выборками настолько большого объема, что выборочными флуктуациями используемых статистик можно пренебречь (з 1.3).
Задача отнесения наблюдения Х в один из двух ранее известных классов / =:-. 1, 2 тесно связана с классической статистической задачей проверки простой гипотезы против простой альтернативы (11, З 9.3). Например, гипотезы Н,: Х с Р, против гипотезы Н;. Х Е Рм Известно (лемма Неймана — Пирсона), что в достаточно широком классе ситуаций [88) среди всех возможных критериев с ои>ибкой первого рода а наиболее мощным, т. е.
имеющим наимень'шую о>либо ап>орогорода р, является критерий отношения правдоподобия, основанный на статистике При этом при Т (Х) ( с„принимается гипотеза Н„а при т (Х) ) с„принимается гипотеза Н,. Таким образом, Я вЂ” пространство возможных значений Х вЂ” с помощью у (Х) разбивается иа две непересекающиеся области: К, -.= (Х:у(Х) ( с,, Х И) — область принятия Н, и Ке = (Х: г (Х) ) с, Х И) — область принятия Н.„ или, как принято говорить в статистической теории про- верки гипотез, критическую область для гипотезы Н,. Пусть и; = Р (Нз) означает априорные вероятности ги- потез.
Правило классификации ,1,(х) ~ )Н, (1.2) я~К(Х) (Н называется байесовским. Очевидно, оно является частным случаем критерия отношения правдоподобия. Рассмотрим произвольный критерий проверки гипотезы Н, с критической областью (областью принятия гипотезы Н,) — К. Тогда по формуле полной вероятности 111, формула (4.14)1 вероятность принять ошибочное решение Р (ошибка) — п,Р (ошибка (Н,) + п,Р (ошибка 1Н,)= =п,(~,(Х)ЙХ + п~ ) ~~(Х)ЙХ =. и, ) 1,(Х)с(Х+ К К + и, (1 — ) )„(Х) йХ) = пт+ ) (п1(1 — и,),) йХ. (1.3) К к Интеграл в правой части (1.3) принимает наименьшее значение в случае, когда область К состоит из всех точек, где подынтегральная функция отрицательна, т.
е, п1)1(Х) ( ( п,~, (Х), ио это и есть определение байесовского классификатора. Таким образом, байесовский классшрикатор минимизирует вероятность принятия ошибочного решения. Как будет видно из последующего материала, большинство используемых на практике алгоритмов классификации строится исходя из формулы(1.!). При этом либо оцениваются неизвестные параметры 6 предполагаемых теоретических распределений и вместо 6 в плотности подставляются оценки Й и далее вычисляется оценка у (Х) как -(х) (,(х. е,) (1.4) Н(Х, е,) Это так называемые парпметрические методы построения алгоритмов классификации. Либо для данной точки Х сразу, минуя оценку параметров Й, строится оценка отно1пения (, (Х)l~, (Х).
Зто так называемые нелараметрические методы. и в 7.(Х(Н~) = П Р(хм>1Н,) == П 6(хвп), (1.5) н области принятия гипотез К~ (1 =- 1, 2) имеют вид й (Х) = ~ч~~~ а„(хчы) ~ с, (1.6) где с — некоторая постоянная и а„(хоо) = 1и (), (х<~~)ф (х< ">)). (1.7) Естественно трактовать а„(хж>) как балл в пользу Н, против Н„приписанный соответствующему значению Й-й координаты. Алгоритмы вида (1.5) из-за их простоты и наглядности часто используют в практической работе, хотя служащая их основанием модель весьма искусственна.