Боровиков В.П. - Нейронные сети, страница 6
Описание файла
DJVU-файл из архива "Боровиков В.П. - Нейронные сети", который расположен в категории "". Всё это находится в предмете "нейросетевое моделирование сложных технических систем" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "нейросетевое моделирование сложных технических систем" в общих файлах.
Просмотр DJVU-файла онлайн
Распознанный текст из DJVU-файла, 6 - страница
Формально для коэффициента детерминации имеем: У2 2 ~=! гн — ° Это определение легко обобщается на любое число переменных. Частные корреляции с точки зрения линейной регрессии. Продолжим наши рассуждения и покажем, как вычислить частные корреляции, исходя из уравнения регрессии. Пусть нужно, например, вычислить частную корреляцию между У и Х,. Идея проста — очсвндно, на эту связь влияет переменная Х,. Следовательно, это влияние нужно устранить: для этого вначале находим линейную регрессию У на Х„затем находим регрессию Х, на Х,.
У =~3м +~3„Хн, 1=1,..., и; Хн = Рн| +РаХь ~ Теперь рассмотрим остатки (У,. — У,.)(Хн — Хн ), ~' = 1,..., л. В соответствии с общей идеей частная корреляция между У и Х, есть обычная парная корреляция между переменными (У вЂ” У)(Х, — Х, ). Эти рассуждения лсгко распространяются на любое число переменных. Нелинейные зависимости между переменными. Корреляция Пирсона г хорошо подходит для описания линейной зависимости. Отклонения от линейности увеличивают общую сумму квадратов расстояний от регрессионной прямой, даже если она представляет «истинные» и очень тесные зависимости между переменными.
Поэтому хорошим тоном после вычисления корреляций является построение диаграмм рассеяния, которые позволяют понять, действительно ли между двумя исследуемыми переменными имеется связь. Например, показанная ниже высокая корреляция плохо описывается линейной функцией Рве. 1.б (рис.
1.6). З1 Нейронные сета ЗТАТщТЮА йеога! Меыогкв Однако, как видно на графике рис. 1.7, полипом пятого порядка достаточно хорошо описывает зависимость. Для описания сложных нелинейных зависимостей используют нейронные сети. Нейронные сети БТАГ!БТ1СА являются уникальной технологией исследования нелинейных зависимостей в бизнесе, промьппленности, маркетинге. Рвс.
1.7 Значимосгпь козффициенпза коррепяции Допустим, вы оценили коэффициент корреляции между двумя переменными. Чем больше по абсолютной величине значение коэффициента, тем болыпе вероятность, что между переменными имеется связь, т.е. с тем меньшей вероятностью ошибки можно отвергнуть гипотезу об отсутствии связи между переменными. Иными словами, чем больше абсолютное значение коэффициента корреляции, тем более обоснованно опровергается гипотеза, что между переменными нет связи. Спрашивается: «Какие именно значения значимы?» Ответ зависит как от величины коэффициента корреляции, так и от объема выборки, по которой он вычислен.
Например, анализируя данные о годовых урожаях в Восточной Англии за 20 лет, Фишер вычислил коэффициент корреляции между годовым урожаем пшеницы и осенним уровнем дождей. Этот коэффициент, как и ожидалось, оказался отрицательным (чем вьвпе уровень осенних осадков, тем меньше урожай, т.е. переменные отрицательно коррелированны) и равным 0,629, что значимо на уровне 0,01. Если бы выборочный коэффициент корреляции оказался равен 0,45, то результат был бы значим на уровне 0,1, но не значим на уровне 0,01, и т.д.
Как опредепить, явпяются пи два коэффициенгпа коррепяции значимо разпичными Имеется критерий, позволяющий оценить значимость различия между двумя коэффициентами корреляциями. Результат применения критерия зависит не только от величины разности этих коэффициентов, но и от обьема выборок и величины самих этих коэффициентов. Вообще говоря, в соответствии с общим принципом надежность коэффициента корреляции увеличивается с 32 Гпввв 1. Основныв понятия внвпоза данных увеличением его абсолютного значения; относительно малые различия между большими коэффициентами могут быть значимыми.
Например, разница 0,10 между двумя корреляциями может не быть значимой, если коэффициенты равны 0,15 и 0,25, хотя для той же выборки разность 0,10 может оказаться значимой для коэффициентов 0,80 и 0,90. Рас. 1.8 Рвс. 1.9 В системе БТАПБТ1СА имеется специальное средство — статистический калькулятор — в диалоговом окнеДругие критерии значимости, доступном из стартовой панели модуля Основные статистики и таблицы, Калькулятор позволяет быстро сравнить коэффициенты корреляции, вычисленные по разным выборкам (рис.
1.8 и 1.9). Нормальное распределение Нормальное распределение (термин был впервые введен Гальтоном в 1889 г.), иногда называемое гауссовским, важно по многим причинам. Распределение большого числа статистик является нормальным или может быть получено из нормального с помощью некоторых преобразований (рис. 1.10). 33 Нейронные сева ШТАТ!ЗТ!СА вета! Ме!ноте Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно обшей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная «колоколообразная кривая») определяется только двумя параметрами: средним и стандартным от- Рнс.
1.10 клоиением. Характерное свойство нормального распределения состоит в том, что 68% из всех его наблюдений лежит в диапазоне 1 (стандартное отклонение от среднего), а диапазон 2 стандартных отклонений включает 95% значений. Другими словами, при нормальном распределении стандартизованные наблюдения, меньше — 2 или больше +2, имеют относительную частоту менее 5% (стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение). Зто и есть знамени вило 2-сигма илн 2-стандартных отклонения, вместе с правилом 3-сигм вычайно популярное на практике.
Плотность нормального распределения имеет вид: У о,в 02 0,6 0,5 0,4 о,з О,2 о,! о о,! -4 -2 0 2 Рве. 1.11. Графвкн плотностей !юрмальных раснределелвй с развымв станлартнымв откловеввнмн тое праа чрез- 1 («-«) Лх,14,о)= е " оч'2л 34 Параметры нормального распределения среднее !4 и стандартное отклонение о > О. На рис. 1.11 показан график плотности нормального распределения со средним О и различными о. Посмотрим на график и увидим, что при увеличении стандартного отклонения распределение расплывается. Гнева 1. Основные поняаоя внвпизв данных двумерное нормапьное распреяепение Будем исходить из одномерных нормальных величин.
Переменная Х = (Х„Х, ) имеет двумерное нормальное распределение, если любая линейная комбинация х, = а, Х, + а, Х, имеет нормальное распределение. Двумерное нормальное распределение имеет плотность вида: 1 1 1 (хы хг, р~ ~ ~А2, а~, а2, ао ) = ехр — х 2яа,а,~1-о'„1 2(1 ан) 2 „(х, -р,Кх, -р,) (х,-р,)'М.
а,а, а2 ( х, — р,)' а' ! х = (х„х,)", а„= сом(Х„Х,)l (а,а,), а„а, > О, )ац )< 1, гдеа „вЂ” парная корреляция между Х, и Х,; 1г„о, — среднее и стандартное отклонение переменной Х,; р„а, — среднее и стандартное отклонение переменной Х,. На рис. 1.12 — 1.17 показаны графики плотности двумерного нормального распределения с различными параметрами и их сечения плоскостью параллельной плоскости ХОК г 0,14 О,1О о,о о,о Рас. 1.13. Сечение графика плотности двумерного нормального распределепил плосиосп н1 г = 0,05 р, =р, =О,ап =а„=1,а„=оп =О Рпс. 1.12. График двумерного нормального распределеиил Итак, вы видите, что в сечении плотности нормального распределения получается окружность при нулевой корреляции или эллипс, ориентация которого зависит от знака величины а „. Это отчетливо просматривается на рис.
1.18, Двумерное нормальное распределение легко обобщить на многомерное нормальное распределение. Зб г 16 г 0,16 0,14 0,10 О,О О,О я Рыс. 1.18. Сечеыве графиков двумерного нормального распределении плоскостью г = 0,0$ !!еороннью сева ЗТАТ!ЗТ!СА йонга! Г4е1ноЯъ Рве. 1.14. График двумерного нормального распределеша Р, =Р, =О,сгн =о„=1,0„=0„=0,5 Рис.
1.16. График двумерного нормального распределепик р, =р, =О,ан =а„=1,0„=0„=-0,5 Рис. 1.15. Сечение графика плотности двумерыого ыормального распределении плоскостью В = 0,05 р, =р, =О,пн =с!и =1,п„=он =05 Рвс. 1.17. Сечеыие графиков двумерного ыормальыого распределении плоскостью В =0,05 Глава 1.
Основные понятая анализа данных С гауссовским (нормальным) распределением связаны субгауссовские и супергауссовские распределения. Индикатором является знак эксцесса: если эксцесс отрицателен, случайная величина называется субгауссовской; если эксцесс полояппелен — суиергауссовской. Для гауссовской величины эксцесс равен О.
Как провер81гпь нормальносгпь наблюдаемых величин Прн проверке нормальности выборки руководствуются следующим принципом Фишера: «Отклонения от нормального вида, если только они не слишком заметны, можно обнаружить лишь для больших выборок, однако сами по себе эти отклонения вносят малое отличие в статистические критерии и другие вопросы'». На практике для проверки нормальности обычно применяют визуальные методы, например, гистограммы, нормальные вероятностные графики или численные методы с помощью оценки коэффициентов асимметрии и эксцесса; используется также критерий хи-квадрат. Проверка нормапьносп1ц с помощь оценок коэффоцценгпов асцммегпрцц ц эксцесса Рассмотрим классические данные Р. Фишера о количестве осадков в одном из районов Англииь.
Приведем последовательность действий, которую лучше всего повторить, используя систему БТАГ!БТ1СА. Шаг 1. Создайте файл ЯТАТ1о Т1С4 и введите в него данные, представленные в таблице 1рис. 1.19). В первом столбце приведено количество осадков в дюймах. Во втором столбце записана частота, с которой данное значение встречалось в измерениях. Например, уровень 16 дюймов наблюдался 1 раз, уровень 17 дюймов — О раз, уровень 18 дюймов — О раз и т.д. Шаг 2. Запустите модульОсновные статистики и таблицы(рис. 1.20). Шаг 3. В стартовой панели модуля выберите Описательные статистики и нажмите ОК. Шаг 4. В появившемся окне Описательные статистики нажмите кнопку Переменные и выберите переменную УРОВЕНЬ (рис.
1.21). ' См. ггСпрааочник по прикладноп статистика» / Под род. Э. Ллойда и У. Линдсрмана. — Мк Финансы и статистика, 1989. — С. 270. ' См. Р1ьдсг К.А. 81а11ьдса1 юсгаооь 1ог гсьсагсЬ гтогксгь, 15 сдгноп, Масюаап, 1970. 37 Рис. 1.20 Рве. 1.21 Рис. 1.19 в в ( 1 1йввиг (' д В в в в вввв ю.