Боровиков В.П. - Нейронные сети (778916), страница 5
Текст из файла (страница 5)
Термины зависимая и независимая переменная применяются в экспериментальном исследовании, где экспериментатор машшулирует некоторыми переменными. В этом смысле они «независимы» от реакций, свойств, намерений и т.д., присущих объектам исследования. Предполагается, что некоторые другие переменные должны «зависеть» от действий экспериментатора или от экспериментальных условий. Иными словами, зависимость проявляется в ответной реакции исследуемого объекта, ее можно назвать откликом объекта на воздействие, поэтому термин отклик (геяроте) также иногда используется как синоним зависимой переменной.
Отчасти в противоречии с данным разграничением понятий находится использование их в исследованиях, где вы не варьируете независимые переменные, а только приписываете объекты к «экспериментальным группам», основываясь на некоторых их априорных свойствах. Например, если в эксперименте мужчины сравниваются с женщинами относительно числа лейкоцитов (И'СС), то Пол можно назвать независимой переменной, а И'СС вЂ” зависимой переменной; вложения в рекламу является независимой (варьируемой) переменной, а число клиентов — зависимой и т.д. Независимые переменные часто называют кредиторами, потому что по ним можно предсказать значения зависимых переменных.
26 Гявва 1. Основные понятия внвяввв данных Коррепяции Ключевым понятием, описывающим зависимость между переменными, является корреляция (от английского согте1апоп — взаимосвязь, взаимозависимость; термин впервые введен Гальтоном (ба11оп) в 1888 г.). Корреляция между парой переменных называется парной корреляцией. Если имеется пара переменных, тогда корреляция между ними — это мера связи (зависимости) между этими переменными.
Например, известно, что ежегодные расходы на рекламу в США очень тесно коррелнруют с валовым внутренним продуктом; коэффициент корреляции между этими величинами (с 1956 по 1977 г.) равен 0,9699. Число посещений сайта торговой компании тесно связано с объемами продаж и т.д. Также тесно коррелированно число хостов и число хитов на сайте (см. графики на рис. 1.5).
Рве. 1.5 Тесно связаны между собой такие, например, переменные, как температура воздуха и объем продажи пива, среднемесячная температура в данном месте текущего и предыдущего года, расходы на рекламу за предыдущий месяц и объем торговли в текущем месяце и т.д. В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции. Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале, наиболее подходящим коэффициенгом будет коэффициент корреляции Пирсона г (Реагзоп, 1896), называемый также линейной нейронные сева ЗТАТ!ЗТ!СА йеага! йжиогнз корреляцией, так как он отражает степень линейных связей между переменными.
Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона. Коэффициент парной корреляции изменяется в пределах от — 1 до +1. Крайние значения имеют особенный смысл. Значение — 1 означает полную отрицательную зависимость, значение +1 означает полную положительную зависимость. Иными словами, между наблюдаемыми переменными имеется игочиая линейная зависимость с отрицательным или положительным коэффициентом. Значение 0 интерпретируется как отсутствие корреляции или связей. Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.
Это можно проследить, анализируя графики на рис. 1.5. На графике в левом верхнем углу значение парного коэффицисгпн корреляции равно 0,0, на графике в правом верхнем углу коэффициент корреляции постепенно увеличивается и становится равным 0,3. На нижних графиках коэффициент корреляции увеличивается и становится равным О,б и 0,9. Обратите внимание на то, как меняется наклон прямой линии и как группируются точки вокруг этой прямой. Чем ближе коэффициент корреляции к крайнему значению 1, тем теснее группируются данные вокруг прямой.
Та же картина наблюдалась бы и при отрицательных значениях корреляции, только наклон прямой, вокруг которой группируются значения псрсменных, был бы отрицательным. При значении коэффициента корреляции, равном +1, точки точно легли бы на прямую линию, а это означает, что между данными имеется точная линейная зависимость. Внимательно посмотрите на эти графики. Корреляция — важное понятие, постарайтссь привыкнуть к нему и научиться визу шы ~ пределять по расположению данных, насколько тесно они коррелирова пнь Говорят, что две переменные гголозгсительгго к грре гированны, если при увеличтгии значений одной переменной увеличиваготся значения другой переменной. Две переменные отрицательно коррелированны, если при увеличении одной переменной другая переменнаяулгеньгааепгся (см.
рис. 1.5). Говорят, что корреляция высокая, если на графике зависимость между переменными можно с большой точностью представить прямой линией (с положительным или отрицательным наклоном). Если коэффициент корреляции равен О, то отсутствует отчетливая тенденция в совместном поведении двух переменных, точки располагаются хаотически вокруг прямой линии (см. график в левом верхнем углу рис. 1.
5). Важно, что коэффициент корреляции — безразмерная величина и нс зависит от масштаба измерения. Например, корреляция между ростом и весом бу- 28 Гвава 1. Основные понятая анассза данных дет одной и той же независимо от того, проводились ли измерения в дюймах и футах нли в сантиметрах и килограммах.
Проведенная прямая на графиках, вокруг которой группируются значения псременных, назьвается прямой регрессии, или прямой, построенной методом наименьших квадратов. Последний термин связан с тем, что сумма квадратов расстояний (вычисленная по оси «) от наблюдаемых точек до прямой действительно является минимальной из всех возможных. Формально коэффициент корреляции Пирсона г„между переменными «и «; вычисляется следующим образом: 3 ,~~,(«п «~ )(«и «з) гп =г(«ы у,)= где «; — срсднсс переменной «'„«; — среднее переменной «;.
Если переменные измерены в интервальной шкале, то используются ранговые корреляции, которые будут рассмотрены ниже. Для анализа зависимостей катсгориальных переменных обычно используют таблицы сопряженности и соответствующие статистики, например, хи-квадрат, квадрат, точный критерий Фишера, статистика фи-квадрат (альтернатива корреляции) и др. Парныс корреляции допускают следующие естественные обобщения; ° множественная корреляция: измерение зависимости между одной переменной и песколысими переменными; ° частные корреляции: измерение зависимости между нарой перемен- ных с устранением влияния других переменных; ° каноническая корреляция: измерение зависимости между двумя мно- жесп1вами переменных. Часгпыс корреляции.
При исследовании «взаимозависимостей» нескольких переменных возникает слсдуюшая трудность. Если одна величина коррелированна с другой, то это может быть вссго лишь отражением того факта, что обе эти всличины коррелированны с некоторой третьей величиной или с совокупностью величия, которые остаются в стороне и не введены в исследование. Указанная ситуация приводит к рассмотрению условных корреляций между двумя величинами при фиксированных значениях остальных величин. Так возникают частные корреляции. Рассмотрим в качестве примера тройку переменных «"„«;, «;.
Если мы вь|числим парную корреляцию «',, «м устранив влияние «м то получим частную корреляцию между «;, «;. 29 Нейронные сепзс. ВТАТгВТ!СА перга! Негззогггз Формально коэффициент частной корреляции г„, между переменными 1'„1; в предположении, что переменная Уз фиксирована, имеет вид: ГП ГГЗ ~23 Аналогично вычисляется коэффициент частной корреляции г„, между переменными у„уз в предположении, что переменная у? фиксирована: згз ГИ 223 ГО 2 Коэффициент частной корреляции г„, между переменными У;, 1; в предположении, что переменная 1", фиксирована, имеет вид: ?23 Зг? Ггз 3?3 ! ~Д 2 /1 2 Эти формулы вполне симметричные, точкой отделяются переменные, значения которых фиксированы. Множественная корреляция.
Лучше всего понять множественную корреляцию, а также частные корреляции, можно с точки зрения линейной регрессии, где они возникают из существа задачи и обобщаются на любое число переменных. Рассмотрим вначале три псрсмснныс: псрсмснную Уи псрсмснныс Х„ Х,. Переменную У будем называть зависимой, переменные Х„Х, — независимыми. Предположим, что между Уи Х„Х, имеетсялинвйная зависимость вида: У, = ~3„+ ~3, Хн + (3, Хи +а,, г = 1,..., л, (1.5) где а,, — независимые случайные ошибки с нулевым средним; !3! ~32 Рз — неизвестные параметры. Хорошо известно, что в широких предположениях оптимальными оценками неизвестных параметров в уравнении (1.
5) являются оценки метода наименьших квадратов (МНК-оценки). Обозначим МНК-оценки через ~3,Д ~32. Эти оценки замечательны тем, что сумма квадратов расстояний между наблюдениями У! и плоскостью, задаваемой уравнением (1.5), минимальна. Подставив в это уравнение МНК-оценки, получаем значения Уг, ? = 1,..., и. Теперь коэффициент множественной корреляции между Уи Х„Х, можно определить как обычный коэффициент парной корреляции между У и У. Заметим, что квадрат коэффициента множественной корреляции называется коэффициентом множественной детерминации и показьзваст, какая до- 30 Гяввв Ъ Основные яоняпмя внвяизв данных ля вариации (изменчивости, вариабельности) переменной У объясняется линейной зависимостью У от Х„Х,.















