Боровиков В.П. - Нейронные сети (778916), страница 3
Текст из файла (страница 3)
Стандартное отклонение равно корню квадратному из выборочной дисперсии. Формально имеем: Медиана выборки (термин впервые введен Гальтоном в 1882 г.) — значение, которое разбивает выборку на две равные части. Одна половина наблюдений лежит ниже медианы, а другая — выше. Прежде чем ввести определение медианы, следует обозначить понятие вариационного ряда и порядковых статистик. Упорядочим исходные наблюдения по возрастанию Х„> < Хп> <... < Х,„>. Полученная последовательность Хг„называется вариационным рядом, а ее элементы ггорядковыми статистиками. Расстояния между членами вариационного ряда называются слейсинггь>ги. По существу, медиана оценивается средним членом вариационного ряда. Если число наблюдений нечстно, то этот средний член легко указать непосредственно, сели число наблюдений четно, то имеются два члена, находящиеся в середине, и в качестве оценки медианы следует взять полусумму этих значений.
Итак, если число наблюдений нечет>го и = 2>и+1, то медиана оценивается как Х,„„: тег1 = Хы». Если число наблюдений чет>го л = 2лг, то в качестве оценки медианы берется величина (Х,„,> + Хг„„о ) ~ 2. В ряде случаев медиана является разумной альтернативой среднему значению выборки и обладает следующим замечательным свойством: сумма абсолютных расстояний между точками выборки и медианой минимальна. Медиана естественно обобщается на квантиль уровня р, 0 < р < 1. Кваптиль выборки (от термина «квант», впервые был использован Кендаллом в 1940 г.) представляет собой число х„, нижс которого находится р-я часть (доли) выборки. Квантиль уровня 0,5 является медианой, квантиль 0,25 — это такое значение (х, ), ниже которого находится 25% значений переменной.
>~ Э Гпава 1. Основные по»»вин анап«за данных Аналогично квантиль 0,75 — это такое значение, ниже которого попадают 75а/а значений выборки. Формально р-квантнль непрерывного распределения Р' определяется как корень уравнения Г(х) = р, 0< р< 1. Квартили. Нижняя и верхняя квартили (от слова «кварт໠— четверть, термин впервые использовал Гальтон в 1882 г.) равны соответственно 25-й и 75-й процентилям распределения.
25-я процентиль переменной — это значение, ниже которого располагаются 25% значений переменной. Аналогично, 75-я процентиль равна значению, ниже которого расположено 75оА значений переменной. Итак, три точки — ни»мял квартиль, медиана и верхняя квартиль — делят выборку на четыре равные части. Четверть наблюдений лежит между минимальным значением и нижней квартилью, четверть — между нижней квартилью и медианой, четверть — между медианой и верхней квартилью, еще одна четверть — между верхней квартилью и максимальным значением выборки. Квартпльпый размах.
Квартильный размах переменных (термин был впервые использован Галтоном в 1882 г.) равен разности значений 75-й и 25-й процентили. Таким образом, это интервал, содержащий медиану, в который попадает 50Уо наблюдений. Мода (термин был впервые введен Пирсоном в 1894 г.) — это наиболее часто встречающееся (наиболее модное) значение переменной. Мода хорошо описывает, например, типичную реакцию водителей на сигнал светофора о прекращении движения.
Классический пример использования моды — выбор размера выпускаемой партии обуви или цвета обоев. Если распределение имеет несколько мод, то говорят, что оно мультимодапьно или многомодально (имеет два нли более «пика»). Мультимодальность дает важную информацию о природе исследуемой переменной. Например, в социологических опросах, если переменная представляет собой предпочтение или отношение к чему-то, то мультимодапьность может означать, что существуют несколько определенно различных мнений. Мультимодальность также служит индикатором того, что выборка нс является однородной, и наблюдения, возможно, порождены двумя или более «наложенными» распределениями.
Асимметрия. Асимметрия или коэффициент асимметрии (термин введен Пирсоном в 1895 г.) является мерой несимметричности распределения. Если коэффициент асимметрии существенно отличается от О, то распределение является асимметричным (несимметричным). Формально имеем: 17 Неаронные сепэо. ЗТАТэь.'ПСА Меоге! Меэаогне Эксцесс.
Эксцесс или коэффициент эксцесса (термин впервые введен Пирсоном в 1905 г.) измеряет остроту пика распределения. Откуда имеем: Асимметрия и эксцесс полезны для проверки нормальности распределения. Нормальное распределение симметрично, следовательно, коэффициент асимметрии равен О. Эксцесс нормального распределения такэке равен О, поэтому по отклонениям выборочного эксцесса и асимметрии от 0 можно судить о близости распределения наблюдаемой переменной к нормальному.
Известно, что распределение с более острой вершиной, чем нормальное, в типичных случаях имеет положительный эксцесс, а с более закругленной— отрицательный. Шкалы измерений Переменные различаются тем, «насколько хорошо» они могут быть измерены, или, другими словами, как много измеряемой информации обеспечивает шкала их измерений, поскольку в каждом измерении присутствует некоторая ошибка, определяющая границы «количества информации», которую можно получить в данном измерении.
Другим фактором, определяющим количество информации, содержащейся в переменной, конечно, является тип шкалы, в которой проведено измерение. Обычно используют следующие типы шкал измерений: а) номинальная; Ь) порядковая (ординальная); с) интервальная; г() относительная (шкала отношения). Соответственно имеются четыре типа переменных: а) номинальная; Ь) порядковая (ординальная); с) интервальная; Ы) относительная, ° Номинальные переменные используются только для качественной классификации.
Это означает, что данные переменные могут быть измерены только в терминах принадлежности к некоторым существенно различным классам, при этом вы не сможете определить количество 18 Гпаеа 1. Основныв поняпвя анап«за данных или упорядочить эти классы. Типичными примерами номинальных переменных являются фирма-производитель, тип товара, признак (болен — здоров) и т.д.
Часто номинальные переменные называются категориальными. Близкими к ним являются категоризованные переменные, т.е. переменные, искусственно преврашенные в категориальные. Порядковые переменные позволяют ранжировать (упорядочить) объекты, если указано, какие из них в большей или меньшей степени обладают качеством, выраженным данной переменной.
Однако они не позволяют определить «на сколько больше» или «на сколько меньше» данного качества содержится в переменной. Порядковые переменные иногда называют ординальными. Типичный пример — социоэкономический статус семьи. Мы понимаем, что верхний средний уровень выше среднего уровня, однако сказать, что разница между ними равна, допустим, 18%, мы не можем.
Само расположение шкал в порядке возрастания их информативности — номинальная, порядковая, интервальная — является хорошим примером порядковой переменной. Например, можно сказать, что измерения в номинальной шкале предоставляют меньше информации, чем в порядковой шкале, а в порядковой — меньше, чем в интервальной. Однако невозможно придать термину «меньше» точный количественный смысл или сравнить между собой эти различия. Другой пример порядковой переменной — это интенсивность использования определенного цвета в картине художника. Категориальные и порядковые переменные особенно часто возникают при анкетировании, так как естественно отражают характер мышления человека.
Например, измерение интенсивности посещение ресторанов можно проводить в следуюшей шкале: не посещаю, посещаю редко, посещаю, посещаю часто. Категориальные и порядковые шкалы часто используются для описания качественных признаков. Интервальные переменные позволяют не только упорядочивать объекты измерения, но и численно выражать и сравнивать различия между ними.
Такого рода переменные часто возникают в естественных науках, при снятии показателей с физических приборов, в медицине и т.д. Например, температура, измеренная в градусах по Фаренгейту или Цельсия, образует интервальную шкалу. Можно не только сказать, что температура 40" выше, чем температура 30", но и то, что увеличение температуры с 20" до 40" вдвое больше увеличения температуры от 30" до 40". Нейронные оео!о. ЗТАТ!ЗТ!СА Неоге! НегиогНе ° Опгноситвльныв переменные очень похожи на интервальные переменные. В дополнение ко всем свойствам переменных, измеренных в интервальной шкале, их характерной чертой является наличие определенной точки абсолютного нуля. Таким образом, для этих переменных являются обоснованными утверждения типа: х в 2 раза больше, чем у.
Например, температура по Кельвину образует шкалу отношения, и можно не только утверждать, что температура 200" вышс, чем 100", но и то, что она вдвое выше. Интервальные шкалы (например, пжала Цельсия) нс обладают данным свойством шкалы отношения. Однако в большинстве статистических процедур нс делается тонкого различия между свойствами интервальных шкал и шкал отношения. Заметим, что всегда можно перейти от более богатой шкалы к менее богатой. Так, непрерывные переменные можно искусственно превратить в категориальные, т.е. категоризовать. Непрерывная переменная «рост человека в сантиметрах» может быть превращена в порядковую переменную с градациями: низкий, средний, высокий; очень низкий, низкий, средний, высокий, очень высокий; очень низкий, средне- низкий, низкий, средний, высокий, сверхвысокий.
При этом для размера одежды используют следующую порядковую шкалу: Б, М, 1., Х1., ХХ1., хххь, ххххь и т.д. Качество нефтепродукта можно выразить в оценке х (хуже-лучше), но можно указать точный процент примесей или октановое число (для бензина). Категоризованные данные представляют в виде частот наблюдений, попавших в определенные классы. Для описания катсгориальных переменных полезной оказывается мода. Какие спзапзиспзики выбрагаь? Среднее и медиана оценивают положение центра выборки, вокруг которого группируются значения переменной.
Среднее обладает рядом замечательных свойств. Однако эта оценка чувствительна к выбросам, которые вносят в нее сдвиг. Чтобы избежать сдвига, иногда используют взвеигеггггое среднее (каждому значению переменной приписывают опрсдслснный вес в соответствии с сго важностью, а затем для взвешенных наблюдений вычисляется обычное среднее). Медиана является средней точкой вариационного ряда, поэтому она не так чувствительна к выбросам. В официальной статистике США медиана используется в качестве оценки центральной точки доходов населения. Если распределение несимметрично (сдвинуто влево или вправо), то мсдиана и межквартильный размах могут дать больше информации о том, в какой области концснтрируются наблюдения.















