Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 10
Текст из файла (страница 10)
,(xn , yn ), или выборочным коэффициентом корреляции называют ве"личинуn(xi − x)(yi − y)nr = n i=1.22i=1 (xi − x)i=1 (yi − y)(Иногда ее называют коэффициентом корреляции К.Пирсона.) Анало"гично определяется выборочная ковариация, она равна n1 ni=1 (xi −x)(yi − y).1.8.3. #… …›…Ранги. Во многих случаях имеющиеся в нашем распоряжении чи"словые данные (например, значения элементов выборки) носят в тойили иной мере условный характер. Например, эти данные могут бытьтестовыми баллами, экспертными оценками, данными о вкусовых илиполитических предпочтениях опрошенных людей и т.д.
Анализ такихданных требует особой осторожности, поскольку многие предпосыл"ки классических статистических методов (например, предположенияо каком"либо конкретном, скажем нормальном, законе распределения)43для них не выполняются. Твердую основу для выводов здесь дают толькосоотношения между наблюдениями типа «больше"меньше», так как онине меняются при изменении шкалы измерений. Например, при анализеанкет с данными о симпатиях избирателей к политическим деятеляммы можем сказать, что политик, получивший больший балл в анкете,более симпатичен отвечавшему на вопросы человеку (респонденту), чемполитик, получивший меньший балл.
Но на сколько (или во сколькораз) он более симпатичен, сказать нельзя, так как для предпочтенийнет объективной единицы измерения.В подобных случаях (которые мы будем более подробно рассматри"вать в последующих главах), имеет смысл вообще отказаться от анализаконкретных значений данных, а исследовать только информацию об извзаимной упорядоченности. Для этого от исходных числовых данныхосуществляют переход к их рангам.Определение.
Рангом наблюдения называют тот номер, который получит это наблюдение в упорядоченной совокупности всехданных — после их упорядочения по определенному правилу (например, от меньших значений к большим или наоборот).Чаще всего упорядочение чисел (набор которых составляют упомя"нутые выше данные) производят по величине — от меньших к большим.Именно такое упорядочение и связанное с ним ранжирование (присво"ение рангов) мы будем иметь в виду в дальнейшем.Пример. Пусть выборка состоит из чисел 6, 17, 14, 5, 12.
Тогда рангомчисла 6 оказывается 2, рангом 17 будет 5 и т.д.Определение. Процедура перехода от совокупности наблюдений к последовательности их рангов называется ранжированием.Результат ранжирования называется ранжировкой.Статистические методы, в которых мы делаем выводы о данных наосновании их рангов, называются ранговыми.
Они получили широкоераспространение, так как надежно работают при очень слабых предпо"ложениях об исходных данных (не требуя, например, чтобы эти данныеимели какой"либо конкретный закон распределения). В последующихглавах этой книги мы рассмотрим применение ранговых методов в наи"более распространенных практических задачах.Средние ранги. Трудности в назначении рангов возникают, еслисреди элементов выборки встречаются совпадающие. (Так часто бывает,когда данные регистрируются с округлением.) В этом случае обыкно"венно используют средние ранги.44Средние ранги вводятся так. Предположим, что наблюдение xiимеет ту же величину, что и некоторые другие из общего числа nнаблюдений. (Эту совокупность одинаковых наблюдений из набораx1 , .
. . , xn называют связкой; количество таких одинаковых наблюденийв данной связке называют ее размером.) Средний ранг xi в ранжировкенаблюдений x1 , . . . , xn есть среднее арифметическое тех рангов, которыебыли бы назначены xi и всем остальным элементам связки, если быодинаковые наблюдения оказались различны.В качестве примера рассмотрим выборку 6, 17, 12, 6, 12. Ее ранжи"ровка равна 1 12 , 5, 3 12 , 1 12 , 3 12 .1. Показатели положения описывают положение данных на чи"словой оси. Примеры таких показателей — минимальный имаксимальный элементы выборки (первый и последний член ва"риационного ряда), верхний и нижний квартили (они ограни"чивают зону, в которую попадают 50% центральных элементоввыборки).
Наконец, сведения о середине совокупности могутдать выборочное среднее значение, выборочная медиана и дру"гие аналогичные характеристик.2. Показатели разброса описывают степень разброса данных от"носительно своего центра. К ним в первую очередь относятся:дисперсия выборки, стандартное отклонение, размах выборки(разность между максимальным и минимальным элементами),межквартильный размах (разность между верхней и нижнейквартилью), коэффициент эксцесса и т.п. По сути дела, этипоказатели говорят, насколько кучно основная масса данныхгруппируется около центра.3. Показатели асимметрии.
Третья группа показателей отвеча"ет на вопрос о симметрии распределения данных около своегоцентра. К ней можно отнести: коэффициент асимметрии, поло"жение выборочной медианы относительно выборочного среднегои относительно выборочных квартилей, гистограмму и т.д.4.
Показатели, описывающие закон распределения. Наконец,четвертая группа показателей описательной статистики даетпредставление собственно о законе распределения данных. Сю"да относятся графики гистограммы и эмпирической функциираспределения, таблицы частот.1.8.4. $ … В практических задачах мы обычно имеем совокупность наблюде"ний x1 , x2 , .
. . , xn , на основе которых требуется сделать те или иныевыводы. Часто этих наблюдений много — несколько десятков, сотенили тысяч, так что возникает задача компактного описания имеющихсянаблюдений. В идеале таким описанием могло бы быть утверждение,что x1 , x2 , . . . , xn являются выборкой, то есть независимыми реализаци"ями случайной величины ξ с известным законом распределения F (x).Это позволило бы теоретически провести расчеты всех необходимыхисследователю характеристик наблюдаемого явления.Однако далеко не всегда мы можем утверждать, что x1 , x2 , .
. . , xnявляются независимыми и одинаково распределенными случайными ве"личинами. Во"первых, это не так"то просто проверить (для подтвер"ждения этого требуются значительные объемы наблюдений и специ"альные, порой многочисленные, тесты). А во"вторых, часто заведомоизвестно, что это не так. Поэтому для компактного описания совокуп"ности наблюдений x1 , x2 , . . .
, xn используют другие методы — методыописательной статистики.Определение. Методами описательной статистики принятоназывать методы описания выборок x1 , x2 , . . . , xn с помощью различных показателей и графиков.Полезность методов описательной статистики состоит в том, чтонесколько простых и довольно информативных статистических показа"телей способны избавить нас от просмотра сотен, а порой и тысяч,значений выборки.Показатели описательной статистики. Описывающие выборкупоказатели можно разбить на несколько групп.45Применение показателей описательной статистики.
Из пере"численных выше характеристик на практике по традиции чаще всегоиспользуются выборочное среднее, медиана и дисперсия (или стандарт"ное отклонение). Однако для получения более точных и достоверныхвыводов мы настоятельно рекомендуем внимательно изучать и другиеиз перечисленных выше характеристик, а так же обращать внимание наусловия получения выборочных совокупностей.Особое внимание следует обратить на наличие в выборке выбросов — грубых (ошибочных), сильно отличающихся от основной мас"сы, наблюдений. Дело в том, что даже одно или несколько грубыхнаблюдений способны сильно исказить такие выборочные характери"стики, как среднее, дисперсия, стандартное отклонение, коэффициентыасимметрии и эксцесса.
Проще всего обнаружить такие наблюдения спомощью перехода от выборки к ее вариационному ряду или гистограм"мы с достаточно большим числом интервалов группировки (см. ниже).46Подозрение о присутствии таких наблюдений может возникнуть, есливыборочная медиана заметно отличается от выборочного среднего, хотяв целом совокупность симметрична; если положение медианы сильнонесимметрично относительно минимального и максимального элемен"тов выборки, и т.д.Замечание. Наличие выбросов, то есть грубых (ошибочных) наблюде"ний, может не только сильно исказить значения выборочных показателей —выборочного среднего, дисперсии, стандартного отклонения и т.д., — но и при"вести к многим другим ошибочным выводам.
Дело в том, что большинствотрадиционных статистических методов весьма чувствительно к отклонениям отусловий применимости метода. К сожалению, интенсивно развивающиеся впоследние два десятилетия статистические методы, устойчивые к выбросам идругим отклонениям, еще не получили широкого распространения на практике,за исключением ранговых процедур для наиболее стандартных задач. Отчастипричиной здесь является значительная вычислительная сложность этих мето"дов, из"за чего их применение невозможно без использования специальныхкомпьютерных программ.Приведем ниже еще несколько полезных приемов описательнойстатистики для работы с выборкой. В качестве примера рассмотримданные из таблицы 1.1, в которой приведены результаты измерениядиаметров 200 головок заклепок.
Здесь случайная величина — диаметризготовляемой заклепки, приведенные 200 значений — ее независимыереализации.Точечная диаграмма. Данные, собранные в таблицу, трудно обо"зреть. Они нуждаются в наглядном представлении. Одной из форм тако"го наглядного представления служит точечная диаграмма: табличныеданные отмечаются точками на числовой шкале. Если некоторое числовстречается в таблице несколько раз, его представляют соответствую"щим количеством точек. Точечная диаграмма для данных таблицы 1.1приведена на рис. 1.8.1.8.5. !… … Рассмотренные выше вопросы и понятия дают первое представлениео теоретических и выборочных характеристиках случайных величин. Сразличной степенью подробности и строгости этот материал изложен вомногих учебниках по теории вероятностей и математической статисти"ке, выбор которых должен определяться направленностью интересов иуровнем математической подготовки читателя.Группировки.
Нередко (для облегчения регистрации или при не"высокой точности измерений) данные группируют, т.е. числовую осьразбивают на промежутки и для каждого промежутка указывают числоnj элементов выборки x1 , . . . , xn, которые в него попали (здесь j —номер промежутка). Ясно, что j nj = n.В этом случае в качестве выборочного среднего и дисперсии ис"пользуют следующие величины. Пусть t1 , t2 , ...
— центры (середины)выбранных промежутков. Тогда вместо выборочного среднего x исполь"зуют величину t: njj tj njxt==tj ,nnjа в качестве выборочной дисперсии s21 s2 (tj − t)2 nj .n−1 j47Рис. 1.8. Точечная диаграмма. Распределениедиаметров 200 головок заклепок, выраженных в мм.Эта диаграмма удобна в том случае, когда одно и то же значениеслучайной величины повторяется в выборке несколько раз. В противномслучае точечная диаграмма сводится к последовательности точек на осиабсцисс. Во всех случаях точечная диаграмма помогает построитьграфик выборочной функции распределения.Гистограмма.