Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 28
Текст из файла (страница 28)
3.13. Пакет SPSS. Окно ввода данныхи параметров процедуры «2 Related Samples»Ðåçóëüòàòû. В окне навигатора вывода результатов пакета по"явятся две таблицы (рис. 3.14) с результатами расчетов.В таблице Frequencies приведено число отрицательных Negative Differencesи положительных Positive Differences разностей в переменной MEDIAN ' LIGHT,а также число совпадающих значений Ties в анализируемых переменных.135Ðåçóëüòàòû.
На рис. 3.16 приведены таблицы расчетов для кри"терия знаковых рангов Уилкоксона. В таблице Ranks для отрицательныхNegative Ranks и положительных Positive Ranks рангов указано их число, сум"ма рангов и средние ранги (частное от деления суммы отрицательных(положительных) рангов на число соответствующих рангов). В табли"це Test Statistics указано значение z "апроксимации для распределения1364! ……4.1. "…Что такое оценивание.
Статистика имеет дело с данными, под"верженными случайной изменчивости. Их поведение может характери"зоваться законом распределения вероятностей, если данные являютсявыборкой, или более сложными моделями (факторными, регрессион"ными и т.п.), если данные неоднородны. Эти законы распределениявероятностей и модели, как правило, содержат неизвестные величины(параметры) — среднее значение, дисперсию, вклады факторов, коэф"фициенты функциональных зависимостей и т.п.
Исследователя обычноинтересуют либо сами эти параметры, либо некоторые заранее извест"ные функции от них. К сожалению, в силу случайной изменчивостинаблюдаемых данных, нельзя, основываясь только на них, указать со"вершенно точное значение параметров. Приходится довольствоватьсялишь приближенными значениями.
Термин «оценить» в статистикеозначает «указать приближенное значение».Рис. 3.15. Пакет SPSS. Окно ввода данных и параметровпроцедуры «2 Related Samples» на стадии выбора переменныхОпределение. Оцениванием в статистике называется указание приближенного значения интересующего нас параметра (илифункции от некоторых параметров) на основе наблюдаемых данных. Оценка — это правило вычисления приближенного значенияпараметра (или функции от некоторых параметров) по наблюдаемым данным.Рис. 3.16. Пакет SPSS. Результаты критериязнаковых рангов Уилкоксона для парных наблюденийстатистики критерия и асимптотический уровень значимости противдвусторонних альтернатив.Полученный с помощью этого критерия минимальный уровень зна"чимости для проверки нулевой гипотезы о совпадении распределенийдостаточно мал, что позволяет скорее отвергнуть гипотезу, чем при"нять ее.Êîììåíòàðèé.
При использовании этой процедуры для малых выборокее результаты (минимальные уровни значимости) должны рассматриваться какприблизительные.137Примеры оценок. Мы уже сталкивались с наиболее простымии распространенными оценками — выборочным средним, выборочнойдисперсией, выборочной медианой и др., — в п. 1.8 (хотя само слово«оценка» мы там не произносили).
Так, выборочное среднее являет"ся оценкой среднего распределения случайной величины, породившейвыборку, выборочная дисперсия явлется оценкой дисперсии этого рас"пределения и т.д.Требования к оценкам. Методов для определения приближенногозначения параметра (то есть оценок этого параметра) можно приду"мать великое множество. Поэтому при построении оценок и выбореих для практического применения к оценкам предъявляются определен"ные требования, например, требования точности (близости к истинному138значению параметра), несмещенности (чтобы математическое ожиданиеоценки было равно истинному значению параметра), состоятельности(чтобы при увеличении числа наблюдений оценка сходилась по вероят"ности к истинному значению параметра) и т.д.
Обсуждению свойствоценок посвящен п. 4.5.Замечание. К сожалению, наилучших во всех отношениях оценок не быва"ет. Например, оценка, замечательно ведущая себя при некоторых предположе"ниях об исходных данных, при отклонениях от этих предположений может при"водить к сильно искаженным результатам. Например, выборочное среднее —широко распространенная оценка среднего распределения по выборке, — обла"дает многими свойствами оптимальности для нормально распределенных выбо"рок, но очень плохо реагирует на наличие в выборке выбросов, то есть резковыделяющихся значений (обычно они порождены грубыми ошибками в измере"ниях и иными причинами).
Поэтому в последнее время интенсивно развиваютсяметоды устойчивого (робастного) оценивания. Главная задача этих методов —получение надежных и эффективных оценок, пригодных для ситуаций, когдаданные отклоняются от моделей выборок, содержат засорения или грубые на"блюдения. Эти вопросы подробно рассмотрены в [108] и [116]. А изложениеклассических результатов теории оценивания можно найти в [16], [64] и др.О содержании этой главы и следующих глав. В этой главе мырасскажем об оценках и их свойствах в самой простой ситуации — ко"гда имеются независимые наблюдения некоторой случайной величиныи мы хотим по ним оценить параметры распределения этой случайнойвеличины.
Будут рассмотрены некоторые важнейшие фундаментальныеосновы теории оценивания (закон больших чисел, центральная предель"ная теорема), разобраны начала некоторых подходов к оцениванию па"раметров вероятностных распределений по выборке (метод наибольшегоправдоподобия, метод моментов, метод квантилей) и кратко рассказанооб основных свойствах оценок и доверительном оценивании.В главе 5 будет более подробно рассмотрено оценивание параме"тров для нормально распределенных выборок.
А в главах 6—9 разби"раются более сложные случаи, когда оценке подлежат параметры ре"грессионных и факторных моделей, а также меры связи (зависимости)переменных.4.2. (… ; Рассмотрим сначала самую простую задачу оценивания — оценкувероятности некоторого события. Хотя в основе любого статистическо"го вывода лежит понятие вероятности, мы лишь в немногих случаяхможем определить вероятность события непосредственно. Как обсужда"лось в главе 1, иногда эту вероятность можно установить из соображе"139ний симметрии, равной возможности (карты, кости, домино и прочиеазартные игры) и т.п. Но универсального метода, который позволял быдля произвольного события указать его вероятность, не существует.
Те"орема Бернулли дает возможность приближенной оценки вероятности,если для интересующего нас события A можно проводить независимыеповторные испытания.Теорема Бернулли. Пусть в каждом из n испытаний вероятностьp = P (A) события A остается неизменной и результат каждого испы"тания независим от остальных. Обозначим через S случайное числотех испытаний (из общего числа n), в которых произошло событие A.Обычно кратко говорят, что S — число «успехов» в n испытаниях Бер"нулли. Теорема Бернулли утверждает, что при большом n относитель"ная частота S/n события A приближенно равна вероятности событияA, т.е.
S/n p, где p = P (A).Замечание. Исторически эту теорему можно считать первой теоремойтеории вероятностей. Она содержалась в сочинении Якоба Бернулли (1654 –1705) «Искусство предположений» («Ars. Conjectandi»), изданном в 1713 г. ужепосле смерти автора (русский перевод последней, четвертой части этого со"чинения, см. в [15]). В истории теории вероятностей это сочинение сыграловажнейшую роль. Оно завершается обсуждением упомянутой теоремы и еедоказательством, которое было довольно сложным.В наше время теорема Бернулли представляется частным вариантом болееобщей закономерности — закона больших чисел.
Благодаря развитию наукидля установления этого важного факта теперь не требуется больших усилий.Вероятностный предел. Рассмотрим теперь, что означает исполь"зованное в формулировке теоремы Бернулли выражение «приближенноравно при больших n». Читатель, знакомый с математическим анали"зом, мог уже переформулировать это утверждение в привычную форму:если n → ∞, то S/n → p где S — число появлений события A в nнезависимых испытаниях. В теории вероятностей и статистике такиеобозначения также используются весьма широко. Однако понятие пре"дела толкуется здесь, как правило, в своем, особом смысле, отличномот того, который вкладывается в него в математическом анализе.Действительно, вспомним принятое в математическом анализе опре"деление предела последовательности.
Мы говорим, что an → a приn → ∞, если для любого ε > 0 найдется такое N , что при n > Nбудет выполняться неравенство |An − a| < ε. Для теоремы Бернуллиэто значило бы, что для достаточно больших n действует соотношениеS − p < ε.n140К сожалению, это утверждение неверно. Хотя и с малой вероятно"стью, но значения p и S/n могут отличаться значительно. Например, сположительной вероятностью S может быть равно 0. Поэтомунельзярассчитывать на непременное выполнение соотношения Sn − p < ε.Поэтому для случайных последовательностей используется другое по"нятие предела:SP −p < ε → 1n(для любого ε > 0) при n → ∞.
Когда требуется отличать это по"нятие предела от того, которое используется в математическом ана"лизе, говорят: «последовательность случайных величин сходится повероятности».Итак, событие Sn − p < ε не является достоверным, но теоремаБернулли утверждает, что оно практически достоверно при достаточнобольших n.Закон больших чисел.