Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 18
Текст из файла (страница 18)
2.20. Пакет SPSS. Редактор данных с исходными данными ирезультатами генерации выборки из равномерного распределенияÂûáîð ïðîöåäóðû. Такой же, как и предыдущем примере.Çàïîëíåíèå ïîëåé ââîäà äàííûõ è ïàðàìåòðîâ ïðîöåäóðû.В целом аналогично предыдущему примеру. В качестве переменной длярезультатов процедуры указать переменную uni. В окно Numeric Expressionввести функцию RV.UNIFORM(min, max). Параметры min и max означаютграницы для равномерного распределения. То есть окончательный видвыражения в окне Numeric Expression должно иметь вид RV.UNIFORM(0,5).Êîììåíòàðèè.
1. Почти все процедуры, генерирующие псевдо"случайныевыборки из различный законов распределения имеют префикс RV (сокращениеот Random Variable — случайная величина). После префикса следует имя рас"пределения. (Исключением являются специализированные процедуры NORMALи UNIFORM.)2. Генерируемая псевдо"случайная последовательность в SPSS определяет"ся некоторым начальным, очень большим целым числом. Его значение можнозадать в процедуре Random Number Seed (инициализация датчика случайных чисел)из меню Transform панели управления редактора данных.Ðåçóëüòàòû. После задания указанного выше функциональноговыражения, нажать «OK».
Результаты генерации представлены в пере"менной uni редактора данных (рис. 2.20).913… ƒВо многих случаях нам требуется на основе тех или иных данныхрешить, справедливо ли некоторое суждение. Например, верно ли, чтодва набора данных исходят из одного и того же источника? Что A —лучший стрелок, чем B? Что от дома до работы быстрее доехать наметро, а не на автобусе, и т.д. Если мы считаем, что исходные данныедля таких суждений в той или иной мере носят случайный характер,то и ответы можно дать лишь с определенной степенью уверенности,и имеется некоторая вероятность ошибиться.
Например, предложивдвум персонам A и B выстрелить по три раза в мишень и осмотреврезультаты стрельбы, мы лишь предположительно можем сказать, ктоиз них лучший стрелок: ведь возможно, что победителю просто повезло,и он по чистой случайности стрелял намного точнее, чем обычно,либо наоборот, проигравшему не повезло, так как он стрелял намногохуже чем обычно.
Поэтому при ответе на подобные вопросы хотелосьбы не только уметь принимать наиболее обоснованные решения, но иоценивать вероятность ошибочности принятого решения.Рассмотрение таких задач в строгой математической постановкеприводит к понятию статистической гипотезы. В этой главе мы обсу"ждаем, что такое статистические гипотезы, какие существуют способыих проверки, каковы наилучшие методы действий и с какими понятиямиони связаны. Мы проиллюстрируем эти понятия на примере несколь"ких важных и часто встречающихся ситуаций, и на этих же примерахпокажем, как естественные проблемы надо переводить на математико"статистический язык, чтобы они могли стать предметом статистическогоисследования.
Среди задач, рассматриваемых в этой главе — проверкагипотез в схеме испытаний Бернулли, гипотез о положении одной вы"борки и о взаимном смещении двух выборок. Проверка гипотез в болеесложных ситуациях рассматривается в последующих главах этой книги.3.1. Идея случайного выбора. Прежде чем приступить к описаниюстатистических гипотез, обсудим еще раз понятие случайного выбора,которое уже рассматривалось в главе 1.92Если опустить детали и некоторые (хотя и важные) исключения,можно сказать, что весь статистический анализ основан на идее случайного выбора. Мы принимаем тезис, что имеющиеся данные по"явились как результат случайного выбора из некоторой генеральнойсовокупности, нередко — воображаемой. Обычно мы полагаем, что этотслучайный выбор произведен природой.
Впрочем, во многих задачах этагенеральная совокупность вполне реальна, и выбор из нее произведенактивным наблюдателем.Для краткости будем говорить, что все данные, которые мы соби"раемся изучить как единое целое, представляют собой одно наблюдение. Природа этого собирательного наблюдения может быть самойразнообразной.
Это может быть одно число, последовательность чи"сел, последовательность символов, числовая таблица и т.д. Обозначимна время это собирательное наблюдение через x. Раз мы считаем xрезультатом случайного выбора, мы должны указать и ту генеральнуюсовокупность, из которой x был выбран.
Это значит, что мы должныуказать те значения, которые могли бы появиться вместо реального x.Обозначим эту совокупность через X. Множество X называют такжевыборочным пространством, или пространством выборок.Мы предполагаем далее, что указанный выбор произошел в соответ"ствии с неким распределением вероятностей на множестве X, согласнокоторому каждый элемент из X имеет определенные шансы быть вы"бранным. Если X — конечное множество, то у каждого его элементаx есть положительная вероятность p(x) быть выбранным. Случайныйвыбор по такому вероятностному закону легко понимать буквально.
Дляболее сложно устроенных бесконечных множеств X приходится опре"делять вероятность не для отдельных его точек, а для подмножеств.Случайный выбор одной из бесконечного множества возможностей во"образить труднее, он похож на выбор точки x из отрезка или простран"ственной области X.Соотношение между наблюдением x и выборочным пространствомX, между элементами которого распределена вероятность, — в точ"ности такое же, как между элементарными исходами и пространствомэлементарных исходов, с которым имеет дело теория вероятностей (икоторые мы обсуждали в главе 1).
Благодаря этому теория вероят"ностей становится основой математической статистики, и поэтому, вчастности, мы можем применять вероятностные соображения к задачепроверки статистических гипотез.Прагматическое правило. Ясно, что раз мы приняли вероятност"ную точку зрения на происхождение наших данных (т.е.
считаем, чтоони получены путем случайного выбора), то все дальнейшие сужде"93ния, основанные на этих данных, будут иметь вероятностный характер.Всякое утверждение будет верным лишь с некоторой вероятностью, ас некоторой тоже положительной вероятностью оно может оказатьсяневерным.
Будут ли полезными такие выводы, и можно ли вообще натаком пути получить достоверные результаты?На оба эти вопроса следует ответить положительно. Во"первых,знание вероятностей событий полезно, так как у исследователя быстровырабатывается вероятностная интуиция, позволяющая ему опериро"вать вероятностями, распределениями, математическими ожиданиямии т.п., извлекая из этого пользу. Во"вторых, и чисто вероятностныерезультаты могут быть вполне убедительными: вывод можно считатьпрактически достоверным, если его вероятность близка к единице.Можно высказать следующее прагматическое правило, которымруководствуются люди и которое соединяет теорию вероятностей снашей деятельностью.••Мы считаем практически достоверным событие, вероятность которого близка к 1;Мы считаем практически невозможным событие, вероятность которого близка к 0.И мы не только так думаем, но и поступаем в соответствии с этим!Изложенное прагматическое правило, в строгом смысле, конечно,неверно, поскольку оно не защищает полностью от ошибок.
Но ошибкипри его использовании будут редки. Правило полезно тем, что даетвозможность практически применять вероятностные выводы.Иногда то же правило высказывают чуть по"другому: в однократном испытании маловероятное событие не происходит (и наоборот — обязательно происходит событие, вероятность которогоблизка к 1). Слово «однократный» вставлено ради уточнения, ибо в до"статочно длинной последовательности независимых повторений опытаупомянутое маловероятное (в одном опыте!) событие встретится почтиобязательно. Но это уже совсем другая ситуация.Остается еще не разъясненным, какую вероятность следует считатьмалой. На этот вопрос нельзя дать количественного ответа, пригодногово всех случаях. Ответ зависит от того, какой опасностью грозит намошибка.
Довольно часто — при проверке статистических гипотез, на"пример, о чем см. ниже — полагают малыми вероятности, начиная с0.01 ÷ 0.05. Другое дело — надежность технических устройств, напри"мер, тормозов автомобиля. Здесь недопустимо большой будет вероят"ность отказа, скажем, 0.001, так как выход из строя тормозов один разна тысячу торможений повлечет большое число аварий. Поэтому при94расчетах надежности нередко требуют, чтобы вероятность безотказнойработы была бы порядка 1 − 10−6 .
Мы не будем обсуждать здесь, на"сколько реалистичны подобные требования: может ли обеспечить такуюточность в расчете вероятности неизбежно приближенная математиче"ская модель и как затем сопоставить расчетные и реальные результаты.Предупреждения. 1. Следует дать несколько советов, как надо стро"ить статистические модели, притом зачастую в задачах, не имеющих явногостатистического характера. Для этого надо присущие обсуждаемой проблемечерты выразить в терминах, относящихся к выборочному пространству и рас"пределению вероятностей. К сожалению, в общих словах этот процесс описатьневозможно.
Более того, этот процесс является творческим, и его невозможнозаучить как, скажем, таблицу умножения. Но ему можно научиться, изучаяобразцы и примеры и следуя их духу. Мы разберем несколько таких примеровв параграфе 3.3. В дальнейшем мы также будем уделять особое внимание этойстадии статистических исследований.2. При формализации реальных задач могут возникать весьма разнообраз"ные статистические модели.
Однако математической теорией подготовленысредства для исследования лишь ограниченного числа моделей. Для ряда типо"вых моделей теория разработана очень подробно, и там можно получить ответына основные вопросы, интересующие исследователя. Некоторую часть такихстандартных моделей, с которыми на практике приходится иметь дело чащевсего, мы обсудим в данной книге. Другие можно найти в более специальныхи подробных руководствах и справочниках.3. Об ограниченности математических средств стоит помнить и при мате"матической формализации эксперимента.
Если возможно, надо свести дело ктиповой статистической задаче. Эти соображения особенно важны при планировании эксперимента или исследования; при сборе информации, если речьидет о статистическом обследовании; при постановке опытов, если мы говоримоб активном эксперименте.3.2. ƒ (* ›…)В этом параграфе мы рассмотрим основные теоретические понятияи подходы, используемые при проверке статистических гипотез. Этотматериал весьма важен, но непрост в освоении. Поэтому при каких"либозатруднениях при чтении данного параграфа целесообразно заглянутьчуть вперед в п.