Учебник_Бочаров_Печинкин (846435), страница 34
Текст из файла (страница 34)
Поэтому наряду с точечньсии оценками в математической статистике принято определять инглервальные оценки или, иными словами, доверительньге интервалы, опираясь при этом на «уровень довериясч или доверительную вероятность. Второе направление в математической статистике связано с проверкой некоторых априорных предположений, или статистических гипотез. Так, до опыта мы можем предположить, что монета симметрична, т.е.
высказать гипотезу о равенстве р = — у =- 11'2. Противоположное предположение, естественно, будет состоять в том, что р ф 112, и тоже представляет собой гипотезу. Принято называть одну из этих гипотез (как правило, более важную с практической точки зрения) основной Но, а вторую — альтернативной или конкурирующей Нп В приведенном выше примере нужно проверить основную гипотезу Но. р =- 11'2 против конкурирующей гипотезы НЫ р Г' 112. Заметим, что в нашем случае основная гипотеза Но полностью определяет вероятностную модель подбрасывания монеты, т.е.
является простой (состоит из одной точки), в отличие от конкурирующей гипотезы Ны являющейся сложной (состоит из более чем одной точки). Задача проверки статистических гипотез состоит в выборе правила или критерия, позволяющего по результатам наблюдений проверить (по возможности, наилучшим образом) справедливость этих гипотез и принять одну из них.
Так же, как и при оценке неизвестных параметров,мы не застрахованы от неверного решения; в математической статистике они подразделяются 1. Задачи математической статистики 157 на ошибки первого и второго рода. Ошибка первого рода состоит в том, что мы принимаем конкурирующую гипотезу Ны в то время как справедлива основная гипотеза Но; аналогично определяется ошибка второго рода. Возвращаясь к примеру с монетой, приведем следующий критерий проверки двух перечисленных гипотез: основную гипотезу Но (р = 112) будем принимать в том случае, если наблюденная частота р* удовлетворяет неравенству 'р' — 112~ < е; в противном случае считаем верной конкурирующую гипотезу Ны Вероятность ошибки первого рода (принять симметричную монету за несимметричную) в этом случае определяется как вероятность выполнения неравенства ~р' — 112 > е в схеме Бернулли с равновероятными исходами.
Вероятность ошибки второго рода (принять несимметричную монету за симметричную) также определяется нз схемы Бернулли, но с неравновероятными исходами и будет зависеть от истинного значения р. Далее мы увидим, что задача проверки статистических гипотез наиболее полно решается для случая двух простых гипотез. Можно поставить и задачу проверки нескольких гипотез (в примере с монетой можно взять, например, три гипотезы: Но. р = 17'2, Ны р < 1/2, Ня.
.р > 17'2), однако мы такие задачи рассматривать не будем. Условно математическую статистику можно подразделить на исследование байесовских и небайесовских моделей. Байесовские модели возникают тогда, когда неизвестный параметр является случайной величиной и имеется априорная информация о его распределении. При байесовском подходе на основе опытных данных априорные вероятности пересчитываются в апостериорные. Применение байесовского подхода фактически сводится к использованию формулы Байеса (см. часть 1, гл. 3, параграф 5), откуда, собственно говоря, и пошло его название.
Байесовский подход нами будет применяться только как вспомогательный аппарат при доказательстве некоторых теорем. Небайесовские модели появляются тогда, когда неизвестный параметр нельзя считать случайной величиной и все статистические выводы приходится делать, опираясь только на результаты «пробных» испытаний. Именно такие модели мы будем рассматривать в дальнейшем изложении.
В заключение этого параграфа отметим, что в математической статистике употребляют также понятия параметрических и непараметрических моделей. Параметрические модели возникают тогда, когда нам известна с точностью до параметра (скалярного или векторного) функция распределения наблюдаемой характеристики и необходимо по результатам испытаний определить этот параметр (задача оценки неизвестного параметра) или проверить гипотезу о принадлежности его некоторому заранее выделенному множеству значений (задача проверки статистических гипотез).
Все приведенные выше примеры с подбрасыванием монеты представляют собой параметрические модели. Примеры неаараметрических моделей мы рассмотрим позже. 158 Гл. 1. Общие сведения 2. Основные понятия математической статистики Основными понятиями математической статистики являются: генеральная совокупность, выборка, теоретическая функция распределения. Генеральная совокупность. Будем предполагать, что у нас имеются )т' объектов, каждому из которых присуще определенное значение некоторой числовой характеристики Х. Характеристика Х, вообще говоря, может быть и векторной (например, линейные размеры объекта), однако для простоты изложения мы ограничимся только скалярным случаем, тем более что переход к векторному случаю никаких трудностей не вызывает. Совокупность этих )т' объектов назовем генеральной совокупностью.
Поскольку все наши статистические выводы мы будем делать, основываясь только на значениях числовой характеристики Х, естественно абстрагироваться от физической природы самих объектов и отождествить каждый объект с присущей ему характеристикой Х. Таким образом, с точки зрения математической статистики генеральная совокупность представляет собой Х чисел, среди которых, конечно, могут быть и одинаковые.
Выборка. Для того чтобы установить параметры генеральной совокупности, нам позволено произвести некоторое число п, испытаний. Каждое испытание состоит в том, что мы случайным образом выбираем один объект генеральной совокупности и определяем его значение Х. Полученный таким образом ряд чисел Хн ...,Х„ будем называть (случайной) вглбо1экои объема п„а число Х, (-м элементом выборки. Заметимн что сам процесс выбора можно осуществлять различными способами: выбрав объект и определив его значение, изымать этот объект и не допускать к последуюпгим испытаниям (выборка без возвращения); после определения его значения объект возвращается в генеральную совокупность и может полноправно участвовать в дальнейших испытаниях (выборка с возвращением) и т.
д. Разумеется, если бы мы смогли провести сплошное обследование всех обьектов генеральной совокупности, то не нужно было бы применять никакие статистические методы и саму математическую статистику можно было бы отнести к чисто теоретическим наукам. Однако такой полный контроль невозможен по следующим причинам. Во-первых, часто испытание сопровождается разрушением испытуемого объекта; в этом случае мы имеем выборку без возвращения.
Во-вторых, обычно необходимо исследовать весьма большое количество объектов, что просто невозможно физически. Наконец, может возникнуть такое положение, когда многократно измеряется один и тот же объект, но каждый замер производится со случайной ошибкой, и цель последующей статистической обработки заключается именно в уточнении характеристик объекта на основе многократных наблюдений; при этом 159 2 Основные ~снятия математической статистики результат каждого наблюдения надо считать новым объектом генеральной совокупности (простейшим примером такой ситуации является многократное подбрасывание монеты с целью определения вероятности выпадения чгербаь).
Следует помнить также, что выборка обязательно должна удовлетворять условию репрезентативности или, говоря более простым языком, давать обоснованное представление о генеральной совокупности. С ростом объема Дг генеральной совокупности исчезает различие между выборками с возвращением и без возврап1ения. Мы, как обычно это делается в математической статистике, будем рассматривать случай бесконечно большого объема генеральной совокупности и поэтому, употребляя слово «выборка», не будем указывать, какая она — с возвращением или без него.
Теоретическая функция распределения. Пусть Х| — выборка единичного объема из заданной генеральной совокупности. Поскольку сам процесс выбора производится случайным образом, то Х1 является случайной величиной и, как и всякая случайная величина, имеет функцию распределения Г(х) = Р(Х| < х). Нетрудно видеть, что если объем Х генеральной совокупности конечен, то при случайном выборе объекта мы находимся в рамках схемы классической вероятности (часть 1, гл.
2, параграф 1) и значение функции распределения Г(т) совпадает с отношением Ж,/Дг, где Х., — число тех объектов генеральной совокупности, значения которых меньше х. В случае выборки Хы ...,Хо произвольного объема и каждый элемент Х, выборки также будет иметь функцию распределения Г(х), причем для выборки с возвращением наблюдения Хъ ...,Х„ будут независимы между собой (чего нельзя сказать о выборке без возвращения).
Поскольку, как уже говорилось, мы будем рассматривать выборки из генеральной совокупности бесконечно большого объема, а в этом случае исчезает различие между выборками разного типа, мы приходим к интерпретации (с точки зрения теории вероятностей) выборки Хъ ...,Х„ как п независимых одинаково распределенных с функцией распределения Г(х) случайных величин или, допуская некоторую вольность речи, как и, независимых реализаиий наблюдаемой случайной величавы Х, имеющей функцию распределения Г(х).
Функция распределения Г(х) называется теоретической функцией распределения. Однако теоретическая функция распределения Г(х) либо неизвестна, либо известна не полностью, и именно относительно Г(х) мы будем делать наши статистические выводы. Заметим, что в соответствии с общими положениями теории вероятностей совместная функция распределения Гх, х„(хы ...,х„) выборки Хы ...,Х„ задается формулой Гх, х. (хъ...,х„) =- Р(Х1 < хъ..., Х„< хо) =- Г(х1)...Г(х„). !бО Гл.
1. Общие сведения В дальнейшем, как правило, мы будем предполагать, что Г(х) является функцией распределения либо дискретной, либо непрерывной наблюдаемой случайной величины Х. В первом случае будем оперировать рядом распределения случайной величины Х, записанным в виде табл. 1, а во втором — плотностью распределения р(х) =- хэ(х). Таблица 1 3. Простейшие статистические преобразования Прежде чем переходить к детальному анализу наблюденных статистических данных, обычно проводят их предварительную обработку. Иногда результаты такой обработки уже сами по себе дают наглядную картину исследуемого явления, в большинстве же случаев они служат исходным материалом для получения более подробных статистических выводов. Вариационный и статистический ряды.















