В.И.Тихонов Статистическая радиотехника (2-е издание, 1982) (1092037), страница 84
Текст из файла (страница 84)
На рис. 4.1 по данным табл. 4.1 построена гистограмма ошибок измерения дальности. Гистограмма дает наглядное представление о распределении наблюденных значений на числовой оси. По ней можно определить частоту попадания наблюденных значений в любой интервал числовой оси. Очевидно, что все величины рл неотрицательны, причем суммарная площадь под гистограммой равна единице: Г р3 Ьх ~~~Р ль 1 л 4=1 ь=! (4.2.2) 431 При заданном числе наблюдений п гистограмма, составленная на основе группировки с достаточно малыми интервалами, обычно много- вершинная и не отражает наглядно существенных свойств распределения. С другой стороны, группировка по слишком крупным интервалам может привести к потере ясного представления о характере распределения и к грубым ошибкам при вычислении других характеристик распределения. Относительно выбора длины интервала группировки Ьх нельзя дать однозначную рекомендацию.
Можно лишь высказать качественное соображение: чем больше объем выборки л, тем меньше можно взять Лх. Аналогично строится гистограмма в двумерном случае, когда расс сматрнвается распределение данных на плоскости (например, прн анализе рассеивания при стрельбе нли бомбометании). Разбив часть плоскости, занятую экспериментальными точками, на прямоугольники н подсчитав число точек в каждом прямоугольнике, можно определить соответствующие относительные плотности точек как отношение частоты попадания в прямоугольник к его площади.
Во многих случаях возникает необходимость аппроксимации экспериментально полученной гистограммы подходящим аналитическим выражением, представляющим собой некоторый теоретический закон распределения или плотность вероятности, которые должны удовлетворять двум обязательным условиям: неотрицательностн и нормировки (1.2.4). Зта операция называегпся вогравниванием статистических данных. При этом естественно стремятся к тому, чтобы такая аппроксимация (выравннвание) в определенном смысле была наилучшей.
Имеется много разнообразных способов и приемов подбора распределений для экспериментальных данных и невозможно выделить какой-либо из них. Успех в значительной степени определяется накопившимся опытом в этом деле. Однако можно дать некоторые общие рекомендации. Обычно аппроксимация гистограммы является не самоцелью, а производится для получения каких-либо выводов о физическом механизме изучаемого явления или процесса или же для выполнения последующих расчетов. Исходя из этого прежде всего необходимо принять решение — аппроксимировать ли гистограмму дискретным или непрерывным распределением (плотностью вероятности).
После этого производится качественное сопоставление характера построенной гистограммы с графикамн различных теоретических распределений (дискретных или непрерывных) и по близости их поведения останавливаются на каком- либо одном из наиболее подходящихз. Некоторые нз теоретических распределений были приведены в гл. 1 (см. табл. 1.1), Пусть на основании качественных соображений выбран некоторый закон распределения р (х; Лы Л„..., Л,), зависящий от з параметров Л,. Тогда нужно подобрать эти параметры Л;, (=1, 2,..., з, так, чтобы функция р (х; Л„..., Л,) наилучшим образом описывала гистограмму.
Для этого на практике часто применяют наиболее простой метод— — метод моментов (хотя теоретически предпочтителен метод максимального правдоподобия — см. э" 4.4). Сущность метода моментов заключается в следующем. Параметры Л, ..., Л, находят путем прнравнивання первыхзнизшихмоментовтеоретического распределения т, (Лм ..., Л,) =)гх"р (х; Л„..., Л,) дх еВ зависимости от решаемой задачи характер и степень близости поведения следует понимать по-разному: иногда можно ограничиться хорошим совпадением в центральной области (области больших вероятностей), а иногда (например, в теории обнаружения сигналов) нужно стремиться к хорошему совпадению на екрыльяхз закона распределения (в области малых вероятностей).
432 соответствующим статистическим моментам пг,'„которые вычисляют по результатам независимой выборки х„х„..., х„согласно формуле унт = — 1' хг . (4.2.4) г=! Таким образом, интересующие параметры Х,, 1=1, 2,..., з, определяют из решения системы з уравнений (4.2.5) рлг!х) -ьо-15-Ю -з о з 1о 1з Ю ь Рис. 4.2. Плотность вероятно- сти у' Рис. 4.1. Гистограмма *Описанный метод нахождения теоретического закона распределения, сводящийся по существу к оценке определяющих его параметров, называется параметрическим. Возможно непараметрическое оценивание аакона распределения 1162, 164].
433 Например, если теоретический закон распределения р (х; Хм Хз) является двухпараметрическим (зависит только от двух параметров), то эти параметры часто можно определить, приравняв соответственно математическое ожидание и, и дисперсию Ь теоретического распределения статистическому среднему значениют~ и статистической дисперсии 0е (см. 3 4.3). Если выбор аппроксимирующей плотности вероятности производится из семейства кривых Пирсона (см. 3 1.5), то параметры а и Ьз определяются из условия сохранения первых четырех момен' тов статистического распределения. Полная методика аппроксимации при помощи кривых Пирсона сводится к следующим этапам: 1.
По результатам наблюдений находят первые четыре выборочных момента. 2. По ним вычисляют значения Рг и,рз согласно выражениям (1.5.15) и по рис. 1.14 определяют тип распределения. 3. Выборочные моменты приравнивают моментам выбранного распределения, которые зависят от параметров распределения. 4. Полученные уравнения разрешают относительно неизвестных параметров н, следовательно, находят искомое распределениее. Чтобы оценить, насколько хорошо выбранный теоретический закон распределения (плотность вероятности) согласуется с результатами наблюдений, пользуются так называемыми критериями согласия. Таких критериев несколько. Однако наиболее часто применяют критерий Х» (хи-квадрат) Пирсона.
Пусть результаты и независимых наблюдений случайной величины $ сгруппированы по г неперекрывающимся интервалам и подсчитаны относительные частоты т» попадания результатов в соответствующие интервалы (как это сделано в табл. 4.1). Обозначим через р„ вероятности попадания в те же интервалы, вычисленные по теоретическому распределению. Тогда за меру расхождения относительных частот и теоретического распределения можно принять величину где с» — некоторые коэффициенты.
К. Пирсон предложил брать с« = = п!рю й = 1, 2,... При таком выборе коэффициентов с„меру расхождения е принято обозначать Х'. 3(» = ~~~ ( Р ) = ~ ( Р ) (4.2.б) » 1 Р« д лр» Одним из соображений, оправдывающих такой выбор коэффициентов сю является то, что чем меньше вероятность рю тем меньшие отклонения от нее допустимы, вследствие чего отклонениям (т» — р„)' при малом рь нужно придавать больший вес. Главным же соображением служит то, что при увеличении и практически независимо от вида закона распределения исследуемой случайной величины $ плотность вероятности случайной величины т» определяется известным законом хи-квадрат (З.ЗА5), в котором число степеней свободны т нужно полагать равным т = г — е — 1, где г — число интервалов группировки; е — число параметров теоретического распределения, оцениваемых по результатам наблюдений.
Поясним сказанное. Значения х„х„..., х„, полученные в фактически осуществленной выборке, следует рассматривать как наблюденное «зиачение» л-мерной случайной величины ($ь $„..., $„), где каждая величина $; представляет как бы одно значение величины $, с которым мы встречаемся в»'-м наблюдении. Поэтому выборку можно рассматривать как испытание, в котором осуществляется конкретная реализация величины ($„$„..., $„). Естественно, что, повторяя выборки,мы будем получать различные значения этой величины.
В дальнейшем всегда следует иметь в виду, что любые статистические характеристики, определяемые по результатам выборки, являются случайными величинами, в то время как вероятностные характеристики суть фиксированные (хотя иногда и неизвестные) постоянные. В соответствии с этим при случайных результатах опытов относительные частоты т1, ..., т,* следует трактовать как случайные величины. Если некоторые параметры теоретического распределения оцени- 434 Таблица 4.2 Минимальное число интервалов г Или выборок объема о ври и=0,05 1000 200 1500 600 400 39 35 27 24 !6 20 30 ваются по данным наблюдений, то и вероятности р„..., р, будут случайными величинами. Поэтому величину Ха=а ~~~~ (4,2.7) Рь следует рассматривать как случайную, а ее значение (6) как конкретное значение случайной величины, реализовавшееся в фактически осуществленной выборке.