Б.Л. ван дер Варден Математическая статистика (1960) (1186203), страница 14
Текст из файла (страница 14)
+ 1 о — (иа) — (ии) )'(ии) (аа) 7(ии) (ино) — (аа) + агс соа, — ог~ ) (ьа) (ии) Прн четырех неравенствах пришлось бы вычислять объем сферического тетраэдра, что не так прог~о. ГЛЛ ВЛ РЦ ОЦЕНКИ ФУНКЦИЙ РАСПРЕДЕЛЕНИЯ, СРЕДНИХ ЗНАЧЕНИЙ И ДИСПЕРСИЙ Важнейшими разделами этой главы являются ~ 15 и й 18. а 15. Кривая Кетле Я до сих пор живо помню, как однажды, когда я был еще ребенком, мой отец привел меня на край города, где на берегу стояли ивы, и велел мне сорвать наугад сотню ивовых листочков. После отбора листьев с поврежденными кончиками у нас сс1алось 89 целых листиков.
Вернувшись домой, мы расположили их в ряд по росту, как солдат. Затем мой отец через кончики листьев провел кривую и сказал: ° Это и есть кривая Кетле. Глядя на нее, ты видишь, что посредственности всегда составляют подавляющее большинство и лишь немногие поднимаются выше или чак н остаются внпзук Если эту кривую расположить всрчп! калыю (рис. 1!) и в качестве единицы маснпаба на оси ординат выбрать отрезок. — длина которого равна высоте всей фигуры.
то ордината Ь, соответствующая абсппссе С = будет, очевидно, представлять собой час|о1у (или долю) тех ивовых листьев, длина которых меньше й И так как частота Ь приближенно равна вероятности р, то наша кривая приближенно нредс1авляет)э=а(1) . -. функцик> распределения длины листьев.
Р н с. и. кривая Измеренные длины ивовых лисзьсв а;„ Кетле. з, образук>т в совокупности зо, что ньшс на- зывают выборкой. По выборке с помощью только ыо указанного приема можно эмпирически оценить функцию распределения Ь(1). Определив приближенно л'(1), можаю графическим дифференцированием сцепить нло1нссть вероятностей ~(1), однако результаты, как правило, бывают мало падсжпыми. Другой часто увоз ребляемый способ оценки 1(1) и Ь'(1) основан на группировке наблюденных значений х. Интервал (8м 1,), в козором заключены наблюдснныс значения з, произвольно вы- >> 1Б.
Кривая Кетле бранными точками 1,,..., 1,, разбивается па частичные интервалы. Если, скажем, значения м измеряются в миллиметрах, то н каче- 1 стве точек разбиения целесообразно выбрать точки (и+ -) мм, где п — целые числа. Длины частичных и>первалов должны быть настолько малыми, чтобы внутри каждого из пих плотность вероятностей 7(1) ие слишком сильно менялась; с другой стороны, количество наблюдений в каждом частичном интервале не должно быть слишком малым. Непосредственным подсчетом определяются част<>ты значений х, соответствующие каждому интервалу; графически эти ~астоты изображаются в виде прямоу>ольников, основаниями которых служат частичные интервалы; площади прямоугольииков пропорциональны соответствующим частотам (рис.
!2). Затем проводят плавную кривую у = 7(щ) таким образом, чтобы площадь, расположенная между кривой и осью абсцисс, как можно меньше отличалась от суммы площадей прямоугольников. Числсипым интсгрироваиием 7(1) получают сценку для функции распределения Р(1). Однако предыдущий способ определения л"(1) лучше только ~>то изложенного, так как в пем используется весь пегрупппрованпый материал без произвольного разбиения па интервалы.
Точ>н>сть этого метода будет исследоваиа в следующем разделе (я 16). Гальтон и Кетле установили, что распределения биологических случайных величин очень часто могут быть представлены гауссовой функцией ошибок 1 (> — втх 7(1) а з ч ) (1) а )'2я Поэтому такие распределения называют норжть>оными. Однако в природе существуют и другие распределения. К. Пирсов нашел целый ряд типов часто встречающихся функций распределения. Пример 11. В.
Юханнсен в своих нзвсстных опытах по сслскнни' притюрно из 16 000 коричневых бобов отобрал 25 нанболыиих и с помощью симоопылсини стал выращивать из них новос потомство. В первом поколении возникло слсду|ощсс распрсдслсннс по васу: Гранины нссовых интервалов 20 25 30 35 40 45 50 56 60 65 70 75 80 Количество бобов 5 18 46 144 127 70 70 63 28 15 8 4 На ~артс>на получилось заметно асимметричное распределение (рис.
121, которое нельзя приближенно представить нормальным распределением. Как показал анализ Юханнссна, отклонснис от нормальной кривой ' Л о Ь в п и в с и 19., Сьсу ГтЪЫсине14 ш Роро>ис>опсп шк1 тсшсп Ьш1сп, ,Т< пи, 1903, 8. 19. 80 Гл. !!г. Оценки фдикиаа расяределенпл, гредна.т значении и дагпергаа в этом случае обусловлено перемешиваиием друг с другом раэлпчиыл кчистых лииийм, Каждая ачистая лииият — потомство одного боба — подчпияется приближеиио иормальиому распределеиию, в котором средпее эаи. чепие при дальнейшей селекции либо совсем ие меняется, либо меипется, ьо ед е5 5гг 55 эег 45 55 55 ет 55 лу 5 80 Р и с.
!2. Распределеиие веса бобов первого поколения, по Юханасеич. очень иеэиэчительио. Средиий вес ! ! чистых лииий имеет след!пешее распределеиие: Границы весовых иитервалов 35 40 45 50 55 60 Количество лияий 4 2 0 2 3 Смешепием этик одиипадцати почти иормальиых распределений п обьясияется форма иэйдеииого эмпирического распределении. 2 16. Оценки функций распределения При первом изучении этой главы 216 и 17 можно пропустить.
Понятия из этих двух разделов будут использоваться значительно позднее. На основе соображений, кгшорые в предыдущем параграфе были наглядно объяснены ца примере с ивовыми листьями, Колмогоровым была построена точная теория. Сначала, с помощью выборки х,,..., хи он определил эмпирическую функцггго распределения л'„(!), значение которой в произвольной точке ! равно эмпирической часто~в события х, ( 1, т. е. равно количеству тех хи которые меньше бделепиомуна и. График эмпирической функции ' Этэ точка эреиии ие является общепринятой. — Прил, ред. У 76. Оценки функций распределения 87 распределения — это не та гладкая кривая, которую с наивным воодушевлением строили Кетле и его ученики, а ступенчатая ломаная линия со скачками, по величине равными б =.!гп во всех точках х, (рнс. !3)'.
Спрашивается, насколько истинная функция распределения у = Р(О может отличаться от эмпирической функции у = Р„(ОУ Мы исследуем сначала положительные отклонения Р— У„а затем — отрицательные. В практических приложениях Р„задана, а Р неизвестна; однако прн теоретических исследованиях мы можем Р(О считать заданной, а Р„(~) — зависящей от случая, г так как наблюдаемые значения х„..., х„являются случайными величинами. Пусть аа — максимум разности Р— Р„; требуется определить функцика распределения случайной величины А Относительно функции распределения Р(() мы не делаем никаких предположений, кроме пРеДположениЯ о ее непРеРывно- (7 хг хе л .Ц сти.
Так как непрерывное моно- р и с. )З. Графики истина.ой и амаонное преобразование оси а не лирической функций распределения. меняет разности р" — Р„то вместо ( и х в качестве новых переменных можно выбрать у =- Р(() и х' = Р(х). Это не изменит максимум б разности à — 1~'„, Если мы новые переменные снова обозначим г и х, то функция распределения будет иметь простой вид: й'(() = ( (О < ( с 1).
(1) Следовательно, график функции распределения представляет собой диагональ единичного квадрата. Событие, при котором х примет значение либо меньшее О, либо большее 1, является невозможным; поэтому мы можем положить (рис. 13): О, если С~О, 1, если ( =-1. Согласно определению еаа(О, данному н аско ас, а каждои точке а' — ( та (а = 1 2 аа) Рп (хг — О) = Р'п(х,) =. —. — и Гп (ха -'- О)-- п п а' — ( В полусегмснтс ха а~ а н хг Гп(г) сокраняст постоянное зна'генис аа Уп(Г) = 0 при ( ак ха н Рп(О = ) при Г ~ х„.
— Прил. ред. Кн дь ГГ. Оценки д>рнкции рисцредслснил, среднис нначсний и диснсрсиа Плотность веро»тиос>и рши>а )1, сслп О <(<1, !(!) = ) О и противном случае. Графически эта функция у = !(!) изображается прямоу>ольппксм. Г!оьпсму естестееино таксе распредслеиис называть прямоугольным распределенае.ц. Мы лотки вычислить вероятпость >ого, что с1 будет больше иекоторой границы е. Так как, по предположеиию, все х,, х„ пезависимы и одинаково распределены с плотностью всроятисс>и ~(!) =- 1, >о, согласио ! 4 (теорема 11), искомая веров>вость (> равна п-кратпому иитегралу Я = ~...
~с(х, Ыхи... >1х„ (2) по области интсгрировапия С, опредсляемоп неравенствами О < х, < 1, „О < хн < 1 и А > е. В дальнейшем для задапия области интегрирования удоб.>о ограничиться перавецствами х,<Х,«... Хсс где >! — вероятность события О ( х ( хе ( ( т ( 1 Л ) е. (4) В каждой точке хи фупкция Р„(!) совершает скачок от (>с — !) й к гсб. Ясно, что разность Р— Р„достигает максимального зпачсция с> в одной из этих точек, причем если х„— точка максимума, то У,(хн) = (й — 1) д и А == хк — (й — 1) 6. (б) Слсдоеательпо, событие г! ~ е иаступает тогда, когда котя бы олпа из разисс>ей х„— (>с — 1) 6 скаже>ся болыпе е.
3>п неравенства задают лвшь часть всей области сс. Одиако перес>ацовкой х, ее можно перевести в любую другую аналогично шгределяемую часть области интегрирования (например, в х, < х, < х, «... х„). Такие перестановки ие меия>от цп с>упеичат<>й функции Р„, пи максимума А Все эти части области интегрирования имею> одинаковый объем и, следователыю, им соответс>вуют одинаковые вероятности. Грани шой поверхности х> =- х„соответствует вероятность, равная нулю. Таким образом, искомая вероятность (д равна (,>=я! д, (3) й 16. Оценки Фанкцна распределение Пусть де - — героятпость того, что это событие произошло в -,очке с индексом 7е и не произошло в точках с меньшими индексами 1 ( 1е.