Секей Г. Парадоксы в теории вероятностей и математической статистике (1990) (1151962), страница 26
Текст из файла (страница 26)
г) Замечание Другие парадоксы проверки гипотез будут обсуждаться в равд. 12 и 13. д) Литература Ьеьгпвпп Е. 1.. Тсяапу В!а!енса) ВуроГЛсяся, %!!еу, Незг УогЬ, 1959. (Имеетск перевод; Леман Э. Проверка статистических гнпотез.— Мс Наука, 1979. еуспап Л. "Ттчо ЬгеаЫЬгоиКЬ )п йе йеогу о( в1а(вк!са! вес!в(оп птаЬ1пн", !пссгпа!. ВГапяг. Л(со., 30, ! 1 — 27, (1902). Хеугаап Л., Еяоп 5.
"Реагвоп (Аваев! !1, 1895 — Липе 12, 1980)", Лапам о( 51аиы., 9, 1 — 2, (1981). Хеуптап Л., Реагвоп Е. 5. "Оп йе ргоЫепт о! йе гпов1 е(!1с)еп! 1ев1 о1 Ыанвнса! Ьуройезев", РЛ!!. Тгапя. )1оу, Вос., 231, 289 — 337, (1933). коЬЫпз Н, "Авупгр1о1!са!!у виЬппп!свах зо)иноп о! йе соптроипа в(а1!енса! Еепв!оп ргоыегп", Ргос. 2па' Всгас1еу Вугпр. оп Л(аГЛ. В(а(ас. апс! Ргоз„ 131 — 148, Уп!ч. Саиб Ргевв, Вег)ге!еу, (1950). 11.
Парадокс Реньи из теории информации а) История парадокса Одной из основных задач теории информации является измерение количества информации. Основатели этого раздела математики (К. Шеннон, Н. Винер и другие) понимали, что количество информации измеряется числом, не зависящим от дей- ствительного значения и вида информации, подобно тому, как объем тела, которое может изменять свою форму, от формы не зависит.
Единицей измерения информации служит информационное содержание ответа «да» или «нет». В двоичном коде эту информацию можно записать одной цифрой (например, ! для «да», 0 для «нет»)„которая называется битом (Ы! — сокращение от Ыпагу б(п!!). Такое сокращение особенно удобно, так как слово «Ы!» означает «кусочек». Содержание информации измеряется средним количеством двоичных кодов, необходимых для записи информации. Если случайная величина может принимать только конечное или счетное число значений с положительными вероятностями рь рь ..., то согласно формуле Шеннона ее количество информации равно Н =Н(ро р„...) = ~, р, !оп р Ф где 1оп означает логарифм по основанию 2.
Величина Н называется энтропией вероятностного распределения рь рь рз, .... Это в средняя длина наиболее экономичных кодовых комбинаций, с помощью которых можно описать все исходы для событий, происходящих с вероятностями рь рь .... Увеличение информации является другим важным понятием теории информации. Если наблюдение случайной величины (или события) изменяет вероятностное распределение с рь рь р„...
на дь дь дз...., то количество полученной информации равно д, (оп — '. Пусть теперь неизвестный параметр О некоторого вероятностного распределения является случайной величиной (в соответствии с байесовским подходом в математической статистике). Для простоты предположим, что О может принимать лишь конечное или счетное число значений с вероятностями рь рм р,, .... Таким образом, энтропия величины О равна Н(0) = Н(рь рь рь ). Далее, предположим, что случайная выборка Х = (Хь Х„..., Х„) также может состоять лишь из конечного или счетного числа различных значений с положительными вероятностями оь дь д„....
Наконец, пусть г,~ обозначает вероятность того, что 0 принимает /-е значение (с вероятностью р;) и в то же время Х принимает л-е значение (с вероятностью с»). Тогда количество информации относительно О, полученное в результате наблюдения Х, равно ((Х, 0)=~~ г 1оп ь» Ргч» ' функция 1(Х) =1(Хь Хь ..., Х„) от выборки Х называется достаточной, если /(1(Х), О) =!(Х, О), т. е. если 1(Х) содержит столько же информации о О, как исходная выборка Х.
Если функция 1, вообще говоря, не является достаточной, то отношение !(1(Х), О)//(Х, О) показывает, во сколько раз изменяется количество информации о О, если вместо полной выборки взять 1(Х). Свойство, заключающееся в том, что при проведении все большего числа наблюдений можно в конце концов получить всю информацию о О, на языке теории информации выражается следующим образом. Если наблюдения Хь Х„... являются независимыми одинаково распределенными случайными величинами, распределение которых Рз различно для разных значений параметра О, то Иш /((Хь Х„..., Х,), О) = Н(О).
Парадокс л-ь в А. Реньи, обсуждаемый ниже, возник из применения теории информации для проверки гипотез. б) Парадокс Наблюдая случайную величину Х, которая связана с событием А, мы хотели бы отгадать, произошло событие А или нет. Если событие А происходит с вероятностью Р(А) = р, то количество информации, содержащееся в А, равно Н(р, 1 — р). После наблюдения величины Х мера оставшейся неопределенности запишется в виде Нх =Е(Н(Р(А(Х), 1 — Р(А)Х))),где Р(А)Х) означает условную вероятность события А относительно Х. Следовательно, количество информации относительно А при условии, что наблюдалась величина Х, равно /(Х А)=Н'(р 1 р) Нх. Наблюдая Х, положим г((Х) =1, если мы решили, что А произошло, и д(Х) = О в случае, если произошло событие, противоположное А, т.
е. Х. Вероятность неверного решения (ошибки) равна 6 = рР (д (Х) = О 3 А) + (1 — Р) Р (г((Х) = 1 ( А). Легко доказать (например, с помощью фундаментальной леммы Неймана — Пирсона, см. П/10), что никакое решение не может иметь ошибку б меньше, чем следующее «стандартное решениехс 1, если Р(А(Х) > Р(А)Х) дь(Х) = О, если Р(А1Х) < Р(А1Х) Если Р(А~)Х) =Р(Х(Х), то положим Иь(Х) =1 с вероятностью р и О с вероятностью 1 — р.
Парадокс, возникающий здесь, со- стоит в следующем. Пусть У=)(о(Х). Тогда информация относительно А, содержащаяся в У, определяется формулой ! (У, А) = Н(р, 1 — р) — Нг. Но У есть функция от Х, поэтому 1(У, А) ( !'(Х, А). Равенство имеет место тогда и только тогда, когда Р(А)Х) может принимать только два различных значения, т.
е. вообще говоря, Х содержит об А информации больше, чем У. Тем не менее, зная Х, мы не можем выбрать решение относительно А лучше, чем если бы мы знали лишь У = )(з(Х). Отсюда следует, что, хотя в Х содержится, вообще говоря, больше информации об А, чем в У, однако, использовать эту дополнительную информацию невозможно. в) Объяснение парадокса Дополнительную информацию можно использовать, наблюдая другую случайную величину.
Пусть, например, 2 = Х + О, где О в индикатор события А. Это означает, что (1 = 1, если событие А произошло, и О в противном случае. Очевидно, наблюдая одновременно Х и Х, мы получим полную информацию относительно А, т. е. дополнительная информация относительно А, скрытая в Х, может быть использована в результате наблюдения вспомогательной величины Я. г) Замечания Теория информации тесно связана с рядом практических задач, например, с поиском оптимальных способов дистанционной передачи данных или с основаниями биологии (см.
ссылки ниже). д) Литература Авь. В. В. 1л(огтанои ТЬеогу, %неу, Ыем Уогц 1966. Вг!оип)п ).. Вс(зисе алд 1л)оттенил ТЬеогу, Ыем Уогц Асадет)с Ргевв, !956. (Имеетса перевод: Бриллюзн Л. Наука н теория информации.— М.; Физматгиз, 19671. Ки!)Ьаск 5 1и/огтаиои Тнеогу алд Б)анвИсз, агпеу, нем уогЬ, )959.
[Имеется перевод: Кульбак С. Теория информации и статистика. Мс Наука, 19671. Яиав)ег Н. (ед.). (и)огтанои ТЬеогу )л В1о!оуу, Нп)т. )Шпо)а Ргезв, ()гЬапа, 1953. Непу! А Яо!ев ол (л)огтаИои ТЬеогу, А1)адбппа! К)адб, Видарев1, 1964 5Ьаппоп С., %еатег )Н, Тне Мо!Летанса! ТЬеогу о) Соттии!санои, ))п)п И!шоы Ргезв, ()гЬапа. 1949. Титан Р. (ед.). Бе!ес1ед Рарегв о) А!)гдд )(еиу), Аьадет)а! К!адб, Видарев1, Но). 111, 442, 1976. уаа!от А. М., уая!от 1. М. Н)пжп уа.
А. Машетанса! Роииданои о! 1л)огтанои ТЛеогу ()п Нипяаг!ап) МбвваЫ КопутЫадо, Видарев), 1959. 12. Парадокс Ф-критерия Стьюдента а) История парадокса В классической теории математической статистики предполагается, что элементы выборки (наблюдения) заранее известны. В основе одного из важнейших направлений современной статистики лежит понимание того, что не нужно фиксировать заранее объем выборки, его следует определять в зависимости от результатов более ранних наблюдений. Таким образом, объем выборки случаен. Эта идея последовательного выбора постепенно развивалась в работах Г. Доджа и Г. Ромига (1929 г.), П.
Макаланобиса (1940 г.), Г. Хогеллинга (1941 г.) и У. Бертки (1943 г.), но настоящим основателем теории последовательного анализа в математической статистике является А. Вальд (1902 †19 гг.). Его последовательный критерий отношения правдоподобия (1943 г.) стал важным открытием, позволившим (в типичных ситуациях) на 50!1! уменьшить среднее число наблюдений (при тех же вероятностях ошибок). Неудивительно, что в годы второй мировой войны открытие Вальда было объявлено «секретным».
Его основная книга «Последовательный анализ» опубликована лишь в 1947 г. Год спустя Вальд и Дж. Волфовиц доказали, что методы, отличные от последовательного критерия отношения правдоподобия, не дают такого уменьшения числа элементов выборки. Но и в этой области обнаружились парадоксы. Здесь мы обсудим парадокс, принадлежащий К. Сгейну, хотя этот парадокс относится к двухшаговым критериям, а не к последовательным. б) Парадокс Пусть Х!, Хз, ..., Х.— выборка из независимых нормально распределенных случайных величин с общим неизвестным математическим ожиданием О и общим неизвестным стандартным отклонением а. На основе этой выборки мы хотим различить следующие нулевую и альтернативную гипотезы.