4. Математическая статистика. Ивченко_ Медведев (1984) (1186157), страница 52
Текст из файла (страница 52)
Таким образом, 6(х) — это правило, ставящее в соответствие каждому результату наблюдения х я Х решение й=6(х) я ~П, которое должно быть принято. Функцию 6(х) называют решающей функцией (или решаюи(им правилом, илн процедурой), и ее следует выбирать в соответствии с некоторыми требованиями оптимальности. Принципы решения этой задачи развивает теория стапгистпическик решающих функций (теоргзя решений), разрабо- таииая А.
Вальдом (1950 г.). Кратко изложим некоторые основные идеи н результаты этой теории. 2. Функция риска и допустимые решающие правила. Пусть заданы класс распределений У =(Р(х; 9), 0~6», которому, по предположению, принадлежит распределение наблюдаемой случайной величины Х, и множество решений Ег=(г(», которые можно принимать на основании наблюдения над Х. Чтобы получить критерий выбора решающей функции, необходимо сравнить результаты использования различных правил 6. Введем для этого неотрицательную функцию потерь Е(0, с(), определенную на прямом произведении 6м0, где для каждых 9 еи6 и дев 0 число Е(9, й)~0 интерпретируется как убыток или потеря от принятия решения й при условии, что распределение Х есть Р(к; 9). Тогда для всякого правила 6 можно определить функцию )с (9, 6), называемую функцией риски, как среднее значение функции потерь Е(0, 6(Х)): )т (9, 6)=ЕвЕ(9, 6(Х)).
(6.() Таким образом, гг (О, 6) — это средние потери, которые имеют место в случае применения решающего правила 6, когда истинным распределением наблюдений является распределение Р(х; 9), Функция риска дает критерий сравнения различных решающих правил. Действительно, если имеются два правила 6' н 6 такие, что К (в, 6') - Р (9, 6), Ув ез 6, (6.2) со строгим неравенством хотя бы для одного 9, то, очевидно„ правило 6' предпочтительнее 6, так как использование 6' приво дит в среднем к меньшим потерям. С другой стороны, решающие правила 6, и бз могут оказаться несравнимыми по критерию(6.2), если )с(О, 6,) ()((О, бт) для некоторых значений О, а для остальных значений 9 имеет .место обратное неравенство.
Чтобы выбрать в такой ситуацки одно из двух правил, необходимо привлечь дополнительные соображения. Решающее правило 6 называют недопустимым, если существует правило 6', предпочтительнее 6 в смысле (6.2). Решающее правило, не являющееся недопустимым, называется допустимым. Все недопустимые решающие правила должны быть отвергнуты, так как для каждого из внх можно найти более оптимальное (в указанном смысле) правило. Если класс допустимых решающих правил состоит из единственного правила, то имеет место оптимальное решение. Но обычно этот класс достаточно широк и никакие два решакнцие правила из миожества допустимых несравнимы. Поэтолту для дальнейшего упорядочения допустимых правил и выбора среди иих лучшего привлекают дополнительные соображения. Для решения этой задачи в статистике традиционно применяют два подхода: байесовсний и минимаксньгй.
3. Байесовскве решение, При байесовском подходе дополнительно предполагается, что параметр 9 — это случайная величина с некоторым распределением, задаваемым плотностью распределения (или вероятностью в дискретном случае) я(9). (В таких случаях будем использовать одно и то же обозначение 0 как для случайной величины, так и для принимаемого ею значения, полагая, что это ие вызовет затруднений при чтении.) Это распределение называют априорным распределением параметра н считают известным. В этом случае можно подсчитать полную среднюю потерю от применения решающего правила 6. Эту потерю обозначают г (6) и называют байесовским риском; г (6) = ~ К (9, 6) я (9) 60.
Если 0 принимает дискретные значения, то вместо интеграла пишут соответствующую сумму. Таким образом, в такой (байесовской) ситуации каждое решающее правило характеризуется одним числом и, следовательно, все решающие правила могут быть упорядочены в соответствии со значениями этой характеристики. Оптимальной является процедура 6*, минимизирующая байесовский риск г(6); она называется байгсовским решением. Отметим, что 6' зависит от априорного распределения л, поэтому для различных априорных распределений параметра байесовские решения, вообще говоря, различны.
Вайесовское решение 6" находят на основании теоремы Байгса, согласно которой апостгриорног распределение параметра при условии Х =х задается плотностью распределения (нли вероятностью в дискретном случае) я (9 ~ х) = ( (х; О) и (ОД (х), (6.4) где )(х)=ег(х; 9)=)«(х; 9) н(0)60, или 7(х)= ",')(х; 9,)я(9,), « если 0 принимает дискретные значения Щ Тогда равенство (6.3) можно записать в виде г(6)=)Г(х)Е((.
(О, 6(Х))1Х=х]с$х (6.5) (если случайная величина Х днскретна, то вместо интеграла пишут соответствующую сумму), где математическое ожидание вычисляется относительно апостериорного распределения (6.4), т. е., например, в дискретном случае Е~У. (9, 6(Х)).'Х=х~= )';(.(8ь 6(х)) я(Ою ~х). (6.6) с Из соотношения (6.6) следует, что оптимальной являгвюя такая процедура, которая при каждом х минимизирует средние потери относительно апостгриорного распределения я (О ! х). Таким образом, для заданного априорного распределения параметра я(9) алгоритм нахождения байесовского решения имеет следующий вид: а) для Х =х ло «рормулг (6.4) находят апостериорное распределение н (О,' х); б) авслв эаюго для каждого водиожного решения а ен Б«вычис,«лют среднюю в« потерю относительно элюго алостгриорного распределения; ! 1 в) в качестве искомого выбирают рви«ение с минимальной средней потерей. в (Здесь предполагается, что такое ре- Рис.
бл шение входит в множество В, что всегда, в частности, имеет место для конечных множеств 0.) Отметим, наконец, что байесовское решение, построенное для любого распределения я(0))0, является допустимым. Действительно, пусть 6* — соответствующее байесовское решение н предположим, что существует процедура 6, для которой )г(0, 6)~ == «с(9, бь) со строгим неравенством на множестве значений 8, имеющем положительную (относительно распределения и) вероятность.
Тогда, очевидно, для соответствующих байесовских рисков имеет место (си. (6.3)) неравенство «(6)(г(6'). Но это противоречит факту, что байесовское правило минимизирует байесовский риск. 4. Минимаксное решение. Прн отсутствии априорной информации о 9 применяют прием упорядочения допустимых решающих правил, в котором в качестве основной характеристики функции риска «с(9, 6) используется ее максимальное значение (или максимальный риск) т(6)=зпр )т(9, 6). Тогда из двух решающих иав правил предпочтительным считают то, которому соответствует меньший максимальный риск.
Правило 6, миннмнзврующее т(6), называется минимаксным решающим правилом. Таким образом, миннмаксное правило избавляет от чрезмерных потерь: наихудший ожидаемый ущерб, связанный с использованием этого правила, настолько мал, насколько это возможно. Принцип мини- макса не всегда является благоразумным (рис. 6П). Здесь 6, имеет худшие свойства по сравнению с 6«для большинства значений 9, ио предпочтительнее 6, по принципу минимакса. В общем случае вопрос о существовании и строении минимаксного правила достаточно трудный н здесь не рассматривается.
Отметим один случай, когда удается просто установить минимакс. ность некоторого решающего правила. Именно: предположим, что существует апрйорное распределение параметра я(9))0, для которого функция риска соответствующего байесовского правила 6" постоянна: Я(9, 6*)=-а = =- сопз( (такое распределение л называют наименее благоприятным априорным распределением). Тогда би — минимаксное решение. Действительно, в противном случае существовала бы процедура 6, для которой максимальный риск т(6) (а. Но это означало бы, что «с(9, 6)(Й(9, 6*), 1гб, в противоречии с допустимостью байесовского решения.
Пример 6.1 (бгрнуллигвская модель, решающие правила для нег). Пусть Х вЂ” бериуллиевская случайная величина, причем вероят- ность «успеха» 0 может быть либо 0,=1/3, либо 6=1/2. Таким образом, здесь Х=(0, Ц, О=(1/3, !/2! и /(х; 6)=0 (1 — О)'-, х=О, 1. Пусть, далее, множество решений П состоит нз двух элементов 3, и г(в, а функция потерь А (Оь 3/) определяетси таблицей в, В данном случае для каждого х ~ Х возможны только два решения, а множество Х содержит две точки, поэтому всего имеютсн четыре решакяцие функции бм я=1, 2, 3, 4, а именно: бт(0) = =в(ь б (1) = б~; б (О) = 3п бв(1) = И; б,(О)=с(ь В,(!)=А; Ов(0)=дь бв(!) =А. По формуле (6.1), которая в данном случае имеет вид ~(0 б„(О))(1 — 6)+Б(0, б„(!)) 0„0=0, 0„ находим четыре вектора риска (Я(Оь б„), Й(6„8,)), й=1, ..., 4, числовые значения которых соответственно равны (О, 3); (2/3, 2); (4/3, 2); (2, 1).
Здесь процедура бв является недопустимой, так как процедура бв предпочтительнее, а среди допустимых процедур бь б, н б, две последние обладают мннимаксным свойством: гп(бв) = иг(бв) = 2 а т (б,) = 3. Следовательно, в данном случае в качестве минимаксной процедуры можно выбрать либо б„ либо бь $. Оцениваиие параметров и проверка гяпотез с позиций теории решений. В заключение отметим, что рассмотренные в предыдущих главах задачи оценнвання параметров н проверки гипотез также можно сформулировать в терминах принятия решений. Рассмотрим задачу точечной оценки скалярного параметра 6. Выбор статистики Т(Х), оценивающей О, можно трактовать как решающее правило, предписывающее принимать решение а,' о том, что оцениваемое значение параметра равно != Т(х), если наблюдаетсн Х = х. В этом случае функция потерь может быть, например, !.
(6, 4) = гв (( ! — 0 (), где е — строго возрастающая функция'ошибки !! — 6!. Если, в частности, выбрать е(г)г ав, то функция риска !т (6, б) = )т (9, Т) = Ев (Т (Х) — 9»' совпадает со среднеквадратической ошибкой оценки Т. В гл. 2 была рассмотрена задача отыскания оптимальных оценок (минимизирующих эту функцию риска) в классе иесмещенных оценок. Рассмотрим пример, иллюстрирующий возможности подхода с позиций теории решений. Нример 6.2 (минилаксная оценка всроятнасгии успеха а схеме Бернулли).