XVII Математическая статистика (1081432), страница 41
Текст из файла (страница 41)
Считая, что зависимость между х и у имеет вид у = 4>+Дх+13зхз, выполните следующее: а) найдите значения оценок параметров модели регрессии; б) проверьте значимость модели на уровне значимости о = = 0,01; в) проверьте значимость козффициентов Д и Яз на уровне значимости о = 0,01.
Таблица 7.15 Ответ: а) у = 0,200х — 0,102хз; б) модель значима; в) коэффициенты Д и,бз значимы. 7.19. В условиях задачи 7.14 проверьте адекватность простой линейной модели. О т в ет: модель адекватна. 7.20. В условиях задачи 7.19 постройте: а) доверительный интервал для среднего значения отклика в точке х = 5 с доверительной вероятностью 7 = 0,9; б) прогнозирующий интервал с доверительной вероятностью 7= 0,9. От нет: 1 — 0,814, — 0,674); (-0,802, — 0,686). 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА 8.1. Исходные понятия Объектами исследования дисмерсмомноео анализа являются стахастические связи между откликам и Яактора.ни, когда последние носят не количественный, а качественный характер.
Примерами таких факторов могут служить: — способ крепления детали при ее обработке; — режим функционирования прибора; — уронень квалификации оператора; — методика обучения (или лечения) и т.д. Чтобы подчеркнуть качественный характер факторов, будем их обозначать через А, В, С, ..., а отклик при этом — через Х. Каждый из факторов имеет несколько уровней, или градаций. Так, например, если Х вЂ” зто степень износа покрышки на колесе автомобиля, а выбранные факторы А и  — зто тип дороги и тип рисунка протектора, то различные уровни фактора А — различные типы дорог, различные уровни фактора  — различные рисунки протектора. Пусть наблюдаемый обьект обладает таким свойством, которое характеризуется переменным (откликом) Х и подвержено влиянию некоторых учитываемых факторов А, В и других, не контролируемых в данном эксперименте факторов. Зада ча дисперсионного анализа состоит в том, чтобы по результатам наблюдений эа этим объектом дать ответ на вопрос: следует ли считать действие факторов А и В существенным (значимым) на фоне остальных (неучтенных) факторов или нет? 8.2.
Однофакторнмй Лнсаерсионньйю анализ 341 Формулировка и пронерка соотнетствующих стаатпнсптичееких гипоптез для ответа на этот вопрос н является содержанием дисперсионного анализа. В зависимости от числа анализируемых факторов различают однофантпорный, двухфантпорный и т.д. диснерсионныб анализ. Мы здесь ограничимся рассмотрением однофакторного и двухфакторного дисперсионного анализа с постоянными (неслучайными) факторами. Подробное изложение предмета можно найти в литературе*. 8,2. Однофакториый дисперсиоиный анализ Будем предполагать, что исследователя интересует степень влияния фактора А на оппслнк Х.
Для конкретности, пусть Х вЂ” долговечность покрышки на колесе автомобиля, а фактор А — тип дорожного покрытия, который имеет 1 уровней (1— цеуое число). Пусть ро = МХ вЂ” среднее значение случайной величины Х и пусть хел — значение Х в т-м эксперименте, е = 1,пы соответствующем а-му уровню фактора А, /с = 1,1. Тогда математическую модель однофактпорного днсперс ионного анализа можно представить в виде'" (линет1нал модааь дисперсионного анализа) (8.1) Хг, = Р, +,„+ Ет.., се 1, Пы где оа — вклад в величину Хим обусловленный действием фактора А (ол — неслучайная величина); ета — вклад в Х;ю обусловленный действием неучтенных факторов (случайные ошибки эксперимента, т.е.
ета — случайные величины). Прн п этом ); ета = О. е=1 'См., напрнмер: Ше44е Г. ' Смл Ааеоаен С.А., Енюкоа Н.С., Мешалкин ЛД., 1985. 342 Н. ОСНОВЫ ДИСПЕРСИОННОГО А НА ЛИЗА Относительно случайных неличин г;~ сделаем те же предположения, что и в регрессионном анализе (см. 7.1, Т.З): — систематическая ошибка отсутствует, т.е. Мг;ъ = 0 для любых 1 и й; — случайные ошибки эксперимента г;ъ не коррелированы между собой и имеют одинаковую (неизвестную) дисперсию, т.е.
~ н, 1=З и к=т); М(е;ъе'~ ) = ( О, ю',-Еу или йф.т; — случайные ошибки эксперимента гъ имеют нормальный закон распределения с нулевым средним и неизвестной дисперсией аэ, т.е. г.и Ф(0, а~). Именно последнее допущение и позволит нам проводить проверку статистических гипотез, используя уже изнестные критерии, основанные на нормальном законе распределения наблюдаемых в эксперименте случайных неличин. Разумеется. принятые допущения требуют последующей проверки.
Однако на перном этапе исследования они являются вполне естестненными. С учетом принятых допущений о случайных ошибках эксперимента и на основании принятой модели (8.1) делаем заключение, что случайные величины Хьь имеют нормальный закон распределения со средним значением МХ;ь = Ро+ ол и дисперсией 1л Хне = аз, к = 1, Е Таким образом, действие фактора А проявляется в том, что для каждого его уровня и (й = 1, 1) результаты наблюдений над случайной неличиной (откликом) Х можно рассматривать как случайную выборку ХН„Хзю ..., Х„„у, объема пь из генеральной совокупности Хы причем каждая случайная неличина Хл, й = 1,1, нормально распределена со средним значением рл = но+ ол и дисперсией аз.
Л.З. Однофакторный Лнсаерсионный анализ 343 Отсюда следует, что статистическая гипотеза Но, предполагающая отсутствие влияния фактора А на отклик Х, означает, что иь = ро +сц, = ро, илн оь = О, /с = 1,1. В качестве альтернаспиеной гипоспезы Н1 могут выступать различные предположения о значениях величин ссь илн нх некоторых линейных комбинаций — далее этот вопрос рассмотрен подробно. Итак, задача проверки влияния фактора А на отклик Х по результатам эксперимента сводится к следующей формализованной постановке, если принята модель наблюдений (8.1) н сформулированные выше предположения о случайных ошибках эксперимента.
Пусть Хы ..., Хс — независимые случайные величины и Хь Ф(пыссз), й = 1,1. Пусть для каждого /с = 1,1 дана случайная выборка Х1ы ..., Х„л из генеральной совокупности случайной величины Хы которую далее мы будем называть к-й случайной выборкой. Требуется по этим данным проверить на заданном уровне эначумосгаи сс гипотезу Но. н1 = пз = ... = нс = ро (или, что то же самое, Но. о1 — — оз =... = си = О, если ~ц, = 1со+ еь, й = 1, 1). Для нашей интерпретации отклика Х (долговечность покрышки) и фактора А (тнп дорожного покрытия) каждая случайная величина Хы й = 1,1, характеризует долговечность покрышки на дорогах с Й-м типом покрытия. Отсутствие влияния фактора А, т.е.
выполнение гипотезы Но, означает, что на дорогах с любым типом покрытия средняя долговечность одна и та же. Если гипотеза Не неверна, то тип покрытия (фактор А) влияет на долговечность покрышки. Заметим, что прн наличии у фактора А только двух уровней (! = 2) наша задача сводится к проверке стандартной гипотезы о равенстве двух средних значений нормальных совокупностей (сь(. 4.2). Если фактор А имеет более двух уровней (1> 2), то для проверки гипотезы о равенстве 1 средних применяют одно1ракторный дисперсионный анализ, суть которого состоит в следующем. 344 8. ОСНОВЫ ДИСПЕРСИОННОГО АНАЛИЗА Пусть Хсь — г-й элемент к-й случа!1ноб выборки, ! = 1, иы й = 1, 1, и Хл — выборочное среднее к-й выборки, т.е. — 1 ' 1 Х„= — ~Х!, = — Х.„ иь л=! а Х вЂ” общее выборочное среднее: ч! Х= — ~ 'у Х,,=-ХЗ., ью! з=! где и = и!+...+ и! — общее число наблюдений.
Общая сумма квадратов отклонений наблюдений отклика от общего выборочного среднего Х может быть представлена в следующем виде: ~~> ~ (Хсл — Х)г = ~~> иь(Хь Х)г+ ~~! ~~> (Х ь Хь)г (8 2) ьж! зж! л=!!=! Это основное тождество дисперсионного аналиэа, которое бу- дем эаписывать кратко так: д(Х„) =дл(Х„)+<ЦХ„), (8.3) Хсь — Х = (Хл — Х) + (Хсь — Хь) где Я(Х ) — общая сумма квадратов отклонений отклика от общего среднего; ЯА(Х„) — сумма квадратов отклонений, обусловленных отличием выборочных средних Хь по группам (уровням) от общего выборочного среднего Х (среднее квадратичное отклонение между группами или между уровнями); ЩХ„) — сумма квадратов отклонений наблюдений от выборочных средних для каждого уровня (внутри групп).
Тождество (8.2) легко пронеряется, для чего нужно воэвести в квадрат н просуммировать по ! н к очевидное равенство 345 ая Ол р р Ил р» " амаее и учесть, что ае '„> ~(х;,-х,)(х,-х)=~ (х,-х)~ (х;,-х,)=о я=~ ем1 в силу определения выборочных средних Хь и Х. Действитель- но, внутренняя сумма (Хел — Хл) = ~~) Хел — пьХу, = плХь — влХь = О. Можно показать', что если гипотеза Не. р1 = рз =" = 1ц верна, то сенаенисеники Ял(Ха)/оз и Я~(Х„)/оз независимы н имеют Кз-распределение с числом степеней свободы соответственно 1 — 1 и и — 1, а статистики 5л(Х„) = Ял(Ха)/(1 — 1) и ЩХ„) = Я~(Х„)/(и — 1) являются несмееценными оценками неизвестной дисперсии оз.
Оценка 5лз(Х„) характеризует рассеяние средних значений Хл, а оценка 5ДХ„) — рассеяние выборочных значений Хел внутри групп, которое обусловлено действием неучтенных факторов. Значительное превышение величины 5лз(Х„) над значением величины 5~~(Х„) можно объяснить различием средних значений ты к = 1,1, в группах (для различных уровней фактора А), т.е. существенным влиянием фактора А. Таким образом, если гипотеза Но. 1е1 — — рз = ... — — 1ц верна, Я„(х„)/(1 — 1) 5,',(Х.) 9р(Х„)/(и — 1) 5з(Х„) т.е. статистика г имеет распределение Фишера с числом степеней свободы гл =1 — 1 и ц = и — 1 (см. Д.3.1). Статистику Г используют для проверки гипотезы Но.
н1 = = ... = 1ц = 1ео. Гипотеза Но не протнноречит результатам 'Сна Крамер Г. 346 Н ОСНОВЪ| ДИСПЕРСИОННОГО АНАЛИЗА наблюдений, если выборочное значение Р;, статистики (8.4) меньще ее критического уровня г'„р — — г1 (гл,г1), т.е. если св ~~ скр = Р1-в(ГА~ Г1). Если жр гв ) гкр = г1-в(ГА1Г1)~ то гипотеза Но отклоняется и следует считать, что среди средних значений |11, ..., |11 имеются хотя бы два, не равных друг другу.
В случае принятия гипотезы Но в качестве несмещенных оценок паРаметРов ||о и оз можно взлть соответственно Х и 52 = а[(Х„)/(и |). Результаты пронерки гипотезы Но принято оформлять в виде так называемой тваблицы оисперсиокмоео анализа (табл. 8.1). Таблица 8. | Пример 8.1. Три группы операторов ЭВМ обучались по трем различным методикам. После окончания срока обучения 8.2. Однофакторный десперсионыый анааиз 347 был проведен тестовый контроль случайно отобранных операторов из каждой группы. Получены следующие результаты (табл. 8.2).