Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 39

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 39 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 392019-05-092019-05-09СтудИзба

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 39)

При наличии совпадений (и использованиисредних рангов) теоретическая схема действует как приближенная, анадежность ее выводов снижается тем больше, чем больше совпадений.Ниже мы укажем, какие поправки делаются при наличии совпадений.Упорядочим величины xij (все равно как — от большего к меньшему,либо от меньшего к большему). Обозначим через rij ранг числа xijво всей совокупности. Тогда табл. 6.1 преобразуется в табл.

6.2.Важно отметить, что при выполнении гипотезы H0 любые возможныерасположения рангов по местам в табл. 6.2 равновероятны.Таблица 6.2ОбработкиРанги результатовизмерений1r11r21...rn1 12r12r22...rn2 2............kr1kr2k...rnk kСогласно сформулированной стратегии анализа возникает вопрос:нельзя ли объяснить наблюденное в опыте расположение рангов втабл. 6.2 действием чистой случайности? Этот вопрос можно перефор"мулировать в виде статистической гипотезы о том, что все k предста"вленных выборок (столбцы табл. 6.1) однородны, т.е.

являются выбор"ками из одного и того же закона распределения. Наша задача — указатьстатистический критерий, с помощью которого можно было бы судитьо справедливости выдвинутой гипотезы.Общая методика проверки статистических гипотез (см. п. 3.2) ре"комендует нам сконструировать некоторую статистику, т.е. в данномслучае функцию от рангов rij , которая бы легла в основу критерияпроверки гипотезы. Основное требование к этой статистике следую"щее: ее распределение при гипотезе H0 должно заметно отличаться отее распределения при альтернативах.

Последние слова подчеркивают,что статистический критерий для проверки H0 должен быть направленпротив определенной совокупности альтернатив.Как уже отмечалось, все реализации табл. 6.2 равновероятны приH0 . Это дает возможность рассчитать закон распределения при H0любой ранговой статистики (насколько это позволяют компьютерныесредства).Ниже будут разобраны два ранговых критерия проверки однород"ности, направленные против различных совокупностей альтернатив(пп 6.2.1 и 6.2.2). Построение непараметрических оценок эффектовобработки изложено в пункте 6.4. Параметрические методы (дисперси"онный однофакторный анализ) описаны в пп.

6.5 и 6.6.1936.2. ! ……6.2.1. /0(ƒ… …)Если мы не можем сказать что"либо определенное об альтернативахк H0 , можно воспользоваться для ее проверки свободным от распреде"ления критерием Краскела–Уоллиса. Для этого заменим наблюденияxij их рангами rij , упорядочивая всю совокупность ||xij || в порядке воз"растания (для определенности). Затем для каждой обработки j (т.е. длякаждого столбца исходной таблицы) надо вычислитьnjnj1 rij и R·j =rij ,Rj =n j i=1i=1где R·j — это средний ранг, рассчитанный по столбцу. Если ме"жду столбцами нет систематических различий, средние ранги R·j ,j = 1, .

. . , k не должны значительно отличаться от среднего ранга,рассчитанного по всей совокупности ||rij ||. Ясно, что последний равен(N + 1)/2. Поэтому величины22N +1N +1R·1 −, . . . , R·k −22при H0 в совокупности должны быть небольшими. Составляя общую ха"рактеристику, разумно учесть различия в числе наблюдений для разныхобработок и взять в качестве меры отступления от чистой случайностивеличину2k12N +1H=nj R·k −.(6.1)N (N + 1) j=12Эта величина называется статистикой Краскела–Уоллеса. Мно"житель 12/[N (N + 1)] нужен для стабилизации ее распределения прибольшом числе наблюдений (см. ниже).

Другая форма для вычи"сления H:kRj212H=− 3(N + 1).(6.2)N (N + 1) j=1 njТаблицы и асимптотика. Небольшие таблицы распределения ста"тистики H при гипотезе H0 можно найти в сборниках статистическихтаблиц. При больших объемах n1 , . . . , nk , которые находятся за пре"делами таблиц, случайная величина H (при гипотезе H0 ) приближенно194распределена как хи"квадрат с (k − 1) степенями свободы (сведения оболее точной аппроксимации можно найти в [65]). Так что при исполь"зовании этого приближения мы отвергаем H0 (на уровне значимости α),если Hнабл.

> χ21−α , где χ21−α — квантиль уровня (1 − α) распределенияхи"квадрат с (k − 1) степенями свободы.Совпадающие значения. Если в табл. 6.1 есть совпадающиезначения, надо при ранжировании и переходе к табл. 6.2 использоватьсредние ранги. Если совпадений много, рекомендуют использоватьмодифицированную форму статистики H :H =1−'gH(,3j=1 Tj /[N − N ]Статистикой Манна–Уитни называют величинуU=ϕ(x, y).i=1,... , mj=1,... , nОбратившись теперь к общему случаю, когда сравниваются k спо"собов обработки, поступим следующим образом.

Для каждой парынатуральных чисел u и v, где 1 u < v k, составляем по выборкамс номерами u, v статистику Манна–Уитни.ϕ(xiu , yjv ).Uu,v =i=1,... , muj=1,... , nv(6.3)где g — число групп совпадающих наблюдений, Tj = (t3j − tj ), tj —число совпадающих наблюдений в группе с номером j. Более подробныесведения по этому поводу можно найти, например, в [115].Замечание. При k = 2 статистика Краскела–Уоллиса H по своему дей"ствию эквивалентна статистике Уилкоксона W .6.2.2. &›…(… …)Нередко исследователю заранее известно, что имеющиеся группырезультатов упорядочены по возрастанию влияния фактора.

Пусть, дляопределенности, первый столбец табл. 6.1 отвечает наименьшему уров"ню фактора, последний — наибольшему, а промежуточные столбцыполучили номера, соответствующие их положению. В таких случаяхможно использовать критерий Джонкхиера, более чувствительный (бо"лее мощный) против альтернатив об упорядоченном влиянии фактора.Разумеется, против других альтернатив свойства этого критерия могутоказаться хуже свойств критерия Краскела–Уоллиса.Статистика Джонкхиера.

Разберем сначала, как устроена стати"стика этого критерия в случае, когда сравниваются только два способаобработки. Табл. 6.1 в этом случае имеет два столбца. Фактически здесьречь идет о проверке однородности двух выборок. Напомним, что в главе3 для решения этой задачи была предложена статистика Манна–Уитни.А именно: пусть x1 , . .

. , xm и y1 , . . . , yn — две выборки. Положим:если xi < yj ; 1,ϕ(xi , yj ) = 1/2,если xi = yj ;0,если xi > yj .195Определим статистику Джонкхиера J какJ=Uu,v .1u<vkСвидетельством в пользу альтернативы упорядоченности эффектов(против гипотезы однородности) служат большие значения статистикиJ, полученные в эксперименте.Таблицы и аппроксимация. При небольших объемах выборок инебольшим k распределение статистики J табулировано (см., например,[115]).

Для больших выборок в отношении J действует нормальнаяасаппроксимация: J ∼ N (M J, DJ), где M J и DJ равны:kk1 2 21  2M J = (N −nj ), DJ =N (2N + 3) −n2j (2nj + 3) .472j=1j=1Свидетельством против гипотезы однородности служат большие(сравнительно с процентными точками стандартногонормального рас"√пределения) значения статистики (J − M J)/ DJ, полученные в экспе"рименте (сведения о более точной аппроксимации можно найти в [65]).6.3. Проиллюстрируем применение описанных выше критериев на следу"ющем примере.

Для выяснения влияния денежного стимулирования напроизводительность труда шести однородным группам из пяти человеккаждая были предложены задачи одинаковой трудности. Задачи пред"лагались каждому испытуемому независимо от всех остальных. Группыотличаются между собой величиной денежного вознаграждения за ре"шаемую задачу. В следующей таблице приведено число решенных задаччленами каждой группы. Данные приведены из [33].196Таблица 6.3Величина вознаграждения (от меньшей к большей)группа 110119137группа 2810161312группа 3121714916группа 41215161619группа 52416221820группа 61918272524Проверим гипотезу об отсутствии влияния денежного вознагражде"ния на число решенных задач.

Отметим, что величины, приведенные втаблице, имеют смысл и сами по себе, а не только в сравнении с дру"гими величинами. Это широко распространенная ситуация, в которойтакже часто целесообразно применять ранговые критерии Краскела–Уоллиса или Джонкхиера, хотя при переходе от величины xij к ихрангам уже происходит определенная потеря информации. Однако ча"сто подобная потеря информации, во"первых, не столь значительна, аво"вторых, компенсируется тем, что от обычно неизвестного закона рас"пределения величин xij мы переходим к величинам rij , распределениекоторых при гипотезе H0 известно.

Если же мы можем полагать, чтовеличины xij имеют нормальный (гауссовский) закон распределения,для их исследования можно применить методы дисперсионного анализа,рассматриваемые ниже в пп. 6.5 и 6.6.Применение критерия Краскела–Уоллеса. В связи с наличиемв табл. 6.3 совпадений мы будем вынуждены воспользоваться среднимирангами.

Так, значение xij = 10 встречается в табл. 6.3 дважды, и приупорядочении xij оно «делит пятое и шестое места». Поэтому среднийранг xij = 10 равен 5.5. В результате ранжирования получим табл. 6.4.В двух нижних строках приведены суммы рангов Rj и средние рангиR·j = Rj /nj по столбцам.Для вычисления статистики Краскела–Уоллиса H удобнее вос"пользоваться формулой (6.2). В нашем случае общее число на"блюдений N = 30, число наблюдений при заданном значении фак"тора nj = 5, j = 1, . .

. , 6. Подставляя эти значения, получаем:H = 17682/155 − 93 = 21.077.Как было указано, величина H асимптотически имеет распределениеχ2 с числом степеней свободы, равным в данном случае 5. По таблицераспределения χ2 находим, что минимальный уровень значимости αчуть больше 0.001. Заметим, что этот вывод является приближеннымв связи с тем, что в табл. 6.3 было определенное число совпаденийнаблюдений xij . Для учета влияния связей можно воспользоватьсястатистикой H (6.3). В нашем случае имеем следующие восемь группсовпадающих наблюдений:9, 9; 10, 10; 12, 12; 13, 13; 16, 16, 16, 16, 16; 18, 18; 19, 19; 24, 24.Соответственно: T1 = (23 − 2) = 6, T2 = (23 − 2) = 6, T3 = (33 − 3) =24, T4 = 6, T5 = (53 − 5) = 120, T6 = 6, T7 = 6, T8 = 6. Знаменатель8дроби в выражении для H равен: 1 − j=1 Tj /(303 − 30) = 1 − 6/899, асамо значение H приблизительно равно 21.2186.Так как скорректированное значение H статистики Краскела–Уоллиса несущественно отличается от значения H, мы можем отверг"нуть гипотезу на минимальном уровне значимости около 0.001.Применение критерия Джонкхиера.

Характеристики

Тип файла

PDF-файл

Размер

3,06 Mb

Материал

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

ju.n.-tjurin-a.a.-makarov-analiz-dannyh-na-kompjutere.rar

Прочти меня!!!.txt

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.