25508-1 (707523)

Файл №707523 25508-1 (Методы оценки близости допредельных и предельных распределений статистик)25508-1 (707523)2016-08-01СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

4



Методы оценки близости допредельных и предельных распределений статистик

Рассматривается проблема оценки близости предельных распределений статистик и распределений, соответствующих конечным объемам выборок. При каких объемах выборок уже можно пользоваться предельными распределениями? Каков точный смысл термина "можно" в предыдущей фразе? Основное внимание уделяется переходу от точных формул допредельных распределений к пределу и применению метода статистических испытаний (Монте-Карло). Обсуждаются "подводные камни" на пути исследователя в рассматриваемой области.

1. Асимптотическая математическая статистика

и практика анализа статистических данных

Как мы обычно подходим к обработке реальных данных в конкретной прикладной задаче? Первым делом строим статистическую модель. Если мы хотим перенести выводы с совокупности результатов наблюдений на более широкую совокупность, например, предсказать что-либо, то рассматриваем, как правило, вероятностно-статистическую модель. Например, традиционную модель выборки, в которой результаты наблюдений - реализации независимых (в совокупности) одинаково распределенных случайных величин. Очевидно, любая модель лишь приближенно соответствует реальности. В частности, естественно ожидать, что распределения результатов наблюдений несколько отличаются друг от друга, а сами результаты связаны между собой, хотя и слабо. И эти ожидания во многих конкретных случаях оправдываются (в терминах конкретной прикладной ситуации см. об этом, например, в монографии [1]).

Итак, первый этап - переход от реальной ситуации к математической модели. Далее - неожиданность: на настоящем этапе своего развития математическая теория статистики зачастую не позволяет провести необходимые исследования для имеющихся объемов выборок. Более того, отдельные математики пытаются оправдать свой отрыв от практики соображениями о структуре этой теории, на первый взгляд убедительными. Неосторожная давняя фраза Б. В. Гнеденко и А. Н. Колмогорова: "Познавательная ценность теории вероятностей раскрывается только предельными теоремами" [2] взята на вооружение и более близкими к нам по времени авторами. Так, И. А. Ибрагимов и Р. З. Хасьминский пишут: "Решение неасимптотических задач оценивания, хотя и весьма важное само по себе, как правило, не может являться объектом достаточно общей математической теории. Более того, соответствующее решение часто зависит от конкретного типа распределения, объема выборки и т. д. Так, теория малых выборок из нормального закона будет отличаться от теории малых выборок из закона Пуассона" [3, с.7].

Согласно цитированным и подобным им авторам, основное содержание математической теории статистики - предельные теоремы, полученные в предположении, что объемы рассматриваемых выборок стремятся к бесконечности. Эти теоремы опираются на предельные соотношения теории вероятностей, типа Закона Больших Чисел и Центральной Предельной Теоремы. Ясно, что сами по себе подобные утверждения относятся к математике, т. е. к сфере чистой абстракции, и не могут быть непосредственно применены для анализа реальных данных. Их использование опирается на важное предположение: "При данном объеме выборки достаточно точными являются асимптотические формулы. "

Конечно, в качестве первого приближения представляется естественным воспользоваться асимптотическими формулами, не тратя сил на анализ их точности. Но это - лишь начало долгой цепи исследований. Как же обычно преодолевают разрыв между результатами асимптотической математической статистики и потребностями практики статистического анализа данных? Какие "подводные камни" подстерегают на этом пути? Обсуждению этих вопросов и посвящена настоящая статья.

2. Точные формулы и асимптотика

Начнем с наиболее продвинутой в математическом плане ситуации, когда для статистики известны как предельное распределение, так и распределения при конечных объемах выборки.

Примером является двухвыборочная односторонняя статистика Н.В.Смирнова. Рассмотрим две независимые выборки объемов m и n из непрерывных функций распределения F(x) и G(x) соответственно. Для проверки гипотезы однородности двух выборок

H0 : F(x) = G(x) для всех действительных чисел x

в 1939 г. Н.В.Смирнов в статье [4] предложил использовать статистику

D+(m,n) = sup ( Fm(x) - Gn(x) ) ,

где супремум берется по всем действительным числам x. Для обсуждения проблемы соотношения точных и предельных результатов ограничимся случаем равных объемов выборок, т.е. m = n. Положим

H(n, t) = P ( D+(n,n) $ t n - 1/2) .

В цитированной статье [4] Н,В. Смирнов показал, что при безграничном возрастании объема выборки n вероятность H(n, t) стремится к exp ( - t 2 ).

В работе [5] 1951 г. Б.В.Гнеденко и В.С.Королюк показали, что при целом с = t n1/2 (именно при таких t вероятность H(n, t) как функция t имеет скачки, поскольку статистика Смирнова D+(n,n) кратна 1/ n ) рассматриваемая вероятность H(n, t) выражается через биномиальные коэффициенты, а именно,

(1).

К сожалению, непосредственные расчеты по формуле (1) возможны лишь при сравнительно небольших объемах выборок, поскольку величина n!.уже при n=100 имеет более 200 цифр и не может быть без преобразований использована в вычислениях. Следовательно, наличие точной формулы для интересующей нас вероятности не снимает необходимости использования предельного распределения и изучения точности приближения с его помощью.

Широко известная формула Стирлинга для гамма-функции и, в частности, для факториалов позволяет преобразовать последнее выражение в асимптотическиое разложение, т.е. построить бесконечный степенной ряд (по степеням n ) такой что каждая следующая частичная сумма дает все более точное приближение для интересующей нас вероятности H(x, t) . Это и было сделано в работе А.А.Боровкова [6], опубликованной в 1962 г. Большое количество подобных разложений для различных статистических задач приведено в работах [7-9] В.М.Калинина и О.В. Шалаевского в конце 60-х - начале 70-х годов. (Интересно отметить, что асимптотические разложения в ряде случаев расходятся, т.е. остаточные члены имеют нетривиальную природу.)

В наших работах конца семидесятых годов была сделана попытка теоретически оценить остаточный член второго порядка. Итоги подведены в статье [10] и монографии [11, § 2.2, с.37-45]. Справедливо равенство

H(n, t) = exp ( - t 2 ).(1 + f(t)/n + g(n,t)/ n2 ),

где

f(t) = t2 (1/2 - t2/ / 6 ).

Целью указанных работ было получение равномерных по n, t оценок остаточного члена второго порядка g(n,t) сверху и снизу в области, задаваемой условиями

0 < t n - 1/2 < А, 0 < t < t max , n $ n0 . (2)

С помощью длинных цепочек оценок остаточных членов в формулах, получаемых при преобразовании формулы (1) к предельному виду, сформулированная выше цель была достигнута, и для различных наборов параметров А, t max , n0 получены равномерные по n, t оценки остаточного члена второго порядка g(n,t) сверху и снизу в области (2). Так, например, при А = 0,5, t max = 1,73, n0 = 8 нижняя граница равна (- 0,71), а верхняя есть 2,65.

Основными недостатками такого подхода являются являются , во первых, зависимость оценок от параметров А, t max , n0 , задающих границы областей, во-вторых, завышение оценок, иногда в сотни раз, обусловленное желанием получить равномерные оценки по области (оценкой реальной погрешности в точке является значение следующего члена асимптотического разложения).

Поэтому при составлении рассчитанной на практическое использование методики [12] проверки однородности двух выборок с помощью статистики Смирнова мы перешли на другую методологию (назовем ее "методологией заданной точности"), которую кратко можно описать следующим образом.

а) Выбирается достаточно малое число р, например р = 0,05 или р = 0,20.

б) Приводятся точные значения H(n, t) для всех значений n таких, что

| H(n, t) - exp ( - t 2 ) | > p exp ( - t 2 ) .

в) Если же последнее неравенство не выполнено, то предлагается пользоваться вместо H(n, t) предельным значением exp ( - t 2 ).

Таким образом, принятая нами в методике [12] методология предполагает интенсивное использование вычислительной техники. Результат расчетов - граничные значения объемов выборок n(p,t) такие, что при меньших значениях выброк рекомендуется пользоваться точными значениями, а при больших - предельными, - описывается таблицей, а не формулой. Отметим, что при построении реальных таблиц не обойтись без выбора того или иного конкретного значения р, задающего объемы таблиц.

3. Оценки скорости сходимости

Теоретические оценки скорости сходимости в различных задачах математической статистики иногда формулируются в весьма абстрактном виде. Так, в 60-70-х годах была популярна задача оценки скорости сходимости распределения классической статистики омега-квадрат (Крамера-Мизеса-Смирнова). Для максимума модуля допредельной и предельной функций распределения этой статистики различные авторы доказывали, что для любого e>0 существует константа С(e) такая, что упомянутый максимум не превосходит С(e) n - w + e . Прогресс состоял в увеличении константы w. Сформулированный выше результат был доказал последовательно для w = 1/10, 1/6, 1/5, 1/4, 1/3, 1/2 и 1 (подробнее история этих исследований рассказана в § 2.3 монографии [11]).

Конечно, все эти исследования не могли дать конкретных практических рекомендаций. Однако необходимой исходной точкой является само существование предельного распределения. Представим себе, что некто, не зная, что у распределения Коши нет математического ожидания, моделирует выборочные средние арифметические наблюдений из этого распределения. Ясно, что его попытки оценить скорость сходимости выборочных средних к пределу обречены на провал.

Последовательное улучшение теоретических оценок скорости сходимости дает надежду на быструю реальную сходимость. Действительно, как показано в статье [13], предельным распределением для указанной статистики можно пользоваться уже при объеме выборки, равном 4.

4. Использование датчиков псевдослучайных чисел

Если же предельное распределение известно то возникает возможность изучить скорость сходимости численно методом статистических испытаний (Монте-Карло). Именно так поступила Г.В.Рыданова в своей диссертации [14], реализуя описанную выше "методологию заданной точности". ПРи этом возникли две проблемы.

Во-первых, откуда известно, что скорость сходимости монотонна? Если при данном объеме выборки различие мало, то будет ли оно мало и при дальнейших? Иногда отклонения допредельного распределения от предельного объясняются довольно сложными причинами. Так, для распределения хи-квадрат они связаны с до сих пор не решенными теоретико-числовыми проблемами о числе целых точек в эллипсоиде растущего диаметра. "Подводные камни", связанные с распределением хи-квадрат. разобраны в статье М. Мирвалиева М.С.Никулина [15].

Во-вторых, с помощью датчиков псевдослучайных чисел получаем допредельные распределения с погрешностью, которая может преуменьшать различие. Поясним мысль аналогией. Растущий сисгнал измеряется с погрешностями. Когда можно гарантировать, что его величина наверняка превзошла заданную границу? Не будем здесь обсуждать известные подходы к решению этой задачи.

Проблема качества датчиков псевдослучайных чисел продолжает оставаться открытой. В журнале "Заводская лаборатория" с 1985 г. по 1993 г. продолжалась активная дискуссия по этой проблеме, завершившаяся статьей С.М.Ермакова [16] и нашим комментарием [17] к нему. Для моделирования в пространствах фиксированной размерности датчики псевдослучайных чисел решают поставленные задачи. Но для рассматриваемых нами задач размерность не фиксирована - мы не знаем, при каком конкретно объеме выборки можно переходить к предельному распределению согласно "методологии заданной точности".

Нужны дальнейшие работы по изучению качества датчиков псевдослучайных чисел в задачах неопределенной размерности. Поскольку критиков датчиков обычно обвиняют в том, что они сами их не используют, отмечу, что мы применяли этот инструментарий при изучении помех, создаваемых электровозами [11], при изучении статистических критериев проверки однородности двух выборок [18].

5. А нужна ли вообще асимптотика?

Характеристики

Тип файла
Документ
Размер
77,76 Kb
Тип материала
Учебное заведение
Неизвестно

Тип файла документ

Документы такого типа открываются такими программами, как Microsoft Office Word на компьютерах Windows, Apple Pages на компьютерах Mac, Open Office - бесплатная альтернатива на различных платформах, в том числе Linux. Наиболее простым и современным решением будут Google документы, так как открываются онлайн без скачивания прямо в браузере на любой платформе. Существуют российские качественные аналоги, например от Яндекса.

Будьте внимательны на мобильных устройствах, так как там используются упрощённый функционал даже в официальном приложении от Microsoft, поэтому для просмотра скачивайте PDF-версию. А если нужно редактировать файл, то используйте оригинальный файл.

Файлы такого типа обычно разбиты на страницы, а текст может быть форматированным (жирный, курсив, выбор шрифта, таблицы и т.п.), а также в него можно добавлять изображения. Формат идеально подходит для рефератов, докладов и РПЗ курсовых проектов, которые необходимо распечатать. Кстати перед печатью также сохраняйте файл в PDF, так как принтер может начудить со шрифтами.

Список файлов реферата

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7041
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее