Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 30

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 30 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 302019-05-092019-05-09СтудИзба

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 30)

Так что «указать приближенные значенияпараметров» означает оценить их, указать оценки. Основой для этогодолжны служить только зарегистрированные во время экспериментазначения, которые приняли наблюдаемые случайные величины. Еслиx1 , . . . , xn — совокупность независимых одинаково распределенныхслучайных величин (выборка), закон распределения вероятностей кото"рых зависит от неизвестного параметра θ, то в качестве оценки могутвыступать функции от аргументов x1 , . . . , xn , скажем, t(x1 , . .

. , xn ).При этом надо, чтобыt(x1 , . . . , xn ) θ.(4.1)4.3.2. Выборка представляет собой простейшую, но далеко не единствен"ную модель случайных данных. Например, нам уже известна задача145сравнения двух выборок. В этой задаче мы можем использовать пред"положения (математическую модель), согласно которым законы рас"пределения этих выборок отличаются только сдвигом одного распреде"ления относительно другого. Если мы захотим проверить гипотезу отом, что этот сдвиг равен нулю, либо оценить величину сдвига, то этавеличина (неизвестная экспериментатору), будет выступать в данномслучае параметром модели. Задача оценивания параметров моделиявляется очень важной на практике.

В этой книге (гл. 6—8) мы будемрассматривать наиболее распространенные модели — регрессионные ифакторные. В каждой из них имеются несколько параметров модели,которые нужно оценить.Надо отметить, что даже точное знание значений параметров мо"дели не всегда позволяет идентифицировать закон случайности, т.е.

тораспределение вероятностей, которому подчиняются случайные наблю"дения. Например, знание величины смещения одной выборки относи"тельно другой не дает нам сведений о распределениях этих выборок. Вэтом отличие параметров модели от параметров распределения.4.4. …… … Вопросы оценки параметров статистических моделей будут рассмо"трены в следующих главах.

Здесь же мы обсудим подробнее методыоценивания параметров распределения по имеющейся выборке.В математической статистике есть много подходов, которые придаютвысказанному выше требованию (4.1) точную математическую форму.Ни один из них не может считаться универсальным или наилучшим.В зависимости от целей эти методы можно разделить на две группы.Первую группу составляют методы оценивания параметров по конечнойвыборке, вторую — методы оценивания по неограниченно растущейвыборке.

С практической точки зрения вторая группа подходов важнее,так как интуитивно понятно, что для получения сколько"либо надежныхвыводов о параметрах и характеристиках распределения, надо иметь до"статочно информации, т.е. проделать большое количество эксперимен"тов. Кроме того, с теоретической точки зрения вторая группа подходовпроще, так как при больших n исчезают многие проблемы, относящиесяк конечным выборкам. Основой для выводов в этом случае служит за"кон больших чисел — при больших n значения выборочных характери"стик распределения приближаются к неизвестным нам теоретическимзначениям этих характеристик.146Если посмотреть с этих позиций на теорему Чебышева, мы уви"дим, что она дает способ оценки по выборке теоретического значенияматематического ожидания, — его оценкой является среднее значениенаблюдений: x a.

Выведем аналогичный результат для дисперсиираспределения.Оценка дисперсии распределения. Пусть x1 , . . . , xn — совокуп"ность независимых реализаций случайной величины ξ. Согласно зако"ну больших чисел, для получения приближенного значения дисперсииDξ = M (ξ − M ξ)2 надо в определении дисперсии заменить теоретиче"скую функцию распределения F на ее выборочный аналог Fn . Иначеговоря, требуется заменить операцию математического ожидания Mусреднением по выборке. Сначала сделаем это по отношению к M ,стоящему внутри скобок. Вместо (ξ − M ξ)2 получим совокупность(x1 − x)2 ,(x2 − x)2 , . . .

,(xn − x)2 .Остается применить усреднение вместо внешнего. Получаемn символа M2(x−x).приближенное выражение для дисперсии: n1ii=1Докажем закон больших чисел для дисперсии. Нам надо показать, чтопри n → ∞n1 (xi − x)2 → Dξ.n i=12Для этого прежде преобразуем ni=1 (xi − x) следующим образом:n(xi − x)2 =i=1ni=1(xi − a)2 − 2(x − a)n(4.2)[(xi − a)2 − (x − a)]2 =i=1n(xi − a) + n(x − a)2 =i=1n(xi − a)2 − n(x − a)2 .i=1Поэтому левая часть соотношения (4.2) равнаn1 (xi − a)2 − (x − a)2 .n i=1(4.3)Так как x → a, второй член выражения (4.3) стремится при n → ∞ к нулю.Первый же член выражения (4.3) при n → ∞ сходится к M (ξ − a)2 , т.е. к Dξ,что и доказывает утверждение (4.2).n2Выражение n1i=1 (xi − x) можно назвать выборочной дисперсией(иногда говорят — дисперсия выборки).

Однако чаще вместо негоиспользуютn1 s2 =(xi − x)2 .n − 1 i=1147Понятно, что уменьшение n на 1 в знаменателе левой части (4.2) несказывается на предельном поведении этого выражения и s2 → Dξ приn → ∞. В то же самое время s2 обладает тем свойством, чтоM s2 = Dξпри любом n,(4.4)что считается достоинством. Говорят, что s2 является несмещеннойоценкой Dξ.Для доказательства (4.4) надо обратиться к (4.3) и учесть, что M (x −a)2 = Dx, так как M x = a.

Как отмечалось ранее, Dx = n1 Dξ, поэтомуnM i=1 (xi − x)2 = nDξ − Dξ = (n − 1)Dξ. Отсюда следует (4.4).Оценки параметров распределения. Пусть мы имеем выборку израспределения, принадлежащего некоторому параметрическому семей"ству F (θ), и хотим по выборке оценить неизвестные нам параметры θэтого распределения. Для этого часто используется следующий прием.Выбирают какую"либо характеристику распределения T (среднее, меди"ану, квантиль и т.д.), выражаемую через функцию распределения. Нопоскольку функция распределения F зависит от θ, то и значение харак"теристики T есть функция от неизвестного нам значения θ. Выбороч"ный аналог этой характеристики Tn на основании закона больших чиселбудет близок к ее теоретическому значению, если объем наблюденийдостаточно велик.

В связи с этим рассмотрим уравнение, правой частьюкоторого является теоретическое значение характеристики, а левой —ее выборочное значение: T (θ) = Tn . Если параметр θ одномерный,то разрешая подобное уравнение, получим оценку θ.

Если параметрθ многомерный (то есть параметров распределения несколько), то дляих нахождения выбираются несколько характеристик распределения исоставляется система из соответствующего количества уравнений.В качестве характеристик распределения часто используют моменты(метод моментов), реже — квантили (метод квантилей). Проследим задействием этих методов на примере оценивания по выборке параметровнормального распределения (оба параметра неизвестны).Метод моментов. Пусть X1 , . . .

, Xn — независимые случайныевеличины, распределенные по нормальному закону с параметрами a и σ 2(кратко — по закону N (a, σ 2 ). В качестве характеристик распределениябудем использовать первый и второй моменты (M ξ и M ξ 2 . Теорети"ческие значения этих характеристик равны a и σ 2 + a2 . Приравниваявыборочные моменты к их теоретическим аналогам, получим системууравнений относительно a и σ 2 :na = n1i=1 xi ,n222a + σ = n1i=1 xi .148Решение системы, т.е. моментные оценки a, σ 2 , обозначим через a∗ ,σ 2∗ . Легко видеть, чтоn1 a∗ = x,σ 2∗ =(xi − x)2 .n i=1Следует заметить, что если состоятельность — практически обязатель"ное свойство всех используемых на практике оценок (несостоятельные оцен"ки употребляются крайне редко), то свойство несмещенности является лишьжелательным.

Многие часто применяемые оценки свойством несмещенностине обладают.Заметим, что мы получили бы для a и σ 2 иные выражения, если быв качестве характеристик распределения взяли другие моменты (а непервый и второй, как в приведенном случае).Эффективность оценок. Прежде чем ставить вопрос о выборе наи"лучшей оценки, надо научиться сравнивать оценки между собой. Едино"го способа сравнения оценок не существует; приходится использоватьразличные подходы. Чаще всего в качестве критерия качества оценкиθn параметра θ выбирают малость величины M (θn − θ)2 , а наилучшейоценкой считают такую оценку, для которой эта величина минималь"на.

Более общий подход состоит в том, что вместо величины (θn − θ)2выбирают другую неотрицательную функцию «штрафа» W (θn , θ) за от"клонение θn от θ (иногда говорят, функцию потерь), и наилучшей оцен"кой считают такую, для которой математическое ожидание величиныштрафа M W (θn , θ) минимально.Оценки, для которых минимальна некоторой функции потерь, частоназывают оптимальными или эффективными. Не следует приписы"вать этим определениям какие"либо магические свойства, считая, чтотакие оценки заведомо лучше всех других. На самом деле оптимальныесвойства оценок получены при определенных предположениях, которыена практике могут и не выполняться или выполняться лишь прибли"женно. При этом свойства подобных оценок могут оказаться не стольхорошими.Метод квантилей.

Чтобы использовать метод квантилей, надо пре"жде решить, какими квантилями мы будем пользоваться. Для нормаль"ной выборки (и вообще для выборок, в которых параметрами служатсдвиг и масштаб) обычно используют медиану и квартили — верхнююи нижнюю.Случайную величину ξ, распределенную по закону N (a, σ 2 ), можнопредставить в виде ξ = a + ση, где η подчиняется N (0, 1).

Для стандарт"ного распределения N (0, 1) медиана равна 0, а нижняя и верхняя квар"тили равны ±Φ−1 (0.75) соответственно. Поэтому для N (a, σ 2 ) медианаравна a, квартили (верхняя, нижняя) равны a ± σΦ−1 (0.75).Видно, что σ равна половине разности верхней и нижней квартилейраспределения, деленной на Φ−1 (0.75).Обозначим через Qn (0.5) медиану выборки x1 , . .

Характеристики

Тип файла

PDF-файл

Размер

3,06 Mb

Материал

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

ju.n.-tjurin-a.a.-makarov-analiz-dannyh-na-kompjutere.rar

Прочти меня!!!.txt

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.