02_Первичная обработка данных наблюдений (Лекции)

2019-05-092019-05-09zzyxelСтудИзба

Описание файла

Файл "02_Первичная обработка данных наблюдений" внутри архива находится в следующих папках: Лекции, Матстат 2 конспект. Документ из архива "Лекции", который расположен в категории "". Всё это находится в предмете "теория вероятностей и математическая статистика" из 4 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Онлайн просмотр документа "02_Первичная обработка данных наблюдений"

Текст из документа "02_Первичная обработка данных наблюдений"

§2. Первичная обработка данных наблюдений.

Построение закона распределения по статистическим данным

Основные определения.

Над случайной величиной Х проводятся наблюдения (опыты). Результатом каждого наблюдения является одно число, которое обозначаем х _i ( то значение, которое она приняла в данном опыте). Каждое такое опытное значение называют в статистике словом «варианта».

Опытные данные, записанные в порядке получения, образуют простой статистический ряд.

х ₁; х ₂; х ₃;_{. . . .} х _n

Все вместе данные наблюдений образуют выборочную совокупность или выборку : ( х ₁_, х ₂_, х ₃_{, . . . .} х _n)

Общее число проведенных наблюдений обозначают n и называют объемом выборки.

Все возможные значения случайной величины Х образуют т.н. генеральную совокупность (от слова general – общий).

Замечание: обрабатывая опытные данные, мы хотим получить информацию о случайной величине. Источником этой информации являются числа, которые попали в выборку. Но это только часть возможных значений случайной величины.

Во–первых, информация, которую мы таким образом получаем, неизбежно будет неполной, приблизительной. Это неизбежная черта всех статистических методов, которую постоянно приходится учитывать.

Во–вторых, отобранные опытные данные должны правильно отображать случайную величину в целом, выборка должна быть представительной или репрезентативной. Существуют специальные методы отбора информации для получения репрезентативной выборки. Отбор может быть случайным, сплошным, групповым и т.д.

Первичная обработка опытных данных.

Сначала опытные данные принято упорядочить. Опытные данные, записанные в порядке возрастания, образуют вариационный ряд.

х ₁≤ х ₂≤ х ₃≤_{. . . .}≤ х _n

Дальнейшие действия зависят от того, с какой случайной величиной мы имеем дело, с дискретной или с непрерывной.

Пусть рассматривается дискретная случайная величина. Тогда опытные данные могут повторяться. Если данные повторяются, для каждого повторяющегося значения найдем его частоту n _i (количество повторений). Составим таблицу:

х	х ₁	х ₂	х ₃	…	х _k
n_i	n₁	n₂	n₃	…	n_k

Сумма всех частот должна быть равна объему выборки:

Теперь для каждого опытного значения можем подсчитать и занести в таблицу относительную частоту:

х _i	х ₁	х ₂	х ₃	…	х _k
w_i	w₁	w₂	w₃	…	w_k

Это – статистический ряд распределения

Замечание: Такая же по виду таблица, в которой записывались вероятности, называлась рядом распределения (теоретическим). Так как относительные частоты – это и есть опытным путем найденные вероятности (их приближенное значение, w _i≈ p _i), делаем вывод: дает нам представление о теоретическом ряде распределения. Чем больше проведено наблюдений (чем больше объем выборки n) тем ближе относительные частоты к вероятностям, тем ближе статистический ряд распределения к теоретическому ряду распределения

Можно нанести данные из статистического ряда распределения на график. Это принято делать одним из двух способов:

Левый график называется полигоном частот (статистический аналог многоугольника распределения). Правый чаще используется в западной литературе (аналог теоретической функции вероятности).

Пример:

получена выборка 1,3,5,2,1,4,1,5,5,4,2,3,3,3,1.

объем ее равен 15: n = 15.

Вариационный ряд 1,1,1,1,2,2,3,3,3,3,4,4,5,5,5

Группируем данные по повторяемости, подсчитываем частоты n _iзаносим в таблицу

х _i	1	2	3	4	5
n _i	4	2	4	2	3

С
умма всех частот должна быть равна 15 (проверьте).

Нанося данные на график, получаем полигон частот:

Подсчитываем относительные частоты w _i, заносим в таблицу, получаем статистический ряд распределения:

х _i	1	2	3	4	5
w _i	4/15	2/15	4/15	2/15	3/15

Сумма всех относительных частот должна быть равна 1 (основное свойство ряда распределения, проверьте)

П
олигон относительных частот выглядит точно так же, как и полигон частот, меняется только масштаб на оси ординат.

Для непрерывной случайной величины Х опытные данные практически повторятся не будут, т.к. возможных значений бесконечно много. Записывается вариационный ряд.

х ₁≤ х ₂≤ х ₃≤_{. . . .}≤ х _n

Затем выполняется интервальная группировка данных:

Длина промежутка от x _minдо x_max называется размахом варьирования

Разбиваем этот промежуток на одинаковые элементарные интервалы.

Их количество зависит от объема выборки и подсчитывается по формуле Стерджеса: .

Полученное число нужно округлить до ближайшего целого (число интервалов дробным быть не может). После этого длину каждого элементарного интервала находим по формуле:

При расчетах вручную, без компьютера, x можно округлять и начало первого интервала тоже брать приближенное. Границы остальных интервалов получим, добавляя шаг за шагом  x :

x ₁ = x _о+x; x ₂ = x ₁+x; x ₃ = x ₂+x и т.д.

Записываем в таблицу эти элементарные интервалы и для каждого из них частоту n_iпопадания в него ( количество опытных данных, попавших в каждый интервал). Сюда же заносим относительные частоты : w_i = n_i/ n = n_i / n.

(x_i ;x_i+1)	(x₀ ;x₁)	(x₁ ;x₂)	(x₂ ;x₃)	(x_k-1 ;x_k)
n_i	n₁	n₂	n₃	n_k
w_i	w₁	w₂	w₃	w_k

Это – интервальный ряд распределения.

Для непрерывной случайной величины закон распределения задается в виде плотности распределения f(x). Вероятность попадания случайной величины в любой интервал (a, b) - это площадь под графиком плотности, опирающаяся на интервал (a, b) .

Когда по данным наблюдений найдены относительные частоты w_i попадания в разные интервалы, можно и построить прямоугольники соответствующей площади. Тогда полученная фигура (гистограмма) покажет нам , какой должна быть плотность распределения .

Гистограмма относительных частот:

на каждом элементарном интервале строим прямоугольник, по площади равный относительной частоте попадания в интервал.

Высоты этих прямоугольников равны:

Замечание: гистограмма относительных частот дает приближенную информацию о плотности распределения. Все предположения о виде закона распределения предстоит проверять с помощью специальных процедур (см. статистическая проверка гипотез).

Чем больше опытов проводится, тем ближе построенная гистограмма к теоретической плотности распределения.

Итак, мы уже выяснили, как по данным наблюдений получить представление о ряде распределения и о плотности распределения. Осталось разобраться с функцией распределения.

Для любой случайной величины универсальным способом задания закона распределения является функция распределения F(x). По определению, функция распределения - это вероятность попадания случайной величины в область, лежащую слева от аргумента x : F(x) = P(X<x).

Из эксперимента мы можем найти относительную частоту попадания в область, лежащую слева от аргумента, и это будет эмпирическая или статистическая функция распределения :

О2 : Статистическая (эмпирическая) функция – это функция, которая для каждого значения аргумента равна относительной частоте попадания опытных данных в область, лежащую слева от аргумента.

F*(x) = W(X<x).

Если построить график статистической функции распределения F*(x), то это будет изображенная справа ступенчатая фигура, которая позволяет получить представление о характере теоретической функции распределения F(x).

Технология построения статистической функции распределения **F*(x) такая же, как и для теоретической функции распределения для дискретных случайных величин: суммируются относительные частоты для всех опытных значений, лежащих слева от аргумента (как раньше суммировались вероятности**).

Замечание: Так как с увеличением числа опытов относительные частоты приближаются к вероятностям, делаем вывод, что с увеличением количества наблюдений ступенчатая статистическая функция распределения приближается к теоретической функции распределения.

Пример:

задана выборка 2,7,2,5,9,5,2,7,5,5.

построить статистическую функцию распределения.

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.