86059 (О теории вероятностей), страница 2
Описание файла
Документ из архива "О теории вероятностей", который расположен в категории "". Всё это находится в предмете "математика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "к экзамену/зачёту", в предмете "математика" в общих файлах.
Онлайн просмотр документа "86059"
Текст 2 страницы из документа "86059"
Рис. Гистограмма частот
32. Общие модели статистического анализа
Характеристика методов многомерного анализа, (компонентный анализ, факторный анализ, кластер-анализ(классификация без обучения). Дискриминантный анализ (классификация с обучением. Канонические корреляции. Множественный ковариационный анализ).
Реальные процессы зависят от параметров, их характеристик, поэтому возникает необходимость в применении мер, методов статистического анализа.
Методы МСА следует рассматривать, как логическое продолжение методов ТВ и МС. Принципиальное различие состоит в учете более 3-х факторов.
Методы МСА базируются на представлении информации в многомерном пространстве и позволяют определить латентные зак-ти, сущ-ие объективно.
Методы:
- моделирования и первичной обработки данных
- анализа и построения зависимости
- классификация и снижение зависимости размерности
33. Средняя арифметическая ряда
Вариационные ряды позволяют получить первое представление об изучаемом распределении. Далее необходимо исследовать числовые характеристики распределения (аналогичные характеристикам распределения теории вероятностей): характеристики положения (средняя арифметическая, мода, медиана); характеристики рассеяния (дисперсия, среднее квадратическое отклонение, коэффициент вариации); характеристики меры скошенности (коэффициент асимметрии) и островершинности (эксцесс) распределения.
Средней арифметической (х) дискретного вариационного ряда называется отношение суммы произведений вариантов на соответствующие частоты к объему совокупности:
Модой (М*(Х)) дискретного вариационного ряда называется вариант, имеющий наибольшую частоту.
Медианой (М*(Х)) дискретного вариационного ряда называется вариант, делящий ряд на две равные части. Если дискретный вариационный ряд имеет 2n членов: x1, x2, ..., xn, xn+1, ... x2n, то
Ме*(Х)=(xn+xn+1)/2.
Если дискретный вариационный ряд имеет 2n+1 членов: x1, x2, ..., xn-1, xn, xn+1, ... x2n+1, то
М*e(Х)=xn+1.
Для интервальных вариационных рядов (с равными интервалами для медианы и моды) имеют место формулы: а) медианы
где хМе - начало медианного интервала, h - длина частичного интервала, n - объем совокупности, SMe-i, - накопленная частота интервала, предшествующего медианному, nМе -частота медианного интервала;
б) моды
где хМо- начало модального интервала, h -длина частичного интервала, nмо - частота модального интервала, nМо-1 -частота предмодального интервала, nМо+1 - частота послемодального интервала;
в) средней арифметической, совпадающей с формулой (3.2.1) для дискретного вариационного ряда, причем в качестве вариант хi принимаются середины соответствующих интервалов (интервалы могут иметь как одинаковую, так и разную длину).
Мода и медиана используются в качестве характеристики среднего положения в случае, если границы ряда нечеткие или если ряд не симметричен.
34. Проблема размерностей в многомерных методах исследования
Метод МСА базируется на представлении данных в многомерном признаковом пространстве размерностью, равной числу признака. При этом исследователь часто сталкивается с понятием размерности.
В общем случае изучается n-мерное эвклидово пространство. При n>3 все задачи решаются только логически и алгебраически (n>>m) (m=2-3). Для этого обычно стараются снизить размерность изучаемого пространства без видимых потерь информации.
Основные предпосылки перехода к производству меньшей размерности.
-
дублирование информации
-
ненормативность признаков
-
возможность агрегирования (простого или взвешенного суммирования)
Основной минус МСА: статистические методы оценивания и сравнения основываются только на многомерном нормальном законе раск-ния.
35. Введение в Excel
Табулирование – вычисление значений функций, при известных значениях аргумента.
БД – это фактически любой набор данных. Создание баз данных упрощает обработку данных и их анализ.
Группировка – разбиение на группы, удовлетворяющие определенным критериям
Можно для облегчения работы с данными использовать Пакет анализа содержащий 13 категорий функций:
Финансовые (51 функция)
Дата и время (19 функций)
Математические (60)
Пользовательские (11-при сложных вычислениях)
Логические (6)
Статистические (самая объемная - 78)
Ссылки и массивы
Информационные и тд.
36. Современные пакеты прикладных программ МС исследования. Пакет статистика. Стандарт качества ISO 9000. Система SEWS применение многомерных статистических методов в социально экономических исследованиях
За 200 лет математиками, экономистами, психологами был создан аппарат принятия решений, которых называется МС, а позже прикладной С или анализом данных
Широкому внедрению методов анализа данных в 60-70гг. способствовало появление компонентов, причем если до середины 80г. Эти методы рассматривались, как инструмент научных исследований, то теперь основными показателями стали компоненты организации и тд.
Пакет statistika версия stat 5.5 русскоязычная поддержка всех архитектур документация 3000с.
-
иногда слишком поверхностны
-
неудобный редактор отсчета
-
высокая стоимость
37. Дисперсия дискретного ряда
Дисперсия дискретного ряда распределения:
характеризует средний квадрат отклонения х от х---,
Среднее квадратическое отклонение дискретного ряда распределения:
выражается в тех же единицах, что и хi.
Коэффициент вариации:
характеризует относительное значение среднего квадратического отклонения и обычно служит для сравнения колеблемости несоизмеримых показателей.
Если объединяются несколько распределений в одно, то общая дисперсия σ0*2 нового распределения равна средней арифметической из дисперсий объединяемых распределений, сложенной с дисперсией частных средних относительно общей средней нового распределения:
где x0-- - средняя ариф-кая нового распределения, xi-- - средняя ариф-кая i–го частного распределения (I=1,…,k).
n - объем i-гo частного распределения, хij - j-й член i-го частного распределения (j=l,..., ni; i=l,2,..., к), δ*2 -
межгрупповая дисперсия, --σ*2 - внутригрупповая дисперсия, N=∑ni - объем нового распределения.
Значения --σ*2 и δ*2 определяются по формулам
Дисперсия имеет важное свойство, заключающееся в том, что
D*=(∑(xi-d)2ni)/k принимает наименьшее значение при d=--x.
38. Моменты для вариационных рядов в математической статистике находятся по формулам, аналогичным формулам (2.7.6), (2.7.7)>(2.7.11), (2.10.3):
- начальный момент s–го порядка,
- центральный момент s–го порядка.
- основной момент s-гo порядка
- основной момент порядка s, h.
Соотношения между начальными и центральными моментами в математической статистике соответствуют формулам (2.7.8).
Коэффициент асимметрии
39. Проверка адекватности модели регрессии
После построения уровня регрессии возникает вопрос о качестве решения.
Пусть при исследовании n пар наблюдений (хi, уi) получено уравнение регрессии У на Х.
yi = a + bxi
Рассмотрим тождество:
yi - yi = yi - yi – (yi -yi)
Если переписать это уравнение в виде
(yi-y) = (yi-y) + (yi-y)
возвести обе части в квадрат и просуммировать по i, то получим
(yi-y)2 = (yi-y)2 + (yi-y)2 (*)
Уравнение (*) является основополагающим в дисперсионном анализе.
Для сумм обычно вводятся названия:
yi2 – нескорректированная сумма квадратов У-ков;
- коррекция на среднее суммы квадратов У-ков.
-сумма квадратов отношений относительно среднего наблюдений.
(yi-y)2- сумма квадратов относительно регрессии.
(yi-yi)2 – сумма квадратов обусловленная регрессией.
40. Интервальные оценки. Доверительная вероятность, доверительный интервал
Интервальной называют оценку, которая определяется 2 числами – границами интервала. Она позволяет ответить на вопрос: внутри какого интервала и с какой вероятностью находится неизвестное значение оцениваемого параметра генеральной совокупности. Пусть θ точечная оценка параметра θ. Чем меньше разность θ - θ , тем точнее и лучше оценка. Обычно говорят о доверительной вероятности p = 1-α, с которой θ будет находиться в интервале θ-Δ < θ < θ+Δ, где: Δ (Δ 0) – предельная ошибка выборки, которая может быть либо задана наперед, либо вычислена; - риск или уровень значимости (вероятность того, что неравенство будет неверным). В качестве 1- принимают значения 0,90;0,95;0,99;0,999. Доверительная вероятность показывает, что в (1-) 100% случаев оценка будет накрываться указанным интервалом. Для построения доверительного интервала параметра а – математического ожидания нормального распределения, составляют выборочную характеристику (статистику), функционально зависимую от наблюдений и связанную с а, например, для повторного отбора:
Статистика u распределена по нормальному закону распределения с математическим ожиданием а = 0 и средним квадратическим отклонением = 1. Отсюда
P(u/2)= 1- или 2Ф(u/2)=1-,
где Ф-функция Лапласа, u/2 – квантиль нормального закона распределения, соответствующая уровню значимости .
Определение доверительного интервала для средней и доли при случайном обороте. Определение доверительного интервала для средней и доли при типическом обороте;. Определение необходимой численности выборки. Распространение данных выборки на генеральную совокупность).