💯Прикладной статистический анализ Темы 1-6
Описание
Введение в курс
Тема 1. Введение в прикладной статистический анализ
Тема 2. Законы распределения, наиболее часто используемые при обработке экспериментальных данных
Тема 3. Основы теории статистического вывода
Тема 4. Непараметрические критерии
Тема 5. Корреляционный анализ
Тема 6. Современные методы анализа рисков и порядка наступления событий
Заключение
Итоговая аттестация
Компания «GameDev» разрабатывает онлайн-игры. Они выпустили новую игру и хотят проанализировать, как долго игроки остаются активными в ней. Для этого они отслеживают время (в днях) с момента регистрации игрока до его выхода из игры (прекращения активности). Аналитики собирают следующие данные: время игры, т.е. количество дней, в течение которых игрок был активен; статус, где 1 = игрок покинул игру (выбыл); 0 = игрок все еще активен (данные цензурированы). Например, если игрок зарегистрировался месяц назад и до сих пор играет, его данные будут цензурированы. Аналитики используют таблицы выживаемости для анализа этих данных. Они хотят построить кривую выживаемости, чтобы оценить, как быстро игроки покидают игру. Какие параметры покажет таблица выживаемости?
Таблица выживаемости покажет, сколько денег было потрачено на разработку игры.
Таблица выживаемости покажет, какие игроки совершили внутриигровые покупки.
Таблица выживаемости покажет, как долго игроки остаются активными, и выявить периоды наибольшего оттока игроков.
Таблица выживаемости покажет, сколько всего игроков зарегистрировалось в игре.
Установите соответствие между понятиями и их примерами:
A. Таблица смертности
B. Кривая Каплана-Мейера
C. Таблица выживаемости
D. демографическая таблица, показывающая распределение смертей по возрасту
E. график, отображающий функцию выживаемости во времени с учетом цензурированных данных
F. таблица, отражающая вероятность выживания объектов в заданный период времени
Коэффициент корреляции применяется для …
измерения связи между двумя переменными
определения среднего значения выборки
нахождения медианного значения
вычисления моды
Компания предоставляет услуги хостинга. Аналитики компании хотят понять, как связаны между собой два важных показателя. «Загрузка ЦП (использование процессора): процент времени, которое процессор сервера тратит на обработку задач». «Время отклика (Response Time): время, которое требуется серверу для ответа на запрос пользователя (в миллисекундах)». Аналитики собрали данные об использовании процессора и времени отклика за несколько дней. Они подозревают, что чем выше загрузка процессора, тем больше времени требуется для ответа на запросы (то есть время отклика). Они хотят использовать корреляционный анализ, чтобы проверить эту гипотезу. Какой коэффициент корреляции следует использовать, чтобы оценить взаимосвязь между загрузкой ЦП и временем отклика?
Следует использовать коэффициент корреляции Пирсона.
Следует использовать коэффициент корреляции Спирмена.
Следует использовать коэффициент детерминации.
Следует использовать коэффициент вариации.
… гипотеза — это предположение о свойствах генеральной совокупности, которое является логичным и правдоподобным, об отсутствии влияния или воздействия фактора
В компании «SmartAds» анализируют эффективность рекламных кампаний. Они заметили, что чем больше денег тратится на рекламу (бюджет), тем больше новых пользователей приходит на их сайт. Аналитик хочет узнать, насколько сильно связаны потраченная сумма (бюджет) и количество новых пользователей. Какой коэффициент корреляции лучше всего использовать для измерения связи между бюджетом рекламной кампании и количеством новых пользователей?
Коэффициент корреляции Пирсона.
Коэффициент корреляции Спирмена.
Коэффициент вариации.
Стандартное отклонение.
Компания «CloudStorage» предоставляет услуги облачного хранения данных. Они внедрили новую систему хранения данных, оптимизированную для более быстрого доступа к файлам. Компания хочет оценить, насколько новая система влияет на время доступа к файлам, хранящимся в облаке. Аналитики собирают данные о времени (в секундах), которое требуется пользователям для загрузки файлов из облака. Они фиксируют: время доступа: время, затраченное на загрузку файла (в секундах). цензура: если файл был успешно загружен, это нецензурированные данные (1). Если при загрузке произошла ошибка (например, из-за временных проблем с сетью), это цензурированные данные (0), то есть мы знаем, что время загрузки превышает измеренное, но точное время неизвестно. Аналитики используют таблицы выживаемости для анализа времени доступа. Они хотят построить график выживаемости, чтобы визуализировать вероятность того, что файл будет загружен в течение определенного времени. В контексте анализа выживаемости, что представляют собой цензурированные данные?
Данные, которые были удалены из анализа.
Данные, для которых время события (загрузки файла) неизвестно точно, но известно, что оно больше или меньше определенного значения.
Данные, которые были введены с ошибками.
Данные, полученные только для файлов определенного размера.
T-критерий Стьюдента (t-тест) можно применять при условии, когда …
выборки имеют одинаковый размер
данные являются категориальными
выборки нормально распределены
выборки сильно разбросаны
Команда разработчиков мобильного приложения «FitLife» обновила алгоритм подсчета шагов. После обновления они хотят узнать, увеличилось ли в среднем количество шагов, которые пользователи приложения делают за день. Для этого они провели эксперимент. Случайным образом выбрали 50 пользователей и в течение недели собирали данные о количестве шагов. До обновления среднее количество шагов, которые делали пользователи, составляло 7000 шагов в день. После обновления среднее количество шагов в тестовой выборке составило 7200 шагов в день. Стандартное отклонение в выборке после обновления составило 1000 шагов. Команда разработчиков хочет провести статистический тест, чтобы понять, является ли разница между средним количеством шагов до и после обновления статистически значимой или она возникла случайно. Они планируют использовать одновыборочный t-тест. Какую нулевую гипотезу (H0) должна сформулировать команда разработчиков для своего t-теста?
Среднее количество шагов после обновления равно 7000.
Среднее количество шагов после обновления больше 7000.
Среднее количество шагов после обновления меньше 7000.
… Каплана-Мейера — это кривая, отражающая пропорцию пациентов, у которых ожидаемое событие не произошло к определенному моменту времени
Компания «CloudSecure» предоставляет услуги облачного хранения данных. Команда аналитиков изучает статистику использования дискового пространства клиентами. Аналитики собрали следующие данные (в гигабайтах) о размере занимаемого дискового пространства для 10 случайных клиентов: [10, 15, 12, 25, 18, 15, 16, 14, 10, 20] Аналитики хотят проанализировать распределение данных, чтобы понять, насколько равномерно клиенты используют дисковое пространство. С этой целью они вычислили Среднее значение и Медиану. Какие значения получили аналитики соответственно для Среднего значения и Медианы?
15,5 и 15.
15 и 15.
15,5 и 25.
10 и 20.
Установите соответствие термина и его определения:
A. Выборка
B. Генеральная совокупность
C. Выбросы
D. подмножество данных из общей совокупности
E. все возможные данные, относящиеся к исследованию
F. значения, значительно отличающиеся от основной массы данных
… — применяют для описания статистики малых выборок, в том числе при небольшом объеме выборки
Распределение Стьюдента
Нормальное распределение
F-распределение
Компания «QuickLoad» оптимизирует время загрузки веб-страниц. Они протестировали новый метод сжатия изображений на двух веб-сайтах. Результаты (время загрузки в секундах) для каждого сайта: Сайт 1 (старый метод): 3, 5, 7 Сайт 2 (новый метод): 2, 4, 6 Аналитик хочет определить, улучшился ли средний результат (время загрузки) при использовании нового метода, но не уверен, что данные распределены нормально. Какой непараметрический тест эффективнее использовать для сравнения времени загрузки на двух сайтах?
Эффективнее использовать t-тест.
Эффективнее использовать критерий Манна-Уитни.
Эффективнее использовать Z-тест.
Эффективнее использовать критерий Краскела-Уоллиса.
L-критерий … Пейджа — это непараметрический статистический тест, разработанный для проверки гипотезы о наличии монотонного тренда в упорядоченном наборе выборок
Установите соответствие между методами и их назначениями:
A. Регрессия
B. Кластеризация
C. Дисперсионный анализ
D. Корреляционный анализ
E. построение предсказательной модели
F. группировка схожих объектов
G. сравнение нескольких групп
H. поиск зависимостей между переменными
… используется для анализа данных с цензурированными наблюдениями
Линейная регрессия
Логистическая регрессия
Метод Каплана-Мейера
Установите соответствие понятия и его определения:
A. Проверка нормальности
B. Выборочное распределение
C. Значение z
D. процедура, позволяющая определить, подчиняются ли данные нормальному распределению
E. распределение статистики, полученной из выборки
F. стандартизированная величина, используемая в нормальном распределении
Расположите шаги проведения статистического вывода в хронологическом порядке:
1 формулировка гипотез (H0 и H1)
2 сбор данных
3 выбор уровня значимости (α)
4 проведение статистического теста
5 интерпретация результатов
Компания «CodeCraft» разрабатывает новую поисковую систему. Чтобы оценить удобство использования, они провели тестирование. Пять добровольцев использовали старую версию поисковика, а затем пять других добровольцев использовали новую версию. Тестируемым нужно было выполнить несколько заданий по поиску информации. Время, затраченное на выполнение заданий (в секундах), было измерено для каждой версии поисковика. Поскольку время выполнения заданий не всегда подчиняется нормальному распределению (может быть искажено, например, из-за внешних факторов), аналитик решил использовать непараметрический статистический тест для сравнения двух групп. Полученные результаты тестирования: Старая версия: 30, 45, 60, 35, 50 Новая версия: 25, 38, 55, 32, 40 Какой непараметрический критерий наиболее подойдет для сравнения двух независимых выборок (старая и новая версии) в данной ситуации?
Наиболее подойдет критерий Манна-Уитни (U-критерий).
Наиболее подойдет критерий знаков.
Наиболее подойдет критерий Краскела-Уоллиса.
Наиболее подойдет критерий Уилкоксона (ранговый критерий знаков).
Уровень значимости α — это …
вероятность ошибки второго рода
вероятность ошибки первого рода
процент верно принятых гипотез
доверительный интервал для оценки параметра
Соотнесите критерии с условиями их применения:
A. Критерий Манна-Уитни
B. Критерий Краскела-Уоллиса
C. Критерий Вилкоксона
D. независимость выборок
E. множество независимых выборок
F. параметры сдвига
… критерии сравнения — это методы статистической обработки данных, применение которых не требует знания закона распределения изучаемых признаков в совокупности и вычисления их основных параметров
Компания «CloudSpeed» предоставляет услуги облачного хостинга. Один из ключевых показателей, за которым они следят, — это время отклика серверов на запросы пользователей (в миллисекундах). Компания обнаружила, что время отклика серверов в их сети в целом стабильно, но иногда случаются небольшие отклонения. Аналитик компании заметил, что если взять большое количество измерений времени отклика, то они группируются вокруг среднего значения, при этом отклонения от среднего примерно одинаково вероятны в обе стороны. Он также построил гистограмму времени отклика и увидел, что она имеет форму колокола. С помощью какого закона распределения можно наиболее точно охарактеризовать время отклика серверов в сети «CloudSpeed»?
С помощью экспоненциального распределения.
С помощью равномерного распределения.
С помощью нормального распределения (Гауссовское).
С помощью распределение Пуассона.
Расположите в правильном порядке этапы построения модели регрессии:
1 визуализация данных
2 подбор подходящей функции
3 оценка коэффициентов модели
4 проверка адекватности модели
С возрастанием числа степеней свободы, распределение Стьюдента быстро приближается к …
нормальному распределению
распределению Фишера
распределению Пирсона
… применяют для моделирования суммы квадратов нормально распределенных величин
Хи-квадрат распределение
F-распределение
Биномиальное распределение
Установите соответствие метода вычисления и его определения:
A. Среднее арифметическое
B. Мода
C. Медиана
D. сумма всех значений, деленная на количество значений
E. наиболее часто встречающееся значение в наборе данных
F. значение, которое делит упорядоченный набор данных пополам
Тип цензурирования данных, при котором наблюдения …, называется цензурированием справа
прекращаются, когда событие произошло раньше заданного времени
продолжаются, даже если событие не произошло до конца исследования
прекращаются, когда событие не произошло до заданного времени Тест должен быть в утвердительной форме
… является непараметрическим
T-критерий Стьюдента
ANOVA
Критерий Уилкоксона
T-критерий для зависимых выборок
Компания «SecureNet» разрабатывает систему обнаружения вторжений (IDS). Чтобы оценить эффективность новой версии IDS, команда проводит тестирование. Они устанавливают новую версию IDS в тестовой сети и в течение недели собирают данные о количестве ложных срабатываний (когда IDS ошибочно определяет нормальную активность как подозрительную). Старая версия IDS выдавала в среднем 5 ложных срабатываний в день. Аналитики хотят проверить, уменьшилось ли количество ложных срабатываний с новой версией IDS. В результате тестирования новая версия IDS выдавала в среднем 4 ложных срабатывания в день. Стандартное отклонение количества ложных срабатываний новой версии составило 1,5. Количество дней тестирования — 25. Аналитики провели односторонний (однонаправленный) t-тест и получили p-значение (p-value), равное 0,06. Используя уровень значимости (альфа), равный 0,05, какой вывод можно сделать на основе результатов t-теста?
Следует отклонить нулевую гипотезу: количество ложноположительных срабатываний уменьшилось.
Следует не отвергать нулевую гипотезу: нет достаточных доказательств того, что количество ложноположительных срабатываний уменьшилось.
Следует отклонить нулевую гипотезу: количество ложноположительных срабатываний увеличилось.
Расположите в хронологическом порядке этапы расчета функции выживаемости в таблице выживаемости:
1 определить общее число пациентов в группе
2 определить число умерших в каждом временном интервале
3 учесть цензурированные наблюдения
4 рассчитать долю выживших на конец каждого временного интервала
5 рассчитать кумулятивную функцию выживаемости
Если корреляция между двумя переменными равна +0.85, то это означает, что между переменными …
наблюдается сильная положительная связь
отсутствует связь
наблюдается слабая отрицательная связь
Компания разрабатывает программное обеспечение (ПО) для управления проектами. Они внедрили новую систему лицензирования, которая предусматривает пробный период использования ПО. Компания хочет проанализировать, как долго пользователи используют пробную версию ПО, прежде чем принять решение о покупке лицензии. Аналитики собирают данные о пользователях, которые зарегистрировались для пробной версии. Они фиксируют: Время использования: количество дней, в течение которых пользователь использовал пробную версию. Статус: покупка лицензии (1) или отказ от использования (0) (цензурированные данные). Если пользователь купил лицензию, это означает, что он «пережил» определенный период. Если пользователь отказался, это означает, что он «выбыл» из исследования. Аналитики используют таблицы выживаемости для анализа этих данных. Они хотят оценить вероятность того, что пользователь продолжит использовать пробную версию в течение определенного времени. Что представляет собой «функция выживаемости» (Survival Function) в контексте этого анализа?
Вероятность того, что пользователь купит лицензию.
Вероятность того, что пользователь продолжит использовать пробную версию в течение заданного количества дней.
Количество пользователей, купивших лицензию.
Распределите этапы проверки гипотезы с использованием t-критерия в логической последовательности:
1 формулирование гипотез
2 вычисление значения t-статистики
3 установление критического значения t-критерия
4 сравнение вычисленного значения с критическим
Представьте, что Вы работаете аналитиком данных в компании, которая занимается разработкой и эксплуатацией облачных сервисов. Ваша команда анализирует сетевой трафик и производительность виртуальных машин (ВМ). Вам нужно проанализировать данные о времени задержки пакетов (в миллисекундах) при передаче данных между ВМ. В ходе анализа были собраны данные за определенный период времени. Графическое представление данных показывает, что распределение времени задержки имеет существенную асимметрию — хвост распределения сильно смещен вправо (большие значения задержки). Это означает, что большая часть пакетов передается с относительно небольшими задержками, но иногда возникают значительные задержки, возможно, из-за проблем с сетью или перегрузки. Вам необходимо выбрать наиболее подходящий закон распределения для моделирования времени задержки пакетов, учитывая его асимметричный характер. Какой закон распределения будет наиболее подходить для моделирования времени задержки пакетов, учитывая его асимметричный характер?
Наиболее подойдет нормальное распределение.
Наиболее подойдет логнормальное распределение.
Наиболее подойдет распределение Стьюдента.
Установите соответствие между законом распределения и его основными свойствами:
A. Нормальное распределение (Гаусса)
B. Распределение Стьюдента
C. Распределение Фишера
D. симметричное распределение, основанное на большой выборке данных
E. асимметричное распределение, используемое для моделирования доходов населения
F. используется для сравнения дисперсий двух выборок
Компания «WebScale» занимается оптимизацией веб-сайтов. Они провели A/B-тестирование нового дизайна главной страницы своего сайта. Посетители сайта были случайным образом разделены на две группы: группа A: Видела старый дизайн; группа B: Видела новый дизайн. Основной метрикой для оценки успешности нового дизайна является коэффициент конверсии: процент посетителей, совершивших целевое действие (например, покупку, регистрацию). После двух недель тестирования были получены следующие результаты: группа A (старый дизайн): Коэффициент конверсии = 3 %; группа B (новый дизайн): Коэффициент конверсии = 4 %. Аналитик хочет выяснить, является ли увеличение коэффициента конверсии статистически значимым или это просто случайное колебание. Он планирует использовать статистический тест для сравнения двух долей (коэффициентов конверсии). Какую альтернативную гипотезу (H1) должен сформулировать аналитик, если он хочет доказать, что новый дизайн увеличивает коэффициент конверсии?
Коэффициент конверсии для нового дизайна равен 3 %.
Коэффициент конверсии для нового дизайна больше 3 %.
Коэффициент конверсии для нового дизайна меньше 3 %.
Расположите шаги применения критерия знаковых рангов Вилкоксона для парных выборок в хронологическом порядке:
1 определение гипотез
2 вычисление разностей между парами наблюдений
3 присвоение рангов ненулевым разностям
4 суммирование рангов положительных и отрицательных разностей
5 сравнение сумм рангов с критическим значением
Основная цель составления таблицы смертности — …
изучить причины смерти
оценить ожидаемую продолжительность жизни
исследовать динамику численности населения
Установите соответствие между законом и его характерной особенностью:
A. Нормальное распределение
B. Равномерное распределение
C. F-распределение
D. все значения имеют одинаковую вероятность появления
E. имеет форму колокола и определяется двумя параметрами: средним и стандартным отклонением
F. применяется для анализа отношения дисперсий двух нормальных распределенийПоказать/скрыть дополнительное описание
Прикладной статистический анализ Введение в курс Тема 1. Введение в прикладной статистический анализ Тема 2. Законы распределения, наиболее часто используемые при обработке экспериментальных данных Тема 3. Основы теории статистического вывода Тема 4. Непараметрические критерии Тема 5. Корреляционный анализ Тема 6. Современные методы анализа рисков и порядка наступления событий Заключение Итоговая аттестация Компания «GameDev» разрабатывает онлайн-игры. Они выпустили новую игру и хотят проанализировать, как долго игроки остаются активными в ней. Для этого они отслеживают время (в днях) с момента регистрации игрока до его выхода из игры (прекращения активности).
Аналитики собирают следующие данные: время игры, т.е. количество дней, в течение которых игрок был активен; статус, где 1 = игрок покинул игру (выбыл); 0 = игрок все еще активен (данные цензурированы). Например, если игрок зарегистрировался месяц назад и до сих пор играет, его данные будут цензурированы. Аналитики используют таблицы выживаемости для анализа этих данных. Они хотят построить кривую выживаемости, чтобы оценить, как быстро игроки покидают игру. Какие параметры покажет таблица выживаемости? Таблица выживаемости покажет, сколько денег было потрачено на разработку игры. Таблица выживаемости покажет, какие игроки совершили внутриигровые покупки.
Таблица выживаемости покажет, как долго игроки остаются активными, и выявить периоды наибольшего оттока игроков. Таблица выживаемости покажет, сколько всего игроков зарегистрировалось в игре. Установите соответствие между понятиями и их примерами: A. Таблица смертности B. Кривая Каплана-Мейера C. Таблица выживаемости D. демографическая таблица, показывающая распределение смертей по возрасту E. график, отображающий функцию выживаемости во времени с учетом цензурированных данных F. таблица, отражающая вероятность выживания объектов в заданный период времени Коэффициент корреляции применяется для … измерения связи между двумя переменными определения среднего значения выборки нахождения медианного значения вычисления моды Компания предоставляет услуги хостинга.
Аналитики компании хотят понять, как связаны между собой два важных показателя. «Загрузка ЦП (использование процессора): процент времени, которое процессор сервера тратит на обработку задач». «Время отклика (Response Time): время, которое требуется серверу для ответа на запрос пользователя (в миллисекундах)». Аналитики собрали данные об использовании процессора и времени отклика за несколько дней. Они подозревают, что чем выше загрузка процессора, тем больше времени требуется для ответа на запросы (то есть время отклика). Они хотят использовать корреляционный анализ, чтобы проверить эту гипотезу. Какой коэффициент корреляции следует использовать, чтобы оценить взаимосвязь между загрузкой ЦП и временем отклика? Следует использовать коэффициент корреляции Пирсона.
Следует использовать коэффициент корреляции Спирмена. Следует использовать коэффициент детерминации. Следует использовать коэффициент вариации. … гипотеза — это предположение о свойствах генеральной совокупности, которое является логичным и правдоподобным, об отсутствии влияния или воздействия фактора В компании «SmartAds» анализируют эффективность рекламных кампаний. Они заметили, что чем больше денег тратится на рекламу (бюджет), тем больше новых пользователей приходит на их сайт. Аналитик хочет узнать, насколько сильно связаны потраченная сумма (бюджет) и количество новых пользователей. Какой коэффициент корреляции лучше всего использовать для измерения связи между бюджетом рекламной кампании и количеством новых пользователей? Коэффициент корреляции Пирсона.
Коэффициент корреляции Спирмена. Коэффициент вариации. Стандартное отклонение. Компания «CloudStorage» предоставляет услуги облачного хранения данных. Они внедрили новую систему хранения данных, оптимизированную для более быстрого доступа к файлам. Компания хочет оценить, насколько новая система влияет на время доступа к файлам, хранящимся в облаке. Аналитики собирают данные о времени (в секундах), которое требуется пользователям для загрузки файлов из облака. Они фиксируют: время доступа: время, затраченное на загрузку файла (в секундах). цензура: если файл был успешно загружен, это нецензурированные данные (1). Если при загрузке произошла ошибка (например, из-за временных проблем с сетью), это цензурированные данные (0), то есть мы знаем, что время загрузки превышает измеренное, но точное время неизвестно.
Аналитики используют таблицы выживаемости для анализа времени доступа. Они хотят построить график выживаемости, чтобы визуализировать вероятность того, что файл будет загружен в течение определенного времени. В контексте анализа выживаемости, что представляют собой цензурированные данные? Данные, которые были удалены из анализа. Данные, для которых время события (загрузки файла) неизвестно точно, но известно, что оно больше или меньше определенного значения. Данные, которые были введены с ошибками. Данные, полученные только для файлов определенного размера. T-критерий Стьюдента (t-тест) можно применять при условии, когда … выборки имеют одинаковый размер данные являются категориальными выборки нормально распределены выборки сильно разбросаны Команда разработчиков мобильного приложения «FitLife» обновила алгоритм подсчета шагов.
После обновления они хотят узнать, увеличилось ли в среднем количество шагов, которые пользователи приложения делают за день. Для этого они провели эксперимент. Случайным образом выбрали 50 пользователей и в течение недели собирали данные о количестве шагов. До обновления среднее количество шагов, которые делали пользователи, составляло 7000 шагов в день. После обновления среднее количество шагов в тестовой выборке составило 7200 шагов в день. Стандартное отклонение в выборке после обновления составило 1000 шагов. Команда разработчиков хочет провести статистический тест, чтобы понять, является ли разница между средним количеством шагов до и после обновления статистически значимой или она возникла случайно.
Они планируют использовать одновыборочный t-тест. Какую нулевую гипотезу (H0) должна сформулировать команда разработчиков для своего t-теста? Среднее количество шагов после обновления равно 7000. Среднее количество шагов после обновления больше 7000. Среднее количество шагов после обновления меньше 7000. … Каплана-Мейера — это кривая, отражающая пропорцию пациентов, у которых ожидаемое событие не произошло к определенному моменту времени Компания «CloudSecure» предоставляет услуги облачного хранения данных. Команда аналитиков изучает статистику использования дискового пространства клиентами. Аналитики собрали следующие данные (в гигабайтах) о размере занимаемого дискового пространства для 10 случайных клиентов: [10, 15, 12, 25, 18, 15, 16, 14, 10, 20] Аналитики хотят проанализировать распределение данных, чтобы понять, насколько равномерно клиенты используют дисковое пространство.
С этой целью они вычислили Среднее значение и Медиану. Какие значения получили аналитики соответственно для Среднего значения и Медианы? 15,5 и 15. 15 и 15. 15,5 и 25. 10 и 20. Установите соответствие термина и его определения: A. Выборка B. Генеральная совокупность C. Выбросы D. подмножество данных из общей совокупности E. все возможные данные, относящиеся к исследованию F. значения, значительно отличающиеся от основной массы данных … — применяют для описания статистики малых выборок, в том числе при небольшом объеме выборки Распределение Стьюдента Нормальное распределение F-распределение Компания «QuickLoad» оптимизирует время загрузки веб-страниц. Они протестировали новый метод сжатия изображений на двух веб-сайтах.
Результаты (время загрузки в секундах) для каждого сайта: Сайт 1 (старый метод): 3, 5, 7 Сайт 2 (новый метод): 2, 4, 6 Аналитик хочет определить, улучшился ли средний результат (время загрузки) при использовании нового метода, но не уверен, что данные распределены нормально. Какой непараметрический тест эффективнее использовать для сравнения времени загрузки на двух сайтах? Эффективнее использовать t-тест. Эффективнее использовать критерий Манна-Уитни. Эффективнее использовать Z-тест. Эффективнее использовать критерий Краскела-Уоллиса. L-критерий … Пейджа — это непараметрический статистический тест, разработанный для проверки гипотезы о наличии монотонного тренда в упорядоченном наборе выборок Установите соответствие между методами и их назначениями: A.
Регрессия B. Кластеризация C. Дисперсионный анализ D. Корреляционный анализ E. построение предсказательной модели F. группировка схожих объектов G. сравнение нескольких групп H. поиск зависимостей между переменными … используется для анализа данных с цензурированными наблюдениями Линейная регрессия Логистическая регрессия Метод Каплана-Мейера Установите соответствие понятия и его определения: A. Проверка нормальности B. Выборочное распределение C. Значение z D. процедура, позволяющая определить, подчиняются ли данные нормальному распределению E. распределение статистики, полученной из выборки F. стандартизированная величина, используемая в нормальном распределении Расположите шаги проведения статистического вывода в хронологическом порядке: 1 формулировка гипотез (H0 и H1) 2 сбор данных 3 выбор уровня значимости (α) 4 проведение статистического теста 5 интерпретация результатов Компания «CodeCraft» разрабатывает новую поисковую систему.
Чтобы оценить удобство использования, они провели тестирование. Пять добровольцев использовали старую версию поисковика, а затем пять других добровольцев использовали новую версию. Тестируемым нужно было выполнить несколько заданий по поиску информации. Время, затраченное на выполнение заданий (в секундах), было измерено для каждой версии поисковика. Поскольку время выполнения заданий не всегда подчиняется нормальному распределению (может быть искажено, например, из-за внешних факторов), аналитик решил использовать непараметрический статистический тест для сравнения двух групп. Полученные результаты тест....
Список вопросов
Характеристики ответов (шпаргалок) к экзамену

МФПУ «Синергия»
Мediator


















