Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 32
Текст из файла (страница 32)
пп. 2.7.1). В примере 4.1 мы рассмотрим, как эти возможностиреализованы в пакетах STADIA и SPSS.154Во многих случаях требуемые оценки параметров распределенияможно получить по соответствующим формулам самостоятельно, вос"пользовавшись тем, что практически все пакеты дают стандартные оцен"ки младших моментов и процентилей распределения (см.
примеры 1.1ки 1.2к). При нахождении значений оценок могут оказаться очень полез"ными различные вспомогательные процедуры преобразования данных,средства решения систем линейных и нелинейных уравнений и т.п. Ис"пользование некоторых из этих возможностей показано в примере 4.2.Задача оценивания параметров нормального распределения в стати"стических пакетах рассматривается отдельно в главе 5.4.7.1. STADIAПример 4.1к. Сгенерируем выборку размера n = 100 из экспонен"циального распределения со средним значением b = 3 и оценим по нейзначение этого параметра.Рис. 4.1.
Пакет STADIA. Электронная таблица со сгенерированной выборкойÏîäãîòîâêà äàííûõ. Решение первой части этой задачи осу"ществляет в пакете процедура 3=Генератор чисел меню Преобразования. Ееработа была подробно рассмотрена в примере 2.3к.Для экспоненциального распределения в пакете используется сле"дующая параметризация плотности распределения: p(x, b) = 1b e−x/b ,где x 0, а параметр b является средним значением распределения(см. п. 2.3).После вызова меню Преобразования (функциональная клавиша «F8») ивыбора пункта 3=Генератор чисел, в открывшемся запросе (рис. 2.16) ука"жите размер выборки 100 в поле Всего чисел и величину среднего значе"ния 3 в поле a=.
(Содержание поля b= в данном случае несущественно.)Затем укажите тип распределения — экспоненциальное. Результат ге"нерации помещается в первый свободный столбец электронной таблицы(на рис. 4.1 это переменная x1).Âûáîð ïðîöåäóðû. В меню Статистические методы (рис. 1.17) в разделеРаспределения и частоты выберите пункт U = Согласие распределений.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. Программа запросит тип ве"роятностного распределения выборки (рис. 4.2).Ðåçóëüòàòû. На рис. 4.3 приведены результаты работы процедуры.При этом в строкеРаспределение экспоненциальное: 2.996, 3.0272первое число 2.996 является требуемой оценкой, а второе — стандартнойошибкой среднего значения.
Процедура также вычисляет статистики155Рис. 4.2. Пакет STADIA. Меню выбора вида распределенияСОГЛАСИЕ РАСПРЕДЕЛЕНИЙ. Файл:Распределение экспоненциальное: 2.996, 3.0272Колмогоров=0.056018, Значимость=0.6, степ.своб = 100Гипотеза 0: <Распределение не отличается от теоретического>Омега;квадрат=0.063088, Значимость=0.52224, степ.своб = 100Гипотеза 0: <Распределение не отличается от теоретического>Рис. 4.3. Пакет STADIA. Результат оценки параметров распределенияи проверки согласиякритериев согласия Колмогорова и омега"квадрат (они будут рассмотре"ны в главе 10) и строит графики плотности и функции подобранногораспределения вероятностей.Êîììåíòàðèè. 1. Полученная оценка является оценкой максимальногоправдоподобия.2.
В документации пакета указаны формулы, используемые для полученияоценок для распределений из списка рис. 4.2. По этим формулам можно судитьо теоретических свойствах вычисляемых оценок.3. Для решения примера можно также воспользоваться процедурой Описа'тельная статистика, поскольку параметр экспоненциального распределения являет"ся его средним значением.156Следующий пример иллюстрирует возможности вспомогательныхвычислительных процедур для построения оценок параметров распреде"лений. В связи с этим его характер отчасти искусственен.Пример 4.2к. По выборке размера n = 18 из логнормальногораспределения с плотностью вероятности(lnx−µ)21f (x, µ, σ) = √e− 2σ2x 2πσпостроим оценку максимального правдоподобия параметра µ.Ïîäãîòîâêà äàííûõ.
Пусть выборка размером n = 18 из логнор"мального распределения находится в переменной lognor редактора базыданных пакета (рис. 4.4).Рис. 4.5. Меню стандартных функций для преобразования данныхÇàïîëíåíèå ïîëåé ââîäà äàííûõ. В окне рис. 4.5 выберем пункт2 = LN (нажав «2» или воспользовавшись мышью). После этого в перемен"ной lognor будет находиться массив натуральных логарифмов элементовпервоначального массива. Так как искомая оценка является среднимарифметическим полученных значений, для ее вычисления можно ис"пользовать процедуру Описательная статистика из меню Статистические методы.Работа этой процедуры подробно описана в примере 1.1к.Ðåçóëüòàòû.
На рис. 4.6 приведены результаты работы процедурыОписательная статистика. Искомая оценка параметра µ находится в графеСреднее и равна 1.3805. Требуемую оценку в пакете можно было быполучить и сразу, воспользовавшись процедурой U=согласие распределений(пример 4.1).ОПИСАТЕЛЬНАЯ СТАТИСТИКА. Файл:ПеременнаяРазмер <;;;Диапазон;;;>lognor18 ;0.457133.3138Среднее;;;Ошибка1.3805 0.21126ПеременнаяlognorДовИнтСр. <;ДовИнтДисп;>0.440460.45241.806Медиана <;;;Квартили;;;>1.3732 0.869451.9382Переменная Асимметр. Значимlognor ;0.045086 0.4633Эксцесс3.1527Дисперс0.80338Ст.откл0.89632ОшСтОткл0.36983Значим0.2717Рис. 4.6. Результы работы процедуры описательной статистикиРис. 4.4.
Пакет STADIA. Электронная таблицас выборкой из логнормального распределенияОценка максимального правдоподобия параметра µ задается вы"ражениемn1µ̂ =ln(xi ).n i=1Для ее непосредственного вычисления воспользуемся процедурами пре"образования данных пакета.Âûáîð ïðîöåäóðû. В меню Преобразования выберите пункт 1 =стандартная функция. На экране появится всплывающее окно с перечнемстандартных функций (рис. 4.5).157Êîììåíòàðèè. 1.
Запись результата вычисления значений стандартнойфункции на место первоначальной переменной не всегда удобна, так как ведетк потере первоначального массива данных. Прежде чем выполнять подобныепроцедуры, можно создать копию первоначальной переменной в электроннойтаблице, используя буфер обмена.2. Указанное выше неудобство отчасти компенсируется простотой прове"дения преобразований.3. Для устойчивого оценивания в блоке преобразования данных пакета име"ется процедура C=пропущ. значения, которая выделяет в матрице данных возмож"ные «выбросы». Под «выбросом» в пакете понимается величина, отклоняющаясяот среднего значения переменной более чем на два стандартных отклонения.Каждый из «выбросов» может быть заменен либо «пропущенным значением»(при этом не происходит нарушения общей структуры матрицы данных, и онаможет быть использована целиком в различных методах анализа модельных158задач), либо средним значением по переменной, либо, если данные имеют соот"ветствующую структуру, — регрессионными оценками.4.
В целом пакет STADIA предоставляет достаточно простых возможностейдля самостоятельного построения различных оценок.Çàïîëíåíèå ïîëåé ââîäà äàííûõ. Окно ввода данных и параме"тров процедуры представлено на рис. 4.7.4.7.2. SPSSУже отмечалось, что в SPSS нет отдельного меню для блока проце"дур, работающих с распределениями вероятностей. Доступ к процеду"рам вычисления значений функций распределения и квантилей, а такжегенерация случайных выборок осуществляется через процедуру Computeиз меню Transform редактора данных (см. пп. 1.9.2 и 2.7.2). Однако, длябольшинства вероятностных распределений, с которыми в целом поддер"живает работу SPSS, прямое вычисление оценок параметров в пакетене предусмотрено.
Исключение составляют четыре распределения: нор"мальное, Пуассона, равномерное и экспоненциальное, с которыми рабо"тает процедура 1'Sample K'S (критерий согласия Колмогорова"Смирновадля одной выборки). Работа этой процедуры будет разобрана ниже.Пример 4.1к. Сгенерируем выборку размера n = 100 из экспонен"циального распределения со средним значением b = 3 и оценим по нейзначение этого параметра.Ïîäãîòîâêà äàííûõ.
Генерация выборок из заданного распреде"ления обсуждалась в примере 2.3к. В SPSS используется следующаяпараметризация для экспоненциального распределения:p(x, θ) = θ e−θxв том случае, когда это распределение нам известно точно. (Эта темаподробно обсуждается в гл. 10.) Вызов процедуры осуществляется изблока Nonparametric Test меню Analyze (см. рис. 3.9).(x 0).где θ часто называют параметром масштаба (scale) или «отношениемриска».
Связь между θ и b указана в п. 2.3: θ = 1/b. Следователь"но, в данном примере θ = 1/3. Для генерации требуемой выборкисначала в редакторе данных необходимо сформировать произвольнуюпеременную длины n = 100, а затем в процедуре Compute присвоитьпеременной expo значения выражения RV.EXP(1/3). В результате получимпеременную expo со значениями выборки из экспоненциального законав редакторе пакета.Âûáîð ïðîöåäóðû. Так как требуемая оценка является среднимзначением выборки, то получить ее в пакете можно множеством раз"личных способов, например, процедурами Frequencies, Descriptives, Explore изблока Descriptive Statistics меню Analyze.
(Часть этих процедур разобрана вп. 1.9.2.) Расскажем, как решить эту задачу с помощью более общейпроцедуры — 1'Sample K'S. Она оценивает параметры заданного распре"деления и проверяет согласие распределения выборки с гипотетическим159Рис. 4.7. Пакет SPSS. Окно ввода данных и параметров процедуры «1"Sample K"S»В этом окне необходимо стандартным образом указать переменнуюдля анализа в поле Test Variable List и в блоке Test Distribution (выбор распре"деления) указать Exponential.Ðåçóëüòàòû. Таблица выдачи результатов процедуры представле"на на рис.
4.8. Она включает оценку среднего значения распределения,а также значение статистики Колмогорова"Смирнова Kolmogorov'Smirnov Z иее асимптотический минимальный уровень значимости Asymp. Sig. (2'tailed)против двусторонних альтернатив.Êîììåíòàðèè. 1. Основное назначение данной процедуры — проверкасогласия выборочных данных с точно указанным распределением. Эта часть ееработы подробно обсуждается в главе 10. Здесь же заметим, что пользоватьсярезультатами проверки согласия в этой процедуре следует крайне осторож"но, учитывая особенности ее реализации.
(Процедура не позволяет уточнитьпользователю с каким же именно распределением будет проводиться проверкасогласия. Так, в рассматриваемом примере уместно проводить проверку согла"сия с экспоненциальным распределением, среднее значение которого равно 3.А процедура проводит проверку согласия с экпоненциальным распределением,среднее значение которого подобрано (оценено) по выборке и равно 2.4175(см. рис. 4.8). К сожалению, это типичная ошибка, свойственная реализа"циям критериям Колмогорова"Смирнова во многих известных статистическихпакетах [100].2. Укажем параметризацию других распределений, фигурирующих в про"цедуре 1'Sample K'S.160−(x−a)21e 2σ2 ,f (x, a, σ) = √−∞ < x < +∞,2πσгде a – математическое ожидание, а σ – стандартное отклонение. В качествеоценки параметра a используется оценка, равная среднему значению выборкиa∗ = x.В качестве оценки параметра σ используется величина:!!σ ="∗n1 (xi − x)2 .n − 1 i=1Некоторые свойства этих оценок указаны в п.