С.С. Валландер - Лекции по статистике и эконометрике (1160549), страница 3
Текст из файла (страница 3)
Мы ещевернемся к этому обсуждению в гл.6,7.1.2Случайные величины и вероятности — кое-что опостановке статистических задачХорошо известно одно из основных отличий курса теории вероятностейот курса математической статистики (мы, разумеется, утрируем):в курсе теории вероятностей учат, как по вероятностям некоторых"базисных"событий искать вероятности прочих событий, а вкурсе математической статистики интересуются тем, как эти"базисные"вероятности извлечь из статистических данных.В логическом плане вероятностные понятия явно предшествуютстатистическим.
"Вероятностник"(probabilist) предполагает, что наσ-алгебре событий задана вероятностная мера (каждому событиюприписано неотрицательное число, называемое его вероятностью,Основания статистики7с выполнением известных свойств, главным из которых являетсяаддитивность, даже счетная аддитивность). Статистик (statistician),соглашаясь с ним в целом, подчеркивает, что имеющаяся у негоаприорная информация о случайном явлении не позволяет этувероятностную меру однозначно определить, и потому работает совсеми априори допустимыми вероятностными мерами, а иногда, скрепясердце, добавляет какие-либо кажущиеся осмысленными требования,урезающие это слишком обширное множество априори допустимых мер.При первой возможности статистик старается тестировать добавленныетребования и с легкостью отказывается от них, если обнаруживает,что эмпирические данные его к тому вынуждают (правда после этогоему приходится, иногда в тяжелых муках, изобретать альтернативнуюпостановку задачи).Главное здесь в том, что исследователь пытается, опираясьна статистические данные, решить, какая из априори допустимыхвозможностей реализована "в жизни"("в природе", "в обществе","на финансовом рынке".
. . ). Во многих случаях полное исследованиеявления не входит в задачу статистика, и он интересуется лишьдопустимыми вероятностными мерами на более узкой алгебре событий— алгебре, порожденной конечным набором случайных величин(доступных ему наблюдений). Другими словами, он интересуетсясовместным распределением вероятностей для этих случайных величини не касается других величин (и вероятностей), относящихся к тому жеслучайному явлению.Мы приближаемся к очень важному обсуждению: какформулируются типичные статистические задачи, и каковы отличияприкладной статистики от математической (теоретической).
Оговоримсясразу, что подобное обсуждение, помещенное в самом начале, должнорассматриваться как сугубо предварительное, не претендующеена полную ясность. Может быть, читателю будет полезно иногдавозвращаться к этому параграфу по мере изучения последующих глав.Удобно выделить два существенных этапа исследования: "отстатистических данных к статистической модели"и "от статистическоймодели к статистическому выводу".Построение модели статистических данных, а также (по крайнеймере, иногда) и модели всего изучаемого явления — прикладнаячасть исследования.
Во многих случаях приходится углубляться всодержательный предметный анализ явления и выходить за рамки8Глава 1собственно статистики. В применении к социально-экономическойпроблематике такой анализ составляет ядро отдельной научнойдисциплины, называемой эконометрикой.Модель статистических данных, говоря упрощенно, задаетисследователю алгебру событий и совокупность априори допустимыхвероятностных мер на ней. Статистическая практика показывает,что в процессе работы эта модель может (часто неоднократно)модифицироваться, сравниваться с альтернативными моделями,тестироваться разнообразными способами, пока не накопитсядостаточная уверенность в ее "адекватности".
Слово "адекватность"мызаключаем в кавычки, поскольку в серьезных задачах всегда остаетсятень сомнения.Для окончательного выбора модели нет четких правил — этоскорее искусство статистика, чем наука. Такое положение дел вполнесогласуется с тем обстоятельством, что статистические выводы (см.ниже) практически не бывают абсолютно надежными, а умениесомневаться (разумно сомневаться) — первостепенная черта статистика(и эконометриста), как исследователя.В определенные моменты у исследователя возникает ощущение,что текущая модель заслуживает того, чтобы в ее рамках занятьсяполучением статистических выводов (с возможным возвратомпосле этого к обсуждению модели).
Правила перехода (в рамкахфиксированной модели) от исходных данных к статистическимвыводам — иногда они называются статистическими решающимиправилами (decision rules или statistical inference procedures; в частныхзадачах используются и более узкие термины, см. ниже) — в центретеоретической части исследования. Их нужно построить, обосновать,изучить, сравнить с альтернативными правилами и т.д.
и, в концеконцов, применить к конкретным наборам чисел (последнее, впрочем,уже не теория).Затем статистику целесообразно приостановиться, оглядеться вокруги осознать полученные выводы. Только после этого имеет смыслпланировать конкретные дальнейшие действия. Иногда по пословице:"Пировали — веселились, подсчитали — прослезились".Поговорим теперь немного о крайних точках статистическогоисследования — о данных и о выводах.Как уже упоминалось в предыдущем параграфе, статистическиеданные как числа — это "реализовавшиеся значения"случайныхОснования статистики9величин.
Сами эти случайные величины представляют тем самымтеоретический конструкт статистических данных. Детализируемобозначения и терминологию, стараясь не слишком отклоняться оттрадиционных и не забывая об аккуратности и здравом смысле.Обычно, хотя и не всегда, статистические данные естественнымобразом разделены на части, отвечающие отдельным наблюдениям.Такие части мы будем выделять в наших обозначениях индексом,например, наблюдения X1 , X2 , . . . , XT . Каждое наблюдение трактуетсякак случайная величина (в простейшем случае — одномерная) илиее реализовавшееся значение. Обычно из контекста видно, какоеиз двух толкований имеется в виду. В редких случаях, когда обатолкования используются в одной формуле, реализовавшееся значениемы будем отмечать дополнительным индексом "эмп."(эмпирическое)или"эксп."(экспериментальное).
Так, выражениеP(X1 = X1,эмп. )следует понимать как вероятность того, что случайная величина X1примет значение X1,эмп. Наряду с подобными выражениями будутупотребляться и более короткие, вида P(X1 = x). Здесь буквой xобозначено одно из возможных значений случайной величины X1 ,которому не приписывается роль реализовавшегося.Совокупность наблюдений обычно линейно упорядочена в видепоследовательности.
При этом номер наблюдения чаще всегоимеет одно из двух толкований — либо момент времени, либономер объекта (скажем, фирмы) из совокупности одновременнорассматриваемых объектов. В первом случае последовательностьнаблюдений называется time series (временной ряд), а во втором — crosssection (общепринятого русского эквивалента нет, один из вариантовперевода — пространственные данные). Иногда это различие удобноподчеркнуть обозначением индекса: t = 1, . .
. T или i = 1, . . . N . Вотдельных задачах встречаются "двумерные"массивы данных Xit — такназываемые панельные данные (panel data).Следуя установившейся традиции (о ее происхождении см.предыдущий параграф), мы иногда будем называть последовательностьнаблюдений выборкой, а если соответствующие случайные величинынезависимы и одинаково распределены (independent identically distributed, сокращенно iid или IID) — повторной выборкой.
При этомникакой "генеральной совокупности"в общем случае иметь в виду10Глава 1не следует. Характеристики случайных величин, составляющихвыборку (распределения вероятностей, математические ожидания,дисперсии, ковариации и т.д.), мы будем называть теоретическими (ванглоязычных текстах можно встретить прилагательное populational)характеристиками, в противовес эмпирическим, о которых пойдет речьв следующем параграфе.В принципе, весь набор статистических данных можно рассматриватькак одно (многомерное) наблюдение, но это редко бывает удобно —подразделение на естественные части дает дополнительную структурунабора данных, которая часто отражается в структуре априоридопустимых вероятностных мер (повторная выборка — типичныйпример: каждая априори допустимая мера — произведение (одинаковых)распределений отдельных наблюдений).По характеру множества априори допустимых мер можно выделитьпараметрические и непараметрические модели.
Четкой грани междуними иногда нет, но в целом обычно считается, что в параметрическоймодели совокупность априори допустимых мер определяется конечнымнабором числовых параметров, различающих эти меры. Например,совокупность одномерных нормальных распределений N(a, σ 2 ) задаетсядвумя параметрами — математическим ожиданием a и дисперсиейσ 2 . Фиксация этих двух параметров однозначно определяет законраспределения.