Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 89
Текст из файла (страница 89)
Лишь в том случае,когда расслоение совокупности произведено с помощью признака, ста"тистически независимого от признака A, расслоенный выбор не дает нампреимуществ в статистической точности. Во всех других случаях такойспособ выбора лучше. Притом тем лучше, чем больше зависимостьмежду признаками A и B. К слову, выражениеlL[P (A/Bl ) − P (A)]2 ∗ P (Bl )Доверительные интервалы для θ можно строить так же, как мы действо"вали в разделе 15.7 ("Доверительные интервалы").455l=1456может служить мерой, выражающей зависимость A от признака B(предсказуемость A по наблюдению над B).Суммируя полученные результаты, заметим, что:1) Расслоенный (стратифицированный) выбор дает лучшие резуль"таты, чем простой случайный выбор.2) Этот план обследования возможен, если известны доли wl слоевв генеральной совокупности.3) Для разделения на слои следует выбирать признаки наиболеетесно связанные с исследуемым признаком.4) Эффективно осуществлять расслоенный отбор тем легче, чемлучше предварительно изучена генеральная совокупность.Квотируемый выбор.
Квотируемый выбор представляет собойупрощенную форму стратифицированного выбора, в который контрольза соблюдением принципов случайного выбора несколько ослаблен. Приквотируемом выборе интервьюеры получаю задания опросить (обследо"вать) определенное число (квоту) респондентов из определенных слоев.В отличие от стратифицированного выбора, в котором из каждого слояпроизводится простой случайный выбор, здесь интервьюерам предоста"влена свобода в выборе респондентов.
Поэтому квотируемый выборне обеспечивает полной репрезентативности выборок и не свободен отнеконтролируемого смещения результатов. Эта опасность тем меньше,чем более однородны слои по отношению к признаку A.Кластерный выбор. Предположим, что генеральная совокупностьразделена на непересекающиеся группы. Будем называть их кластера"ми. С формальной точки зрения кластеры не отличаются от слоев, окоторых мы говорили при выборе из расслоенной совокупности. Однакопризнаки, по которым генеральная совокупность разделена на кластеры,слабо (либо вовсе не) связаны с интересующим нас признаком A.
По"этому такое разделение не подходит для стратифицированного выбора.Неформальное, но существенное различие между слоями и кластерами:слоев обычно немного, и их объемы велики, кластеры же многочислен"ны, но состоят из небольшого числа элементов. Разделение генеральнойсовокупности на кластеры нередко возникает естественным образом.Например, генеральная совокупность жителей города распадается нагруппы жителей отдельных улиц или домов; каждый человек являетсячленом определенного семейного хозяйства и т.д. Такая кластернаяструктура может быть существенной для организации выборки, дажеесли она и не связана с интересующими нас характеристиками генераль"ной совокурности.
Скажем, по плану выбора следует опросить некоего457жителя некоего села. Добраться к нему требует времени и денег. Иуж если все это затрачено, то как не воспользоваться возможностьюи без больших дополнительных усилий не обследовать его/ее соседейили членов его/ее семьи?При одноступенчатом кластерном выборе мы производим простойслучайный выбор определенного числа кластеров. (Далее – m класте"ров.) Затем каждый кластер обследуем сплошь. При многоступенчатомвыборе вместо сплошного обследования выбранных кластеров мы раз"деляем каждый из них на более мелкие кластеры и еще раз прибегаемк кластерному выбору.
Употребительны и более сложно устроенныевыборки (см. об этом ниже).Коротко обсудим свойства одноступенчатого кластерного выбора.Естественной оценкой θ̂ для неизвестного θ может служить доля эле"ментов с признаком A среди всех обследованных элементов. Еслиобозначить через N объем всей выборки, а через X – число элементовс признаком A, получим для θ̂ формулу, внешне не отличающуюся отоценки при простом случайном выборе:X(15.13)θ̂ = .NОтличие, однако, имеется, и притом серьезное: в отличие от простогослучайного выбора (выбора элементов) при кластерном выборе объемвыборочной совокупности N оказывается случайным. Поэтому оценкаθ̂ при кластерном выборе уже не является несмещенной.
Точно указатьее математическое ожидание в общем случае невозможно, так как онозависит от статистических свойств кластеров. Можна лишь утверждать,1. Поэтому при большом числечто смещение оценки θ̂ имеет порядок mвыбранных кластеров оценки получаются почти несмещенными.Лишь в одном исключительном случае θ̂ оказывается несмещеннойоценкой: когда объемы кластеров одинаковы.
Знаменатель дроби (15.13)в этом случае не зависит от результатов выбора и оценка получаетсянесмещенной. Помня об этом свойстве, при разбиении генеральнойсовокупности на кластеры для дальнейшего кластерного выбора этикластеры стараются сделать одинаковой численности.Многоступенчатый отбор. На примерах простого и расслоенногослучайного выбора мы рассказали об основных принципах выборочныхобследований. Однако реализовать описанные методы на практике внеименном виде удается довольно редко.
Главная причина – трудностьв организации простого случайного выбора из"за отсутствия полногосписка элементов генеральной совокупности.Из"за этого приходится прибегать к более сложным и многоступен"чатым формам выбора. На первом этапе исследователь разбивает ге"45815.5. …… неральную совокупность на непересекающиеся группы, полный списоккоторых (без повторений и без пропусков) ему известен.
Так, в элек"торальных исследованиях, где генеральной совокупностью выступаетвзрослое население России, на первом шаге многоступенчатого отбораможно использовать списки избирательных участков, списки почтовыхотделений и т.п.Составляющие этот список единицы именуются первичными единицами отбора (ПЕО). Заметим, что число ПЕО не должно быть нислишком малым, ни слишком большим. В первом случае снижается точ"ность оценок и есть риск пропустить что"то существенное, а во втором– значительно увеличиваются затраты на обследование.На первом этапе многоступенчатого отбора осуществляется случай"ный выбор определенного числа ПЕО, с учетом их долей охвата гене"ральной совокупности. На втором этапе в каждой отобранной единицеможно проводить простой либо стратифицированный случайный отбор(если это возможно), либо же опять выделять список единиц для от"бора.
Так, если ПЕО являлись населенными пунктами или сельскимиадминистративными районами, то на втором этапе в качестве единицотбора можно использовать списки избирательных участков в городахи деревни и села в сельских районах. Иногда единицы отбора на второмэтапе именуют вторичными единицами отбора (ВЕО). Случайный от"бор ВЕО осуществялется исходя из тех же принципов, что и на первомэтапе. Продвигаясь таким образом шаг за шагом на последнем этапеосуществляется выбор опрашиваемых респондентов.Мы ограничимся этим общим описанием принципов многоступен"чатого отбора. Не станем касаться ни его разновидностей, ни точныхформул для оценок и их статистических характеристик.
Эту информа"цию можно найти в специальной литературе [38], [54]. Заметим только,что реальные выборки, используемые в исследованиях общественногомнения, устроены еще более сложно, так как они обычно сочетают всебе принципы многоступенчатости и стратификации.1) Построение реальной репрезентативной выборки при выбо"рочных исследованиях является необходимой, но, возможно,весьма трудоемкой задачей, требующей как высокой квали"фикации специалистов, так и довольно обширной социально"демографической статистической информации. В то же времяпостроенную выборку можно использовать многократно в раз"личных исследованиях.
Именно так и поступают ведущие социо"логические службы и органы Госкомстата.2) В основе построения репрезентативных выборок лежат принци"пы случайного отбора. Другие способы формирования выборокне позволяют сделать обоснованных заключений о качестве по"лученных результатов.3) Точность оценок, получаемых по случайной выборке, зависит отплана построения (дизайна) выборки и рассчитывается на осно"ве самой выборки. Она никак не связан с объемом генеральнойсовокупности (в тех случаях, когда объем выборки пренебре"жимо мал по сравнению с объемом совокупности).
Поэтому"процент охвата" генеральной совокупности не является разум"ной характеристикой выборочного обследования и не долженучаствовать в его планировании.4) Необходимый объем выборки зависит от требуемой точности идостоверности результатов и плана построения выборки. Вы"ше были приведены методы расчета и значения объемов дляпростейших планов выборок.
Как показывает опыт ведущихсоциологических служб, при всероссийских опросах обществен"ного менения объемы многоступенчатых, стратифицированныхвыборок обычно колеблются около 1500 − 2500 респондетов. Всвязи со сказанным, примерно такими же должны быть выбор"ки при обсделовании одного субъекта федерации или простокрупного населенного пункта.
В более детальных выборочныхисследованиях могут фигурировать выборки большего объема.Например, общероссийская выборка Госкомстата для обследо"вания социально"экономического положения семей включает всебя порядка 50000 респондентов.5) В данном обзоре мы не обсуждали, как следует составлять ан"кеты или опросные листы. Это отдельная и весьма важная тема.Даже при хорошо составленной выборке недостаточно проду"манные формулировки вопросов могут привести к результатам,сильно искажающим реальное положение дел.Другие способы формирования выборок.
Организационныетрудности, денежные затраты, стремление провести обследование бы"стро и прочие подобные причины часто заставляют отступать от клас"сических теоретических схем и проводить исследования по какому"тодругому плану. Таких планов известно много. Более того, каждоеконкретное исследование, с учетом его особенностей, может идти пособственному плану. Иногда особенности этих планов диктуются вы"бранной методикой проведения опроса.
Так, проводя опрос по телефо"ну, необходимо использовать специальные планы опроса, учитывающиеспецифику метода.45946016$…… …ƒ 16.1. "…Арсенал методов анализа данных, предлагаемых современной стати"стикой, разумеется, далеко не ограничивается тем, что было изложено впредыдущих главах этой книги. Так, за рамками рассмотрения осталисьшироко используемые на практике методы многомерного статистическо"го анализа (т.е. анализа многомерных статистических данных), а такжевсевозможные специализированные статистические методы, предназна"ченные для анализа специфических данных в конкретных предметныхобластях. В настоящей главе мы дадим очень краткий обзор такихметодов, выбрав из них наиболее широко используемые и включенныев статистические пакеты для ЭВМ.Замечание для профессиональных математиков и статистиков.