Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311), страница 89

Файл №1115311 Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере) 89 страницаЮ.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере (1115311) страница 892019-05-092019-05-09СтудИзба

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 89)

Лишь в том случае,когда расслоение совокупности произведено с помощью признака, ста"тистически независимого от признака A, расслоенный выбор не дает нампреимуществ в статистической точности. Во всех других случаях такойспособ выбора лучше. Притом тем лучше, чем больше зависимостьмежду признаками A и B. К слову, выражениеlL[P (A/Bl ) − P (A)]2 ∗ P (Bl )Доверительные интервалы для θ можно строить так же, как мы действо"вали в разделе 15.7 ("Доверительные интервалы").455l=1456может служить мерой, выражающей зависимость A от признака B(предсказуемость A по наблюдению над B).Суммируя полученные результаты, заметим, что:1) Расслоенный (стратифицированный) выбор дает лучшие резуль"таты, чем простой случайный выбор.2) Этот план обследования возможен, если известны доли wl слоевв генеральной совокупности.3) Для разделения на слои следует выбирать признаки наиболеетесно связанные с исследуемым признаком.4) Эффективно осуществлять расслоенный отбор тем легче, чемлучше предварительно изучена генеральная совокупность.Квотируемый выбор.

Квотируемый выбор представляет собойупрощенную форму стратифицированного выбора, в который контрольза соблюдением принципов случайного выбора несколько ослаблен. Приквотируемом выборе интервьюеры получаю задания опросить (обследо"вать) определенное число (квоту) респондентов из определенных слоев.В отличие от стратифицированного выбора, в котором из каждого слояпроизводится простой случайный выбор, здесь интервьюерам предоста"влена свобода в выборе респондентов.

Поэтому квотируемый выборне обеспечивает полной репрезентативности выборок и не свободен отнеконтролируемого смещения результатов. Эта опасность тем меньше,чем более однородны слои по отношению к признаку A.Кластерный выбор. Предположим, что генеральная совокупностьразделена на непересекающиеся группы. Будем называть их кластера"ми. С формальной точки зрения кластеры не отличаются от слоев, окоторых мы говорили при выборе из расслоенной совокупности. Однакопризнаки, по которым генеральная совокупность разделена на кластеры,слабо (либо вовсе не) связаны с интересующим нас признаком A.

По"этому такое разделение не подходит для стратифицированного выбора.Неформальное, но существенное различие между слоями и кластерами:слоев обычно немного, и их объемы велики, кластеры же многочислен"ны, но состоят из небольшого числа элементов. Разделение генеральнойсовокупности на кластеры нередко возникает естественным образом.Например, генеральная совокупность жителей города распадается нагруппы жителей отдельных улиц или домов; каждый человек являетсячленом определенного семейного хозяйства и т.д. Такая кластернаяструктура может быть существенной для организации выборки, дажеесли она и не связана с интересующими нас характеристиками генераль"ной совокурности.

Скажем, по плану выбора следует опросить некоего457жителя некоего села. Добраться к нему требует времени и денег. Иуж если все это затрачено, то как не воспользоваться возможностьюи без больших дополнительных усилий не обследовать его/ее соседейили членов его/ее семьи?При одноступенчатом кластерном выборе мы производим простойслучайный выбор определенного числа кластеров. (Далее – m класте"ров.) Затем каждый кластер обследуем сплошь. При многоступенчатомвыборе вместо сплошного обследования выбранных кластеров мы раз"деляем каждый из них на более мелкие кластеры и еще раз прибегаемк кластерному выбору.

Употребительны и более сложно устроенныевыборки (см. об этом ниже).Коротко обсудим свойства одноступенчатого кластерного выбора.Естественной оценкой θ̂ для неизвестного θ может служить доля эле"ментов с признаком A среди всех обследованных элементов. Еслиобозначить через N объем всей выборки, а через X – число элементовс признаком A, получим для θ̂ формулу, внешне не отличающуюся отоценки при простом случайном выборе:X(15.13)θ̂ = .NОтличие, однако, имеется, и притом серьезное: в отличие от простогослучайного выбора (выбора элементов) при кластерном выборе объемвыборочной совокупности N оказывается случайным. Поэтому оценкаθ̂ при кластерном выборе уже не является несмещенной.

Точно указатьее математическое ожидание в общем случае невозможно, так как онозависит от статистических свойств кластеров. Можна лишь утверждать,1. Поэтому при большом числечто смещение оценки θ̂ имеет порядок mвыбранных кластеров оценки получаются почти несмещенными.Лишь в одном исключительном случае θ̂ оказывается несмещеннойоценкой: когда объемы кластеров одинаковы.

Знаменатель дроби (15.13)в этом случае не зависит от результатов выбора и оценка получаетсянесмещенной. Помня об этом свойстве, при разбиении генеральнойсовокупности на кластеры для дальнейшего кластерного выбора этикластеры стараются сделать одинаковой численности.Многоступенчатый отбор. На примерах простого и расслоенногослучайного выбора мы рассказали об основных принципах выборочныхобследований. Однако реализовать описанные методы на практике внеименном виде удается довольно редко.

Главная причина – трудностьв организации простого случайного выбора из"за отсутствия полногосписка элементов генеральной совокупности.Из"за этого приходится прибегать к более сложным и многоступен"чатым формам выбора. На первом этапе исследователь разбивает ге"45815.5. …… неральную совокупность на непересекающиеся группы, полный списоккоторых (без повторений и без пропусков) ему известен.

Так, в элек"торальных исследованиях, где генеральной совокупностью выступаетвзрослое население России, на первом шаге многоступенчатого отбораможно использовать списки избирательных участков, списки почтовыхотделений и т.п.Составляющие этот список единицы именуются первичными единицами отбора (ПЕО). Заметим, что число ПЕО не должно быть нислишком малым, ни слишком большим. В первом случае снижается точ"ность оценок и есть риск пропустить что"то существенное, а во втором– значительно увеличиваются затраты на обследование.На первом этапе многоступенчатого отбора осуществляется случай"ный выбор определенного числа ПЕО, с учетом их долей охвата гене"ральной совокупности. На втором этапе в каждой отобранной единицеможно проводить простой либо стратифицированный случайный отбор(если это возможно), либо же опять выделять список единиц для от"бора.

Так, если ПЕО являлись населенными пунктами или сельскимиадминистративными районами, то на втором этапе в качестве единицотбора можно использовать списки избирательных участков в городахи деревни и села в сельских районах. Иногда единицы отбора на второмэтапе именуют вторичными единицами отбора (ВЕО). Случайный от"бор ВЕО осуществялется исходя из тех же принципов, что и на первомэтапе. Продвигаясь таким образом шаг за шагом на последнем этапеосуществляется выбор опрашиваемых респондентов.Мы ограничимся этим общим описанием принципов многоступен"чатого отбора. Не станем касаться ни его разновидностей, ни точныхформул для оценок и их статистических характеристик.

Эту информа"цию можно найти в специальной литературе [38], [54]. Заметим только,что реальные выборки, используемые в исследованиях общественногомнения, устроены еще более сложно, так как они обычно сочетают всебе принципы многоступенчатости и стратификации.1) Построение реальной репрезентативной выборки при выбо"рочных исследованиях является необходимой, но, возможно,весьма трудоемкой задачей, требующей как высокой квали"фикации специалистов, так и довольно обширной социально"демографической статистической информации. В то же времяпостроенную выборку можно использовать многократно в раз"личных исследованиях.

Именно так и поступают ведущие социо"логические службы и органы Госкомстата.2) В основе построения репрезентативных выборок лежат принци"пы случайного отбора. Другие способы формирования выборокне позволяют сделать обоснованных заключений о качестве по"лученных результатов.3) Точность оценок, получаемых по случайной выборке, зависит отплана построения (дизайна) выборки и рассчитывается на осно"ве самой выборки. Она никак не связан с объемом генеральнойсовокупности (в тех случаях, когда объем выборки пренебре"жимо мал по сравнению с объемом совокупности).

Поэтому"процент охвата" генеральной совокупности не является разум"ной характеристикой выборочного обследования и не долженучаствовать в его планировании.4) Необходимый объем выборки зависит от требуемой точности идостоверности результатов и плана построения выборки. Вы"ше были приведены методы расчета и значения объемов дляпростейших планов выборок.

Как показывает опыт ведущихсоциологических служб, при всероссийских опросах обществен"ного менения объемы многоступенчатых, стратифицированныхвыборок обычно колеблются около 1500 − 2500 респондетов. Всвязи со сказанным, примерно такими же должны быть выбор"ки при обсделовании одного субъекта федерации или простокрупного населенного пункта.

В более детальных выборочныхисследованиях могут фигурировать выборки большего объема.Например, общероссийская выборка Госкомстата для обследо"вания социально"экономического положения семей включает всебя порядка 50000 респондентов.5) В данном обзоре мы не обсуждали, как следует составлять ан"кеты или опросные листы. Это отдельная и весьма важная тема.Даже при хорошо составленной выборке недостаточно проду"манные формулировки вопросов могут привести к результатам,сильно искажающим реальное положение дел.Другие способы формирования выборок.

Организационныетрудности, денежные затраты, стремление провести обследование бы"стро и прочие подобные причины часто заставляют отступать от клас"сических теоретических схем и проводить исследования по какому"тодругому плану. Таких планов известно много. Более того, каждоеконкретное исследование, с учетом его особенностей, может идти пособственному плану. Иногда особенности этих планов диктуются вы"бранной методикой проведения опроса.

Так, проводя опрос по телефо"ну, необходимо использовать специальные планы опроса, учитывающиеспецифику метода.45946016$…… …ƒ 16.1. "…Арсенал методов анализа данных, предлагаемых современной стати"стикой, разумеется, далеко не ограничивается тем, что было изложено впредыдущих главах этой книги. Так, за рамками рассмотрения осталисьшироко используемые на практике методы многомерного статистическо"го анализа (т.е. анализа многомерных статистических данных), а такжевсевозможные специализированные статистические методы, предназна"ченные для анализа специфических данных в конкретных предметныхобластях. В настоящей главе мы дадим очень краткий обзор такихметодов, выбрав из них наиболее широко используемые и включенныев статистические пакеты для ЭВМ.Замечание для профессиональных математиков и статистиков.

Характеристики

Тип файла

PDF-файл

Размер

3,06 Mb

Материал

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере

Тип материала

Книга

Предмет

Теория вероятностей и математическая статистика (ТВиМС)

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

ju.n.-tjurin-a.a.-makarov-analiz-dannyh-na-kompjutere.rar

Прочти меня!!!.txt

Ю.Н. Тюрин, А.А. Макаров - Анализ данных на компьютере.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.