Диссертация (1136792), страница 11
Текст из файла (страница 11)
Интервальная переменная; Образовательные планы друзей – набор интервальных переменных, характеризующих процент друзей, которые собираются получить определенныйуровень образования: начальное профессиональное; среднее профессиональное;высшее образование.д) Уверенность в своих силах (МО’12 и ВД):Уверенность в своих силах измерялась для трех областей, на основе опросного инструмента Марша/Шавелсона ASDQII11; каждая из переменных создана на основе ответов на три соответствующих вопроса, оцененныхшкольниками по шкале Ликерта от 1 «совершенно не согласен» до 4 «абсолютно согласен» (подробнее о создании индекса см. §2 главы 2): Уверенность в своих силах по гуманитарным предметам: «Мне легкоучиться по гуманитарным предметам», «Я хорошо умею выражать свои мысли», «Мне не нравятся гуманитарные предметы»; Уверенность в своих силах в сфере математики: «Математика мне легко дается», «На уроках математики я часто чувствую беспомощность», «Я быстро схватываю новый материал по математике»; Физическая уверенность в своих силах: «Я терпеть не могу спорт и физическую активность», «У меня много спортивной энергии», «Спорт и физические упражнения мне легко даются»;11Marsh H.
W. The structure of academic self-concept: The Marsh/Shavelson model //Journal of Educationalpsychology. – 1990. – Т. 82. – №. 4. – С. 623.53 Школа повышенного статуса – школа имеет официальный статус гимназии/лицея или школы с углубленным изучением предметов. Бинарная переменная, 0 – обычная школа; 1 – школа повышенного статуса; Лучшая школа – школа принадлежит к 10% лучших школ по среднимуспехам по математике. Бинарная переменная, 0 – обычная школа, 1 – лучшаяшкола; Лучший класс – у класса высший средний балл в параллели. Бинарнаяпеременная, 0 – обычный класс, 1 – лучший класс; Средняя успеваемость класса – средний балл успеваемости учениковпо математике в классе.
Интервальная переменная; Средняя успеваемость школы – средний балл успеваемости учениковпо математике в школе. Интервальная переменная.е) Внеклассная деятельность (ВД):Изначально учащимся предлагался выбор из 45 вариантов внеклассныхзанятий от «плавания» до «военно-патриотических кружков». Они были объединены в четыре содержательные категории: «Спорт», «Занятия по предметам»,«Иностранный язык», «Искусство». Категория «Другое», в которую вошли всеменее распространенные виды кружков, в данной работе не анализируется.Итоговые переменные выглядят следующим образом: Занимался ли определенным видом внеклассной деятельности (спорт /занятия по предметам / занятия иностранным языком/ искусство) – бинарныепеременные, где 0 – не занимался, 1 – занимался этим видом деятельности.ж) Образовательный выбор (СПБ, МО’10): Выбор высшего образования – характеризует, намеривается ли ученикв итоге получить высшее образование.
0 – нет (более низкий уровень образования), 1 – да; Выбор начального профессионального образования – характеризует,намеривается ли ученик в итоге получить начальное профессиональное образование. 0 – нет (более высокий уровень образования), 1 – да;54 Выбор среднего профессионального образования – характеризует, намеривается ли ученик в итоге получить среднее профессиональное образование. 0 – нет (высшее образование), 1 – да.
В этом случае выбирающие НПОисключаются из анализа; Образовательный путь «вуз через колледж» – характеризует, намеривается ли ученик сначала поступить в колледж, чтобы затем перейти в вуз. Противопоставляется «прямому» пути: 0 – школа-вуз, 1 – колледж-вуз.§2Работа с пропущенными значениямиПропущенные значения являются серьезной проблемой при обработкеколичественных данных. Их анализ и верная стратегия работы с пропусками –один из ключевых шагов к получению корректных результатов. В противномслучае исследователь с большой вероятностью столкнется с такими последствиями как снижение статистической силы и/или смещенные оценки параметров, включая размеры корреляций, дисперсии и средних (Newman 2009).
А этозначит, что можно получить искаженные результаты – от размера коэффициента до его значимости.Перед началом работы с базами данных была проведена проверка на наличие и характер пропущенных значений. В целом, их можно разделить на трибольшие группы: абсолютно случайные пропуски (missing completely atrandom), случайные пропуски (missing at random) и неслучайные пропуски (notmissing at random).Пропуски считаются абсолютно случайными, если наличие либо отсутствие значения в переменной никак не связано ни с характеристикой респондента,ни со спецификой конкретных значений переменной: [p(пропуск | полные данные) = p(пропуск)].То есть, с одной стороны, пропуски возникают не из-за того, что на этотвопрос отказываются отвечать представители конкретной социальной группы(образованные / бедные / члены определенной субкультуры и т.п.).
С другой сто-55роны, пропуски не вызваны тем, что для данного вопроса респонденты избегали,к примеру, крайних значений (что часто является результатом социально желательного поведения). В результате наблюдаемые значения можно считать случайной выборкой из полных данных (Molenberghs 2014). Это позволяет свободноработать с такими данными, по желанию исследователя удаляя либо восстанавливая пропущенные значения, не боясь перекоса в данных.Значения можно считать пропущенными случайно, если вероятность пропуска зависит только от доступной исследователю информации – то есть от других переменных, включенных в базу данных: [p(пропуск | полные данные) = p(пропуск |наблюдаемые данные)].Тогда с данной переменной можно работать, удалив пропущенные значения и контролируя модели с ней по тем переменным, от которых зависят пропуски в зависимой переменной, либо же восстановив эти значения одним изсовременных методов (Gelman 2006, p.
530).Значения могут отсутствовать не случайно по нескольким причинам.Первая заключается в том, что наличие и отсутствие значений зависит от какихто факторов, не включенных в исследование. К примеру, неответ на вопрос озарплате может быть связан с религией, которая не учтена в исследовании. Втаком случае невозможно проконтролировать по источнику отсутствия значений, что может привести к значительному скосу в данных и к невалидным выводам. Вторая причина, еще более неприятная для исследователя – связьотсутствия ответов со структурой самой переменной.
Классический примерданной проблемы – систематическое отсутствие ответов о самых низких и самых высоких доходах: [p(пропуск | полные данные) ≠ p(пропуск | наблюдаемыеданные)].В первую очередь была проведена диагностика количества пропущенныхзначений в данных. Абсолютное большинство пропущенных значений приходится на блок социально-экономических показателей, а именно образование исоциально-профессиональный статус отца и матери. При этом данных об отцебыло получено систематически меньше, чем о матери: в 3 раза больше пропу-56щенных значений для образования и в 1,5 раза – для статуса. Интересно, чтотот же паттерн сохраняется и для еще одного вопроса, задававшегося отдельнооб отце и о матери – их родном языке. Меньше 1% учащихся не указали роднойязык матери (60 человек), в то время как для отца обнаруживается 5,8% пропусков.Следует заключить, что в российских условиях дети лучше осведомлены остатусе своих матерей, чем отцов.
Этому можно найти несколько объяснений,включая то, что матери проводят с детьми больше времени, на них лежит большая воспитательная нагрузка. Также можно предположить, что существует заметное количество семей, где дети растут без отца и следовательно, не могутсообщить о нем никакой информации. Однако без дополнительных исследований данной темы невозможно с уверенностью утверждать, почему школьникипредоставляют намного больше информации о матерях, чем об отцах.Существует достаточно давняя и не утихающая методологическая полемика насчет того, какие показатели социально-экономического статуса использовать. Всего существует три варианта работы с информацией о родителях:можно взять показатели только отца (как это делалось в американских работахсередины 20 века), только матери, либо агрегировать их (выбрать наибольшеезначение для каждой пары родителей, либо посчитать среднее).
У каждого подхода есть свои плюсы и минусы.Статус отца изначально выбирался исследователями во времена «американской мечты», когда для женщины приветствовалась роль домохозяйки иследовательно, у нее просто не было своего профессионального статуса. Этаидея затем утратила актуальность вместе с выходом подавляющего большинства женщин на рынок труда. В целом, именно агрегация показателей супруговвыглядит наиболее обоснованной, так как на ребенка влияют оба родителя.На самом деле, сама структура индекса ISEI приводит к некоторому увеличению количества пропущенных значений.
В первую очередь из-за того, чтодомохозяйки в него не включены вообще. Соответственно, определенная доляженщин, про которых школьник ответил на вопрос о роде их занятости, в итоге57все же маркированы как NA в классификации ISEI. В данном исследовании доля домохозяек в выборках составила всего 1%.Такое превращение домохозяек в пропущенные значения оправдываетсяназначением и содержанием индекса, для построения которого главными былидва показателя: требования к образованию, которые предъявляются на этойдолжности, и средняя заработная плата, связанная с престижем профессии.Очевидно, домохозяйки не получают официальной оплаты своего труда, к томуже вести домашнее хозяйство можно независимо от уровня образования.