Диссертация (1136614), страница 12
Текст из файла (страница 12)
То есть подростки описывают воображаемые беспокойстваматери (вероятно, обоих родителей) по поводу того, что происходит с дочерью. Это довольно сложная когнитивная конструкция: подросток представляет себе, что в его поведении можетбыть непонятным родителям, притом что ему самому это представляется очевидным и естественным.
Именно очевидность дляодних (самих подростков) и непонятность для других (родителей)делает каждый пост смешным (в большей или меньшей степени).В этой же группе встречаются упоминания социальной сети «Одноклассники» и почты в домене mail.ru как примеры чего-то устаревшего. Но юмор этот не злой и не грубый. Отчасти к этой же категории можно отнести и сообщество «Дома не поймут», но это,скорее, самоописания, которые, как явствует из названия группы, непонятны старшим, — вспомним «личный миф» (personalfable), характеристику, введенную Д. Элкиндом [Alberts, Elkind,Ginsberg, 2007].Кроме того, в списке сообществ, на которые подписаны «отличники», есть и «Фабрика идей» — забавные или серьезные неожиданные варианты использования привычных вещей, странные их сочетания и т. д., есть юмор, фильмы, музыка и «Лучшиестихи великих поэтов» (преимущественно о любви). Секс такжепредставлен практически во всех сообществах, но, как правило,внутри каких-то других тем (например, неожиданное возвращение родителей домой, когда молодая пара занимается сексом).Сообщества школьников с более низким средним балломуспеваемости составляют совсем иную подборку.
Это гороскопы(«любовный» и «необычный»), затем «Тысяча чертей, какая татуировка!» — множество фотографий татуировок, иногда смешныекартинки с татуировками. Также есть подборки фильмов, видеоклипов, музыка, много юмора, подчас весьма грубого.В записях из сообществ обеих категорий пользователей —и «отличников», и «двоечников» — выражения встречаются весьмаразнообразные, в том числе вульгаризмы и сниженная лексика.144Вопросы образования. 2017.
№ 2К. Н. Поливанова, И. Б. СмирновЧто в профиле тебе моемПодростковые сообщества практически не содержат школьной тематики. Школа, учение, содержание школьных предметов,таким образом, исключены из сферы интересов детей (толькопредстоящие экзамены попадают в поле их интересов, вероятно,по совершенно внешним причинам, по необходимости). Слабоуспевающие школьники при этом не интересуются и экзаменами.Таким образом, качественное сравнение групп, на которыеподписаны мальчики и девочки, «отличники» и «двоечники», выявляет различия в интересах между этими категориями подростков.
Различия существуют и между подростками разных возрастов. Чтобы точно охарактеризовать эти различия, требуетсядальнейшая работа с материалом. Вероятнее всего, адекватнымметодом сравнения будет контент-анализ. Он не входил в задачи настоящего этапа исследования ввиду большого количествасообществ (более 800).Карты интересов позволяют качественно оценить дифферен- Степеньциацию интересов подростков в зависимости от пола, возра- дифференциаста и успеваемости. При этом остается открытым вопрос, на- ции интересовсколько значимы обнаруженные различия. Найти ответ на этотвопрос традиционными методами представляется затруднительным.
Поясним это на примере. Предположим, мы бы хотели оценить степень дифференциации успеваемости по полу. Притрадиционном подходе пол был бы назван независимой переменной, а успеваемость — зависимой. Была бы построена регрессионная модель, предсказывающая успеваемость по полуи ряду контрольных переменных.
Величина коэффициента передпеременной пола и уровень его значимости послужили бы основанием для вывода о силе связи между успеваемостью и полом.Несмотря на широкое распространение, такой подход вызывает серьезную критику [Berk, 2004], начиная с классической работы Лимера [Leamer, 1983], и не является единственно возможным [Breiman, 2001]. Очевидно, что для ответа на интересующийнас вопрос традиционный подход непригоден, так как интересыпользователей — переменная огромной размерности (сотни тысяч) и она не может быть использована как зависимая переменная в регрессионной модели.Мы утверждаем, что степень дифференциации интересов мож- Предсказательно оценить через их предсказательную силу, а именно через ная силаточность модели, предсказывающей на основании информации интересовоб интересах подростков их принадлежность к интересующейнас группе (мальчики/девочки, младшеклассники/старшеклассники и т. п.).
То есть если возможно построить модель, предсказывающую с высокой точностью пол подростков, — значит, их инhttp://vo.hse.ru145ПО МАТЕРИАЛАМ МЕЖДУНАРОДНОГО СИМПОЗИУМА «Л.С. ВЫГОТСКИЙ И СОВРЕМЕННОЕ ДЕТСТВО»тересы дифференцированы по полу. Как и в случае с проверкойстатистических гипотез, обратное не обязательно верно: еслине удалось построить такую модель — это не значит, что дифференциация отсутствует.Поясним эту мысль примером. Рассмотрим соответствиемежду полом и внешностью человека. Разумеется, именно полопределяет внешность, а не наоборот.
Однако требовать предсказать внешность по полу было бы неразумно, так как переменная «пол» может принимать всего два значения, а переменная«внешность» — миллиарды различных значений. Тем не менеене вызывает сомнений существование соответствия между полом и внешностью. Не вызывает сомнений как раз потому, чтопо внешности мы можем предсказать пол с большой точностью.То же самое может быть верно и для интересов: если интересычеловека позволяют предсказать его пол с той же точностью, чтои внешность, — значит, интересы не менее полоспецифичны.Построение предсказательной модели требует значительного большего объема данных, чем в используемом нами наборе, поэтому мы дополнительно собрали информацию обо всехпользователях «ВКонтакте», указавших, что они учатся или учились в одной из школ Санкт-Петербурга, и родившихся в периодс 1993 по 2002 г.
Про каждого пользователя были известны пол,год рождения, средний балл ЕГЭ выпускников его школы за последние пять лет и список подписок на сообщества. Всего этотгородской набор содержал информацию о 290 182 пользователях. Общее число различных сообществ, на которые подписанхотя бы один учащийся, — 886 191. Так как в этом случае не быловозможности сопоставить данные «ВКонтакте» с реальными, дляповышения достоверности набора данных из него были исключены те пользователи, у которых не было друзей в социальной сетииз указанной ими школы.Построениемодели146С учетом вышесказанного не имеет принципиального значения,какую именно предсказательную модель использовать. Мы отдаем предпочтение подходу, предложенному М. Косински с соавторами [Kosinski, Stillwell, Graepel, 2013].
Во-первых, потому, чтоэто наиболее известная из работ, выполненных на данных, аналогичных нашим, — а значит, можно будет сопоставить российскиерезультаты с мировыми. Во-вторых, потому, что предложенныйМ. Косински подход прямолинеен, и для его понимания не требуется владеть продвинутыми методами машинного обучения. Аналогичный подход к анализу больших данных используется и в социальных исследованиях [Eagle, Pentland, 2009].Из городского набора данных мы исключили пользователей,подписанных менее чем на 50 сообществ, и сообщества, на которые были подписаны менее 50 пользователей.
РезультирующийВопросы образования. 2017. № 2К. Н. Поливанова, И. Б. СмирновЧто в профиле тебе моемнабор данных содержал 116 912 пользователей и 40 774 сообщества. Участие в каждом из сообществ было закодировано с помощью бинарных переменных aj (j = 1, …, 40 774), где aj = 0, еслипользователь не подписан на сообщество j, и aj = 1, если пользователь подписан на сообщество j.
Весь набор данных таким образом представляет собой матрицу 116 912 × 40 774, (i, j)-элементкоторой равен 1, если пользователь с номером i подписан на сообщество с номером j, и равен 0 в противном случае. Затем мыиспользовали сингулярное разложение этой матрицы для выделения 100 главных компонент bk (k = 1, …, 100), характеризующихинтересы пользователей.Переменные bk использовались в качестве предикторов в логистической регрессии. Целевыми переменными выступали полпользователя, его принадлежность к определенной возрастнойгруппе и факт обучения в школе с наилучшими/наихудшими образовательными результатами. Чтобы избежать переобучениямоделей, была использована перекрестная проверка с разбиением на десять частей.Построенные нами модели на городском наборе данных позволяют предсказать пол пользователя с точностью 97%.
Они также позволяют отнести пользователя к одной из двух возрастныхгрупп с точностью 98%, если разница между ними составляет9 лет (2002 и 1993 год рождения). Если разница между возрастными группами составляет 4 года (2002 и 1998 год рождения),то точность падает до 88%. Модель позволяет различить дажеразницу в 2 года: точность составляет 70%. Модель позволяетразделить пользователей из 1% наиболее успевающих школ и 1%наименее успевающих школ с точностью 83%. Отнести пользователей к 50% наиболее успевающих школ или к 50% наименееуспевающих школ модель позволяет с точностью 62%.