Диссертация (1136614), страница 6
Текст из файла (страница 6)
В России аналогом Facebook является социальная сеть «ВКонтакте». Возможности этой сети как источникаданных также начинают привлекать внимание исследователей.В частности, они выясняют, как время, которое студенты проводят на «ВКонтакте» перед экзаменами, влияет на их оценки[Krasilnikov, Semenova, 2014], как формируется сеть дружбы студентов [Dokuka, Valeeva, Yudkevich, 2015]. Показано, как данные«ВКонтакте» можно использовать для анализа образовательноймобильности [Alexandrov, Karepin, Musabirov, 2016].Однако примеров использования данных социальной сетив исследованиях образования пока немного.
Их применение затрудняется тем, что до сих пор нет достаточной информации о степени достоверности данных «ВКонтакте» и возможных смещенияхвыборки пользователей сайта. Так, например, школа № 1 СанктПетербурга печально знаменита тем, что — если верить данным«ВКонтакте» — в 2019 г. должна выпустить 3000 школьников. Трудности возникают и при попытке прямого сопоставления спискаучащихся с профилями в социальной сети.
Школьники и студенты не всегда указывают в профиле свое образовательное учреждение и часто используют альтернативные формы своего имени.Наша статья посвящена исследованию достоверности данных«ВКонтакте» на примере одной московской школы и одного университета. На первом этапе были получены списки школьников,содержащие информацию об их среднем балле, половой принадлежности, классе и корпусе школы, в котором они учатся, и спискистудентов с информацией об успеваемости, курсе и образовательной программе. Затем был произведен поиск профилей учащихся на «ВКонтакте».
Прямое сопоставление (точное совпадениеимени и фамилии и указание учебного заведения в профиле) позволило обнаружить лишь около 18% учащихся. Использованиеинформации о дружеских связях, а также словаря, включающегоразные формы одного имени, дало возможность увеличить этотпоказатель до 88% для школьников и до 93% для студентов. Былопроизведено сравнение групп учащихся, найденных разными методами, а также учащихся, которые не были обнаружены на «ВКонтакте».
Дополнительно была загружена информация о дружескихсвязях и проведено сравнение восстановленной по ним структуры образовательного учреждения с реальной.Нам удалось продемонстрировать возможность извлеченияиз «ВКонтакте» данных, характеризующихся высокой степеньюдостоверности, а также соответствие структуры социальных связей, восстановленных по этим данным, структуре образователь108Вопросы образования. 2016. № 4И. Б. Смирнов, Е. В. Сивак, Я. Я. КозьминаВ поисках утраченных профилейного учреждения, включая разделение школы на корпуса и классы и университета — на кампусы и образовательные программы.Насколько нам известно, это первое исследование такого родаи масштаба на данных «ВКонтакте». Полученные результаты позволят исследователям образования с большей эффективностьюиспользовать потенциал социальной сети.Пользователи Интернета, регистрируясь в социальной сети«ВКонтакте», принимают условия пользовательского соглашения,согласно которому они «осознают, что информация на сайте, размещаемая пользователем о себе, может становиться доступнойдля других пользователей сайта и пользователей Интернета, может быть скопирована и распространена такими пользователями»2.
«ВКонтакте», в свою очередь, предоставляет API (публичный интерфейс приложения), который позволяет автоматическивыполнять поисковые запросы и получать информацию о пользователях, если она не была скрыта настройками приватности.Разработанное нами программное обеспечение (программа) выполняет запросы к API «ВКонтакте» и получает списоквсех пользователей, указавших, что они учатся в заданном учебном заведении, и соответствующих определенным возрастнымограничениям.
Затем производится сопоставление найденныхпрофилей со списком учащихся, предоставленным образовательным учреждением, по имени и фамилии. Однако прямоесопоставление позволяет обнаружить в социальной сети лишьнезначительную часть учащихся. Чтобы извлечь из нее большеинформации, мы применили два дополнительных приема.Во-первых, мы создали словарь альтернативных форм имени.
Если программа обнаруживала, что фамилия, указаннаяв профиле, содержит латинские буквы, она предлагала оператору перевести ее. Таким образом удалось выявить пользователей, указавших свою фамилию латиницей, например «Nabokov»вместо «Набоков». Если программа находила одну и ту же фамилию в списке учащихся и в списке пользователей, она уточнялау оператора, совпадают ли имена. В результате были установлены пользователи, использующие сокращенную форму имени,например «Вова Набоков» вместо «Владимир Набоков».
Все переводы и отмеченные совпадения (или несовпадения) имен сохранялись в специальный словарь, и повторно оператору не требовалось отвечать на один и тот же вопрос.Во-вторых, программа осуществляла поиск не только по пользователям, указавшим в профиле заданное учебное заведение,1. Программноеобеспечениеи процедурапоиска данныхв сети«ВКонтакте» 2 ВКонтакте (2016) Правила защиты информации о пользователях сайтаVK.com. https://vk.com/privacyhttp://vo.hse.ru109ПРАКТИКАно и по тем пользователям, у которых много друзей из этого учебного заведения. Этот прием, традиционный для анализа социальных сетей, используется, например, в [Mislove et al., 2010].Для того чтобы обеспечить сохранность личных данных школьников, мы разработали специальную версию программы, котораязапускается локально на школьном компьютере и после выполнения процедуры сопоставления удаляет все имена, фамилиии идентификаторы «ВКонтакте».
Только полностью обезличенныеданные передаются для дальнейшего исследования. Информация о студентах университета (списки студентов, обучающихсяна разных образовательных программах, сведения об их успеваемости) была получена из открытых источников (с сайта университета). После проведения процедуры сопоставления именастудентов и идентификаторы были удалены, и в дальнейшем использовался только обезличенный набор данных.По итогам процедуры сопоставления можно выделить несколько групп учащихся: те, которые не были обнаруженына «ВКонтакте»; те, которые были выявлены непосредственным сопоставлением; те, которые были установлены с помощьюпредложенного нами метода. Мы сравниваем эти группы по численности, а также по полу, возрасту и успеваемости входящихв них студентов.
Для вычисления p-значения используются критерий χ-квадрат и критерий Стьюдента.Мы также построили сети дружбы учащихся и сопоставили ихсо структурой образовательных учреждений. Мы ожидаем, чтоученики из одной параллели, сокурсники и обучающиеся на одной образовательной программе окажутся тесно связаны междусобой. Чтобы выразить эффект от такого разбиения на группы количественно, мы вычисляем модулярность Q. Эта величина равна доле дружеских связей, соединяющих учеников из одной группы (одной параллели, одной образовательной программы и т. п.),минус ожидаемое количество таких связей в том случае, если быони распределялись случайно.
Q = 0 означает отсутствие предпочтений образовывать связи внутри своей группы. Чем ближе Qк 1 (максимальное значение), тем сильнее выражено разбиениена группы. На практике Q принимает значения от 0,3 до 0,7, более высокие значения встречаются редко [Newman, Girvan, 2004].2. Достоверностьданных2.1. Школа110С использованием API «ВКонтакте» мы обнаружили 908 пользователей, указавших в профиле, что им не более 18 лет и что ониучатся в исследуемой школе.
При этом согласно списку в 5–11‑хклассах школы учатся 766 учеников. Таким образом, как минимумчасть пользователей предоставила о себе ложную информацию.Эффективным критерием идентификации настоящих профилей школьников может послужить число друзей на «ВКонтакте», указавших в профиле школу с тем же номером. Так, средиВопросы образования.
2016. № 4И. Б. Смирнов, Е. В. Сивак, Я. Я. КозьминаВ поисках утраченных профилейТаблица 1. Доля учеников, чьи профили были обнаруженына «ВКонтакте» с использованием предложенных методов (%)Словарьальтернативныхформ имениСписокдрузейНетДаНет1827Да5788Таблица 2. Сравнение долей найденных на «ВКонтакте»,не указавших школу и использующих альтернативную формуимени в группах школьников, различающихся по возрасту(классу)КлассДоля учащихся (%)5‑й6‑й7‑й8‑й9‑й10‑й11‑йВсех найденных85898890889185Не указавших школу64726974705872Использовавших альтернативную формуимени39362933333138458 пользователей, у которых нет ни одного друга из той же школы, только четверо, т. е.
меньше 1%, являются реальными учениками школы. Среди тех, кто входит в список занимающих первые сто мест по числу друзей в школе, как минимум 83% учатсяв данной школе (табл. 1).Итоговый охват сопоставим с полученным в исследовании,в котором анализировались профили американских студентовна Facebook, — там, согласно выложенным в открытый доступданным, охват во второй волне составил 84,6% [Lewis et al., 2008].В табл. 2 представлено сравнение групп учащихся, различающихся по возрасту (классу).
Примерно одинаковые доли учащихся были обнаружены в социальной сети для всех параллелей. Использование альтернативной формы имени и указаниешколы в профиле также не меняется от параллели к параллели.Ни одно из различий, указанных в таблице, не достигает уровнязначимости. p-значения, вычисленные по критерию χ-квадрат,больше 0,5.Точно так же не наблюдается различий по половому составу и успеваемости между группами школьников, найденнымина «ВКонтакте», не найденными на «ВКонтакте»», не указавшимиhttp://vo.hse.ru111ПРАКТИКАТаблица 3. Сравнение групп учащихся, различающихся способомпредставления данных о себе на «ВКонтакте», по половомусоставу и успеваемостиДевочки (%)Средний баллНайденные на «ВКонтакте»463,80Не найденные на «ВКонтакте»483,79Не указавшие школу483,77Использующие альтернативную форму имени503,79Таблица 4.
Сравнение долей найденных на «ВКонтакте»и использующих альтернативную форму имени в группах студентов, различающихся по возрасту (курсу)Доля студентов (%)Курс1‑й2‑й3‑й4‑йНайденных92949493Использовавших альтернативнуюформу имени30323234Таблица 5. Сравнение групп студентов, различающихся способомпредставления данных о себе на «ВКонтакте», по половомусоставу и успеваемостиДевушки (%)Средний баллНайденные на «ВКонтакте»597,34Не найденные на «ВКонтакте»587,13Использовавшие альтернативную форму имени717,37школу и использующими альтернативную форму имени по полуили успеваемости (табл. 3), p-значения больше 0,5.2.2. Университет112Аналогичные результаты были получены и для студентов университета. Из 15 757 студентов 93% были обнаружены на «ВКонтакте». В зависимости от образовательной программы этот показатель варьирует от 75 до 100%.Между студентами, найденными и не найденными на «ВКонтакте», а также между использующими и не использующими альтернативную форму имени, нет различий по возрасту, однако ненайденные на «ВКонтакте» студенты в среднем учатся несколькохуже (p-значение < 10–8), а девушки чаще используют альтернативные формы имени, чем юноши (p-значение < 10–11).Вопросы образования.