Диссертация (1148128), страница 31
Текст из файла (страница 31)
Кроме того, API VK позволяет любому разработчикуполучить доступ к информации, содержащейся в профилях пользователей и вонлайн-сообществах даже без получения «ключа» — access-token.Мы организовали получение данных, или «обнаружение знаний в базахданных» (data mining), используя язык программирования Python. Библиотекаrequests и различные методы VK API позволили создать несколько программныхпродуктов для сбора данных из социальной сети «ВКонтакте». Мы перечислимосновные методы, использованные в получении данных: users.get — возвращает расширенную информацию о пользователях322. groups.getById — возвращает информацию о заданном сообществеили о нескольких сообществах323. groups.getMembers — возвращает список участников сообщества324. wall.get — возвращает список записей со стены пользователя илисообщества325.Методы VK API [Электронный ресурс]. URL: vk.com/dev/users.get (дата обращения: 26.12.2016)Методы VK API [Электронный ресурс].
URL: vk.com/dev/groups.getById (дата обращения: 26.12.2016)324Методы VK API [Электронный ресурс]. URL: vk.com/dev/groups.getMembers (дата обращения: 26.12.2016)325Методы VK API [Электронный ресурс]. URL: vk.com/dev/wall.get (дата обращения: 26.12.2016)322323142Такимобразом,мыорганизовалиспомощьюсозданногонамипрограммного обеспечения парсинг информации из социальной сети «ВКонтакте»и обработку информации.
Сложно сказать, сколько именно миллионов элементовмногомерных ответов в общей сложности мы получили, однако точно можносказать, что данные усилия носили существенный характер.Наше исследования шло экстенсивно. На первом этапе мы собралинебольшой набор данных, проанализировали их на основе нашего оценочногокритерия (какую идеологическую установку разделяет сообщество).
На второмэтапе мы провели более подробный анализ, отказавшись от оценочных суждений.Мы провели процедуру симуляции эхо-камер для того, чтобы избавиться отбольшого количества малоинтенсивных слабых связей. Это допущение былонеобходимо для кластеризации сети отношений. На третьем этапе мы решилирасширить выборку, применив процедуру алгоритм расширения выборки. Мыувеличили её до 440 сообществ, которые отвечали признакам политическихсообществ и имели с политическими сообществами тесную связь в виде большогоколичества общих подписчиков.На первом этапе мы собрали выборку из 110 сообществ.
Выборкасообществ осуществлялась методом снежного кома: от найденных по ключевымсловам петербургских сообществ к новым в ссылках. Онлайн-сообщества былиразличныпосвоейидеологическойнаправленности:либеральные,националистические, социалистические и ЛГБТ. Для извлечения множестваподписчиков использовался метод API VK groups.getMembers. Технически этореализуется следующим образом: на запрос к API VK выполняется json-ответ,который содержит многомерный массив-результат на заданные параметры. Этипараметры представляли для нас интерес.В рамках создания математической модели графа мы написали скрипт наязыке программирования Python, который осуществлял постоянные запросы к VKAPI, получая массив id подписчиков, а затем интерпретировал следующимобразом.
Происходило попарное сравнение множеств подписчиков в квадратнойматрице размерностью 110 выше главной диагонали матрицы, так как для наших143целей был выбран неориентированный граф. Неориентированных граф выбран,прежде всего, потому что количественное значение пересечения множествнивелирует направленность. После сравнения отображается результат, где вколонку с названием «source» помещается id одного сравниваемого сообщества, вколонку «target» — другого, а в колонку «weight» — значение пересекающихсямножеств аудиторий (количество общих подписчиков).
Таким образом, параметр,описывающий всех участников сообщества, помог задать вес отношениям. Подсвязью между сообществами мы понимали количество общих подписчиков.Обработка полученного датафрейма с данными о взаимосвязях (ребрах)проводилась в программе Gephi, в результате чего была получена визуализацияматематической модели взвешенного графа (Приложение Д).
Как заявляетБыков И. А. в своей докторской диссертации, «подобная формализация должнаспособствовать научной строгости и призвана освободить политическиеисследования от политической ангажированности и предвзятости»326.Особенностьюданноймоделиявляетсято,чтоплотностьграфачрезвычайно велика. Модель является практически полным графом, так какплотность равняется 0,93. Это говорит о том, что практически все компоненты(онлайн-сообщества) имеют общих подписчиков. Немаловажным являетсяпоказатель интенсивности связей, т.е. число людей, являющихся участникамидвух сообществ одновременно.Описательные статистики по ребрам графа вносят ясность в распределениесмежности аудитории.
Минимальное значение — один общий подписчик,максимальное — 4293 общих подписчика между сообществами «Варгград» и«Империум СПб». Первый квантиль находится на четырех подписчиках. Мерысредней тенденции говорят, что сообщества в среднем по медиане имеют междусобой 12 подписчиков, а среднее арифметическое составляет 47,52 подписчика.Как мы видим, распределение ненормальное, а, следовательно, при большомколичестве низкоинтенсивных связей факт наличия большого количества общихБыков И. А. Сетевая политическая коммуникация в условиях трансформирующегося общества: дис.
… докт.пол. наук: 10.01.10. Санкт-Петербург, 2016. С. 59326144подписчиков нивелируется, становится невозможно посчитать некоторые видыцентральности.Средняя взвешенная степень графа равна 4909,15, в пересчете на один узел— 44,22 — показатель, близкий к среднему арифметическому. Третий квантильнаходится на уровне 37 подписчиков.
В этом распределении присутствуютвыбросы,которыесдвигаютсреднееарифметическое.Такимобразом,стандартное отклонение равно 139, что говорит о явной неоднородностинаблюдений.Такимобразом,вмоделиприсутствуютсильныецентрыпритяжения, которые создают ядра близких сообществ. Они и есть агенты,выполняющие роли хабов. Также различные идеологические сообщества имеютхотя бы небольшое количество общей аудитории.
Это прямо свидетельствует отом, что подмножество виртуальных сообществ, представляющих несистемныеполитические силы (не представленные в Государственной думе), не изолированыдруг от друга и не замыкаются в эхо-камерах.Диаметр графа равняется двум. Это означает, что граф не является полным.Средняя длина пути — это средняя величина переходов от любого узла к любомудругому. Она равна 1.06. Модулярность — это параметр, определяющий, как графделится на подмножества (группы, кластеры, субграфы), и она составляет 0,33.Средний коэффициент кластеризации показывает, как связан граф — посредствомтранзитивных троек или клик, другими словами — это мера, в которой узлы вграфе имеют тенденцию группироваться вместе.
В нашем случае эта статистика— 0,95. Взвешенный коэффициент кластеризации отображает меру кластеризациис учетом интенсивности связи для взвешенных графов. Он равен 0,98. Этоговорит о том, что распространение информации в такой модели будетпроисходит практически моментально. На основании того, что коэффициенткластеризации является сверхсильным, а средняя степень по графу не отличаетсявысоким значением, следует вывод, что политические сообщества формируюточень плотную структуру сети, имеющую распределенную сеть хабов.Обратимся к диаграммам размаха разных метрик центральности дляидеологических групп (Приложение Е).
Взвешенная степень узла является самой145простой мерой центральности. В распределении этой метрики в разныхидеологических группах сразу ярко видны те сообщества, которые мы решилиназвать националистическими. В этих сообществах большой размах — 19913, атакже межквантильный размах (размах между 25% и 75% наблюдений) — 10648,высокое минимальное и максимальное значения: 1467 и 21380.
Высокая медиана— 7080, которая выше третьего квантиля всех остальных групп. Кроме того,стандартное отклонение незначительно отличается от медианы — 6369,11, чтоговоритоприблизительнооднороднойпредставленностинаблюденийснезначительным смещением. Либералы также имеют большой размах — 15538,но межквантильный размах заметно меньше — 3289,25. Медиана — 2946,5, чтонемногим выше первого квантиля националистов, но стандартное отклонение3805,69,котороезаметноотличаетсяотмедианы,а,следовательно,классифицирует распределение как неоднородное. ЛГБТ-сообщества имеютмедиану на уровне 2046, что довольно высоко для четырех сообществ.Социалисты показывают низкие показатели центральности по степени узла.Размах составляет примерно половину размаха националистических сообществ —7204.
Медиана равно 1607, а стандартное отклонение — 1672,64, что говорит ободнородном представлении наблюдений. Третий квантиль — 2241, что нижемедианы в группе либералов.Промежуточная центральность предоставляет возможность обнаруживатьсетевых агентов, связывающих различные изолированные группы или узлы. Внашем случае при смежности аудитории можно выявить кросс-идеологическиесообщества, а также дать характеристику сетевым стратегиям и практикамразличных идеологических групп.