Диссертация (1137013), страница 22
Текст из файла (страница 22)
С его помощью для каждой группыбыл собран пакет данных, который включает: 1) полные данные13 со«стен» онлайн-групп за все время их существования на моментисследования(т.е.начинаясдатыпубликациисамогораннегосохранившегося поста на момент сбора данных - апрель-май 2015 года),включая статистику активности по пользователям; 2) данные из раздела«обсуждения»состатистикойактивностипопользователям;3)самозаполняемые данные пользовательских анкет (пол, возраст, регион,образование); 4) сетевые данные о связях виртуальной «дружбы»,существующих среди участников онлайн-группы.
В случае каждой группыисследуемую совокупность пользователей составляли все пользователи,аффилированные с данной группой разными способами, что включает всебя всех формальных членов и всех, проявивших активность в виде поста,комментария или «лайка» на страницах группы за всю историю еесуществования. Сети «дружбы» рассчитывались для полной совокупностипользователей для каждой группы.
Деактивированные пользователи былипредварительно отфильтрованы из состава групп до сетевого анализа.Отметим, что мы намеренно не вводили пороговые значенияактивности, используемые иногда для отсечения малоактивных участниковв силу ряда причин. Во-первых, введение порогов по активности привелобы к удалению пользователей, которые не обязательно являютсяаутсайдерами или случайными посетителями, а могут быть новичками илипассивными участниками, и к потере значительного объема полезной13Полные данные включают информацию об авторах, содержании, даты и времени публикации постов,комментариев и «лайков», а также статистику по показателям активности пользователей.119информации об их поведении (например о связях «дружбы»), которая такили иначе характеризует функционирование и структуру сообщества.
Вовторых, выбор конкретного порогового значения должен быть чем-тофундирован и такие значения могут быть разными для разных типовгрупп, поэтому это создало бы дополнительные условности и трудностидляихпоследующегосравнения.Такимобразом,исследуемаясовокупность пользователей каждой группы тождественна генеральнойсовокупности - всем действительным участникам за всю историюсуществованиягруппы.Такойподходявляетсянаиболеепредпочтительным, если не единственным в силу особенностей доступныхданных, но налагает ряд ограничений, которые мы опишем ниже приопасении пакетов исходных данных.Каждая группа имеет пакет данных, который включает следующиефайлы: список пользователей-членов группы; список всех пользователей,проявивших любую форму участия в группе (пост, комментарий,сообщение или «лайк»); сеть «дружбы» в виде списка ребер (edge list),рассчитанную для всех участников группы; анкетные данные всехучастников (id пользователя, имя, фамилия, пол, дата рождения, город,страна, число «друзей», число групп, число подписчиков, URL-адресфотографии со страницы пользователя, и опционально - ВУЗ, факультет);список дискуссий группы с указанием числа сообщений; база сообщений вдискуссиях группы (включая id, текст, дату и время сообщения, id авторасообщения,количество«лайков»ксообщению);базапостов,комментариев и «лайков» со «стены» группы (включая id постов икомментариев, id авторов, текст, дату и время всех постов и комментариев,id авторов «лайков» ко всем постам и комментариям); сводную статистикупользователей по всем видам онлайн активности на «стене» группы (числонаписанных постов и комментариев, число оставленных «лайков», числополученных в ответ комментариев и «лайков»).120В общей сложности совокупность собранных данных по всемгруппам составляет: 726 627 пользователей, 2 091 268 связей «дружбы», 1150 827 опубликованных сообщений и 1 884 103 «лайка».Доступные для анализа данные имеют ряд особенностей, которыенакладывают ограничения методологию и экстраполяцию полученныхвыводов.
Во-первых, исследуемую совокупность пользователей каждойгруппы составляют все действительные участники за всю историюсуществования данной группы. Это означает, что в качестве участниковсообщества рассматриваются пользователи, которые могли приниматьучастие в группе давно, на заре ее создания, и не принимать участие впоследующее время. Однако формирование выборочной совокупностиучастников на основе определенного этапа истории существования группыневозможно, как невозможен и анализ их участия в темпоральнойперспективе, т.к. временной меткой сопровождается только часть действийпользователя - публикация поста, комментария и сообщения в группе, и несопровождаются - вступление в группу, отметки «лайков» и внесениедругих пользователей в список «друзей».
Такие условия делаютневозможным изучение пользователей, которые являются актуальнымиучастниками группы, поэтому анализировались данные за всю историю еесуществования. Тем не менее, мы не считаем, что такое ограничениенегативно влияет на предмет исследования, т.к. социальные связи,налаженные за время участия пользователя в группе, остаются иинформируют нас о социальной дифференциации пользователей в онлайнсообществе.3.1.2. Описание переменныхДля анализа структурных характеристик сетей«дружбы» идифференциации пользователей на основе этих сетей был использованметод анализа социальных сетей (social network analysis).
Расчет сетевыхметрик для всех онлайн-групп производился с помощью программного121обеспечения Gephi (Bastian и др. 2009), Pajek (Batagelj, Mrvar 1998) ипакета iGraph в среде R (Csardi, Nepusz 2006). Переменные, описывающиесетевую структуру и дифференциацию пользователей в онлайн-группах,описаны в Таблице 3.1.3.
Это переменные, по которым типы группсравнивались между собой. Описательные статистики приведены вТаблице 3.1.4.Таблица 3.1.3Описание переменных, характеризующих онлайн-группы и их сетевуюструктуруПеременнаяPopulationОписаниеПолная численность онлайн-группы, включающая числоформальных членов группы (вступивших в группу) и всехпользователей, проявивших некую коммуникационнуюактивность на страницах группы.Clear populationЧистая полная численность онлайн-группы без удаленных/забаненных пользовательских аккаунтов.MembersЧисло формальных членов группы среди чистой полнойчисленности группы.Active UsersЧисло «активных» участников группы среди чистойполной численности группы.
Под активностьюпонимается совершение хотя бы одного из возможныхонлайн-действий в группе: написание поста, написаниекомментария, написание сообщения в обсуждениях,оставление «лайка».Share Active MembersДоля активных участников, одновременно являющихсяформальными членами группы; равен коэффициентуЖаккара о похожести множества активных участниковгруппы и множества формальных членов группы.Connected UsersЧисленность связанных пользователей внутри онлайнгруппы, имеющих хотя бы 1 «дружбу» с другимучастником группы.Connected Users ShareДоля связанных пользователей внутри онлайн-группы,имеющих хотя бы 1 «дружбу» с другим участникомгруппы.IsolatesЧисло изолятов.Isolates ShareДоля изолятов от чистой полной численности группы.EdgesЧисло ребер сети «дружбы».122Connected ComponentsЧисло связанных компонент в сети «дружбы».Связанный компонент - это подмножество вершин графа,в котором для любой пары вершин есть путь,соединяющий их (Catanese S.
и др. 2012: 318).Vertex Giant ComponentДоля вершин в максимальной связанной компоненте сети«дружбы».Edge Giant ComponentДоля ребер в максимальной связанной компоненте сети«дружбы».DensityПлотность сети «дружбы».Плотность сети - это отношение существующих связейграфа ко всем возможным для графа с таким же числомвершин.D=2E, где E – число существующих связей, а V –V (V 1)количество вершин.Density without isolatesПлотность сети «дружбы» без изолятов (т.е.
только средисвязанных пользователей).ModularityЗначение модулярности (от 0 до 1), показывающеенасколько выражена и кластерная структура в графе,насколько легко граф поддается разбиению на подгруппывершин (Newman 2003).ClustersЧисло выявленных кластеров для сети без изолятов. Дляразбиения графа на кластеры использовался алгоритмLouvain, основанный на функции оптимизации расчетамаксимальной модулярности (Blondel 2008). АлгоритмLouvain предустановлен в программном обеспеченииGephi.InCluster EdgesДоля ребер внутри кластеров, выявленных алгоритмомLouvain, ко всем ребрам графа.Mean GeodesicsСредняя геодезическая дистанция сети «дружбы».Геодезическая дистанция - кратчайший путь междулюбой парой узлов сети.DiameterДиаметр сети «дружбы» (максимальная геодезическаядистанция в графе).Mean DegreeСреднее значение степени центральностей сети «дружбы»для полной сети.Степень центральности (degree centrality), CD(i) –характеристика вершины, равная количеству связей однойвершины с другими вершинами (Freeman 1978: 219 - 221).Часто выступает как мера важности узла в социальныхсетях и отражает уровень престижа или власти актора взависимости от природы сети и данных (см.
напр., Krinskyи др. 2014).123Mean degree withoutisolatesСреднее значение степени для сети «дружбы» безизолятов (т.е. только среди связанных пользователей).Средний коэффициенткластеризации сети(Watts-Strogatz ClusteringCoefficient)Средний коэффициент кластеризации сети «дружбы».Индивидуальный (локальный) коэффициенткластеризации, вычисляемый для вершины графа,является мерой транзитивности и показывает, насколькососедние вершины в локальной эго-сети склонны кустановлению связей друг с другом. С точки зрениятеории социальных сетей друг твоего друга вероятнобудет и твоим другом (Catanese S. и др. 2012: 317 - 318).Изменятся от 0 до 1, где 1 соответствует наличию клики,т.е.