Диссертация (1152380), страница 14
Текст из файла (страница 14)
Несмотря на значительное количествопользователей, зарегистрированных с пустыми анкетами, лишь малая часть изэтой группы вообще совершает платежные действия. Тех же из них, кто платитпроекту, в абсолютном выражении намного меньше, чем пользователей из другихсегментов. В первый месяц после регистрации только 2,9 % пользователейсовершают платежи. В дальнейшем же их количество стремительно сокращается.Рисунок 22 – Доля активных клиентов в общем составе группыИсточник: составлено авторомРисунок 23 – Доля активных клиентов от количества активных в первый месяцпосле регистрацииИсточник: составлено автором91Совершенно другая картина характерна для сегмента «Деловых знакомств»— в первый месяц 40 % из зарегистрированных на сайте пользователей, заплатятза сервис.
Несмотря на то, что и для этой группы характерен отток пользователей,выражен он гораздо слабее, чем для других сегментов. В частности, во времявторого месяца после регистрации 19,8 % пользователей из данного сегментаостаются активными (либо 33 % от тех, кто был активен в первый месяц).Таким образом, в качестве вывода можно отметить, что изначально одна изсамыхнемногочисленныхгрупппользователейпроектаобеспечиваетпоступление значительного объема пользовательских платежей (Рисунок 24).Примечательно, что люди, ориентированные на поиск «Деловых связей»(заполнившие подробно свой профиль), могут начать пользоваться сайтом иплатить не сразу, а спустя какое-то время.
Если в первый после регистрациимесяц только 40 % из них платят за сервис, то в следующие месяцы (несмотря наобщее снижение платежей и активных пользователей вследствие оттока) общееколичество хотя бы один раз заплативших пользователей в этой группе растет. Ичерез два года после регистрации уже 45% от зарегистрированных два года назадхотя бы один раз платили за сервис.Множественная сегментация.
Аналогичная процедура сегментации былапроделана для каждого региона отдельно для мужчин и женщин. В каждом случаеалгоритм выделял 15 сегментов, каждый из которых определялся набором метрик,усредненных по всем посетителям, попавшим в соответствующий сегмент. Такимобразом, в выборку вошли около 2 млн человек. Всего алгоритм создал около 2тыс. сегментов (80 регионов * 2 пола * 15 сегментов в каждом случае).Оценивая результаты массовой сегментации по всем регионам, необходимоответить на вопросы: насколько схожими являются результаты? повторяются лирезультаты от региона к региону? Для оценки сегментации был выбран механизмкорреляционного сравнения — каждый сегмент в итоговой выборке сравнивалсясо всеми остальными сегментами отдельно.
Критерием сравнения была92корреляциямеждунаборами числовыххарактеристик двух сегментов.Отбирались основные характеристики, определяющие сегменты.Рисунок 24 – Доля пользователей в группе сегмента, заплатившей хотя бы одинраз (мужчины)Источник: составлено авторомВсе характеристики нормированы в интервал [0,1]. По итогам сравнениябыла составлена матрица связанности сегментов, имеющая размер 2000 × 2000элементов. Для похожих сегментов M и N коэффициент корреляции междусегментамиявляетсявысоким(ρ_(M,N)→1).Вслучаеотсутствиясхожести/взаимосвязи корреляция между сегментами будет иметь низкиезначения (|ρ_(M,N) | ≤ 0,6). Поскольку для имеющихся целей необходимо понять,как сегменты между собой связаны, для снижения вычислительной сложностизадачи достаточноопределить толькотезначенияматрицы,которыесоответствуют сильной связи между сегментами (ρ_(M,N) ≥ 0,8).
Назовем такуюматрицу связей упрощенной (Рисунок 25).93Сегмент 11-10061-81-10354-1 1-10354-10 1-10354-11 1-10354-12 1-10354-13 1-10354-14 1-10354-2 1-10354-3 1-10354-4 1-10354-50,880,900,931-10061-90,961-10094-00,921-10094-10,970,931-10094-100,900,960,840,950,940,830,901-10094-111-10094-120,931-10094-130,990,891-10094-141-10094-20,991-10094-30,99Рисунок 25 – Фрагмент упрощенной матрицы связей между сегментамиИсточник: составлено авторомКаждый сегмент зашифрован тремя числами, например: «1-10061-8». Здесьпервое число «1» означает пол (мужской), вторая последовательность «10061»кодируетрегион(Владимирскаяобласть),третья—номерсегмента,присвоенный при сегментации мужчин в данном регионе (всегда от 1 до 15).Значение 0,88 на пересечении строки «1-10061-8» и столбца «1-10354-1»означает, что сегмент № 8 среди мужчин в Владимирской области сильно похожна сегмент № 1 среди мужчин в Воронежской области (регион 10354).Корреляция между ними равна 0,88.
В то же время сегмент «1-10061-8» не похожна сегмент «1-10354-2» (Рисунок 25).Для простоты можно считать, что сегменты похожи, если для нихсуществует значение упрощенной матрицы связи, а само значение означает мерусхожести. И сегменты не похожи, если нет соответствующего значения вупрощенной матрице связи (фактически, значение меньше выбранногопорога 0,8).Далее упрощенная матрица связи загружалась в программу GEPHI9(программа для анализа социальных сетей) в качестве матрицы ребер. Настранице «Лаборатория данных» данные представляются в табличном виде9GEPHI (программа для анализа социальных сетей).94(вкладки «Узлы» и «Рёбра»).
На странице «Обработка» упрощенная матрицавизуализируется в виде узлов (каждый сегмент — узел). Линии между узлами —связи между сегментами (согласно упрощенной матрице) — существуют толькотогда, когда соответствующие сегменты похожи друг на друга и имеют высокуюкорреляцию.Для загруженных данных последовательно запускалось два механизмаукладки (Fruchterman Reingold и Atlas 2).
В обоих случаях программа пытаетсярасположить связанные узлы (похожие сегменты) близко друг к другу и отдалитьнесвязанные узлы (непохожие сегменты). В результате программа визуальновыделяет несколько групп, в которые компактно собираются узлы. Изучениегрупп показывает, что все узлы/сегменты внутри таких групп похожи друг надруга по характеристикам. На схеме, приведенной на рисунке 26, показанореальное распределение сегментов (узлы, серые круги; связи между узлами дляупрощения не показаны) и их группировка после укладки.Визуально хорошо заметно семь групп сегментов, сгруппированныхотдельно друг от друга.
Понять профили групп сегментов можно, изучаячисловые характеристики соответствующих сегментов.Важнейший вывод, следующий из такого анализа, состоит в том, что наПроекте существует лишь несколько типов пользователей (сегментов). Инесмотря на то, что в различных регионах структура пользователей может бытьразличной, а одинаковые сегменты в разных регионах могут иметь различныеплатежныехарактеристики (ARPU),одинаков во всех регионах.общий пользовательский ландшафт95Рисунок 26 – Группировка сегментов по похожестиОсновные группы пользовательских анкет на проекте следующие.1.Пустые — самый массовый сегмент пользователей. Пользователихарактеризуются частичным заполнением профиля и отсутствием активности(как социальной, так и платежной).
Условно можно разделить их на две группы:зарегистрированные на сайтах justlunch и на сайтах партнеров проекта.2.Деловые связи — пользователи, зарегистрированные с целью поискановых деловых знакомств. Несмотря на то, что по составу эта группа не являетсямногочисленной, именно эти пользователи приносят проекту бóльшую частьприбыли. Пользователи характеризуются активным использованием сервиса(общение, просмотр анкет, покупка Premium статуса и т.д.). Как было показаноранее, пользователи такого типа могут начинать платить за сервис не сразу, а втечение нескольких месяцев после регистрации.3.Поиск работы — сегмент пользователей, отметивших поиск работыкак основную цель знакомства.
Для пользователей характерны разовые платежии пользование сервисом.964.Продажи — пользователи, ориентированные на поиск клиентов дляпродажи товаров и услуг. Умеренно активны в плане использования сервиса. Вцелом внутри этой группы сегментов существует разделение пользователей посегментам по типу предлагаемых услуг.5.Частичное заполнение — группа пользователей, не заполняющаяцели знакомства, однако при этом являющаяся достаточно активной в планеиспользования сервиса и оплаты его услуг.6.Случайное заполнение — немногочисленная группа из сегментов, вкоторых пользователи заполняют частично почти все пункты профиля. Приусреднении по пользователям большинство метрик усредняются до значения 0,5.Не активная и не платежеспособная группа.Поведенческая сегментация. Поведенческая сегментация (без учетастатических метрик).проводиласьпо всемпользователям(нетолькоМосковского региона), по которым имелась информация в таблице сессий.Для сегментации по каждому клиенту строился профиль его социальной иплатежной активности для каждой недели после регистрации.Использовались два поведенческих фактора: использование сайта (общеевремя сессий за неделю, синий цвет) и общие платежи за неделю (рубли, красныйцвет).
Срок жизни анкеты в неделях отложен по горизонтали (Рисунок 27).Дополнительно для каждой анкеты использовался параметр — номернедели максимального использования сайта. Это номер недели, в течениекоторой пользователь совершил максимальное количество действий.Таким образом, всего для сегментации использовались 40 параметров (13 +13 + 13 + 1: информация за 13 недель после регистрации по действиям, за 13недель по платежам и номер недели максимального использования).97Рисунок 27 – Профиль клиентаИсточник: составлено авторомПо всем анкетам была проведена сегментация сетью Кохонена.Сегментация делалась на фиксированное количество кластеров, равное 15(Рисунок 28).В количественном описании выявленные кластеры будут выглядетьследующим образом (Рисунок 29).Посетители, попавшие в сегмент 0, активно используют сервис первые 2месяца.
Видно, что максимальные платежи эти люди делают на следующуюнеделю после регистрации, однако использование сайта нарастает постепенно,достигая своего максимума лишь после месяца регистрации. На третьем месяцепосле регистрации эти люди уже не пользуются сайтом. Остальные сегментыиспользуют сайт и платят значительно меньше. Интересным также являетсяповедение части людей, попавших в сегмент 1: они начинают активнопользоваться сайтом через 2 месяца после регистрации (хотя это использованиенезначительно). Особенным представляется сегмент № 14 — его участникиустойчиво платят и пользуются сайтом (Рисунок 29). Профили по всем сегментам98представлены в Приложении Б.