Диссертация (1152380), страница 12
Текст из файла (страница 12)
Сегодня интеллектуальный анализ данных(Data Mining) уже перешел в категорию массовых, широко применяемыхтехнологий. Интеллектуальный анализ данных предназначен для выявления внакопленных данных ранее неизвестных взаимосвязей и особенно важен дляобеспечения конкурентоспособности компании.Сегментация пользователей (иначе Profile Mining, профилированиепользователей) направлена на разделение всей их совокупности на группыпотребителей с похожей активностью, потребностями, характеристиками поразличным устойчивым признакам и характеру реакции на предложения с цельюопределения размера и значения маркетинговых сегментов [45].Сегментация пользователей веб-сайтов позволяет выбрать маркетинговыестратегии и стратегии разработки продуктов, соответствующие различнымпользовательским сегментам.
Выделение и характеристика сегментов позволяетувеличить объемы реализации, добиться лучшего выявления, понимания ипокрытия целевых рынков; более корректного определения значений ключевыхиндикаторов результативности бизнеса (KPI) благодаря учёту сегментов и,соответственно, выявлению реального прогресса организации в достижениипоставленных бизнес-целей [174].С учётом двух основных составляющих сегментации – способасегментации и базы, относительно которой выполняется сегментация, – и целинастоящего исследования были сформулированы задачи исследования внастоящем параграфе:1)провести сравнительный анализ основных методов сегментации;772)провести сегментацию пользователей ПЦС с целью построенияпрофиля его социальной, поведенческой и платежной активности.Классификация переменных сегментации пользователей сайтов. Вобласти Profile Mining для получения данных о пользователях используютсяспециальные метрики сайтов.
Они являются базой сегментации и могут бытьпоставленывсоответствиеопределенныммаркетинговымпеременнымсегментации. Например, такой поведенческой переменной, как частота покупок,может быть поставлена в соответствие метрика «количество сделанныхпользователем покупок на сайте», а язык потребителя можно считатьсовпадающим с системным языком, указанным в его HTTP-запросах [45].Рассмотрим подробнее возможные метрики сайтов с точки зрения ихиспользования в качестве переменных сегментации пользователей.Вмаркетинговыхисследованияхприпроведениисегментациипотребителей используются две группы переменных:1)описательные характеристики:•географические: страна [45], район, область проживания и т.п.;•демографические: возраст, пол, семейное положение, доходы,социальный класс и т.п.;•психографические: тип личности и т.п.;2)характеристики поведения, например, способы использования услуги.Эти группы переменных можно расширить за счет включения еще трехгрупп метрик сайтов [48]:a)сведения, передаваемые с компьютера пользователя автоматическиво время посещения сайта ("технические признаки пользователя"), включающиев себя:•данные о компьютере, передаваемые через поля заголовка HTTP-запроса: характеристики программного обеспечения, системный язык, источникперехода на сайт, поисковый запрос пользователя, который привёл на сайт илистраницу, географическое расположение провайдера, Cookies и т.п.78•данные о компьютере, которые могут быть прочитаны из Web-браузера с помощью счётчиков посещений (встроенных в Web-страницыJavaScript-программ): характеристики монитора, история просмотров страниц втекущем сеансе работы браузера и др.;b)дополнительнаяинформацияcсайта:анкетыпользователей,ключевые слова просмотренного содержимого и атрибуты интересуемыхпродуктов или услуг;c)•обобщённая Интернет-статистика:глобальная и региональная Интернет-статистика, которую можнонайти на сайтах W3Counter, Bigmir)net, SpyLog и др.;•метрики отраслевой статистики (benchmarking), включающие в себясведения о посетителях сайтов в зависимости от их отраслевой принадлежностии предоставляемые такими Web-службами, как Google Ad Planner, Google Trends,Google Benchmarking, Coremetrics, ClickZ Stats, Fireclick и др.[45]Только небольшую часть описательных характеристик пользователейможно хотя бы приблизительно определить автоматически по косвеннымпоказателям, таким как системный язык, место расположения Интернетпровайдера пользователя, предпочитаемые товары, время и суммы покупок.Дополнительную информацию могут дать комментарии пользователей и иханкеты.Рассмотрим существующие на сегодняшний день основные подходы ксегментации, принятые в Web Usage Mining для анализа пользователей, и методысегментации потребителей, используемые в маркетинговых исследованиях.
Взависимости от способа разбиения на сегменты, их можно разделить на методысегментации "с учителем", "с подкреплением" и "без учителя" [45].Для сегментации "без учителя" применяются:•кластерный анализ;•ассоциативные правила;•нейронные сети;•разведывательный анализ данных (Exploratory Data Analysis).79Кластеризация обычно применяется первой во время анализа данных сотсутствующими предопределёнными значениями метрик.
При этом переменныене разделяются на зависимые и независимые, и проверяются взаимозависимыесвязивсегонаборапеременных.Общаяцелькластерногоанализа:максимизировать подобие членов в пределах каждого кластера и разницу междукластерами.Недостаткомэтогометодаявляетсяопасностьсозданиястатистически правильных, но бессмысленных сегментов в случае неправильныхначальных данных [45].Одним из широкоизвестных в аналитическом сообществе алгоритмовкластеризации, позволяющих эффективно работать с большими объемамиданных, является EM-алгоритм. Его название происходит от слов «expectationmaximization», что переводится как «ожидание-максимизация».В основе идеи EM-алгоритма лежит предположение, что исследуемоемножество данных может быть смоделировано с помощью линейной комбинациимногомерных нормальных распределений, а целью является оценка параметровраспределения,которыемаксимизируютлогарифмическуюфункциюправдоподобия, используемую в качестве меры качества модели.Нейронные сети – более мощный инструмент анализа, однако его сложнеенастраивать и труднее интерпретировать результаты по сравнению с кластерныманализом [45].Одна из разновидностей нейронных сетей – сети, называемые картамиКохонена.
Они используют неконтролируемое обучение. При таком обученииобучающее множество состоит лишь из значений входных переменных, впроцессе обучения нет сравнивания выходов нейронов с эталонными значениями.Можно сказать, что такая сеть учится понимать структуру данных.Кроме того, для предварительной подготовки данных о действияхпользователя на сайте может быть использован разведывательный анализ данных.Этот вид статистического анализа позволяет выполнить пробную оценку набораданных, уменьшить его размерность, проверить взаимосвязи между переменнымии выявить интересуемые подмножества записей журнала посещений. Результаты80анализа отображаются в виде простых графиков и таблиц для поддержкипринятия решения о выполнении более глубокого исследования с использованиемспециальных методов сегментации [45].В различных областях, использующих сегментацию пользователей – Webusage mining, Web-аналитика и маркетинг – существуют свои методики еёвыполнения.
В маркетинге сегментация потребительских рынков выполняется втри этапа: 1) выбор критериев (переменных) сегментации; 2) выбор методасегментации; 3) выбор целевых сегментов [45].Метод и выборка.Для анализа статистической и множественной сегментации аудиториисайта по статическим и поведенческим показателям использовались данные поанкетам пользователей (мужчин и женщин), зарегистрированных на ПЦС —социальной сети для деловых знакомств justlunch.ru.Анкеты удаленных пользователей не рассматривались. Выборка составила219 560 человек.В качестве переменных сегментации были выбраны 11 метрик (Таблица 5).Таблица 5 - Метрики пользовательских профилейМетрикаstatusОписаниеСтатус пользователя проекта.
Бинарное значение 0 («нет») и 1(«да»)user_mobilПринимать сообщения только от пользователей- друзей.Бинарное значение 0 («нет») и 1 («да»)Признак сайта Числовой признак, задающий для каждого пользователя сайтрегистрациирегистрации (признак = 0, если клиент зарегистрировался наодном из собственных сайтов Проекта; признак = 1, есликлиент зарегистрировался на одном из сайтов-партнеровПроекта ≠ [105, 73213,33509]).При усреднении по кластеру характеристика показывает долюпользователей, зарегистрировавшихся через партнеров.users_ photostПризнак наличия главной фотографииinfo_educationУровень образованияprofile_commЦелевая характеристика «Новые деловые связи».
Бинарноезначение 0 («нет») и 1 («да»)profile_saleЦелевая характеристика «Поиск клиентов». Бинарное значение0 («нет») и 1 («да»)81Продолжение таблицы 5profile_hrprofile_friendsprofile_unknownВозрастнаягруппаЦелевая характеристика «Поиск работы». Бинарное значение 0(«нет») и 1 («да»)Целевая характеристика «Встречи с друзьями» (нет всправочнике). Бинарное значение 0 («нет») и 1 («да»)Целевая характеристика «цель неизвестна» (нет всправочнике). Бинарное значение 0 («нет») и 1 («да»)Возрастная группа пользователя:• 0, если возраст < 18, или > = 70• 1, если возраст от 18 до 20• 2, если возраст от 20 до 23• 3, если возраст от 23 до 27• 4, если возраст от 27 до 30• 5, если возраст от 30 до 35• 6, если возраст от 35 до 40• 7, если возраст от 40 до 50• 8, если возраст от 50 до 70Источник: составлено авторомДля выделения сегментов были использованы различные алгоритмы: картыКохонена,EM-кластеризация,k-means,g-means.Каждыйизметодоврассматривался с различными комплектами входных метрик и различнымипараметрами алгоритмов.Статическая сегментация проводилась с целью сегментации аудиторииинтернет-проекта в каждом из регионов в отдельности.