Диссертация (1138748), страница 18
Текст из файла (страница 18)
Предлагаетсянесколько вариантов решения IBM SРSS Mоdеlеr, в том числе облачная версия.Решение IBM SРSS Mоdеlеr можно развернуть как на рабочем столе, так иинтегрировать в рабочие системы.IBM SРSS Mоdеlеr позволяет работать с большими объемами данных,выявлять зависимости между переменными, проводить моделирование,прогнозирование, кластеризацию с целью выявления скрытых тенденции вповедении клиентов. Возможности программного приложения позволяютиспользовать персонализированный подход и за счет этого, повышатьлояльность клиентов и сокращать затраты компании.Спомощьюинтуитивнопонятноговизуальногоинтерфейса,поддерживаемого расширенной аналитикой, можно выявить закономерности итренды в структурированных и неструктурированных данных, что позволяетповысить точность при составлении прогнозов и повышает обоснованностьпринимаемых решений.Основные преимущества системы интеллектуального анализа данныхIBM SPSS Modeler v.16.0.В рамках исследования для обработки и анализа данных используетсяинструментальное средство IBM SPSS Modeler v.16.0 версии (IBM SPSS,2016).Онявляетсяответвлениемразвитияпопулярнойлинейкистатистических пакетов продукта SPSS Statistics (Бююль, 2002).
Продукт SPSSModeler v.16.0 основан на нодовой (узловой) архитектуре разработки, являетсякомплектом инструментов исследования данных, при помощи которогоможно проводить статистический анализ данных, разрабатывать прогнозныемодели, сегментировать данные. Продукт ориентирован на промышленныйподход к обработке данных, то есть на работу с большими объемами, свозможностью создания моделей обработки данных. Продукт нацелен навнедрение результатов анализа в деловые операции для усовершенствования105процесса принятия решений, выработки новых продуктов, оптимизациивнутренней деятельности предприятия. Из-за его ориентации на работу сбольшими объемами данных, поддержку серверных вычислительных машин,использование ресурсов собственной базы данных предприятия делаетданный продукт одним из немногих способных обработать представленнуюдля исследования информационную базу.Интерфейс продукта представлен на рис. 14.
Круглый узел – это источникинформации, шестиугольники – узлы обработки данных, пятиугольники –узлы моделей, квадраты – узлы вывода информации, треугольники – узлыграфического представления данных. Вся цепочка называется потокомданных, который изображает, как данные запрашиваются из источникаданных, передаются по направлениям стрелок через преобразователи иформируют исходящие документы, графики или таблицы.Рис.
14 Пример интерфейса IBM SPSS Modeler v.16.0 с нодовой (узловой)архитектурой.106В IBM SPSS Modeler v.16.0 представлено несколько моделей, которыеспособны выявлять взаимосвязи между набором независимых переменных иисследуемой характеристикой, то, как регрессии: линейная, логистическая,обобщенная; деревья решений: CART, QUEST, CHAID; нейронная сеть.Реализованонесколькомоделейкластеризацииданных:k-средних,самоорганизующиеся карты Кохонена, двухшаговый метод. А такжепредставлен метод PCA (principal components analysis) для формированиянезависимых факторов и уменьшения размерности входных данных,основанный на методе главных компонент.Реализация линейной регрессии.
Множественная линейная регрессияимеет следующий вид (Бородич, 2000): = 0 + 1 1 + 2 2 +. . . + + (39)Где – регрессоры (свободные переменные), – параметры(коэффициенты) регрессии, i = 1…k, y – зависимая (исследуемая) переменная,k – количество факторов модели, - случайная ошибка модели.Существует несколько методов нахождения коэффициентов линейнойрегрессии.
Именно метод наименьших квадратов (МНК) является весьмараспространённымспособомопределениякоэффициентовлинейнойрегрессии, он достаточно прост и понятен, его можно встретить, вероятно, влюбом пакете, занимающемся анализом статистики. Для определениякоэффициентов регрессии по методу наименьших квадратов необходиморешить следующее уравнение (Дженнрич, 1986): = ( )−1 (40)Где b – вектор коэффициентов регрессий, A – матрица подстановокнезависимых регрессоров и вид матрицы определяется (Дженнрич Р.И., 1986):1 11=[ ⋮1 1⋯ 1⋱⋮ ]⋯ (41)Где индекс n – определяет количество наблюдений исследуемойпеременной107С целью определения качества полученной модели применяется критерийсуммы квадратов регрессионных остатков, Sum of Squared Errors (SSE)(Дженнрич Р.И., 1986). SSE: = ∑=1( − ∗ )2(42)Где ∗ - является предсказанным значением для итого наблюдения пополученной линейной регрессии.Из описанных продуктов выбор пал на IBM SPSS Modeler v.16 понескольким причинам: Разработанные средства представления процесса обработки данныхпозволяют в явном виде реализовать теоретическую модельисследования, визуально сохранить структуру информационнологической модели. Наличие необходимых для исследования методов. Ориентация программного-приложения на работу с большимиобъемами данных. МноголетняяисторияразвитиялинейкипродуктаSPSS.Зарекомендовавшее себя качество реализации математическихметодов в продукте. Опыт автора при работе с IBM SPSS Modeler v.16.0. Наличие данного продукта в непосредственном доступе автора.Несомненно, первые пункты играют ключевую роль при выборепрограммного продукта IBM SPSS Modeler v.16.1083.2 Кластеризация клиентской базы телекоммуникационнойкомпании.Для решения поставленной задачи была собрана и проанализированаабонентская база крупной телекоммуникационной компании, насчитывающая8 млн.
абонентов. Для апробации предложенной модели была использованаинформационная база, представляющая собой 2,5% от всей абонентской базыв объеме 2 356 753 абонентов Москвы и Московской области за период с 1января 2011 по 31 декабря 2014. Общее количество переменных,характеризующих абонентское потребление, использованных для выявленияабонентскихпрофилей,составило103единицы.Общееколичестворассмотренных тарифных планов составило 198 единиц.
Для анализатарифных планов было выбрано 14 показателей тарификации абонентскоготрафика.Реализация разработанной модели и апробация на реальных данных былаосуществлена с применением системы IBM SPSS Modeler v16.0.На рис. 15 по пунктам от 1 до 10 представлены этапы подготовкиданных, кластеризации абонентов и тарифных планов.1.Это источник данных, содержащий факты потребления и тарификацииабонентов, подключенный тарифный план.2.Вычисление среднего трафика на абонента для выравнивания трафикаот тренда, сезонных отклонений и минимизации шумов.3.Расчет долевых характеристик потребления.4.Расчет стоимостных характеристик потребления абонента.5.Исключение технических, VIP-тарифов и других специфическихтарифных планов, путем исключения 1% абонентов, наименеераспространенных ТП, это оставляет из 198 ТП – 83 наиболеепопулярных.1096.Применение узла исключения аномалий, он удаляет 1% записей,которые наиболее сильно отличаются от других наблюдений (аналогудаления выбросов).Рис.
15. Подготовка данных, кластеризация абонентов и тарифных планов.17.Выделение латентных, независимых переменных методом главныхкомпонент, из 34 характеристик, отражающих абонентское потребление,получается 14 факторов. Было выявлено 34 характеристики, такие как:количествоминутголосовойвнутрисетевойсвязи,количествоотправленных и полученных смс сообщений, потребленных мегабайтДалее в пронумерованных от 1 до 10 пунктах списка раскрывается содержание узлов, указанных на рис.
14в примечании к узлам модели1110трафикаит.д.взаимозависимость.МеждуэтимиПоэтомупараметрамипредварительнобыласвыявленаприменениемфакторного анализа из 34 первичных параметров было найдено 14независимых факторов, которые были использованы в дальнейшем дляформирования абонентских групп с помощью кластерного анализа.
Наоснове этих 14 факторов и самоорганизующихся карт Кохонена былапроведена кластеризация абонентов, позволившая выявить 24 группыразличного абонентского поведения, имеющих высоко значимыеразличия (p-value < 0,01) как по полученным 14 факторам, так и по 34-мисходным переменным. Распределение средних значений ряда основныххарактеристик, таких как: срок жизни, количество минут голосовойсвязи, количество потребленных мегабайт интернета, ARPU по всемгруппам приведено на рис. 16.ИнтернетГолосовая связьARPUСрок жизни1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24Рис.
16. Сравнение средних значений некоторых основных характеристикабонентских кластеров.8.Кластеризация 2 356 753 наблюдений абонентов по 14 факторам,методом самоорганизующихся карт Кохонена, выявляет 24 абонентскихкластера, значимо различающихся по первичным характеристикам. На111рис. 16 представлено сравнение основных характеристик абонентскихкластеров.Анализ полученных кластеров по основным характеристикам: интернеттрафик, голосовой трафик, CLV, средняя продолжительность жизниклиента позволил сделать следующие выводы. Абоненты 11 кластерапотребляют только интернет трафик: в среднем 6,8 гб.
в месяц и этавеличина значительно больше, чем в любом другом кластере, при этомпотребление голосового трафика составляет 10 минут, CLV равно 730рублям, а средняя продолжительность жизни составляет 20,5 месяцев.Абоненты, попавшие в кластеры 4, 6, 8, 10, 15, 18, 21 имеют высокоепотребление голосового трафика (от 338 мин., до 601) и очень малоепотребление интернет трафика (от 74 мб. до 200 мб.).
Абонентыкластеров 22, 23, 24 характеризуются крайне низким потреблениемуслуг связи (до 72 минут голосового трафика и до 124 мб.). Абоненты 1,2 и 3 кластеров показывают наибольшую потребность в потребленииуслуг связи, так средняя продолжительность голосовых вызовов в месяцсоставляет от 739 минут и до 909, а интернет трафика от 329 мб. до 462.Вкачествепараметровдлякластеризациииспользовалисьхарактеристики потребления услуг связи, но при этом все кластерытакже значимо различаются по значению CLV.9.Выделение латентных, независимых переменных методом главныхкомпонент, из 14 стоимостных характеристик тарифных планов,определяет 5 независимых факторов. Стоимостные характеристикитакие как: стоимость минуты голосового вызова, стоимость одногомегабайта трафика, стоимость отправленного СМС сообщения и т.п.112Рис.
17. Расчеты CLV для всех абонентских кластеров и групп тарифныхпланов.210.На основе факторного анализа были получены 5 независимых факторов.С использованием этих факторов и самоорганизующихся карт Кохоненабыла проведена кластеризация множества из 83 тарифных планов иполучено 11 групп тарифных планов (ТП), имеющих статистическизначимые различия. Были выявлены следующие группы тарифныхпланов: группа безлимитных и пакетных ТП; группа пакетных ТП свключенным городским номером; группа поминутных ТП с единойценой; группа поминутных ТП, ориентированная на СНГ; интернет ТП;интернет ТП с возможностью голосового общения, ориентированные наобласть; группа с посекундной тарификацией; поминутные ТПориентированные на Москву; 2 группы специфических, непопулярныхТП.Далее в пронумерованных от 11 до 14 пунктах списка раскрывается содержание узлов, указанных на рис.16 в примечании к узлам модели2113На рис. 17 в пунктах с 11 по 14 представлены расчеты CLV для всехабонентских кластеров и групп тарифных планов.11.Представлен расчет CLV всех абонентских кластеров по каждой группетарифных планов, с ограничением горизонта расчета на четыре года.