用户流失预警模型——LM神经网络+CART决策树
据当代市场学权威菲利普.科特勒研究结论,若一个公司的用户流失率降低5%,则利润将会增加25%-85%。企业若想获得一位新客户,成本往往比挽留一位存量客户所用的成本要高,运营商行业挽留一位有拆机倾向的客户往往只需一个电话或者一个优惠政策即可。本文针对近期争议颇高的不限量套餐用户展开,通过数据挖掘模型对历史数据进行建模,对有流失风险的用户进行精准定位。
我们把该命题归结为如下2个问题:
问题1:预测哪些客户(尤其是高价值客户)可能会流失? 问题2:可能流失客户的特征是什么?当然,如果考虑成本费用问题,可以衍生问题3,市场挽留活动的预计收益是什么。
流失用户识别主要包括以下步骤
本案例共抽取了过去10个月的历史数据,累计813683条记录,其中前8个月数据作为模型训练数据,后选取1月数据作为模型测试数据,选取1月数据作为模型检验数据。
注:训练数据是指数据挖掘过程中用于训练数据挖掘模型的数据。训练数据选择一般有以下要求:数据样本尽可能大、数据多样化,数据样本质量较高。测试数据用于模型检验,检验数模作为评估模型的准确率。
1. 数据抽取与数据变换
在数据准备阶段,我们需要考虑有哪些描述用户的数据可以作为预测用户流失变量,包含两个类别数据,分别为:
用户基本信息数据:包含用户类型,用户入网时间,用户办理套餐,套餐积分等,这类基本数据一般都可以从业务系统数据库获得。 用户行为数据:主要是用户使用电信产品的行为数据,包括用户通话时长,用户使用流量,用户收入等。为了取得良好的数据挖掘效果,我们偶尔需要对数据进行变化或者生产相关的衍生变量。下面总结一些常用的衍生变量的方法。
强度相对指标:有一定联系的的两个指标之间相比的结果的到的指标,如通话时长和通话次数两个指标相比,得到每次通话时长,使我们了解用户的通话习惯,是长话短说型,还是短话长说型。 比例相对指标:用来反映总体中各个部分所占比例的一个指标,例如通话时长的被动通话时长和主叫通话时长占比。 汇总类指标:在本案例中,一个用户对应有10个月的数据,对应着10条记录,而对应一条是否流失记录,为了便于建立挖掘模型,我们需要将这6条数据变为1条数据,可以根据变量求和、计算平均值、最大值、最小值、标准差等汇总指标。 趋势类指标:对于时间序列变量而言,最重要的方面是看趋势,如针对收入这个变量,即看一个用户收入在10月期间是变多了还是变少了,还是随机性波动? 我们有理由假设假如一个用户收入变少,是否更有可能流失。其中x代表月份,y代表待计算趋势的字段,如收入 ,n代表月份数。序列常见的趋势有:
本案例数据变化通过Spss Modeler实现,流程图如下:
2. 数据探索性分析
离散型变量的探索性分析方法:离散变量可通过频数分布表,饼图,条形图等可视化变量取值以及各个取值占比是多少。 连续型变量的探索型分析方法:使用描述统计量,如反映集中趋势指标有均值,中位数等,反映趋势和离散程度的标准差、级差等;使用图形,如直线图,核密度估计图等注: kdeplot(核密度估计图):
核密度估计(kernel density estimation)是在概率论中用来估计未知的密度函数,属于非参数检验方法之一。通过核密度估计图可以比较直观的看出数据样本本身的分布特征。
seaborn.kdeplot(data,data2=None,shade=False,vertical=False,kernel='gau',bw='scott',gridsize=100,cut=3,clip=None,legend=True,cumulative=False,shade_lowest=True,cbar=False, cbar_ax=None, cbar_kws=None, ax=None, *kwargs)
具体示例如下:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
sns.set_style("darkgrid",{'font.sans-serif':['simhei','Arial']})
inputfile = 'D:/
相关知识
害虫预测预警模型的建立.pptx
基于决策树构建鸢尾花数据的分类模型并绘制决策树模型
【2016年第1期】基于大数据的小麦蚜虫发生程度决策树预测分类模型
Python语言基于CART决策树的鸢尾花数据分类
基于改进型神经网络的植物病虫害预警模型的构建.pdf 全文
确定韩国水稻病虫害人工神经网络预测模型开发的最小数据量,Computers and Electronics in Agriculture
智能农业的植物病虫害预警系统:如何保护农业产品
智能农业的植物病虫害预警系统:如何保护农业产品1.背景介绍 农业是人类社会的基础,农业产品是人类生存的保障。然而,随着人
植物病虫害预测预警模型
植株健康监测与疾病预警
网址: 用户流失预警模型——LM神经网络+CART决策树 https://www.huajiangbk.com/newsview550763.html
上一篇: 「南京荻花网络科技有限公司招聘」 |
下一篇: 深圳雪莲花网络有限公司 |
推荐分享

- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039