CN106127663A - 一种通信用户消费特征属性约简拟合提取方法及数据*** - Google Patents
一种通信用户消费特征属性约简拟合提取方法及数据*** Download PDFInfo
- Publication number
- CN106127663A CN106127663A CN201610477824.7A CN201610477824A CN106127663A CN 106127663 A CN106127663 A CN 106127663A CN 201610477824 A CN201610477824 A CN 201610477824A CN 106127663 A CN106127663 A CN 106127663A
- Authority
- CN
- China
- Prior art keywords
- user
- consumption
- attribute
- communication
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004891 communication Methods 0.000 title claims abstract description 48
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000009467 reduction Effects 0.000 title claims abstract description 9
- 235000012054 meals Nutrition 0.000 claims abstract description 29
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 claims abstract description 7
- 230000008859 change Effects 0.000 claims abstract description 3
- 239000000284 extract Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000000630 rising effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/40—Business processes related to the transportation industry
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/14—Charging, metering or billing arrangements for data wireline or wireless communications
- H04L12/1485—Tariff-related aspects
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提出一种通信用户消费特征属性约简拟合提取方法及数据***,包括:步骤1,采集数据:根据通信运营商实际运转情况采集用户使用套餐消费情况数据,根据通信运营商采集的用户连续m个月的通信消费数据生成一张用户使用套餐消费情况的表,表中包含A1,A2,……Am属性,这些属性为生成原理相同的m个数值属性,Am表示用户第m个月的通信消费属性;步骤2,将采集的数据进行属性间离散化和约简,使其降维以能简单明了的反映用户通信消费变化情况,支持信息***建设,实现客户流失预测、套餐推荐等应用。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种通信用户消费特征属性约简拟合提取方法及数据***。
背景技术
随着通信体制改革的不断深入,通信服务行业竞争越来越激烈,如何维护\挽留用户和精准产品推荐已经成为各运营商精准营销与维系工作的重中之重。通信运营商在营运过程中积累了大量的业务数据,其中可能隐藏着极具价值的重要决策信息,数据挖掘技术能够有效地从数据中挖掘知识。如在离网分析预测中,通过数据挖掘发现离网用户所具备的特征,预测未来用户的在网状态,能够有效地为运营商提供预警,帮助运营商有针对地展开用户挽留和改进业务,具备很高的商业应用价值。
随着基础网络建设的不断完善,尤其是4G网络的出现,用户的需求越来越多样化,用户对服务水平和业务内容的需要提出了更高的要求。用户使用各种套餐产生的数据各式各样,数据类型复杂,既有类别型数据又有连续性数据,例如连续半年的每月流量、话费等信息,如何对连续数据进行预处理,以更简洁的方式体现这些属性的特征趋势,对挖掘用户流失模型有重要的意义。
对于用户的通话费用,流量数据等属性,通信运营商每月生成一张表,记录用户第i个月的通话费用和使用流量数据。如果单独考虑用户每个月的通话费用和使用流量数据,只需要简单的分箱操作,将这些连续性属性分成若干类类别值即可,但这样做,只能得出用户过去某个月套餐使用分布情况,并不能描述用户未来使用套餐的趋势走向,对用户流失、精准产品推荐等模型挖掘支持较弱。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种通信用户消费特征属性约简拟合提取方法及数据***,所述方法包括如下步骤:步骤1,采集数据:根据通信运营商实际运转情况采集用户使用套餐消费情况数据,根据通信运营商采集的用户连续m个月的通信消费数据生成一张用户使用套餐消费情况的表,表中包含A1,A2,......Am属性,这些属性为生成原理相同的m个数值属性,Am表示用户第m个月的通信消费属性;
步骤2,将采集的数据进行属性间离散化,提取属性间特征值,使属性降维,以能简单明了的反映用户通信消费变化情况,支持客户流失预测、精准推荐等应用。
步骤2中,提取属性间特征值包括如下步骤:
步骤2-1,假设Xui表示用户u在第i个月的通信消费数据,i取值范围为1~m,结合用户连续m个月的通信消费数据,采用如下公式求出用户通信消费的波动情况,即方差
其中表示用户u在连续m个月中通信消费的平均值;
步骤2-2:对方差进行归一化处理:
若的值在[0,0.5]之间,则判定该用户在这m个月当中通信消费是平稳状态,结束提取属性间特征值;否则,判定该用户通信消费波动性较大,转入步骤2-3;
步骤2-3,将用户连续m个月的通信消费数据分成前、中、后三个时间段,求出每个时间段用户通信消费的平均值:
其中,用来确定前时间段,
其中,用来确定中间的时间段,
其中,X1表示用户前时间段的通信消费数据,X2表示用户中时间段的通信消费数据,X3表示用户后时间段的通信消费数据,
步骤2-4,分别求出前、中时间段通信消费数据的平均值X4和中、后时间段通信消费数据的平均值X5,即:
步骤2-5,设流失判别系数ε=0.5,该系数为经验取值,根据用户前、中时间段通信消费数据的平均值X4与用户中、后时间段通信消费数据的平均值X5的比值,进行如下判定:
若判定用户通信消费情况是下降趋势,且有流失可能;
若判定用户通信消费情况是平稳状态;
若判定用户通信消费情况是上升趋势;
步骤2-6,另设一个字段A用来标识用户通信消费的趋势走向情况,代替原来的通信消费属性在每个月上的取值,将m个月的m个通信消费属性用一个字段A代替,A取2、0和1三个值,分别代表用户通信消费情况是下降趋势、平稳趋势和上升趋势。
本发明能在用户连续几个月使用套餐的数据基础上,得出用户未来使用该套餐的趋势走向值,也就是提取出这些连续属性的特征值,这样既充分将用户连续几个月使用套餐情况都利用上,又将这几个月使用套餐情况联系在一起,比单独直接使用这几个月的数据更加有效,挖掘出来的规则更具有说服力,对预测用户未来是否继续使用该套餐也更有参考意义。
本发明还公开了一种计算机营销数据***,***自动通过短信或者语音留言的方式推荐给用户满足用户流量使用要求,同时费用最低的套餐。
***自动通过网络运营商APP推送的方式推荐给用户满足用户流量使用要求,同时费用最低的套餐。
***自动通过短信或者语音留言的方式推荐给用户满足用户通话时长使用要求,同时费用最低的套餐。
***自动通过网络运营商APP推送的方式推荐给用户满足用户通话时长使用要求,同时费用最低的套餐。
有益效果:本发明方法将多个连续数值属性拟合转化为单个类别属性,用于对通信用户连续月消费(话费金额、流量数据等)数据进行特征提取,利用该方法,可以将用户连续多个月的消费信息对应的多个数值属性转化为一个类别属性,有效降低消费记录数据集的维度,更直观的体现用户连续多月的消费趋势。有助于对用户未来消费趋势走向进行有效挖掘分析。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/或其他方面的优点将会变得更加清楚。
图1为属性间离散化提取特征值过程示意图。
具体实施方式
本发明拟解决的技术问题:
传统的对连续性属性数据离散化的方法局限于单个属性(对应属性内离散化);本发明关注对具有相同性质的多个连续数值属性(例如连续多个月的每月流量等),提取能够体现这些属性趋势特征值,对应属性间离散化。
本发明的技术方案:
针对同类数据在多个属性上的连续取值,提出了提取多属性连续特征的属性拟合方法。
本发明的核心内容是根据用户已有的连续多个月使用套餐消费数据,进行属性间离散化,提取特征值。具体实施方案:
为使本发明实现的技术方法易于了解明白,下面结合具体实施方式,进一步阐述本发明。
根据通信运营商实际运转情况,通信运营商每个月生成一张用户使用套餐消费情况的表,表中包含A1,A2,......Ad属性,这些属性为生成原理相同的d个数值属性,以连续d个月的流量消费为例,分别表示第一个月流量消费属性A1,第二个月流量消费属性A2,......,第d个月的流量消费属性Ad。
(1)属性间提取特征值流程见图1,具体如下:
假设Xui表示用户u在第i个月的流量使用消费数据。
步骤1:结合用户连续m个月的流量使用消费数据,求出用户使用流量的波动情况,即方差:
其中表示用户u在连续m个月中使用流量的平均值。
步骤2:对方差进行归一化处理:若的值在[0,0.5]之间,则说明该用户在这m个月当中使用流量是平稳状态;否则,用户使用流量波动性较大,但是不能确定这种波动性是上升的还是下降的,也就是说不能确定用户使用流量是成上升趋势,还是下降趋势。需要进一步的分析处理。
步骤3:将用户过去使用流量情况分成前、中、后三个时间段。求出每个时间段用户使用流量数据的平均值:
其中,
步骤4:再分别求出前、中时间段使用流量数据的平均值和中、后时间段使用流量数据的平均值,即:
步骤5:设ε=0.5,根据用户前、中时间段使用流量数据的平均值与用户中、后时间段使用流量数据的平均值的比值,得出如下结论:
①若则用户使用流量情况是下降趋势;
②若则用户使用流量情况是平稳状态;
③若则用户使用流量情况是上升趋势;
步骤6:综上所述,另设一个字段A用来标识用户使用流量的趋势走向情况,从而代替原来的流量属性在每个月上的取值。将m个月的m个流量属性用一个字段A代替。这里A取2,0,1三个值。分别代表下降、平稳、上升。
本发明所提出的基于连续多数值属性特征值提取的属性拟合方法,不但充分利用了用户过去使用套餐消费的数据,而且还将同一个属性在m个月中产生的m个相同属性的值充分联系在了一起,从而有效降低消费记录数据集的维度,使挖掘数据源维度大大降低,这样,数据源中不仅仅只是包含用户过去使用套餐的行为,还包含用户未来使用套餐的趋势走向特征,这样将大大提高挖掘效率和挖掘结果的正确性。结合下面的例子具体说明。
实施例1
根据上述计算步骤建立计算机营销数据***,使用该***对运营商每个用户的消费数据进行扫描,采集,再进行分析计算。以用户u为例,其六个月中采集到的“使用流量的消费情况”如表一所示:
表一
一月份 | 二月份 | 三月份 | 四月份 | 五月份 | 六月份 |
0.2G | 1.3G | 2.8G | 4.9G | 5.2G | 16.6G |
根据表一中的数据进行如下步骤计算:
步骤1:
步骤2:由于6.76不在区间[0,0.5]之间,所以需要进一步的判断;
步骤3:
步骤4:
步骤5:所以用户“使用流量”的消费趋势是呈上升趋势的。
***存储计算结果,并与运营商的套餐信息进行对比,可自动选择可推荐的能够满足用户使流量要求,同时费用最低的套餐,以短信方式或其他方式推送给用户,套餐如下表所示:
50元 | 80元 | 100元 | 150元 | 200元 | 300元 |
1G | 2G | 3G | 5G | 10G | 20G |
则***可以自动以短信方式推荐20G/300元的流量包给用户,既满足用户的流量使用又使用户感觉非常实惠。
实施例2
以用户u为例,其六个月中采集到的“语音通话时长”如表二所示:
表二
一月份 | 二月份 | 三月份 | 四月份 | 五月份 | 六月份 |
47 | 52 | 166 | 13 | 49 | 2 |
根据表二中的数据进行如下步骤计算:
步骤1:
步骤2:由于0.9不在区间[0,0.5]之间,所以需要进一步的判断。
步骤3:
步骤4:
步骤5:
***存储计算结果,根据结果判定该用户有离网趋势,可自动标识并以邮件方式推送给维系人员,提醒维系人员重点关注该用户并采取营销措施。
以上显示和描述了本发明的基本原理和主要特征以及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种通信用户消费特征属性约简拟合提取方法,其特征在于,包括以下步骤:
步骤1,采集数据:根据通信运营商采集的用户连续m个月的通信消费数据生成一张用户使用套餐消费情况的表,表中包含A1,A2,……Am属性,这些属性为生成原理相同的m个数值属性,Am表示用户第m个月的通信消费属性;
步骤2,将采集的数据进行属性间离散化,提取属性间特征值,使属性降维并反映用户通信消费变化情况。
2.根据权利要求1所述的方法,其特征在于,步骤2中,提取属性间特征值包括如下步骤:
步骤2-1,假设Xui表示用户u在第i个月的通信消费数据,i取值范围为1~m,结合用户连续m个月的通信消费数据,采用如下公式求出用户使用通信的波动情况,即方差
其中表示用户u在连续m个月中通信消费的平均值;
步骤2-2:对方差进行归一化处理:
若的值在[0,0.5]之间,则判定该用户在这m个月当中使用通信消费是平稳状态,结束提取属性间特征值;否则,判定该用户使用通信消费波动性较大,转入步骤2-3;
步骤2-3,将用户连续m个月的通信消费数据分成前、中、后三个时间段,求出每个时间段用户通信消费的平均值:
其中,用来确定前时间段,
其中,用来确定中间的时间段,
其中,X1表示用户前时间段的通信消费数据,X2表示用户中时间段的通信消费数据,X3表示用户后时间段的通信消费数据;
步骤2-4,分别求出前、中时间段通信消费数据的平均值X4和中、后时间段通信消费数据的平均值X5,即:
步骤2-5,设流失判别系数ε=0.5,根据用户前、中时间段通信消费的平均值X4与用户中、后时间段通信消费数据的平均值X5的比值,进行如下判定:
若判定用户使用通信消费是下降趋势,有流失可能;
若判定用户通信消费情况是平稳状态;
若判定用户通信消费情况是上升趋势;
步骤2-6,另设一个字段A用来标识用户通信消费趋势走向情况,代替原来的通信消费属性在每个月上的取值,将m个月的m个通信消费属性用一个字段A代替,A取2、0和1三个值,分别代表用户通信消费情况是下降趋势、平稳趋势和上升趋势。
3.一种使用权利要求2所述方法的计算机营销数据***,其特征在于,***自动通过短信或者语音留言的方式推荐给用户满足用户流量使用要求,同时费用最低的套餐。
4.一种使用权利要求2所述方法的计算机营销数据***,其特征在于,***自动通过网络运营商APP推送的方式推荐给用户满足用户流量使用要求,同时费用最低的套餐。
5.一种使用权利要求2所述方法的计算机营销数据***,其特征在于,***自动通过短信或者语音留言的方式推荐给用户满足用户通话时长使用要求,同时费用最低的套餐。
6.一种使用权利要求2所述方法的计算机营销数据***,其特征在于,***自动通过网络运营商APP推送的方式推荐给用户满足用户通话时长使用要求,同时费用最低的套餐。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610477824.7A CN106127663A (zh) | 2016-06-27 | 2016-06-27 | 一种通信用户消费特征属性约简拟合提取方法及数据*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610477824.7A CN106127663A (zh) | 2016-06-27 | 2016-06-27 | 一种通信用户消费特征属性约简拟合提取方法及数据*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106127663A true CN106127663A (zh) | 2016-11-16 |
Family
ID=57267131
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610477824.7A Pending CN106127663A (zh) | 2016-06-27 | 2016-06-27 | 一种通信用户消费特征属性约简拟合提取方法及数据*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106127663A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107093091A (zh) * | 2016-11-17 | 2017-08-25 | 北京小度信息科技有限公司 | 一种数据处理方法和装置 |
CN108681924A (zh) * | 2018-05-18 | 2018-10-19 | 中国联合网络通信集团有限公司 | 营业厅目标服务对象的确定方法和装置 |
CN109218034A (zh) * | 2018-08-24 | 2019-01-15 | 曹春江 | 基于多角度神经网络模型的通信用户套餐精准推荐方法 |
CN109743184A (zh) * | 2019-03-05 | 2019-05-10 | 中国联合网络通信集团有限公司 | 套餐迁转方法及平台 |
CN109903093A (zh) * | 2019-02-27 | 2019-06-18 | 中国联合网络通信集团有限公司 | 通信营销方法及平台 |
-
2016
- 2016-06-27 CN CN201610477824.7A patent/CN106127663A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107093091A (zh) * | 2016-11-17 | 2017-08-25 | 北京小度信息科技有限公司 | 一种数据处理方法和装置 |
CN107093091B (zh) * | 2016-11-17 | 2021-08-10 | 北京星选科技有限公司 | 一种数据处理方法和装置 |
CN108681924A (zh) * | 2018-05-18 | 2018-10-19 | 中国联合网络通信集团有限公司 | 营业厅目标服务对象的确定方法和装置 |
CN108681924B (zh) * | 2018-05-18 | 2021-04-20 | 中国联合网络通信集团有限公司 | 营业厅目标服务对象的确定方法和装置 |
CN109218034A (zh) * | 2018-08-24 | 2019-01-15 | 曹春江 | 基于多角度神经网络模型的通信用户套餐精准推荐方法 |
CN109903093A (zh) * | 2019-02-27 | 2019-06-18 | 中国联合网络通信集团有限公司 | 通信营销方法及平台 |
CN109903093B (zh) * | 2019-02-27 | 2021-08-03 | 中国联合网络通信集团有限公司 | 通信营销方法及平台 |
CN109743184A (zh) * | 2019-03-05 | 2019-05-10 | 中国联合网络通信集团有限公司 | 套餐迁转方法及平台 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106127663A (zh) | 一种通信用户消费特征属性约简拟合提取方法及数据*** | |
Pasko et al. | Mapping the literature on sustainability reporting: A Bibliometric analysis grounded in Scopus and Web of science core collection | |
CN103412882B (zh) | 一种识别消费意图的方法及装置 | |
CN104699717B (zh) | 数据挖掘方法 | |
CN103678618B (zh) | 一种基于社交网络平台的Web服务推荐方法 | |
CN103729689B (zh) | 一种基于行业分类与主导行业数据的电网电量预测方法 | |
CN106548381A (zh) | 智能用户标签***及实现方法 | |
Elhamma et al. | The relationship between activity based costing, business strategy and performance in Moroccan enterprises | |
CN106022708A (zh) | 一种预测员工离职的方法 | |
CN105373606A (zh) | 一种改进c4.5决策树算法下的不平衡数据抽样方法 | |
CN106372072A (zh) | 一种基于位置的移动社会网络用户关系的识别方法 | |
CN109918452A (zh) | 一种数据处理的方法、装置、计算机存储介质及终端 | |
CN104346435A (zh) | 用于数据排序、可视化和相关应用的方法、设备和*** | |
Fam et al. | Scaling down: researching household water practices | |
CN102955894A (zh) | 一种基于用户细分的流失率预测的控制方法 | |
Kashnitsky et al. | Unequally ageing regions of Europe: Exploring the role of urbanization | |
CN109102396A (zh) | 一种用户信用评级方法、计算机设备及可读介质 | |
CN110109902A (zh) | 一种基于集成学***台推荐*** | |
CN111080367A (zh) | 一种低压用户用电状态感知的用电行为分析方法 | |
CN106096046A (zh) | 一种移动终端的信息智能显示方法及*** | |
Doğan et al. | Import product diversification and renewable energy: a new appraisal from developed and developing countries | |
Braunstein | Care and the Macroeconomy | |
CN116188120B (zh) | 一种有声书的推荐方法、装置、***及存储介质 | |
CN102375848B (zh) | 评价对象聚类方法和装置 | |
Dekalo et al. | Networks of meanings: Complementing collostructional analysis by cluster and network analyses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 210019 No. 58 East Street, Nanxi River, Jianye District, Nanjing, Jiangsu Applicant after: Zhong Tong clothing consulting and Design Research Institute Co., Ltd. Address before: 210019 No. 58 East Street, Nanxi River, Jianye District, Nanjing, Jiangsu Applicant before: Jiangsu Posts & Telecommunications Planning and Designing Institute Co., Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161116 |