CN109784393A - 一种基于电信大数据的家庭成员识别聚类方法 - Google Patents
一种基于电信大数据的家庭成员识别聚类方法 Download PDFInfo
- Publication number
- CN109784393A CN109784393A CN201910012306.1A CN201910012306A CN109784393A CN 109784393 A CN109784393 A CN 109784393A CN 201910012306 A CN201910012306 A CN 201910012306A CN 109784393 A CN109784393 A CN 109784393A
- Authority
- CN
- China
- Prior art keywords
- user
- kinsfolk
- side right
- determined
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于电信大数据的家庭成员识别聚类方法。包括:从通话频次、通信连接位置等信息,探索家庭成员之间的通信联系特征,以统计周期作为计算时长,利用通信连接信令位置信息,分别计算用户与其他用户夜间共宿地累计时长,建立两个节点之间的边权模型,同证件的两个用户节点加大关系权重,确定边权阈值,以选取出家庭群体的核心成员,根据用户与已确定成员间存在通话比例和一定阈值的关系确定家庭成员,最后将高度近似的家庭群体进行合并处理,并剔除孤立节点联系等干扰因素。该方法解决了现有技术中根据套餐及用户消费信息进行目标用户定位不准确,营销效率低的技术问题。达到了准确定位目标用户,有效管控营销资源的技术效果。
Description
技术领域
本发明关于一种基于电信大数据的家庭成员识别聚类方法。
背景技术
电信运营商传统宽带、家庭网产品套餐发展方法,主要存在两个不足:(1) 根据套餐办理情况及用户消费信息进行目标用户定位,目标用户不准确,营销效率低;(2)发展过程中,发展目标的健康度(即,是否为可发展对象/发展可能性大小)无法判定,营销资源无法有效管控,形成浪费。分析以上两个不足,电信运营商宽带、家庭网产品需以精确的家庭成员数据为依托,构建家庭成员识别聚类模型凸显迫切。本发明探索用户交往圈通话习惯、通信连接位置信息、身份信息等各维度关系,发现家庭成员间的以上维度信息存在一定聚类效果。
发明内容
鉴于上述情况,有必要提供一种基于电信大数据的家庭成员识别聚类方法,可以有效解决上述问题。
本发明提供一种基于电信大数据的家庭成员识别聚类方法,从时间、通话频次、通信连接位置、交往圈、身份信息,探索家庭成员之间的通信联系特征,包括以下步骤:
以具有稳定联系特点的交往圈为数据基础,需完成数据筛选;
以一个统计时间段为计算时长,利用通信连接信令位置信息,分别计算用户与交往圈其他用户夜间共宿地累计时长,建立两个节点之间的家庭成员关系的边权模型,以反映两者属于同一家庭的概率;
优化边权模型,同证件的两个用户节点加大关系权重;
基于边权模型进行边权统计分析,确定边权阈值,以选取出家庭群体的核心成员;
计算交往圈中未确定为家庭成员的用户与已确定成员间存在通话关系比例,比例大于一定阈值,则确定为家庭成员;
将高度近似的家庭群体进行合并处理,并剔除孤立节点联系等干扰因素。
附图说明
图1一种基于电信大数据的家庭成员识别聚类方法的实施步骤图;
图2用户边权模型图;
图3全网模型训练步骤图;
图4用户交往圈数据表及标识;
图5用户通信连接信令信息表及标识;
图6用户实名信息表。
具体实施方式
请参照图1,本发明实施一种基于电信大数据的家庭成员识别聚类方法,包括如下步骤:
S1,进行数据筛选,以具有稳定联系特点的交往圈为数据基础;
S2,以统计周期作为计算时长,利用通信连接信令位置信息,分别计算用户与交往圈其他用户夜间共宿地累计时长,建立两个节点之间的家庭成员关系的边权模型,以反映两者属于同一家庭的概率;
S3,优化边权模型,同证件的两个用户节点加大关系权重;
S4,基于优化后的边权模型进一步进行边权统计分析,确定边权阈值,以选取出家庭群体的核心成员;
S5,计算交往圈中未确定为家庭成员的用户与已确定成员间存在通话关系比例,比例大于一定阈值,则确定为家庭成员;
S6,将高度近似的家庭群体进行合并处理,并剔除孤立节点联系等干扰因素。
在步骤S1中,利用通话频次确定具有稳定联系特点的交往圈:
剔除近半年存在通话月数小于4的记录(即:CALL_M_CNT<4)
剔除统计月通话次数小于3的记录(即:CALL_CNT<3)
在步骤S2中,首先针对单一用户,读取该用户交往圈信息表,建立关联用户无向网络图,同时,读取该用户及关联用户夜间通信连接信令信息表,根据用户与关联用户夜间共宿地累计时长,更新无向网络图权重,建立关联用户边权模型。算法伪代码如下:
(1)输入:关联用户无向网络图Gi,用户夜间某宿地累计时长DUR60i,cell_id
(2)输出:关联用户边权模型图Gd i。
(3)k=1,i=1;
(4)num=关联用户总数;
(5)num_cell=该用户宿地总数
(6)定义dur_msisdn[num]//该用户与关联用户共宿累计时长
(7)while k<=num do
(8)while i<=num_cell do
(9)if关联用户k宿地LAC==该用户宿地i的LAC&关联用户k宿地 CELL_ID==该用户宿地i的CELL_ID
(10)计算该宿地两用户共宿时长
(11)dur_msisdn[k]=dur_msisdn[k]+该宿地共宿时长
(12)i=i+1
(13)k=k+1
计算出该用户与不同关联用户k间的共宿时长dur_msisdn[k],并将 dur_msisdn[k]加入关联用户无向网络图中形成边权模型图,参照图2。
在步骤S3中,将边权模型中与该用户同身份证号的关联用户权重进行统一增加。该权重足以让所连接的用户确定为家庭成员关系。
在步骤S4中,取共宿时长大于等于统计时间段1/6(该比例可根据情况修改)天数的关联用户确定为与该用户具有家庭关系的用户,即:归类为“确定成员”,其余关联用户归类为“未确定成员”,伪代码如下:
if dur_misdn[k]>=2100do
关联用户k为“确定成员”
else do
关联用户k为“非确定成员”
注:以上参数基于统计时间段为30天,1天统计时长7小时(仅统计0:00- 7:00,420分钟),5天统计时长应为420*5=2100分钟
因存在家庭成员在统计时段内与其他成员不在同一地点活动(如:出差、外地工作等)或者同一地点接入基站小区不同情况(同住址,不同房间接入基站小区不同)。在步骤S5中,采用以下算法增量家庭成员聚类,完成家庭成员聚类模型补漏:
(1)输入:非确定成员j交往圈数据信息表,确认成员号码
(2)输出:非确定成员j的聚类指数julei[j]
(3)j=1,l=1;
(4)num_f=非确定成员总数,num_q=确定成员总数,julei[num_f];
(5)while j<=num_f do
(6)while l<num_q do
(7)if非确定成员j交往圈数据表“OTER_NBR”字段==确定成员
(8)julei[j]=julei[j]+1;
(8)l=l+1;
(9)j=j+1;
上述方法针对“非确定成员j”确定其聚类指标julei[j],若 julei[j]/num_q>0.66(此阈值可根据情况更新修正),则将该“非确定成员j”划入“确定成员”。以此最终确定用户的家庭成员。
在步骤S6中,参照图3,若统计时间段内存在n个用户,则需要执行上述单用户家庭成员关联算法n次,形成n个家庭网,最后合并高相似家庭网,并对弱连接家庭网进行处理。
高相似家庭网合并:将家庭网成员完全相同的家庭网进行合并。
弱连接家庭网处理:即两个家庭网之间存在一个或者少数的相同用户,需对这部分少数用户进行判断,比较其与两个家庭成员间的共宿时长、统计时段内通话次数,将用户归入共宿时长较长、通话次数较多的家庭网成员。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (7)
1.一种基于基于电信大数据的家庭成员识别聚类方法,其特征在于:
每个手机用户都是电信社交网络中的一个节点,连接两个节点的边的权重代表了彼此的通信联系特征。基于电信大数据来识别家庭群体,就相当于在电信社交网络中识别出符合特定边权条件的多边形子图,从时间、通话频次、通信连接位置、交往圈、身份信息,探索家庭成员之间的通信联系特征,其步骤如下:
以具有稳定联系特点的交往圈为数据基础;
以一个统计时间段为计算时长,利用通信连接信令位置信息,分别计算用户与交往圈其他用户夜间共宿地累计时长,建立两个节点之间的家庭成员关系的边权模型,以反映两者属于同一家庭的概率;
优化边权模型,同证件的两个用户节点加大关系权重;
基于边权模型进行边权统计分析,确定边权阈值,以选取出家庭群体的核心成员;
计算交往圈中未确定为家庭成员的用户与已确定成员间存在通话关系比例,比例大于一定阈值,则确定为家庭成员;
将高度近似的家庭群体进行合并处理,并剔除孤立节点联系等干扰因素。
2.如权利要求1所述的设计方法,其特征在于,利用通话频次确定具有稳定联系特点的交往圈:
剔除近半年存在通话月数小于4的记录(即:CALL_M_CNT<4)
剔除统计月通话次数小于3的记录(即:CALL_CNT<3)
变量见附表。
3.如权利要求1所述的设计方法,其特征在于,首先针对单一用户,读取该用户交往圈信息表,建立关联用户无向网络图,同时,读取该用户及关联用户夜间通信连接信令信息表,根据用户与关联用户夜间共宿地累计时长,更新无向网络图权重,建立关联用户边权模型。算法伪代码如下:
计算出该用户与不同关联用户k间的共宿时长dur_msisdn[k],并将dur_msisdn[k]加入关联用户无向网络图中形成边权模型图。
4.如权利要求1所述的设计方法,其特征在于,优化用户边权模型:
将边权模型中与该用户同身份证号的关联用户权重进行统一增加。该权重足以让所连接的用户确定为家庭成员关系。
5.如权利要求1所述的设计方法,其特征在于,确定阈值并初步确定家庭成员关系网:
取共宿时长大于等于统计时间段1/6(该比例可根据情况修改)天数的关联用户确定为与该用户具有家庭关系的用户,即:归类为“确定成员”,其余关联用户归类为“未确定成员”,伪代码如下:
if dur_misdn[k]>=2100do
关联用户k为“确定成员”
else do
关联用户k为“非确定成员”
注:以上参数基于统计时间段为30天,1天统计时长7小时(仅统计0:00-7:00,420分钟),5天统计时长应为420*5=2100分钟
6.如权利要求1所述的设计方法,其特征在于,因存在家庭成员在统计时段内与其他成员不在同一地点活动(如:出差、外地工作等)或者同一地点接入基站小区不同情况(同住址,不同房间接入基站小区不同)。采用以下算法增量家庭成员聚类,完成家庭成员聚类模型补漏,步骤如下:
上述方法针对“非确定成员j”确定其聚类指标julei[j],若julei[j]/num_q>0.66(此阈值可根据情况更新修正),则将该“非确定成员j”划入“确定成员”。
以此最终确定用户的家庭成员。
7.如权利要求1所述的设计方法,其特征在于,将上述单用户家庭成员关联方法扩展至全网用户家庭成员聚类,即,全网模型训练步骤如下:
若统计时间段内存在n个用户,则需要执行上述单用户家庭成员关联算法n次,形成n个家庭网,最后合并高相似家庭网,并对弱连接家庭网进行处理。
高相似家庭网合并:将家庭网成员完全相同的家庭网进行合并。
弱连接家庭网处理:即两个家庭网之间存在一个或者少数的相同用户,需对这部分少数用户进行判断,比较其与两个家庭成员间的共宿时长、统计时段内通话次数,将用户归入共宿时长较长、通话次数较多的家庭网成员。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910012306.1A CN109784393A (zh) | 2019-01-07 | 2019-01-07 | 一种基于电信大数据的家庭成员识别聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910012306.1A CN109784393A (zh) | 2019-01-07 | 2019-01-07 | 一种基于电信大数据的家庭成员识别聚类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109784393A true CN109784393A (zh) | 2019-05-21 |
Family
ID=66500081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910012306.1A Withdrawn CN109784393A (zh) | 2019-01-07 | 2019-01-07 | 一种基于电信大数据的家庭成员识别聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109784393A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191146A (zh) * | 2019-11-27 | 2020-05-22 | 重庆特斯联智慧科技股份有限公司 | 一种基于社会网络分析算法的家庭成员通联方法和*** |
CN112506063A (zh) * | 2020-11-25 | 2021-03-16 | 中移(杭州)信息技术有限公司 | 数据分析方法、***、电子设备和存储介质 |
CN113067888A (zh) * | 2021-04-06 | 2021-07-02 | 金宝贝网络科技(苏州)有限公司 | 一种家庭用户信息推送方法、***及存储介质 |
WO2024001102A1 (zh) * | 2022-06-30 | 2024-01-04 | 广东亿迅科技有限公司 | 一种通信行业家庭圈智能识别的方法、装置及设备 |
-
2019
- 2019-01-07 CN CN201910012306.1A patent/CN109784393A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191146A (zh) * | 2019-11-27 | 2020-05-22 | 重庆特斯联智慧科技股份有限公司 | 一种基于社会网络分析算法的家庭成员通联方法和*** |
CN111191146B (zh) * | 2019-11-27 | 2023-06-16 | 重庆特斯联智慧科技股份有限公司 | 一种基于社会网络分析算法的家庭成员通联方法和*** |
CN112506063A (zh) * | 2020-11-25 | 2021-03-16 | 中移(杭州)信息技术有限公司 | 数据分析方法、***、电子设备和存储介质 |
CN112506063B (zh) * | 2020-11-25 | 2024-05-07 | 中移(杭州)信息技术有限公司 | 数据分析方法、***、电子设备和存储介质 |
CN113067888A (zh) * | 2021-04-06 | 2021-07-02 | 金宝贝网络科技(苏州)有限公司 | 一种家庭用户信息推送方法、***及存储介质 |
WO2024001102A1 (zh) * | 2022-06-30 | 2024-01-04 | 广东亿迅科技有限公司 | 一种通信行业家庭圈智能识别的方法、装置及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109784393A (zh) | 一种基于电信大数据的家庭成员识别聚类方法 | |
CN103605791B (zh) | 信息推送***和信息推送方法 | |
CN105592405B (zh) | 基于派系过滤和标签传播的移动通信用户群组构造方法 | |
CN110462604A (zh) | 基于设备使用关联互联网设备的数据处理***和方法 | |
CN102083010B (zh) | 一种用户信息筛选方法和设备 | |
CN106156941A (zh) | 一种用户信用评分优化方法和装置 | |
CN106658564B (zh) | 一种家庭用户的识别方法及装置 | |
CN104244314B (zh) | 一种基于Mc接口信令的潜在集团客户识别方法 | |
Cheng et al. | Big data assisted customer analysis and advertising architecture for real estate | |
CN105682097A (zh) | 一种伪基站识别定位方法及装置 | |
CN107527240A (zh) | 一种运营商行业产品口碑营销效果鉴定***及方法 | |
CN108446988A (zh) | 基于关系网络的用户识别方法和*** | |
CN111127062A (zh) | 一种基于空间搜索算法的群体欺诈识别方法及装置 | |
CN110825935A (zh) | 社区核心人物挖掘方法、***、电子设备及可读存储介质 | |
CN107368499A (zh) | 一种客户标签建模及推荐方法及装置 | |
CN109639478A (zh) | 识别存在家庭关系客户的方法、装置、设备及介质 | |
CN105578395B (zh) | 一种更新终端信息库中终端属性的方法及装置 | |
Yuan et al. | The emergence of scaling law, fractal patterns and small-world in wireless networks | |
CN104221417B (zh) | 干扰源识别方法及*** | |
CN107154875B (zh) | 一种电话通信网络中节点敏感性排序的方法 | |
CN102750288B (zh) | 一种互联网内容推荐方法及装置 | |
WO2024001102A1 (zh) | 一种通信行业家庭圈智能识别的方法、装置及设备 | |
CN107155214B (zh) | 一种号码确定方法和装置 | |
CN103987052B (zh) | 基站配置方法及基站、协调器 | |
CN110136001A (zh) | 一种数据处理方法、装置、计算设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190521 |
|
WW01 | Invention patent application withdrawn after publication |