CN113573242A - 重入网用户的识别方法、装置及设备 - Google Patents
重入网用户的识别方法、装置及设备 Download PDFInfo
- Publication number
- CN113573242A CN113573242A CN202010350086.6A CN202010350086A CN113573242A CN 113573242 A CN113573242 A CN 113573242A CN 202010350086 A CN202010350086 A CN 202010350086A CN 113573242 A CN113573242 A CN 113573242A
- Authority
- CN
- China
- Prior art keywords
- user
- behavior
- time
- feature
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/02—Services making use of location information
- H04W4/029—Location-based management or tracking services
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B17/00—Monitoring; Testing
- H04B17/30—Monitoring; Testing of propagation channels
- H04B17/309—Measuring or estimating channel quality parameters
- H04B17/318—Received signal strength
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/08—Testing, supervising or monitoring using real traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W8/00—Network data management
- H04W8/26—Network addressing or numbering for mobility support
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Physics & Mathematics (AREA)
- Electromagnetism (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种重入网用户的识别方法、装置及设备。该方法包括:获取至少两个用户的行为特征向量;行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;根据每一用户的行为特征向量在时空行为特征立方体中确定的特征点,对第一用户的特征点与第二用户的特征点进行相似度分析,判断第二用户是否为第一用户的重入网用户;其中时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,特征点依据目标行为的时间和空间位置在时空行为特征立方体中分布。该识别方法利用时间、空间位置和强度表示信息构建用户的行为特征向量,将不同用户的特征点进行比较,能够简单、有效地识别出同一运营网络中的重入网用户。
Description
技术领域
本发明涉及通信技术领域,尤其是指一种重入网用户的识别方法、装置及设备。
背景技术
正在或者曾经使用某家运营商***的用户,在短期内又购买所属同一运营商的***入网,新号码全部或部分替代旧号码,这部分用户即为重入网用户,重入网用户占用******资源,增加了公司的营销成本,加大业务风险,因此需要进行有效识别并管理。但是由于重入网手机号码和原在网手机号码是两个不同的号码,因此如何判断这两个号码是否属于同一人使用是识别重入网号码的关键。
发明内容
本发明技术方案的目的在于提供一种重入网用户的识别方法、装置及设备,能够简单、有效地识别出同一运营网络中的重入网用户。
本发明实施例提供一种重入网用户的识别方法,其中,包括:
获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
可选地,所述的重入网用户的识别方法,其中,所述获取至少两个用户的行为特征向量,包括:
采集每一用户的行为数据;所述行为数据包括不同目标行为的时间、空间位置和强度表示信息;
根据所述行为数据构造每一用户的所述时空行为特征立方体;
对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量;
删除所述时空行为特征立方体中所述行为特征向量相对应特征点之外的其他特征点。
可选地,所述的重入网用户的识别方法,其中,所述对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量,包括:
依据时间维度对所述时空行为特征立方体进行切片,形成多个切片数据;
对每一切片数据内的行为数据进行聚类,确定至少一聚类点;
将每一聚类点相对应行为数据的强度表示信息与预设强度阈值进行比较,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量。
可选地,所述的重入网用户的识别方法,其中,所述强度表示信息表示为预设统计周期内目标行为的累计时长。
可选地,所述的重入网用户的识别方法,其中,在对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析之前,所述方法还包括:
对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,获得第一用户的标准化数据向量和第二用户的标准化数据向量;其中每一标准化数据向量对应一个特征点;
其中,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,包括:
对第一用户的标准化数据向量相对应的特征点与第二用户的标准化数据向量相对应的特征点,进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户。
可选地,所述的重入网用户的识别方法,其中,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户,包括:
确定所述第一用户的特征点与所述第二用户的特征点相比较的相似特征点;
在所述相似特征点的数量与所述第一用户的特征点的数量之间的比值大于第一预设值时,确定所述第二用户为所述第一用户的重入网用户。
可选地,所述的重入网用户的识别方法,其中,所述确定所述第一用户的特征点与第二用户的特征点相比较的相似特征点,包括:
选取第一用户的第一特征点;
计算所述第二用户中与所述第一特征点距离最短的第二特征点;其中所述第一特征点和所述第二特征点所对应行为特征向量的目标行为相同;
分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点。
可选地,所述的重入网用户的识别方法,其中,所述分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点,包括:
获取所述第一特征点所对应目标行为在预设时长内发生时的第一权重值,以及获取所述第二特征点所对应目标行为在预设时长内发生时的第二权重值;
根据所述第一权重值和所述第二权重值,确定权重系数;
根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值;
确定所述相似度值大于第二预设值时,所述第一特征点与所述第二特征为相似特征点。
可选地,所述的重入网用户的识别方法,其中,根据所述第一权重值和所述第二权重值,确定权重系数,包括:
计算所述第一权重值与所述第二权重值中的最小值,与所述第一权重值与所述第二权重值中的最大值的比值;
确定所述比值为所述权重系数。
可选地,所述的重入网用户的识别方法,其中,根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值,包括:
依据以下公式计算相似度值:
Si=1-Di/Wi;
其中,Si为相似度值;Di为所述第一特征点与所述第二特征点之间的距离;Wi为所述权重系数。
可选地,所述的重入网用户的识别方法,其中,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换之前,所述方法还包括:
根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点;
对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体进行切分拼装,使切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体分别以所述时域切分点所对应的时间作为起始时间点;
其中,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
对切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
可选地,所述的重入网用户的识别方法,其中,根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点,包括:
依据时间维度,对所述第一用户的时空行为特征立方体中的行为特征向量和所述第二用户的时空行为特征立方体中的行为特征向量分别进行同一目标行为所对应强度表示信息的累加;
根据每一目标行为所对应累加获得的最大强度信息值,绘制所述第一用户的行为特征向量的第一强度变化曲线,以及绘制所第二用户的行为特征向量的第二强度变化曲线;
选取所述第一强度变化曲线和所第二强度变化曲线中的最低点为所述时域切分点。
可选地,所述的重入网用户的识别方法,其中,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
通过离差标准化法或者标准差标准化法,对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
本发明实施例还提供一种重入网用户的识别装置,其中,包括:
向量获取模块,用于获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
比较模块,用于根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
本发明实施例还提供一种识别设备,其中,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如上任一项所述的重入网用户的识别方法。
本发明实施例还提供一种可读存储介质,其中,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如上任一项所述的重入网用户的识别方法中的步骤。
本发明上述技术方案中的至少一个具有以下有益效果:
采用本发明实施例所述重入网用户的识别方法,利用时间、空间位置和强度表示信息构建用户的行为特征向量,并根据行为特征向量在时空行为特征立方体中确定的特征点,进行相似度分析,进行重入网用户识别,该识别方法将时间、空间位置和强度表示信息相关联,相较于现有技术能够简单、有效地识别出同一运营网络中的重入网用户。
附图说明
图1为本发明实施例所述重入网用户的识别方法的流程示意图;
图2为图1的步骤S110的流程示意图;
图3为其中一时空行为特征立方体的示意图;
图4为图2中步骤S113的流程示意图;
图5为其中一时间切片的示意图;
图6为图1中步骤S120的流程示意图;
图7为进行时域切分拼装后的时空行为特征立方体的结构示意图;
图8为本发明实施例所述重入网用户的识别装置的流程示意图;
图9为本发明实施例所述识别设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明实施例提供一种重入网用户的识别方法,利用同一用户在特定时间、空间的行为具有高度相似性的特征,利用时间、空间位置和强度表示信息构建用户的行为特征向量,根据行为特征向量在时空行为特征立方体中确定的特征点,将时间、空间位置和强度表示信息相关联,能够简单、有效地识别出同一运营网络中的重入网用户。
本发明其中一实施例所述重入网用户的识别方法,如图1所示,所述方法包括:
S110,获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
S120,根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
采用本发明实施例所述重入网用户的识别方法,利用时间、空间位置和强度表示信息构建用户的行为特征向量,将不同用户的行为特征向量在时空行为特征立方体中确定的特征点进行比较,进行重入网用户的识别,相较于利用单一维度模型进行用户识别,能够有效保证重入网用户识别的准确率;另外,采用该方式进行重入网用户识别,将时间、空间位置和强度表示信息相关联分析,也能够进一步有效保证重入网用户识别的准确率,且相较于现有技术分别针对每一维度进行单独建模进行相似度分析,之后综合对各个维度相似度分析,进行重入网用户识别的方式,本发明实施例所述识别方法,更简单且易于实现。
可选地,如图2所示,在步骤S110,获取至少两个用户的行为特征向量,包括:
S111,采集每一用户的行为数据;所述行为数据包括不同目标行为的时间、空间位置和强度表示信息;
S112,根据所述行为数据构造每一用户的所述时空行为特征立方体;其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为数据依据目标行为的时间和空间位置在所述时空行为特征立方体中分布;
S113,对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量;
S114,删除所述时空行为特征立方体中所述行为特征向量相对应特征点之外的其他特征点。
在步骤S111中,采集每一用户的行为数据,包括采集四个要素:时间、空间位置、行为和强度表示信息。
1)时间:以预设时长(如为10分钟)为周期,采集一段时间(例如两周)内用户在每天24小时指定周期范围内的行为数据;
2)空间位置:包括经纬度信息;其中,通过信令数据、通话和上网数据等,采集在指定时间段内的基站位置信息,并转换为经纬度信息,获得行为数据中的空间位置;
3)行为:可选地,所采集的行为可以包括:用户处于开机状态但是没有通话或者上网行为,例如用户待机;通话行为,以号段区分,例如C_139;应用程序APP行为,以APP区分等。
4)强度表示信息:可选地,该强度表示信息表示为预设统计周期内目标行为的累计时长;需要说明的是,该累计时长为预设统计周期内目标行为在目标空间发生的累计时长。例如,以其中一位置在一段时间(例如两周内)的累计行为时长(单位为秒)来标识用户的行为强度表示信息。
通过基于上述四个要素进行每一用户的行为数据采集,获得多组分别对应不同目标行为,分别包括目标行为、时间、空间位置和强度表示信息的行为数据。例如,所采集行为数据的示例可以如下表1所示:
表1
时间 | 经度 | 维度 | 行为 | 强度 |
10:00—10:10 | 东经115”25’ | 北纬39”26’ | 用户待机 | 500 |
10:10—10:20 | 东经115”25’ | 北纬39”26’ | 通话行为 | 40 |
10:20—10:30 | 东经115”26’ | 北纬39”27’ | APP行为 | 600 |
… |
在通过步骤S111获得上述形式的行为数据的条件下,本发明实施例中,在步骤S112,利用所获得的行为数据构造时空行为特征立方体。其中,在该时空行为特征立方体中,以时间、空间位置的经度和空间位置的纬度分别为特征位置的三个维度坐标,用户的每一行为数据以经度、纬度和时间三个维度为表征,在时空行为特征立方体中分布,且以特征点表示,每一行为数据对应一个特征点。
该时空行为特征立方体的示例可以如图3所示,不同目标行为在图3中用不同灰度表示,具体实施时可以通过颜色区分。根据图3,通过该时空行为特征立方体,能够清楚展示不同目标行为在时间和空间上的分布状况。
需要说明的是,通过上述构造时空行为特征立方体的方式,对应每一用户可以分别构造相对应的时空行为特征立方体。
进一步地,本发明实施例所述重入网用户的识别方法,在通过步骤S112构造时空行为特征立方体之后,通过步骤S113,对时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为行为特征向量,并保留所述时空行为特征立方体中所确定的所述行为特征向量相对应的特征点,以用于后续进行重入网用户识别时的相似度分析。
可选地,在步骤S113,所述对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为行为特征向量,如图4所示,包括:
S1131,依据时间维度对所述时空行为特征立方体进行切片,形成多个切片数据;
S1132,对每一切片数据内的行为数据进行聚类,确定至少一聚类点;
S1133,将每一聚类点相对应行为数据的强度表示信息与预设强度阈值进行比较,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量。
在步骤S1131,在依据时间维度对所述时空行为特征立方体进行切片时,可以依据时间维段,按照每间隔预设时长,对时空行为特征立方体进行切换,形成多个切片数据;例如,对所构造的用户的时空行为特征立方体依据每半小时进行切片的方式,形成48个切片数据。
在步骤S1132,对每一切片数据内的行为数据进行聚类,可选地,对于每一切片数据,可以按照具有噪声的基于密度的聚类方法(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)进行聚类,每一聚类取其中心点作为聚类点,将该聚类点作为特征标识,能够反映用户特定行为在特定时间的平均位置和平均强度,从而能够作为目标提取数据,构建用户的行为特征向量。
例如,假设某用户每天六点左右下班坐地铁回家,在地铁上喜欢玩抖音,那么其6:00-6:30经过密度聚类的切片数据的简化版本如下如图5所示,黑圆点代表用户待机行为,白圆点代表玩抖音行为,点的大小代表行为强度。
因此,通过上述的步骤S1132,能够确定出每一切片数据中的至少一聚类点,通过该聚类点能够反映用户特定行为在特定时间的平均位置和平均强度。
在此基础上,通过步骤S1133,将每一聚类点相对应行为数据的强度表示信息与预设强度阈值进行比较,也即对每一聚类点的强度表示信息进行阈值判定,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量,也即判定为有效数据,进行保存,并构建为用户的行为特征向量。
本发明实施例的其中一实施方式,如图6所示,在步骤S120,在对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析之前,所述方法还包括:
S1101,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,获得第一用户的标准化数据向量和第二用户的标准化数据向量;其中每一标准化数据向量对应一个特征点;
其中,在步骤S120中,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,包括:
对第一用户的标准化数据向量相对应的特征点与第二用户的标准化数据向量相对应的特征点,进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户。
具体地,通过上述方式,对用户的行为特征向量进行数据的标准化,去除数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行计算和比较,以能够用于后续不同用户的标准化数据向量所对应特征点的相似度比较。
本发明实施例中,为保证数据分析准确性,可选地,在步骤S1101,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换之前,所述方法还包括:
根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点;
对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体进行切分拼装,使切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体分别以所述时域切分点所对应的时间作为起始时间点;
其中,在步骤S1101,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
对切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
其中,可选地,根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点,包括:
依据时间维度,对所述第一用户的时空行为特征立方体中的行为特征向量和所述第二用户的时空行为特征立方体中的行为特征向量分别进行同一目标行为所对应强度表示信息的累加;
根据每一目标行为所对应累加获得的最大强度信息值,绘制所述第一用户的行为特征向量的第一强度变化曲线,以及绘制所第二用户的行为特征向量的第二强度变化曲线;
选取所述第一强度变化曲线和所第二强度变化曲线中的最低点为所述时域切分点。
设定第一用户为原在网用户,第二用户为待匹配用户,在从数据库中提取该第一用户和该第二用户的行为特征向量,在对第一用户和第二用户的行为特征向量进行去单位标准化转换之前,确定时域切分点,进行时域切分拼装。
通过确定时域切分点,选择出用户活动强度最弱点,根据用户活动强度较弱范围,可以对上述所确定的时空行为特征立方体重新切分拼装,进行后续重入网用户的识别。
需要说明的是,由于行为特征向量中记录的目标行为的发生时间位于一天的时间范围内时,若以默认的0点时间轴为起点进行行为特征向理提取分析,容易出现错误判断的情况,这是因为若用户存在0点附近的行为,如在23:30-24:00周期和在00:00-00:30周期的相同地点相同行为,但其实际间隔在一小时之内,在时间轴以0点的特征空间中,该同一行为的时间间隔达20多个小时,因此该数据的间隔性,会导致存在错误判断的情况。
基于此,本发明实施例所述识别方法中,通过上述的选择出用户活动强度最弱点的方式,通过所选出的用户活动强度最弱点,对行为特征向量中依据时域重新进行切换排列。在采用上述行为特征向量构造时空行为特征立方体时,对所构造的时空行为特征立方体重新进行切分拼装,以所确定的时域切分点作为行为特征向量分布的起始时间点。举例说明,如图7所示,根据用户A和用户B的行为特征向量确定的时空行为特征立方体的时域切分点为2点,则对时空行为特征立方体进行时域切分拼装后,2点变换为时间轴起点。
本发明实施例中,通过依据时间维度,对所述第一用户的时空行为特征立方体和所述第二用户的行为特征立方体分别进行同一目标行为所对应强度表示信息的累加,根据每一目标行为所对应累加获得的最大强度信息值,绘制所述第一用户的行为特征向量的第一强度变化曲线,以及绘制所第二用户的行为特征向量的第二强度变化曲线;选取所述第一强度变化曲线和所第二强度变化曲线中的最低点为所述时域切分点。也即,提取待匹配两个用户的行为特征向量,按照时间维度进行用户行为强度的累加,选取发生最大行为强度的点作为起点,绘制行为强度的一天24小时变化曲线,然后选取两个用户所对应行为变化曲线的极低点作为时域切分点。
本发明实施例所述识别方法,在上述对用户的时空行为特征立方体进行时域切分之后,进一步对每一用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换。具体地,可以通过离差标准化法或者标准差标准化法,对每一用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,以去除行为特征向量中数据的单位限制,转化为无量纲的纯数值,便于不同单位或量级的指标能够进行计算和比较。
其中一实施方式,通过离差标准化法对原始的行为特征向量进行去单位标准化转换。其中该转换方式所采用公式可以为:
X'=(X-min)/(max-min);
其中,X'为转换后的数据,X为转换前的数据,max为转换样本数据中的最大值,min为转换样本数据中的最小值。
通过该方式,可以将行为特征向量各个维度的数据转换为位于【0,1】区间的数据,从而去除行为特征向量中不同维度数据的单位限制。
例如,采用该方式,可以对行为特征向量中的发生时间、经度和纬度进行去标准化转换,获得如下表2所示的行为特征向量:
表2
时间 | 平均经度 | 平均维度 | 行为 | 平均强度 |
0.12 | 0.345 | 0.567 | B | 210 |
0.34 | 0.12 | 0.8 | C | 120 |
… |
另一实施方式,通过标准差标准化法对原始的行为特征向量进行去单位标准化转换。可选地,该转换方式通常是将转换前的数据减去均值,再除以标准差,获得转换后的数据,转换后的数据符合标准正态分布(均值为0,方差为1)。
需要说明的是,本领域技术人员应该能够了解上述进行去单位标准化转换的具体方式,在此不详细说明。进一步地,进行去单位标准化转换的方式不限于仅能够包括上述的两种。
本发明实施例中,参阅图1,在步骤S120,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户,包括:
确定所述第一用户的特征点与所述第二用户的特征点相比较的相似特征点;
在所述相似特征点的数量与所述第一用户的特征点的数量之间的比值大于第一预设值时,确定所述第二用户为所述第一用户的重入网用户。
其中,可选地,确定所述第一用户的特征点与第二用户的特征点相比较的相似特征点,包括:
选取第一用户的第一特征点;
计算所述第二用户中与所述第一特征点距离最短的第二特征点;其中所述第一特征点和所述第二特征点所对应行为特征向量的目标行为相同;
分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点。
本发明实施例中,可选地,第一用户的第一特征点和第二用户的特征点的相似性判断可以选择欧几里德算法。
可选地,所述分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点,包括:
获取所述第一特征点所对应目标行为在预设时长内发生时的第一权重值,以及获取所述第二特征点所对应目标行为在预设时长内发生时的第二权重值;
根据所述第一权重值和所述第二权重值,确定权重系数;
根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值;
确定所述相似度值大于第二预设值时,所述第一特征点与所述第二特征为相似特征点。
进一步地,根据所述第一权重值和所述第二权重值,确定权重系数,包括:
计算所述第一权重值与所述第二权重值中的最小值,与所述第一权重值与所述第二权重值中的最大值的比值;
确定所述比值为所述权重系数。
可选地,根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值,包括:
依据以下公式计算相似度值:
Si=1-Di/Wi;
其中,Si为相似度值;Di为所述第一特征点与所述第二特征点之间的距离;Wi为所述权重系数。
具体地,通过提取第一用户的第一特征点,在第二用户中确定与第一特征点最近的第二特征点,距离记为Di,并根据第一特征点所对应目标行为在预设时长内发生时的第一权重值,以及所述第二特征点所对应目标行为在预设时长内发生时的第二权重值,确定权重系数Wi;根据所计算的距离Di和权重系数Wi,即能够计算出第一特征点和第二特征点的相似度。
可选地,第一特征点与第二特征点的距离可以根据上述所确定的时空行为特征立方体,利用该两个特征点在时间、纬度和经度三个维度上的坐标位置进行距离计算。
根据以上,通过上述方式,可以在第二用户的特征点中,找到与第一用户的每一特征点相对应的距离最近的特征点,并分别计算相似度。
可选地,若第二用户的特征点中,不存在与第一用户的特征点相对应距离最近的点,则相似度可以标记为0。
例如,对第一用户和第二用户的多个特征点的相似度比较结果可以为如下表3所示,其中B、C和D表示不同目标行为:
进一步地,可以预先设定进行相似度判断的阈值(第二预设值),在第二用户的特征点与第一用户的特征点的相似度超过第二预设值时,则确定为相似特征点,否则不为相似特征点。
另外,可以预先设定进行第一用户与第二用户进行重入网用户识别时,全部特征点相似度所达到的阈值(第一预设值),在相似特征点的数量与第一用户的全部特征点的数量比值大于第二预设值时,则确定第一用户与第二用户高度相似,则判断第二用户为第一用户的重入网用户。
利用上述的相似性判断原则,用户行为相似性的判断具有如下三个原则:
1.两个特征点的距离越短相似性越高;
2.两个特征点的权重越接近相似性越高;
3.两个用户相似性高的特征点越多相似性越高。
本发明实施例所述重入网用户的识别方法,利用用户在特定时间、空间的行为具有高度相似性这一特性,在模型的数据构建阶段综合利用时间、空间和用户行为三个维度的数据构建用户特征立方体,并利用时间维度数据切片,密度聚类算法以及行为强度阈值判定等技术实现用户在特定时间空间典型特征行为的提取和行为特征向量的构建,然后对两个用户的特征向量进行时域切分拼接以及欧式坐标变换等预处理,最后通过欧氏距离算法进行两个用户的相似性比较,确定两个用户是否为重入网用户。
采用本发明实施例所述重入网用户的识别方法,同时利用时间、空间以及行为三个要素进行相似性分析,并利用行为特征向量在时空行为特征立方体中确定的特征点进行用户的相似度分析,相较于单一维度的分析方式,能够提高重入网用户判断的准确性;另外,通过对多个维度的数据进行综合建模,相较于在每一维度分别进行建模,能够避免容易发生误判的问题;进一步地,通过多种技术手段构建的简化后的用户特征向量大大减少了用户身份判断的数据量,提高了重入网用户判断的效率。
本发明实施例还提供一种重入网用户的识别装置,如图8所示,包括:
向量获取模块810,用于获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
比较模块820,用于根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
可选地,所述的重入网用户的识别装置,其中,所述向量获取模块810包括:
采集单元811,用于采集每一用户的行为数据;所述行为数据包括不同目标行为的时间、空间位置和强度表示信息;
第一构造单元812,用于根据所述行为数据构造每一用户的所述时空行为特征立方体;
分析单元813,用于对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量;
第二构造单元814,用于删除所述时空行为特征立方体中所述行为特征向量相对应特征点之外的其他特征点。
可选地,所述的重入网用户的识别装置,其中,所述分析单元813对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量,包括:
依据时间维度对所述时空行为特征立方体进行切片,形成多个切片数据;
对每一切片数据内的行为数据进行聚类,确定至少一聚类点;
将每一聚类点相对应行为数据的强度表示信息与预设强度阈值进行比较,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量。
可选地,所述的重入网用户的识别装置,其中,所述强度表示信息表示为预设统计周期内目标行为的累计时长。
可选地,所述的重入网用户的识别装置,其中,所述装置还包括:
转换模块8101,用于在比较模块820在对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析之前,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,获得第一用户的标准化数据向量和第二用户的标准化数据向量;其中每一标准化数据向量对应一个特征点;
其中,所述比较模块820对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,具体为:
对第一用户的标准化数据向量相对应的特征点与第二用户的标准化数据向量相对应的特征点,进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户。
可选地,所述的重入网用户的识别装置,其中,比较模块820对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户,具体为:
确定所述第一用户的特征点与所述第二用户的特征点相比较的相似特征点;
在所述相似特征点的数量与所述第一用户的特征点的数量之间的比值大于第一预设值时,确定所述第二用户为所述第一用户的重入网用户。
可选地,所述的重入网用户的识别装置,其中,所述比较模块820确定所述第一用户的特征点与第二用户的特征点相比较的相似特征点,包括:
选取第一用户的第一特征点;
计算所述第二用户中与所述第一特征点距离最短的第二特征点;其中所述第一特征点和所述第二特征点所对应行为特征向量的目标行为相同;
分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点。
可选地,所述的重入网用户的识别装置,其中,所述比较模块820分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点,包括:
获取所述第一特征点所对应目标行为在预设时长内发生时的第一权重值,以及获取所述第二特征点所对应目标行为在预设时长内发生时的第二权重值;
根据所述第一权重值和所述第二权重值,确定权重系数;
根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值;
确定所述相似度值大于第二预设值时,所述第一特征点与所述第二特征为相似特征点。
可选地,所述的重入网用户的识别装置,其中,比较模块820根据所述第一权重值和所述第二权重值,确定权重系数,包括:
计算所述第一权重值与所述第二权重值中的最小值,与所述第一权重值与所述第二权重值中的最大值的比值;
确定所述比值为所述权重系数。
可选地,所述的重入网用户的识别装置,其中,比较模块820根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值,包括:
依据以下公式计算相似度值:
Si=1-Di/Wi;
其中,Si为相似度值;Di为所述第一特征点与所述第二特征点之间的距离;Wi为所述权重系数。
可选地,所述的重入网用户的识别装置,其中,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换之前,转换模块8101还用于:
根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点;
对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体进行切分拼装,使切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体分别以所述时域切分点所对应的时间作为起始时间点;
其中,转换模块8101对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
对切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
可选地,所述的重入网用户的识别装置,其中,转换模块8101根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点,包括:
依据时间维度,对所述第一用户的时空行为特征立方体中的行为特征向量和所述第二用户的时空行为特征立方体中的行为特征向量分别进行同一目标行为所对应强度表示信息的累加;
根据每一目标行为所对应累加获得的最大强度信息值,绘制所述第一用户的行为特征向量的第一强度变化曲线,以及绘制所第二用户的行为特征向量的第二强度变化曲线;
选取所述第一强度变化曲线和所第二强度变化曲线中的最低点为所述时域切分点。
可选地,所述的重入网用户的识别装置,其中,转换模块8101对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
通过离差标准化法或者标准差标准化法,对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
本发明实施例还提供一种识别设备,如图9所示,包括:处理器901;以及通过总线接口902与所述处理器901相连接的存储器903,所述存储器903用于存储所述处理器901在执行操作时所使用的程序和数据,处理器901调用并执行所述存储器903中所存储的程序和数据。
其中,收发机904与总线接口902连接,用于在处理器901的控制下接收和发送数据,具体地,处理器901用于读取存储器903中的程序,执行下列过程:
获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
可选地,所述的识别设备,其中,所述处理器901获取至少两个用户的行为特征向量,包括:
采集每一用户的行为数据;所述行为数据包括不同目标行为的时间、空间位置和强度表示信息;
根据所述行为数据构造每一用户的所述时空行为特征立方体;
对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量删除所述时空行为特征立方体中所述行为特征向量相对应特征点之外的其他特征点。
可选地,所述的识别设备,其中,所述处理器901对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量,包括:
依据时间维度对所述时空行为特征立方体进行切片,形成多个切片数据;
对每一切片数据内的行为数据进行聚类,确定至少一聚类点;
将每一聚类点相对应行为数据的强度表示信息与预设强度阈值进行比较,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量。
可选地,所述的识别设备,其中,所述强度表示信息表示为预设统计周期内目标行为的累计时长。
可选地,所述的识别设备,其中,处理器901在对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析之前,还用于:
对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,获得第一用户的标准化数据向量和第二用户的标准化数据向量;其中每一标准化数据向量对应一个特征点;
其中,处理器901对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,包括:
对第一用户的标准化数据向量相对应的特征点与第二用户的标准化数据向量相对应的特征点,进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户。
可选地,所述的识别设备,其中,处理器901对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户,包括:
确定所述第一用户的特征点与所述第二用户的特征点相比较的相似特征点;
在所述相似特征点的数量与所述第一用户的特征点的数量之间的比值大于第一预设值时,确定所述第二用户为所述第一用户的重入网用户。
可选地,所述的识别设备,其中,所述处理器901确定所述第一用户的特征点与第二用户的特征点相比较的相似特征点,包括:
选取第一用户的第一特征点;
计算所述第二用户中与所述第一特征点距离最短的第二特征点;其中所述第一特征点和所述第二特征点所对应行为特征向量的目标行为相同;
分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点。
可选地,所述的识别设备,其中,所述处理器901分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点,包括:
获取所述第一特征点所对应目标行为在预设时长内发生时的第一权重值,以及获取所述第二特征点所对应目标行为在预设时长内发生时的第二权重值;
根据所述第一权重值和所述第二权重值,确定权重系数;
根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值;
确定所述相似度值大于第二预设值时,所述第一特征点与所述第二特征为相似特征点。
可选地,所述的识别设备,其中,处理器901根据所述第一权重值和所述第二权重值,确定权重系数,包括:
计算所述第一权重值与所述第二权重值中的最小值,与所述第一权重值与所述第二权重值中的最大值的比值;
确定所述比值为所述权重系数。
可选地,所述的识别设备,其中,处理器901根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值,包括:
依据以下公式计算相似度值:
Si=1-Di/Wi;
其中,Si为相似度值;Di为所述第一特征点与所述第二特征点之间的距离;Wi为所述权重系数。
可选地,所述的识别设备,其中,处理器901对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换之前,还用于:
根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点;
对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体进行切分拼装,使切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体分别以所述时域切分点所对应的时间作为起始时间点;
其中,处理器901对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
对切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
可选地,所述的识别设备,其中,处理器901根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点,包括:
依据时间维度,对所述第一用户的时空行为特征立方体中的行为特征向量和所述第二用户的时空行为特征立方体中的行为特征向量分别进行同一目标行为所对应强度表示信息的累加;
根据每一目标行为所对应累加获得的最大强度信息值,绘制所述第一用户的行为特征向量的第一强度变化曲线,以及绘制所第二用户的行为特征向量的第二强度变化曲线;
选取所述第一强度变化曲线和所第二强度变化曲线中的最低点为所述时域切分点。
可选地,所述的识别设备,其中,处理器901对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
通过离差标准化法或者标准差标准化法,对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
其中,在图9中,总线架构可以包括任意数量的互联的总线和桥,具体由处理器901代表的一个或多个处理器和存储器903代表的存储器的各种电路链接在一起。总线架构还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口提供接口。收发机904可以是多个元件,即包括发送机和接收机,提供用于在传输介质上与各种其他装置通信的单元。处理器901负责管理总线架构和通常的处理,存储器903可以存储处理器901在执行操作时所使用的数据。
本领域技术人员可以理解,实现上述实施例的全部或者部分步骤可以通过硬件来完成,也可以通过程序来指示相关的硬件来完成,所述程序包括执行上述方法的部分或者全部步骤的指令;且该程序可以存储于一可读存储介质中,存储介质可以是任何形式的存储介质。
另外,本发明具体实施例还提供一种可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上中任一项所述的重入网用户的识别方法的步骤。
具体地,该可读存储介质应用于上述的识别设备,在应用于识别设备时,对应重入网用户的识别方法中的执行步骤如上的详细描述,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理包括,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述收发方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种重入网用户的识别方法,其特征在于,包括:
获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
2.根据权利要求1所述的重入网用户的识别方法,其特征在于,所述获取至少两个用户的行为特征向量,包括:
采集每一用户的行为数据;所述行为数据包括不同目标行为的时间、空间位置和强度表示信息;
根据所述行为数据构造每一用户的所述时空行为特征立方体;
对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量删除所述时空行为特征立方体中所述行为特征向量相对应特征点之外的其他特征点。
3.根据权利要求2所述的重入网用户的识别方法,其特征在于,所述对所述时空行为特征立方体中的行为数据进行聚类分析,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量,包括:
依据时间维度对所述时空行为特征立方体进行切片,形成多个切片数据;
对每一切片数据内的行为数据进行聚类,确定至少一聚类点;
将每一聚类点相对应行为数据的强度表示信息与预设强度阈值进行比较,确定强度表示信息大于预设强度阈值的相对应行为数据为所述行为特征向量。
4.根据权利要求1至3任一项所述的重入网用户的识别方法,其特征在于,所述强度表示信息表示为预设统计周期内目标行为的累计时长。
5.根据权利要求1所述的重入网用户的识别方法,其特征在于,在对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析之前,所述方法还包括:
对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,获得第一用户的标准化数据向量和第二用户的标准化数据向量;其中每一标准化数据向量对应一个特征点;
其中,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,包括:
对第一用户的标准化数据向量相对应的特征点与第二用户的标准化数据向量相对应的特征点,进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户。
6.根据权利要求1所述的重入网用户的识别方法,其特征在于,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户,包括:
确定所述第一用户的特征点与所述第二用户的特征点相比较的相似特征点;
在所述相似特征点的数量与所述第一用户的特征点的数量之间的比值大于第一预设值时,确定所述第二用户为所述第一用户的重入网用户。
7.根据权利要求6所述的重入网用户的识别方法,其特征在于,所述确定所述第一用户的特征点与第二用户的特征点相比较的相似特征点,包括:
选取第一用户的第一特征点;
计算所述第二用户中与所述第一特征点距离最短的第二特征点;其中所述第一特征点和所述第二特征点所对应行为特征向量的目标行为相同;
分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点。
8.根据权利要求7所述的重入网用户的识别方法,其特征在于,所述分析所述第一特征点与所述第二特征点的相似度值,判断所述第一特征点与所述第二特征是否为相似特征点,包括:
获取所述第一特征点所对应目标行为在预设时长内发生时的第一权重值,以及获取所述第二特征点所对应目标行为在预设时长内发生时的第二权重值;
根据所述第一权重值和所述第二权重值,确定权重系数;
根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值;
确定所述相似度值大于第二预设值时,所述第一特征点与所述第二特征为相似特征点。
9.根据权利要求8所述的重入网用户的识别方法,其特征在于,根据所述第一权重值和所述第二权重值,确定权重系数,包括:
计算所述第一权重值与所述第二权重值中的最小值,与所述第一权重值与所述第二权重值中的最大值的比值;
确定所述比值为所述权重系数。
10.根据权利要求8所述的重入网用户的识别方法,其特征在于,根据所述权重系数和所述第一特征点与所述第二特征点之间的距离,计算相似度值,包括:
依据以下公式计算相似度值:
Si=1-Di/Wi;
其中,Si为相似度值;Di为所述第一特征点与所述第二特征点之间的距离;Wi为所述权重系数。
11.根据权利要求5所述的重入网用户的识别方法,其特征在于,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换之前,所述方法还包括:
根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点;
对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体进行切分拼装,使切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体分别以所述时域切分点所对应的时间作为起始时间点;
其中,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
对切分拼装后的所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
12.根据权利要求11所述的重入网用户的识别方法,其特征在于,根据第一用户的行为特征向量和第二用户的行为特征向量分别构建的时空行为特征立方体中,第一用户的行为特征向量和第二用户的行为特征向量的时间分布维度,确定时域切分点,包括:
依据时间维度,对所述第一用户的时空行为特征立方体中的行为特征向量和所述第二用户的时空行为特征立方体中的行为特征向量分别进行同一目标行为所对应强度表示信息的累加;
根据每一目标行为所对应累加获得的最大强度信息值,绘制所述第一用户的行为特征向量的第一强度变化曲线,以及绘制所第二用户的行为特征向量的第二强度变化曲线;
选取所述第一强度变化曲线和所第二强度变化曲线中的最低点为所述时域切分点。
13.根据权利要求5所述的重入网用户的识别方法,其特征在于,对第一用户的时空行为特征立方体中的行为特征向量和第二用户的时空行为特征立方体中的行为特征向量进行去单位标准化转换,包括:
通过离差标准化法或者标准差标准化法,对所述第一用户的时空行为特征立方体和所述第二用户的时空行为特征立方体中的行为特征向量分别进行去单位标准化转换。
14.一种重入网用户的识别装置,其特征在于,包括:
向量获取模块,用于获取至少两个用户的行为特征向量;所述行为特征向量中记录了目标行为的发生时间、空间位置和强度表示信息;
比较模块,用于根据每一用户的所述行为特征向量在时空行为特征立方体中确定的特征点,对至少两个用户中第一用户的特征点与第二用户的特征点进行相似度分析,判断所述第二用户是否为所述第一用户的重入网用户;
其中所述时空行为特征立方体以时间、空间位置的经度和空间位置的纬度为坐标,所述行为特征向量所对应的特征点依据目标行为的时间和空间位置在所述时空行为特征立方体中分布。
15.一种识别设备,其特征在于,包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序,所述程序被所述处理器执行时实现如权利要求1至13任一项所述的重入网用户的识别方法。
16.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序,所述程序被处理器执行时实现如权利要求1至13任一项所述的重入网用户的识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350086.6A CN113573242B (zh) | 2020-04-28 | 2020-04-28 | 重入网用户的识别方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010350086.6A CN113573242B (zh) | 2020-04-28 | 2020-04-28 | 重入网用户的识别方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113573242A true CN113573242A (zh) | 2021-10-29 |
CN113573242B CN113573242B (zh) | 2023-03-31 |
Family
ID=78158091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010350086.6A Active CN113573242B (zh) | 2020-04-28 | 2020-04-28 | 重入网用户的识别方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113573242B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860557A (zh) * | 2022-04-08 | 2022-08-05 | 广东联想懂的通信有限公司 | 用户行为信息生成方法、装置、设备及可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120239607A1 (en) * | 2011-03-18 | 2012-09-20 | Nec (China) Co., Ltd. | Device and method for recognizing user behavior |
CN104902498A (zh) * | 2015-04-17 | 2015-09-09 | 中国联合网络通信集团有限公司 | 用户重入网识别方法和装置 |
US20170109431A1 (en) * | 2014-06-30 | 2017-04-20 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for grouping network service users |
CN110290513A (zh) * | 2019-07-05 | 2019-09-27 | 中国联合网络通信集团有限公司 | 一种重入网用户的识别方法和*** |
-
2020
- 2020-04-28 CN CN202010350086.6A patent/CN113573242B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120239607A1 (en) * | 2011-03-18 | 2012-09-20 | Nec (China) Co., Ltd. | Device and method for recognizing user behavior |
US20170109431A1 (en) * | 2014-06-30 | 2017-04-20 | Tencent Technology (Shenzhen) Company Limited | Method and apparatus for grouping network service users |
CN104902498A (zh) * | 2015-04-17 | 2015-09-09 | 中国联合网络通信集团有限公司 | 用户重入网识别方法和装置 |
CN110290513A (zh) * | 2019-07-05 | 2019-09-27 | 中国联合网络通信集团有限公司 | 一种重入网用户的识别方法和*** |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114860557A (zh) * | 2022-04-08 | 2022-08-05 | 广东联想懂的通信有限公司 | 用户行为信息生成方法、装置、设备及可读存储介质 |
CN114860557B (zh) * | 2022-04-08 | 2023-05-26 | 广东联想懂的通信有限公司 | 用户行为信息生成方法、装置、设备及可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113573242B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110147710B (zh) | 人脸特征的处理方法、装置和存储介质 | |
CN110019891B (zh) | 图像存储方法、图像检索方法及装置 | |
CN112818398B (zh) | 针对大数据隐私保护的数据处理方法及大数据处理设备 | |
CN111090807B (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN114742477B (zh) | 企业订单数据处理方法、装置、设备及存储介质 | |
CN113573242B (zh) | 重入网用户的识别方法、装置及设备 | |
US10853829B2 (en) | Association method, and non-transitory computer-readable storage medium | |
CN111177436A (zh) | 一种人脸特征检索方法、装置及设备 | |
CN110147493B (zh) | 活跃因子的确定方法、装置、计算机设备及存储介质 | |
CN111491300A (zh) | 风险检测方法、装置、设备及存储介质 | |
CN113901037A (zh) | 数据管理方法、装置及存储介质 | |
CN110909263B (zh) | 一种身份特征的伴随关系确定方法及装置 | |
CN110502552B (zh) | 一种基于微调条件概率的分类数据转换方法 | |
CN104794234A (zh) | 用于同业对标的数据处理方法和装置 | |
CN112487082A (zh) | 一种生物特征识别的方法及相关设备 | |
CN113505369B (zh) | 一种时空感知的用户风险识别模型训练的方法及装置 | |
CN111723872B (zh) | 行人属性识别方法及装置、存储介质、电子装置 | |
CN115170153A (zh) | 一种基于多维属性的工单处理方法、装置及存储介质 | |
CN114491049A (zh) | 一种基于信息管理的办公***资产配置方法 | |
CN113936157A (zh) | 异常信息的处理方法及装置、存储介质、电子装置 | |
CN111522795A (zh) | 处理数据的方法和装置 | |
CN113627542A (zh) | 一种事件信息处理方法、服务器及存储介质 | |
CN112597379A (zh) | 数据识别方法、装置和存储介质及电子装置 | |
CN117112846B (zh) | 一种多信息源证照信息管理方法、***及介质 | |
CN112965890B (zh) | 一种数据处理方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |