CN107038449B - 一种欺诈用户的识别方法及装置 - Google Patents
一种欺诈用户的识别方法及装置 Download PDFInfo
- Publication number
- CN107038449B CN107038449B CN201610081149.6A CN201610081149A CN107038449B CN 107038449 B CN107038449 B CN 107038449B CN 201610081149 A CN201610081149 A CN 201610081149A CN 107038449 B CN107038449 B CN 107038449B
- Authority
- CN
- China
- Prior art keywords
- user
- abnormal
- identified
- users
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种欺诈用户的识别方法及装置,该识别方法包括:获取第一话单数据以及第二话单数据;提取第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中预定属性特征为用于确定待识别用户在一目标业务上是否存在异常行为的识别特征;根据分箱处理后的特征数据,分别计算待识别用户的综合评分以及异常用户的综合评分,其中异常用户包括已知用户中的欺诈用户以及历史欺诈用户;根据待识别用户的综合评分以及异常用户的综合评分,确定待识别用户是否为欺诈用户。本发明解决了解决现有的欺诈用户的有效识别方法均存在一定的局限性的问题。
Description
技术领域
本发明涉及移动通信领域,特别涉及一种欺诈用户的识别方法及装置。
背景技术
防范电信欺诈是移动通信领域中一个重要的研究课题,由于电信业务的复杂化以及电信欺诈技术和手段的多样化,使得电信欺诈的控制难度更大,电信欺诈行为的防治已成为运营商的一大难题,运营商为及时发现欺诈异常制定了很多办法,开发了相应的检测***,也取得了一定成效。但是,欺诈用户的有效识别是一个关键的技术难题。
现有的欺诈异常识别方法主要通过对用户通话的话单数据进行采集分析,对超量、超频、超长通话进行实时分类监控,并设定一定的预警阈值,使通话在超过预警阈值时下发告警。同时,在业内欺诈识别规则的技术实现上,通常将规则以程序代码的方式固化到***中,提供了部分参数配置的接口,通过人工修改参数实现对原有规则的更新,若添加新规则,则需要重新进行开发、设计、测试等流程。
然而,用户的科学信用评估、有效识别欺诈异常用户是多个行业公认的欺诈识别装置的技术难题。现有的识别方法主要有规则集、孤立点检测及分类预测三大类:
基于规则集的筛选方法即根据历史数据中的欺诈用户特点,定义一系列规则的组合,当某个新用户满足规则时,***主动告警,供管理员进行处理。例如,单手机号卡月度累计话费超过10万元,则判定为欺诈用户。
孤立点检测技术则是利用数据挖掘中的智能模型,找出总体中的特殊用户样本,***再将这些特殊用户提交给管理员。例如,采用基于密度的孤立点检测算法,数据集中的每个对象的异常程度用局部异常因子来衡量,即将与数据集中P%的实例距离大于L的实例判定为孤立点,其中P和L为预设参数。然而,对于基于规则集的筛选方法,所有规则集完全来自于业务经验,规则的参数不容易设置,条件苛刻则漏报率高,条件松懈则误报率高;此外,该类方法没有自我学习的能力,当新的欺诈行为模式产生时,由于规则集不能覆盖,会出现明显的漏报情况。然而,对于孤立点检测技术,虽然可以有效识别出总体中的特殊样本,但特殊样本并非一定是欺诈用户,误报率较高;另外,孤立点检测算法需要实时计算大量用户的距离,计算复杂度高导致计算量巨大,***容量有限,无法满足通信行业海量数据的实战要求。
分类预测采用数据挖掘中的分类技术,通过建立决策树等分类器模型对新样本进行分类判决,例如,按照决策树的如果-则(IF-THEN)规则,将通话次数大于1000次且月累计话费大于10万元的用户判定为欺诈用户。对于数据挖掘中的分类模型,分类器完成训练后,模型应用的对象是整个周期的累计数据;而对于欺诈的实时监测问题而言,由于欺诈行为往往集中在短时间如数小时内,等累计数据达到分类器IF-THEN规则所需要的条件,欺诈行为往往已经实施大半,欺诈检测的及时性表现不佳,因此实战意义大大降低。
由此可见,现有的三种主要方法:规则集、孤立点检测及分类模型,均存在着一些局限性,对于以流数据为形式的实时欺诈检测应用场景表现出了明显的不适应问题。
发明内容
本发明提供了一种欺诈用户的识别方法及装置,其目的是为了解决现有的欺诈用户的有效识别方法均存在一定的局限性的问题。
为了达到上述目的,本发明的实施例提供了一种欺诈用户的识别方法,包括:
获取第一话单数据以及第二话单数据,第一话单数据为一待识别用户在当前采样周期内的话单数据,第二话单数据包括多个已知用户在当前采样周期的上一个采样周期内话单数据以及历史欺诈用户的话单数据,其中已知用户包括至少一个欺诈用户和多个正常用户,历史欺诈用户为一预设数目的历史采样周期内的欺诈用户,历史采样周期为当前采样周期的上一个采样周期之前的采样周期;
提取第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中预定属性特征为用于确定待识别用户在一目标业务上是否存在异常行为的识别特征;
根据分箱处理后的特征数据,分别计算待识别用户的综合评分以及异常用户的综合评分,其中异常用户包括已知用户中的欺诈用户以及历史欺诈用户;
根据待识别用户的综合评分以及异常用户的综合评分,确定待识别用户是否为欺诈用户。
优选地,提取第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理的步骤,包括:
当目标业务有多个预定属性特征时,分别对每一个预定属性特征,提取已知用户的话单数据、历史欺诈用户的话单数据以及待识别用户的话单数据中与该预定属性特征相对应的特征数据并依据该预定属性特征的特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理。
优选地,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理的步骤,包括:
将已知用户的预定属性特征的特征数据按照一预设次序排列在一起;
依据排列的次序对应将已知用户平均分配到一预设数目的用户集合中;
根据待识别用户的预定属性特征的特征数据以及历史欺诈用户的预定属性特征的特征数据,将待识别用户、历史欺诈用户分入到对应的用户集合中。
优选地,分别计算待识别用户的综合评分以及异常用户的综合评分的步骤包括:
根据分箱处理后的特征数据,分别计算待识别用户与异常用户之间基于距离的第一标准分、待识别用户与异常用户基于概率分布的第二标准分、异常用户与其他异常用户之间基于距离的第三标准分、异常用户与其他异常用户之间基于概率分布的第四标准分;
对第一标准分、第二标准分按照第一预设权值进行加权求均值处理,得出待识别用户的综合评分;
对第三标准分、第四标准分按照第二预设权值进行加权求均值处理,得出异常用户的综合评分。
优选地,根据分箱处理后的特征数据,分别计算待识别用户与异常用户之间基于距离的第一标准分、异常用户与其他异常用户之间基于距离的第三标准分的步骤,包括:
根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户与异常用户的特征距离并根据特征距离确定已知用户、历史欺诈用户的最小相似系数;
根据分箱处理后待识别用户的特征数据计算待识别用户与异常用户的特征距离并根据特征距离确定待识别用户最小相似系数;
将待识别用户最小相似系数、已知用户、历史欺诈用户的最小相似系数分别与第一相似系数比较值、第二相似系数比较值进行标准化处理,得到第一标准分以及第三标准分;第一相似系数比较值为已知用户的最小相似系数中的最大值,第二相似系数比较值为已知用户的最小相似系数中的最小值。
优选地,根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户与异常用户的特征距离并根据特征距离确定已知用户、历史欺诈用户的最小相似系数的步骤,包括:
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,分别计算已知用户、历史欺诈用户与异常用户的第一特征距离,第一特征距离为已知用户、历史欺诈用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离;
计算已知用户、历史欺诈用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为已知用户的最小相似系数;
相应地,根据特征数据计算待识别用户与异常用户的特征距离并根据特征距离确定最小相似系数的步骤,包括:
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,计算待识别用户与异常用户的第一特征距离,第一特征距离为待识别用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
计算待识别用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离;
计算待识别用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为待识别用户的最小相似系数。
优选地,根据分箱处理后的特征数据,分别计算待识别用户与异常用户基于概率分布的第二标准分、异常用户与其他异常用户之间基于概率分布的第四标准分的步骤,包括:
根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户的异常概率;
根据分箱处理后待识别用户的特征数据计算待识别用户的异常概率;
将待识别用户的异常概率、异常用户的异常概率分别与第一异常概率比较值、第二异常概率比较值进行标准化处理,得到第二标准分以及第四标准分;第一异常概率比较值为已知用户的异常概率中的最大值,第二异常概率比较值为已知用户的异常概率中的最小值。
优选地,根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户的异常概率的步骤,包括:
对每一个预定属性特征,通过以下公式分别计算已知用户、历史欺诈用户的第一异常概率:
P=1+P1/P2
其中,P为已知用户、历史欺诈用户的在该预定属性特征上的子异常概率,P1为已知用户、历史欺诈用户所在的分箱处理后的用户集合中的异常用户的数量,P2为所有异常用户的数量;
分别计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到已知用户、历史欺诈用户的异常概率;
相应地,根据分箱处理后待识别用户的特征数据计算待识别用户的异常概率的步骤,包括:
对每一个预定属性特征,通过以下公式计算待识别用户的第一异常概率:
P′=1+P′1+P′2
其中,P′为待识别用户的在该预定属性特征上的子异常概率,P′1为待识别用户所在的分箱处理后的用户集合中的异常用户的数量,P′2为所有异常用户的数量;
计算待识别用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到待识别用户的异常概率。
优选地,根据待识别用户的综合评分以及异常用户的综合评分,确定待识别用户是否为欺诈用户的步骤,包括:
将异常用户的综合评分乘以预设数值得到判决门限;
若待识别用户的综合评分大于判决门限,则确定待识别用户为欺诈用户。
优选地,确定待识别用户为欺诈用户的步骤之后,该方法还包括:
记录欺诈用户,并进行告警提示。
为了实现上述目的,本发明的实施例还提供了一种欺诈用户的识别装置,包括:
获取模块,用于获取第一话单数据以及第二话单数据,第一话单数据为一待识别用户在当前采样周期内的话单数据,第二话单数据包括多个已知用户在当前采样周期的上一个采样周期内话单数据以及历史欺诈用户的话单数据,其中已知用户包括至少一个欺诈用户和多个正常用户,历史欺诈用户为一预设数目的历史采样周期内的欺诈用户,历史采样周期为当前采样周期的上一个采样周期之前的采样周期;
分箱模块,用于提取第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中预定属性特征为用于确定待识别用户在一目标业务上是否存在异常行为的识别特征;
计算模块,用于根据分箱处理后的特征数据,分别计算待识别用户的综合评分以及异常用户的综合评分,其中异常用户包括已知用户中的欺诈用户以及历史欺诈用户;
确定模块,用于根据待识别用户的综合评分以及异常用户的综合评分,确定待识别用户是否为欺诈用户。
优选地,分箱模块用于:
当目标业务有多个预定属性特征时,分别对每一个预定属性特征,提取已知用户的话单数据、历史欺诈用户的话单数据以及待识别用户的话单数据中与该预定属性特征相对应的特征数据并依据该预定属性特征的特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理。
优选地,分箱模块包括:
排序子模块,用于将已知用户的预定属性特征的特征数据按照一预设次序排列在一起;
第一分配子模块,用于依据排列的次序对应将已知用户平均分配到一预设数目的用户集合中;
第二分配子模块,用于根据待识别用户的预定属性特征的特征数据以及历史欺诈用户的预定属性特征的特征数据,将待识别用户、历史欺诈用户分入到对应的用户集合中。
优选地,计算模块包括:
计算子模块,用于根据分箱处理后的特征数据,分别计算待识别用户与异常用户之间基于距离的第一标准分、待识别用户与异常用户基于概率分布的第二标准分、异常用户与其他异常用户之间基于距离的第三标准分、异常用户与其他异常用户之间基于概率分布的第四标准分;
第一加权子模块,用于对第一标准分、第二标准分按照第一预设权值进行加权求均值处理,得出待识别用户的综合评分;
第二加权子模块,用于对第三标准分、第四标准分按照第二预设权值进行加权求均值处理,得出异常用户的综合评分。
优选地,计算子模块包括:
第一计算单元,用于根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户与异常用户的特征距离并根据特征距离确定已知用户、历史欺诈用户的最小相似系数;
第二计算单元,用于根据分箱处理后待识别用户的特征数据计算待识别用户与异常用户的特征距离并根据特征距离确定待识别用户最小相似系数;
第一标准化单元,用于将待识别用户最小相似系数、已知用户、历史欺诈用户的最小相似系数分别与第一相似系数比较值、第二相似系数比较值进行标准化处理,得到第一标准分以及第三标准分;第一相似系数比较值为已知用户的最小相似系数中的最大值,第二相似系数比较值为已知用户的最小相似系数中的最小值。
优选地,第一计算单元具体用于
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,分别计算已知用户、历史欺诈用户与异常用户的第一特征距离,第一特征距离为已知用户、历史欺诈用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离;
计算已知用户、历史欺诈用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为已知用户的最小相似系数;
相应地,第二计算单元具体用于:
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,计算待识别用户与异常用户的第一特征距离,第一特征距离为待识别用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
计算待识别用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离;
计算待识别用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为待识别用户的最小相似系数。
优选地,计算子模块包括:
第三计算单元,用于根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户的异常概率;
第四计算单元,用于根据分箱处理后待识别用户的特征数据计算待识别用户的异常概率;
第二标准化单元,用于将待识别用户的异常概率、异常用户的异常概率分别与第一异常概率比较值、第二异常概率比较值进行标准化处理,得到第二标准分以及第四标准分;第一异常概率比较值为已知用户的异常概率中的最大值,第二异常概率比较值为已知用户的异常概率中的最小值。
优选地,第三计算单元具体用于:
对每一个预定属性特征,通过以下公式分别计算已知用户、历史欺诈用户的第一异常概率:
P=1+P1/P2
其中,P为已知用户、历史欺诈用户的在该预定属性特征上的子异常概率,P1为已知用户、历史欺诈用户所在的分箱处理后的用户集合中的异常用户的数量,P2为所有异常用户的数量;
分别计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到已知用户、历史欺诈用户的异常概率;
相应地,第四计算单元具体用于:
对每一个预定属性特征,通过以下公式计算待识别用户的第一异常概率:
P′=1+P′1+P′2
其中,P′为待识别用户的在该预定属性特征上的子异常概率,P′1为待识别用户所在的分箱处理后的用户集合中的异常用户的数量,P′2为所有异常用户的数量;
计算待识别用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到待识别用户的异常概率。
优选地,确定模块用于:
将异常用户的综合评分乘以预设数值得到判决门限;
若待识别用户的综合评分大于判决门限,则确定待识别用户为欺诈用户。
优选地,该装置还包括:
告警模块,用于在确定模块确定待识别用户为欺诈用户之后,
记录欺诈用户,并进行告警提示。
本发明的上述方案至少包括以下有益效果:
本发明提供的欺诈用户的识别方法及装置,在分箱处理中采用等人数分箱而非传统的等距离分箱,有效避免了高值用户带来正态分布严重左偏的影响;采用上一采样周期的用户的数据作为分箱基础,具备自适应能力,可有效地发现新的欺诈模式;用户的第一标准分以及第二标准分可以随着话单数据动态变化,可在实施欺诈行为的早期识别出来,避免欺诈继续实施造成相应的损失;利用两种互补的方法进行加权平均,有效提升了总体可信度,最大程度上平衡了误报与漏报两种***风险;本发明的计算量较低,可以满足海量用户数据的实时计算和动态评分,进而实现实时告警,完成实时欺诈识别的核心功能。
附图说明
图1表示本发明的第一实施例提供的欺诈用户的识别方法的基本步骤流程图;
图2表示为本发明的第二实施例的应用***结构图;
图3表示为本发明的第二实施例的计算过程示意图;
图4表示本发明的第二实施例的用户分箱过程示意图;
图5表示本发明的第二实施例的子方法一的计算流程示意图;
图6表示本发明的第二实施例的子方法二的计算流程示意图;
图7表示本发明的第二实施例的计算综合评分的计算流程示意图;
图8表示本发明的第二实施例的判决的过程示意图;
图9表示本发明的第三实施例提供的欺诈用户的识别装置的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明针对现有的问题,提供了一种欺诈用户的识别方法及装置。
第一实施例
参见图1,本发明的第一实施例提供了一种欺诈用户的识别方法,包括:
步骤101,获取第一话单数据以及第二话单数据,第一话单数据为一待识别用户在当前采样周期内的话单数据,第二话单数据包括多个已知用户在当前采样周期的上一个采样周期内话单数据以及历史欺诈用户的话单数据,其中已知用户包括至少一个欺诈用户和多个正常用户,历史欺诈用户为一预设数目的历史采样周期内的欺诈用户,历史采样周期为当前采样周期的上一个采样周期之前的采样周期。
其中,欺诈用户与待识别用户、正常用户的话单数据在结构上完全形同;具体地,通过不同的身份标识号(ID)以及***中的欺诈用户的相应欺诈记录来区分。
其中,第一话单数据为待识别用户在本周期的话单数据;第二话单数据包括上一采样周期的所有用户的话单数据以及上一采样周期之前的采样周期内的欺诈用户(历史欺诈用户)的话单数据;需要说明的是,多数历史欺诈用户会在一个采样周期内被识别(被识别之后会被采取相应的手段禁止继续实施欺诈行为),因此历史欺诈用户的话单数据多数仅为一个采样周期的话单数据。
步骤102,提取第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中预定属性特征为用于确定待识别用户在一目标业务上是否存在异常行为的识别特征。
其中,不同业务涉及的预定属性特征一般具有差异,比如选择手机国际漫游作为欺诈识别的目标业务,则可以选择漫游国家代码、是否拨打第三地(非归属国或漫游所在国)等属性特征作为评分预定属性特征。
具体地,步骤102包括:
当目标业务有多个预定属性特征时,分别对每一个预定属性特征,提取已知用户的话单数据、历史欺诈用户的话单数据以及待识别用户的话单数据中与该预定属性特征相对应的特征数据并依据该预定属性特征的特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理。
其中,当目标业务有多个预定属性特征时,分别对每一个预定属性特征进行单独的分箱处理,单独的分箱处理目的是为了得到在每个具体的预定属性特征上用户分布的情况。
本发明的上述实施例中,步骤102中根据特征数据对已知用户以及待识别用户进行分箱处理具体包括:
将已知用户的预定属性特征的特征数据按照一预设次序排列在一起;
依据排列的次序对应将已知用户平均分配到一预设数目的用户集合中;
根据待识别用户的预定属性特征的特征数据以及历史欺诈用户的预定属性特征的特征数据,将待识别用户、历史欺诈用户分入到对应的用户集合中。
具体地,首先按照数值大小对已知用户进行排列再依据排列的次序对已知用户等人数分箱,最后再按照待识别用户、历史欺诈用户的特征数据的数值大小,将待识别用户、历史欺诈用户分入到对应的集合中。其中,将已知用户与历史欺诈用户、待识别用户采用同样的规则进行分箱,得到离散化的用户数据;采用等人数分箱而非传统的等距离分箱,有效避免了高值用户带来正态分布严重左偏的影响。
步骤103,根据分箱处理后的特征数据,分别计算待识别用户的综合评分以及异常用户的综合评分,其中异常用户包括已知用户中的欺诈用户以及历史欺诈用户。
其中,分别计算待识别用户的综合评分以及异常用户的综合评分。
具体地,步骤103包括:
根据分箱处理后的特征数据,分别计算待识别用户与异常用户之间基于距离的第一标准分、待识别用户与异常用户基于概率分布的第二标准分、异常用户与其他异常用户之间基于距离的第三标准分、异常用户与其他异常用户之间基于概率分布的第四标准分。
其中,第一标准分、第二标准分为待识别用户与异常用户之间的,第三标准分、第四标准分别为异常用户与其他异常用户之间的。
对第一标准分、第二标准分按照第一预设权值进行加权求均值处理,得出待识别用户的综合评分。
具体地,权值的设定可根据实际运营的效果情况设定,两种标准分的加权求均值可有效地平衡误报和漏报两种错误情况,可根据实际情况调整。
对第三标准分、第四标准分按照第二预设权值进行加权求均值处理,得出异常用户的综合评分。
具体地,上述根据分箱处理后的特征数据,分别计算待识别用户与异常用户之间基于距离的第一标准分、异常用户与其他异常用户之间基于距离的第三标准分包括:
第一步,根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户与异常用户的特征距离并根据特征距离确定已知用户、历史欺诈用户的最小相似系数。
其中,相似系数表明二者之间的相似程度;根据分箱处理后的特征数据分别计算已知用户与异常用户的特征距离、历史欺诈用户与异常用户的特征距离并根据特征距离确定最小相似系数;
第二步,根据分箱处理后待识别用户的特征数据计算待识别用户与异常用户的特征距离并根据特征距离确定待识别用户最小相似系数。
其中,计算待识别用户的最小相似系数。
第三步,将待识别用户最小相似系数、已知用户、历史欺诈用户的最小相似系数分别与第一相似系数比较值、第二相似系数比较值进行标准化处理,得到第一标准分以及第三标准分;第一相似系数比较值为已知用户的最小相似系数中的最大值,第二相似系数比较值为已知用户的最小相似系数中的最小值。
其中,第一相似系数比较值为已知用户的最小相似系数中的最大值,第二相似系数比较值为已知用户的最小相似系数中的最小值。采用上一采样周期的用户的数据作为基础判断用户数据,具备自适应能力,可有效地发现新的欺诈模式;
具体地,上述第一步包括:
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,分别计算已知用户、历史欺诈用户与异常用户的第一特征距离,第一特征距离为已知用户、历史欺诈用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值。
其中,已知用户、历史欺诈用户的第一特征距离即一个已知用户、历史欺诈用户与一个欺诈用户之间的特征向量。
计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离。
其中,第二特征距离即一个已知用户与一个欺诈用户之间的所有第一特征向量之和,表示该已知用户与该欺诈用户之间的相似程度(相似程度与特征向量成反比)。在上述算法中引入曼哈顿距离,简化了欧式距离的计算复杂度并降低了各个预定属性特征间相关性带来的影响。
计算已知用户、历史欺诈用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为已知用户的最小相似系数;
相应地,上述第二步包括:
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,计算待识别用户与异常用户的第一特征距离,第一特征距离为待识别用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
其中,待识别用户的第一特征距离即一个待识别用户与一个欺诈用户之间的特征向量。
计算待识别用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离。
其中,第二特征距离即一个待识别用户与一个欺诈用户之间的所有第一特征向量之和,表示该待识别用户与该欺诈用户之间的相似程度(相似程度与特征向量成反比)。在上述算法中引入曼哈顿距离,简化了欧式距离的计算复杂度并降低了各个预定属性特征间相关性带来的影响。
计算待识别用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为待识别用户的最小相似系数。
具体地,上述第三步中,通过以下公式实现标准化处理:
其中,M表示第一标准分或第三标准分,X表示最小相似系数,Xmax表示第一相似系数比较值,Xmin表示第二相似系数比较值,上述算法实现距离与评分的线性反转,采用加法增加分数,较为稳重,误报率低而漏报率相对较高。
具体地,上述根据分箱处理后的特征数据,分别计算待识别用户与待识别用户与异常用户基于概率分布的第二标准分异常用户与其他异常用户之间基于概率分布的第四标准分包括:
第一步,根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户的异常概率;
第二步,根据分箱处理后待识别用户的特征数据计算待识别用户的异常概率。
第三步,将待识别用户的异常概率、异常用户的异常概率分别与第一异常概率比较值、第二异常概率比较值进行标准化处理,得到第二标准分以及第四标准分;第一异常概率比较值为已知用户的异常概率中的最大值,第二异常概率比较值为已知用户的异常概率中的最小值。
具体地,上述第一步包括:
对每一个预定属性特征,通过以下公式分别计算已知用户、历史欺诈用户的第一异常概率:
P=1+P1/P2
其中,P为已知用户、历史欺诈用户的在该预定属性特征上的子异常概率,P1为已知用户、历史欺诈用户所在的分箱处理后的用户集合中的异常用户的数量,P2为所有异常用户的数量;
分别计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到已知用户、历史欺诈用户的异常概率;
其中,对所有子异常概率求积得出已知用户、历史欺诈用户的异常概率,异常概率越大,表示该用户在该属性特征下异常的可能性就越大。
相应地,上述第二步包括:对每一个预定属性特征,通过以下公式计算待识别用户的第一异常概率:
P′=1+P′1+P′2
其中,P′为待识别用户的在该预定属性特征上的子异常概率,P′1为待识别用户所在的分箱处理后的用户集合中的异常用户的数量,P′2为所有异常用户的数量;
计算待识别用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到待识别用户的异常概率。
其中,对所有子异常概率求积得出待识别用户的异常概率,异常概率越大,表示该用户在该属性特征下异常的可能性就越大。
具体地,上述第三步通过以下公式实现标准化处理:
其中,N表示第二标准分或第四标准分,Y表示最小异常概率,Ymax表示第一异常概率比较值,Ymin表示第二异常概率比较值,上述算法实现距离与评分的线性反转,采用乘法增加分数,较为敏感,误报率高但漏报率相对较低。
步骤104,根据待识别用户的综合评分以及异常用户的综合评分,确定待识别用户是否为欺诈用户。
具体地,按照预设规则,基于第一标准分以及第二标准分识别待识别用户是否为欺诈用户。
本发明的上述实施例中,步骤104包括:
将异常用户的综合评分乘以预设数值得到判决门限;
若待识别用户的综合评分大于判决门限,则确定待识别用户为欺诈用户。
本发明的上述实施例中,步骤104之后,该方法还包括:
记录欺诈用户,并进行告警提示。
其中,判定为欺诈的用户通过告警提示给***管理员,***管理员人工确认或设置自动确认,确认后的欺诈用户要从普通用户列表中移至欺诈用户列表,不论处理结果是无动作、确认还是驳回,均需要记录处理结果,为下一周期调整优化模型提供数据。
本发明的上述实施例中,在分箱处理中采用等人数分箱而非传统的等距离分箱,有效避免了高值用户带来正态分布严重左偏的影响;采用上一采样周期的用户的数据作为分箱基础,具备自适应能力,可有效地发现新的欺诈模式;用户的第一标准分以及第二标准分可以随着话单数据动态变化,可在实施欺诈行为的早期识别出来,避免欺诈继续实施造成相应的损失;利用两种互补的方法进行加权平均,有效提升了总体可信度,最大程度上平衡了误报与漏报两种***风险;本发明的计算量较低,可以满足海量用户数据的实时计算和动态评分,进而实现实时告警,完成实时欺诈识别的核心功能。
第二实施例
第二实施例为本发明提供的欺诈用户的识别方法的一个具体实施例。
参见图2,图2为本发明的第二实施例的应用***结构图,该应用***包括:
原始数据导入模块201:
原始数据导入的形式为一个完整的预设周期内的话单,一般预设周期为一个月,普通用户的话单与欺诈用户的话单从数据结构上完全相同,根据不同的主ID和欺诈标识属性来区分。
目标业务设定模块202:
目标业务设定模块用于确认分析所调用的目标业务,不同目标业务涉及的属性一般具有差异。例如选择手机国际漫游作为欺诈识别的目标业务,则可以选择漫游国家代码、是否拨打第三地(非归属国或漫游所在国)等属性作为评分输入。
预定属性特征设定模块203:
设定好业务目标后,预定属性特征设定模块不仅包括根据业务目标来选择预定属性特征的过程,还可以包括根据现有数据设计衍生属性、设计预定属性特征的分类汇总计算公式等任务。例如,在国际漫游业务中主ID为国际移动用户识别码(IMSI),呼叫总次数被定义为同一主IMSI在周期内通话次数的总计数,而平均单次呼叫时长被定义为呼叫总时长与呼叫总次数之商,则可设定平均单次呼叫时长为呼叫总时长与呼叫总次数的衍生属性。
数据准备模块204:
数据准备模块用于提取话单数据中与预定属性特征相对应的特征数据并对特征数据转换、加载、过滤和清洗。数据的过滤和清洗主要在分类汇总计算之后,利用业务经验自动完成,例如,自动删除总费用小于0的用户数据。
参见图3,图3为本实施例的计算过程示意图:
计算过程依次为用户分箱301、用户离散化302、评分方法包括子方法一(求第一标准分)303和子方法二304(求第二标准分)、计算综合评分305、判决306。
其中,若目标业务包括M个预定属性特征,N个用户,K个分箱参数,
用户分箱301的过程如图4所示,包括:
对每个预定属性特征,分别将所有用户升序(或降序)排列,再均匀将用户分为等人数的分箱,记录分箱的临界点作为分箱依据即分箱参数,每个属性都有K+1个分箱参数,M个属性共有M×(K+1)个分箱参数,形成一个参数矩阵。每个分箱都体现了用户的一种分布倾向,这种分布信息表现出来的特征即某个用户的自然表现。
用户离散化302的过程:
得出分箱参数后,将普通用户和异常用户均采用同一个分箱标准,进行离散化,为计算评分提供输入。离散化后,每个用户都有一组长度为M的特征向量,对比普通用户与欺诈用户的特征向量的差异,就可以有效识别欺诈用户。
子方法一(第一标准分)303的过程:
图5示意性地示出了本实施例子方法一的计算流程。用户的原始信用评分被定义为与所有欺诈用户的特征距离之间曼哈顿距离的最小值。例如,某个属性上,用户位于5号分箱,某欺诈用户位于7号分箱,则该预定属性特征上的距离为2。
经过标准化,该原始评分范围被映射在0~100分内(也可采用其他分制)。标准化的公式为x=100-(100×(x-min))/(max-min),使用100减去标准化值,即可实现距离与评分的线性反转。
子方法二(第二标准分)304的过程:
图6示意性地示出了本实施例的子方法二304计算流程。将用户的原始信用评分定义为所有预定属性特征上异常概率增加值的连乘积,其中单个预定属性特征异常概率增加值定义为当前属性上该用户的特征值与欺诈用户概率分布的匹配程度,例如,某个属性上40%欺诈用户位于4号分箱,其余60%位于8号分箱;用户位于分箱8,则异常概率增加值为1×(1+60%)。
经过标准化,该原始评分范围被映射在0~100分内(也可采用其他分制)。标准化的公式为x=(100×(x-min))/(max-min)。
计算综合评分305的过程:
图7示意性地示出了本实施例的计算综合评分:
综合评分为两种子方法的加权平均,子方法一采用加法增加分数,较为稳重,误报率低而漏报率高;子方法二采用乘法增加分数,较为敏感,误报率高但漏报率低;两种方法的加权平均可以有效平衡两种漏报和误报两种错误,降低***风险。权重设定初始为50%:50%,可通过实际运营的效果进行自动调整,调整方法为:当误报率较高而漏报率较低,则增加子方法1的权重,反之则增加子方法2的权重。
判决306的过程:
图8示意性示出了本实施例的判决306的过程。用户的综合评分随着话单数据的不断增加实时变化,分数并非单调增加,但一般会倾向于提升评分。当某个用户的实时综合评分高于预设的阈值,则判定该用户为欺诈用户。
判定为欺诈的用户通过告警提示给***管理员,***管理员人工确认或设置自动确认。确认后的欺诈用户要从普通用户列表中移至异常用户集中。不论处理结果是无动作、确认还是驳回,均需要记录处理结果,为下一周期调整优化模型提供数据输入。
第三实施例
参见图9,本发明的第三实施例提供了一种欺诈用户的识别装置,包括:
为了实现上述目的,本发明的实施例还提供了一种欺诈用户的识别装置,包括:
获取模块901,用于获取第一话单数据以及第二话单数据,第一话单数据为一待识别用户在当前采样周期内的话单数据,第二话单数据包括多个已知用户在当前采样周期的上一个采样周期内话单数据以及历史欺诈用户的话单数据,其中已知用户包括至少一个欺诈用户和多个正常用户,历史欺诈用户为一预设数目的历史采样周期内的欺诈用户,历史采样周期为当前采样周期的上一个采样周期之前的采样周期;
分箱模块902,用于提取第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中预定属性特征为用于确定待识别用户在一目标业务上是否存在异常行为的识别特征;
计算模块903,用于根据分箱处理后的特征数据,分别计算待识别用户的综合评分以及异常用户的综合评分,其中异常用户包括已知用户中的欺诈用户以及历史欺诈用户;
确定模块904,用于根据待识别用户的综合评分以及异常用户的综合评分,确定待识别用户是否为欺诈用户。
优选地,分箱模块902用于:
当目标业务有多个预定属性特征时,分别对每一个预定属性特征,提取已知用户的话单数据、历史欺诈用户的话单数据以及待识别用户的话单数据中与该预定属性特征相对应的特征数据并依据该预定属性特征的特征数据对已知用户、历史欺诈用户以及待识别用户进行分箱处理。
优选地,分箱模块902包括:
排序子模块,用于将已知用户的预定属性特征的特征数据按照一预设次序排列在一起;
第一分配子模块,用于依据排列的次序对应将已知用户平均分配到一预设数目的用户集合中;
第二分配子模块,用于根据待识别用户的预定属性特征的特征数据以及历史欺诈用户的预定属性特征的特征数据,将待识别用户、历史欺诈用户分入到对应的用户集合中。
优选地,计算模块903包括:
计算子模块,用于根据分箱处理后的特征数据,分别计算待识别用户与异常用户之间基于距离的第一标准分、待识别用户与异常用户基于概率分布的第二标准分、异常用户与其他异常用户之间基于距离的第三标准分、异常用户与其他异常用户之间基于概率分布的第四标准分;
第一加权子模块,用于对第一标准分、第二标准分按照第一预设权值进行加权求均值处理,得出待识别用户的综合评分;
第二加权子模块,用于对第三标准分、第四标准分按照第二预设权值进行加权求均值处理,得出异常用户的综合评分。
优选地,计算子模块包括:
第一计算单元,用于根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户与异常用户的特征距离并根据特征距离确定已知用户、历史欺诈用户的最小相似系数;
第二计算单元,用于根据分箱处理后待识别用户的特征数据计算待识别用户与异常用户的特征距离并根据特征距离确定待识别用户最小相似系数;
第一标准化单元,用于将待识别用户最小相似系数、已知用户、历史欺诈用户的最小相似系数分别与第一相似系数比较值、第二相似系数比较值进行标准化处理,得到第一标准分以及第三标准分;第一相似系数比较值为已知用户的最小相似系数中的最大值,第二相似系数比较值为已知用户的最小相似系数中的最小值。
优选地,第一计算单元具体用于
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,分别计算已知用户、历史欺诈用户与异常用户的第一特征距离,第一特征距离为已知用户、历史欺诈用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离;
计算已知用户、历史欺诈用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为已知用户的最小相似系数;
相应地,第二计算单元具体用于:
对每一个预定属性特征,依据排列的次序对分箱处理后的用户集合依次编号,计算待识别用户与异常用户的第一特征距离,第一特征距离为待识别用户所在集合的编号与异常用户所在用户集合的编号的差值的绝对值;
计算待识别用户与异常用户在每一个预定属性特征上的第一特征距离并对所有第一特征距离求和得到第二特征距离;
计算待识别用户与所有异常用户的第二特征距离中的最小值,第二特征距离中的最小值为待识别用户的最小相似系数。
优选地,计算子模块包括:
第三计算单元,用于根据分箱处理后已知用户、历史欺诈用户的特征数据计算已知用户、历史欺诈用户的异常概率;
第四计算单元,用于根据分箱处理后待识别用户的特征数据计算待识别用户的异常概率;
第二标准化单元,用于将待识别用户的异常概率、异常用户的异常概率分别与第一异常概率比较值、第二异常概率比较值进行标准化处理,得到第二标准分以及第四标准分;第一异常概率比较值为已知用户的异常概率中的最大值,第二异常概率比较值为已知用户的异常概率中的最小值。
优选地,第三计算单元具体用于:
对每一个预定属性特征,通过以下公式分别计算已知用户、历史欺诈用户的第一异常概率:
P=1+P1/P2
其中,P为已知用户、历史欺诈用户的在该预定属性特征上的子异常概率,P1为已知用户、历史欺诈用户所在的分箱处理后的用户集合中的异常用户的数量,P2为所有异常用户的数量;
分别计算已知用户、历史欺诈用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到已知用户、历史欺诈用户的异常概率;
相应地,第四计算单元具体用于:
对每一个预定属性特征,通过以下公式计算待识别用户的第一异常概率:
P′=1+P′1+P′2
其中,P′为待识别用户的在该预定属性特征上的子异常概率,P′1为待识别用户所在的分箱处理后的用户集合中的异常用户的数量,P′2为所有异常用户的数量;
计算待识别用户与异常用户在每一个预定属性特征上的子异常概率并对所有子异常概率求积得到待识别用户的异常概率。
优选地,确定模块904用于:
将异常用户的综合评分乘以预设数值得到判决门限;
若待识别用户的综合评分大于判决门限,则确定待识别用户为欺诈用户。
优选地,该装置还包括:
告警模块,用于在确定模块904确定待识别用户为欺诈用户之后,
记录欺诈用户,并进行告警提示。
需要说明的是,本发明实施例提供的欺诈用户的识别装置是应用上述方法的装置,即上述方法的所有实施例均适用于所述装置,且均能达到相同或相似的有益效果。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (16)
1.一种欺诈用户的识别方法,其特征在于,包括:
获取第一话单数据以及第二话单数据,所述第一话单数据为一待识别用户在当前采样周期内的话单数据,所述第二话单数据包括多个已知用户在所述当前采样周期的上一个采样周期内话单数据以及历史欺诈用户的话单数据,其中所述已知用户包括至少一个欺诈用户和多个正常用户,所述历史欺诈用户为一预设数目的历史采样周期内的欺诈用户,所述历史采样周期为所述当前采样周期的上一个采样周期之前的采样周期;
提取所述第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据所述特征数据对所述已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中所述预定属性特征为用于确定所述待识别用户在一目标业务上是否存在异常行为的识别特征;
根据分箱处理后的所述特征数据,分别计算所述待识别用户的综合评分以及异常用户的综合评分,其中所述异常用户包括所述已知用户中的欺诈用户以及历史欺诈用户;
根据所述待识别用户的综合评分以及异常用户的综合评分,确定所述待识别用户是否为欺诈用户;
所述根据所述特征数据对所述已知用户、历史欺诈用户以及待识别用户进行分箱处理的步骤,包括:
将所述已知用户的所述预定属性特征的特征数据按照一预设次序排列在一起;
依据排列的次序对应将所述已知用户平均分配到一预设数目的用户集合中;
根据所述待识别用户的所述预定属性特征的特征数据以及历史欺诈用户的所述预定属性特征的特征数据,将所述待识别用户、历史欺诈用户分入到对应的所述用户集合中;
所述分别计算所述待识别用户的综合评分以及异常用户的综合评分的步骤包括:
根据分箱处理后的所述特征数据,分别计算所述待识别用户与所述异常用户之间基于距离的第一标准分、所述待识别用户与所述异常用户基于概率分布的第二标准分、所述异常用户与其他所述异常用户之间基于距离的第三标准分、所述异常用户与其他所述异常用户之间基于概率分布的第四标准分;
对所述第一标准分、第二标准分按照第一预设权值进行加权求均值处理,得出所述待识别用户的综合评分;
对所述第三标准分、第四标准分按照第二预设权值进行加权求均值处理,得出所述异常用户的综合评分。
2.根据权利要求1所述的识别方法,其特征在于,所述提取所述第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据所述特征数据对所述已知用户、历史欺诈用户以及待识别用户进行分箱处理的步骤,包括:
当所述目标业务有多个所述预定属性特征时,分别对每一个所述预定属性特征,提取所述已知用户的话单数据、历史欺诈用户的话单数据以及所述待识别用户的话单数据中与该预定属性特征相对应的特征数据并依据该预定属性特征的特征数据所述对所述已知用户、历史欺诈用户以及待识别用户进行分箱处理。
3.根据权利要求1所述的识别方法,其特征在于,所述根据分箱处理后的所述特征数据,分别计算所述待识别用户与所述异常用户之间基于距离的第一标准分、所述异常用户与其他所述异常用户之间基于距离的第三标准分的步骤,包括:
根据分箱处理后所述已知用户、历史欺诈用户的特征数据计算所述已知用户、历史欺诈用户与所述异常用户的特征距离并根据所述特征距离确定所述已知用户、历史欺诈用户的最小相似系数;
根据分箱处理后所述待识别用户的所述特征数据计算所述待识别用户与所述异常用户的特征距离并根据所述特征距离确定所述待识别用户最小相似系数;
将所述待识别用户最小相似系数、所述已知用户、历史欺诈用户的最小相似系数分别与第一相似系数比较值、第二相似系数比较值进行标准化处理,得到所述第一标准分以及所述第三标准分;所述第一相似系数比较值为所述已知用户的最小相似系数中的最大值,所述第二相似系数比较值为所述已知用户的最小相似系数中的最小值。
4.根据权利要求3所述的识别方法,其特征在于,所述根据分箱处理后所述已知用户、历史欺诈用户的特征数据计算所述已知用户、历史欺诈用户与所述异常用户的特征距离并根据所述特征距离确定所述已知用户、历史欺诈用户的最小相似系数的步骤,包括:
对每一个所述预定属性特征,依据所述排列的次序对分箱处理后的用户集合依次编号,分别计算所述已知用户、历史欺诈用户与所述异常用户的第一特征距离,所述第一特征距离为所述已知用户、历史欺诈用户所在集合的编号与所述异常用户所在用户集合的编号的差值的绝对值;
计算所述已知用户、历史欺诈用户与所述异常用户在每一个所述预定属性特征上的第一特征距离并对所有所述第一特征距离求和得到第二特征距离;
计算所述已知用户、历史欺诈用户与所有所述异常用户的第二特征距离中的最小值,所述第二特征距离中的最小值为所述已知用户的最小相似系数;
相应地,所述根据所述特征数据计算所述待识别用户与所述异常用户的特征距离并根据所述特征距离确定最小相似系数的步骤,包括:
对每一个所述预定属性特征,依据所述排列的次序对分箱处理后的用户集合依次编号,计算所述待识别用户与所述异常用户的第一特征距离,所述第一特征距离为所述待识别用户所在集合的编号与所述异常用户所在用户集合的编号的差值的绝对值;
计算所述待识别用户与所述异常用户在每一个所述预定属性特征上的第一特征距离并对所有所述第一特征距离求和得到第二特征距离;
计算所述待识别用户与所有所述异常用户的第二特征距离中的最小值,所述第二特征距离中的最小值为所述待识别用户的最小相似系数。
5.根据权利要求1所述的识别方法,其特征在于,所述根据分箱处理后的所述特征数据,分别计算所述待识别用户与所述异常用户基于概率分布的第二标准分、所述异常用户与其他所述异常用户之间基于概率分布的第四标准分的步骤,包括:
根据分箱处理后所述已知用户、历史欺诈用户的所述特征数据计算所述已知用户、历史欺诈用户的异常概率;
根据分箱处理后所述待识别用户的所述特征数据计算所述待识别用户的异常概率;
将所述待识别用户的异常概率、所述异常用户的异常概率分别与第一异常概率比较值、第二异常概率比较值进行标准化处理,得到所述第二标准分以及第四标准分;所述第一异常概率比较值为所述已知用户的异常概率中的最大值,所述第二异常概率比较值为所述已知用户的异常概率中的最小值。
6.根据权利要求5所述的识别方法,其特征在于,所述根据分箱处理后所述已知用户、历史欺诈用户的所述特征数据计算所述已知用户、历史欺诈用户的异常概率的步骤,包括:
对每一个所述预定属性特征,通过以下公式分别计算所述已知用户、历史欺诈用户的第一异常概率:
P=1+P1/P2
其中,P为所述已知用户、历史欺诈用户的在该预定属性特征上的子异常概率,P1为所述已知用户、历史欺诈用户所在的分箱处理后的用户集合中的所述异常用户的数量,P2为所有所述异常用户的数量;
分别计算所述已知用户、历史欺诈用户与所述异常用户在每一个所述预定属性特征上的子异常概率并对所有所述子异常概率求积得到所述已知用户、历史欺诈用户的异常概率;
相应地,所述根据分箱处理后所述待识别用户的所述特征数据计算所述待识别用户的异常概率的步骤,包括:
对每一个所述预定属性特征,通过以下公式计算所述待识别用户的第一异常概率:
P′=1+P′1+P′2
其中,P′为所述待识别用户的在该预定属性特征上的子异常概率,P′1为所述待识别用户所在的分箱处理后的用户集合中的所述异常用户的数量,P′2为所有所述异常用户的数量;
计算所述待识别用户与所述异常用户在每一个所述预定属性特征上的子异常概率并对所有所述子异常概率求积得到所述待识别用户的异常概率。
7.根据权利要求1所述的识别方法,其特征在于,所述根据所述待识别用户的综合评分以及异常用户的综合评分,确定所述待识别用户是否为欺诈用户的步骤,包括:
将所述异常用户的综合评分乘以预设数值得到判决门限;
若所述待识别用户的综合评分大于所述判决门限,则确定所述待识别用户为欺诈用户。
8.根据权利要求7所述的识别方法,其特征在于,所述确定所述待识别用户为欺诈用户的步骤之后,所述方法还包括:
记录所述欺诈用户,并进行告警提示。
9.一种欺诈用户的识别装置,其特征在于,包括:
获取模块,用于获取第一话单数据以及第二话单数据,所述第一话单数据为一待识别用户在当前采样周期内的话单数据,所述第二话单数据包括多个已知用户在所述当前采样周期的上一个采样周期内话单数据以及历史欺诈用户的话单数据,其中所述已知用户包括至少一个欺诈用户和多个正常用户,所述历史欺诈用户为一预设数目的历史采样周期内的欺诈用户,所述历史采样周期为所述当前采样周期的上一个采样周期之前的采样周期;
分箱模块,用于提取所述第一话单数据以及第二话单数据中与预定属性特征相对应的特征数据,根据所述特征数据对所述已知用户、历史欺诈用户以及待识别用户进行分箱处理,其中所述预定属性特征为用于确定所述待识别用户在一目标业务上是否存在异常行为的识别特征;
计算模块,用于根据分箱处理后的所述特征数据,分别计算所述待识别用户的综合评分以及异常用户的综合评分,其中所述异常用户包括所述已知用户中的欺诈用户以及历史欺诈用户;
确定模块,用于根据所述待识别用户的综合评分以及异常用户的综合评分,确定所述待识别用户是否为欺诈用户;
所述分箱模块包括:
排序子模块,用于将所述已知用户的所述预定属性特征的特征数据按照一预设次序排列在一起;
第一分配子模块,用于依据排列的次序对应将所述已知用户平均分配到一预设数目的用户集合中;
第二分配子模块,用于根据所述待识别用户的所述预定属性特征的特征数据以及历史欺诈用户的所述预定属性特征的特征数据,将所述待识别用户、历史欺诈用户分入到对应的所述用户集合中;
所述计算模块包括:
计算子模块,用于根据分箱处理后的所述特征数据,分别计算所述待识别用户与所述异常用户之间基于距离的第一标准分、所述待识别用户与所述异常用户基于概率分布的第二标准分、所述异常用户与其他所述异常用户之间基于距离的第三标准分、所述异常用户与其他所述异常用户之间基于概率分布的第四标准分;
第一加权子模块,用于对所述第一标准分、第二标准分按照第一预设权值进行加权求均值处理,得出所述待识别用户的综合评分;
第二加权子模块,用于对所述第三标准分、第四标准分按照第二预设权值进行加权求均值处理,得出所述异常用户的综合评分。
10.根据权利要求9所述的识别装置,其特征在于,所述分箱模块用于:
当所述目标业务有多个所述预定属性特征时,分别对每一个所述预定属性特征,提取所述已知用户的话单数据、历史欺诈用户的话单数据以及所述待识别用户的话单数据中与该预定属性特征相对应的特征数据并依据该预定属性特征的特征数据所述对所述已知用户、历史欺诈用户以及待识别用户进行分箱处理。
11.根据权利要求9所述的识别装置,其特征在于,所述计算子模块包括:
第一计算单元,用于根据分箱处理后所述已知用户、历史欺诈用户的特征数据计算所述已知用户、历史欺诈用户与所述异常用户的特征距离并根据所述特征距离确定所述已知用户、历史欺诈用户的最小相似系数;
第二计算单元,用于根据分箱处理后所述待识别用户的所述特征数据计算所述待识别用户与所述异常用户的特征距离并根据所述特征距离确定所述待识别用户最小相似系数;
第一标准化单元,用于将所述待识别用户最小相似系数、所述已知用户、历史欺诈用户的最小相似系数分别与第一相似系数比较值、第二相似系数比较值进行标准化处理,得到所述第一标准分以及所述第三标准分;所述第一相似系数比较值为所述已知用户的最小相似系数中的最大值,所述第二相似系数比较值为所述已知用户的最小相似系数中的最小值。
12.根据权利要求11所述的识别装置,其特征在于,所述第一计算单元具体用于:
对每一个所述预定属性特征,依据所述排列的次序对分箱处理后的用户集合依次编号,分别计算所述已知用户、历史欺诈用户与所述异常用户的第一特征距离,所述第一特征距离为所述已知用户、历史欺诈用户所在集合的编号与所述异常用户所在用户集合的编号的差值的绝对值;
计算所述已知用户、历史欺诈用户与所述异常用户在每一个所述预定属性特征上的第一特征距离并对所有所述第一特征距离求和得到第二特征距离;
计算所述已知用户、历史欺诈用户与所有所述异常用户的第二特征距离中的最小值,所述第二特征距离中的最小值为所述已知用户的最小相似系数;
相应地,所述第二计算单元具体用于:
对每一个所述预定属性特征,依据所述排列的次序对分箱处理后的用户集合依次编号,计算所述待识别用户与所述异常用户的第一特征距离,所述第一特征距离为所述待识别用户所在集合的编号与所述异常用户所在用户集合的编号的差值的绝对值;
计算所述待识别用户与所述异常用户在每一个所述预定属性特征上的第一特征距离并对所有所述第一特征距离求和得到第二特征距离;
计算所述待识别用户与所有所述异常用户的第二特征距离中的最小值,所述第二特征距离中的最小值为所述待识别用户的最小相似系数。
13.根据权利要求9所述的识别装置,其特征在于,所述计算子模块包括:
第三计算单元,用于根据分箱处理后所述已知用户、历史欺诈用户的所述特征数据计算所述已知用户、历史欺诈用户的异常概率;
第四计算单元,用于根据分箱处理后所述待识别用户的所述特征数据计算所述待识别用户的异常概率;
第二标准化单元,用于将所述待识别用户的异常概率、所述异常用户的异常概率分别与第一异常概率比较值、第二异常概率比较值进行标准化处理,得到所述第二标准分以及第四标准分;所述第一异常概率比较值为所述已知用户的异常概率中的最大值,所述第二异常概率比较值为所述已知用户的异常概率中的最小值。
14.根据权利要求13所述的识别装置,其特征在于,所述第三计算单元具体用于:
对每一个所述预定属性特征,通过以下公式分别计算所述已知用户、历史欺诈用户的第一异常概率:
P=1+P1/P2
其中,P为所述已知用户、历史欺诈用户的在该预定属性特征上的子异常概率,P1为所述已知用户、历史欺诈用户所在的分箱处理后的用户集合中的所述异常用户的数量,P2为所有所述异常用户的数量;
分别计算所述已知用户、历史欺诈用户与所述异常用户在每一个所述预定属性特征上的子异常概率并对所有所述子异常概率求积得到所述已知用户、历史欺诈用户的异常概率;
相应地,所述第四计算单元具体用于:
对每一个所述预定属性特征,通过以下公式计算所述待识别用户的第一异常概率:
P′=1+P′1+P′2
其中,P′为所述待识别用户的在该预定属性特征上的子异常概率,P′1为所述待识别用户所在的分箱处理后的用户集合中的所述异常用户的数量,P′2为所有所述异常用户的数量;
计算所述待识别用户与所述异常用户在每一个所述预定属性特征上的子异常概率并对所有所述子异常概率求积得到所述待识别用户的异常概率。
15.根据权利要求9所述的识别装置,其特征在于,所述确定模块用于:
将所述异常用户的综合评分乘以预设数值得到判决门限;
若所述待识别用户的综合评分大于所述判决门限,则确定所述待识别用户为欺诈用户。
16.根据权利要求15所述的识别装置,其特征在于,所述装置还包括:
告警模块,用于在所述确定模块确定所述待识别用户为欺诈用户之后,
记录所述欺诈用户,并进行告警提示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610081149.6A CN107038449B (zh) | 2016-02-04 | 2016-02-04 | 一种欺诈用户的识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610081149.6A CN107038449B (zh) | 2016-02-04 | 2016-02-04 | 一种欺诈用户的识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107038449A CN107038449A (zh) | 2017-08-11 |
CN107038449B true CN107038449B (zh) | 2020-03-06 |
Family
ID=59532059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610081149.6A Active CN107038449B (zh) | 2016-02-04 | 2016-02-04 | 一种欺诈用户的识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107038449B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110172B (zh) * | 2017-12-28 | 2021-09-14 | 北京京东尚科信息技术有限公司 | 信息展示方法和装置 |
CN109996200B (zh) * | 2017-12-31 | 2021-05-04 | ***通信集团四川有限公司 | 防止流量欺诈的方法、装置、设备及介质 |
CN111385420B (zh) * | 2018-12-29 | 2022-04-29 | 中兴通讯股份有限公司 | 用户的识别方法、装置、存储介质及电子装置 |
CN110322254B (zh) * | 2019-07-04 | 2022-12-16 | 同盾控股有限公司 | 在线欺诈识别方法、装置、介质及电子设备 |
CN111860673B (zh) * | 2020-07-28 | 2022-03-08 | 河北工业大学 | 基于分箱置信度筛选深度森林的机器学习分类方法 |
CN115564578B (zh) * | 2021-07-01 | 2023-07-25 | 百融云创科技股份有限公司 | 欺诈识别模型生成方法 |
CN113987182A (zh) * | 2021-10-28 | 2022-01-28 | 深圳永安在线科技有限公司 | 基于安全情报的欺诈实体识别方法、装置及相关设备 |
CN114547254B (zh) * | 2022-03-04 | 2023-05-26 | 北京亿欧网盟科技有限公司 | 一种基于大数据话题分析的风险识别方法及服务器 |
CN115392937A (zh) * | 2022-10-25 | 2022-11-25 | 成都新希望金融信息有限公司 | 一种用户欺诈风险识别方法、装置、电子设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6570968B1 (en) * | 2000-05-22 | 2003-05-27 | Worldcom, Inc. | Alert suppression in a telecommunications fraud control system |
CN101572890A (zh) * | 2009-06-15 | 2009-11-04 | 华为技术有限公司 | 一种检测非法群呼用户的方法和装置 |
CN103763152A (zh) * | 2014-01-07 | 2014-04-30 | ***(深圳)有限公司 | 一种电信欺诈行为多维监测方法和*** |
CN104537067A (zh) * | 2014-12-30 | 2015-04-22 | 广东电网有限责任公司信息中心 | 一种基于k-means聚类的分箱方法 |
-
2016
- 2016-02-04 CN CN201610081149.6A patent/CN107038449B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6570968B1 (en) * | 2000-05-22 | 2003-05-27 | Worldcom, Inc. | Alert suppression in a telecommunications fraud control system |
CN101572890A (zh) * | 2009-06-15 | 2009-11-04 | 华为技术有限公司 | 一种检测非法群呼用户的方法和装置 |
CN103763152A (zh) * | 2014-01-07 | 2014-04-30 | ***(深圳)有限公司 | 一种电信欺诈行为多维监测方法和*** |
CN104537067A (zh) * | 2014-12-30 | 2015-04-22 | 广东电网有限责任公司信息中心 | 一种基于k-means聚类的分箱方法 |
Non-Patent Citations (1)
Title |
---|
基于贝叶斯分类技术的电信客户欺诈分析;刘辉;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20051015;第3-4章 * |
Also Published As
Publication number | Publication date |
---|---|
CN107038449A (zh) | 2017-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107038449B (zh) | 一种欺诈用户的识别方法及装置 | |
CN111291900A (zh) | 训练风险识别模型的方法及装置 | |
CN107248082B (zh) | 养卡识别方法及装置 | |
CN106385693B (zh) | 针对虚拟号段的电信诈骗判断方法 | |
CN109242135A (zh) | 一种模型运营方法、装置、及业务服务器 | |
CN107306306A (zh) | 通信号码处理方法及装置 | |
CN110619535B (zh) | 一种数据处理方法及其装置 | |
CN110930218B (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN104217088B (zh) | 运营商移动业务资源的优化方法与*** | |
CN110046245A (zh) | 一种数据监控方法及装置、一种计算设备及存储介质 | |
CN110677269B (zh) | 通信用户关系的确定方法、装置和计算机可读存储介质 | |
CN105930430B (zh) | 一种基于非累积属性的实时欺诈检测方法及装置 | |
CN110196797B (zh) | 适于信用评分卡***的自动优化方法和*** | |
CN110855474A (zh) | Kqi数据的网络特征提取方法、装置、设备及存储介质 | |
CN112153220B (zh) | 一种基于社交评价动态更新的通信行为识别方法 | |
CN110139288A (zh) | 一种网络通话方法、装置、***和记录介质 | |
CN114363082B (zh) | 网络攻击检测方法、装置、设备及计算机可读存储介质 | |
CN115514581A (zh) | 一种用于工业互联网数据安全平台的数据分析方法及设备 | |
CN113011503B (zh) | 一种电子设备的数据取证方法、存储介质及终端 | |
CN111930808B (zh) | 一种利用键值匹配模型提高黑名单准确率的方法及*** | |
CN114742655A (zh) | 基于机器学习的反洗钱行为识别*** | |
CN112417007A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN114189585A (zh) | 骚扰电话异常检测方法、装置及计算设备 | |
CN114140140B (zh) | 一种场景筛选方法、装置及设备 | |
CN114820085B (zh) | 用户筛选方法、相关装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518048 Shenzhen Riverside Road, Futian District, Shenzhen, Guangdong, 1141 Applicant after: Medium shift information technology Co., Ltd. Address before: 518048 Guangdong province Futian District Shenzhen City Binhe Road, No. 9023, building 11, 41 layers of the country through the Applicant before: China Mobile (Shenzhen) Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |