CN112866486B - 一种基于多源特征的诈骗电话识别方法、***及设备 - Google Patents

一种基于多源特征的诈骗电话识别方法、***及设备 Download PDF

Info

Publication number
CN112866486B
CN112866486B CN202110138462.XA CN202110138462A CN112866486B CN 112866486 B CN112866486 B CN 112866486B CN 202110138462 A CN202110138462 A CN 202110138462A CN 112866486 B CN112866486 B CN 112866486B
Authority
CN
China
Prior art keywords
fraud
vertex
user
distance
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110138462.XA
Other languages
English (en)
Other versions
CN112866486A (zh
Inventor
赵玺
褚启伍
任一民
邹建华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Jiaotong University
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN202110138462.XA priority Critical patent/CN112866486B/zh
Publication of CN112866486A publication Critical patent/CN112866486A/zh
Application granted granted Critical
Publication of CN112866486B publication Critical patent/CN112866486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开一种基于多源特征的诈骗电话识别方法、***及设备,方法包括:用户选择包括正常号码、推销号码和诈骗号码,构建更加贴合实际的用户分类,并基于所选用户多源特征指标,包括用户通话数据的基础特征,用户的基础通话特征,画像特征,用户的位置及上网特征,以及基于图结构相似的Struct2Vec图网络模型提取用户二度网络的结构特征,识别多点一线等诈骗模式结构,基于用户二度通话数据转换为通话时序数据,提取基于时序的特征组合,在构建多源特征的基础上,利用过采样方法Borderline‑SMOTE平衡样本数据集,最终构建正常、诈骗、推销识别的分类模型,模型利用多种不同集成学习组合方式进行训练预测,结合黑白名单过滤机制,实现诈骗电话的精准有效识别。

Description

一种基于多源特征的诈骗电话识别方法、***及设备
技术领域
本发明属于信息技术领域,具体涉及一种基于多源特征的诈骗电话识别方法、***及设备。
背景技术
随着通信行业的不断发展,越来越多的用户享受到了通信给生活带来的便利性,但与此同时,越来越多的诈骗通话行为不断涌现,大量的群体或个人以诈骗或个人攻击等手段对目标人群进行骚扰以及涉及金钱方面的欺骗,类似于这样的诈骗电话在生活中层出不穷,严重影响了用户的使用体验,为用户的日常生活带来了极大的不便性。
目前,识别诈骗电话的方法有基于一些基础特征提取使用机器学习或深度学习方式进行识别的,如:【一种基于深度学习的欺诈应用检测方法】,【一种基于多维时间序列的诈骗电话分析方法】,【诈骗电话号码识别方法与***】等,也有利用诈骗模式进行识别的方法,如:【一种基于意图理解技术的诈骗电话检出方法】,【一种基于图嵌入的诈骗电话识别方法】等,但是综合上述专利,我们发现一些现有专利没有关注到的点:
实际生活中,存在多种其他号码与诈骗电话类似具有高呼出,高频次的特点,如:推销电话、快递外卖电话、出租车滴滴电话、公司电话等,这些电话对诈骗电话的识别带来极大的干扰作用,尤其是推销电话,生命周期短,难以通过黑白名单及时有效识别,但是现有技术并没有提及此种实际环境中的多种干扰情况。
发明内容
为了解决现有技术中存在的问题,本发明提供一种基于多源特征的诈骗电话识别方法,将推销电话单独提出作为一类+黑白名单过滤的方式,进行识别,能过够更加贴合实际的通信环境,带来诈骗电话识别效果的更大的提升。
为了实现上述目的,本发明采用的技术方案是:一种基于多源特征的诈骗电话识别方法,包括以下步骤:
构建包括正常号码、推销号码和诈骗号码三种类别用户的二度通话数据、位置数据和上网数据,并基于所述二度通话数据、位置数据和上网数据提取所述用户的基础特征;
基于用户的二度通话数据,构建基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别出多点一线的诈骗模式结构;
将用户的一度通话数据转换为所述用户通话时序数据,根据所述通话时序数据构建基于时序的通话时序特征组合;
将所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建出特征样本数据集;
用过采样方法Borderline-SMOTE平衡所述特征样本数据集;
构建黑白名单机制,并基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,基于所述集成学习组合,采用分配权值的方式,构建正常、诈骗以及推销识别的融合分类模型,识别诈骗电话。
所述用户的基础特征包括用户的基础通话特征、画像信息特征、位置信息特征及上网信息特征。
基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别多点一线诈骗模式结构具体如下:
利用二度通话网络构建图,基于网络的每个顶点,获取每一层网络的顶点对距离,其中,层为以顶点为原点,一度网络为第一层,二度网络为第二层,以此类推;
顶点对距离fk(u,v)为:
fk(v,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0 and|Rk(u)|,|Rk(v)|>0
其中,Rk(u)表示到顶点u距离为k的顶点集合,Rk(v)表示到顶点v距离为k的顶点集合,S(Rk(u))表示顶点集合Rk(u)的有序度序列,即该集合顶点均为到顶点u距离为k的顶点,按照顶点的度数按顺序排列;
g(D1,D2)≥0是衡量有序度序列D1和D2距离的函数,即两个有序度序列的距离,基于Dynamic Time Warping,定义元素之间的距离函数为:
Figure GDA0003547838570000031
fk(u,v)表示顶点u和v之间距离为k的环路上的结构距离,距离k实际上是指距离小于等于k的节点集合,每次会加上fk-1(u,v),迭代相加,这就是顶点对距离的函数;
对于每一个k计算出两个顶点之间的一个距离,通过所述顶点之间的有序度序列距离来构建一个带权层次图,用于后续的随机游走;
定义在某一层k中两个顶点的边权为
Figure GDA0003547838570000032
所述边权都小于1,当且仅当距离为0的是时候,边权为1;
通过有向边将属于不同层次的同一顶点连接起来,即对每个顶点,都会与其对应的相同的上层顶点以及下层顶点相连,得到带权层次图;
基于随机游走的方式在所述带权层次图中进行采样顶点序列,选择每一个顶点为起始点,做随机游走得到点的序列,然后将所述序列视为句子,用word2vec学习,得到所述每一个顶点的表示嵌入特征向量,挖掘出每个顶点在其二度网络中的结构,并生成所述嵌入特征向量,即得到识别多点一线诈骗模式结构。
基于用户的通话数据,转换为通话时序数据,构建基于时序的通话时序特征组合具体如下:
基于用户每个时刻发生的通话及其时长、设定时间段内每天的通话次数以及用户每个时刻发生的通话间隔构建用户的通话时序数据,根据所述时序数据提取时序特征;利用python中的开源包tsfresh,输入构建好的时序数据,输出设定的时序特征。
利用改进的smote过采样方法Borderline-SMOTE平衡所述特征样本数据集具体如下:
将特征样本数据集按照预设比例划分为训练集和测试集,测试集不变;
基于Borderline-SMOTE过采样技术,操作训练集,将训练集中少数的诈骗样本类分为3类,分别为Safe、Danger和Noise,其中,Safe类为样本周围一半以上均为少数类样本,Danger类为样本周围一半以上均为多数类样本,视为在边界上的样本,Noise类为样本周围均为多数类样本,视为噪音;
对Danger类的少数类进行过采样,采用K近邻方法随机选择少数类样本,进行少数样本的过采样。
基于多源特征数据,构建包括boosting和bagging的多种不同集成学习组合,并采用分配权值的方式,构建正常、诈骗、推销识别的分类模型,结合黑白名单机制,识别诈骗号码具体如下:
分别构建正常和诈骗,正常和推销,推销和诈骗的二分类模型,其中的单个二分类模型分别使用基于boosting和bagging的集成学习算法进行组合学习,最终组合学习结果以概率输出;综合boosting和bagging集成学习算法中的优势,选取不同模型进行集成;
将所述概率进行组合,网格搜索法进行权值匹配,构建三分类模型;
在黑白名单中进行白名单过滤和黑名单匹配,将剩余不可识别号码,采用三分类识别模型识别。
其中黑白名单包括:已识别并确定的诈骗电话、推销电话、可靠标记的外卖人员电话、出租车司机电话、滴滴司机电话以及注册公司电话,将推销电话与诈骗电话分为一类进行识别。
一种基于多源特征的诈骗电话识别***,包括基础特征提取模块、诈骗模式结构识别模块、时序特征组合构建模块、特征样本数据集构建模块、特征样本数据集平衡模块以及融合分类识别模块;
基础特征提取模块用于构建包括正常号码、推销号码和诈骗号码三种类别用户的二度通话数据、位置数据和上网数据,并基于所述二度通话数据、位置数据和上网数据提取所述用户的基础特征;
诈骗模式结构识别模块基于用户的二度通话数据,构建基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别出多点一线的诈骗模式结构;
时序特征组合构建模块用于将用户的一度通话数据转换为所述用户通话时序数据,根据所述通话时序数据构建基于时序的通话时序特征组合;
特征样本数据集构建模块用于将所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建出特征样本数据集;
特征样本数据集平衡模块用过采样方法Borderline-SMOTE平衡所述特征样本数据集;
融合分类识别模块用于构建黑白名单机制,并基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,基于所述集成学习组合,采用分配权值的方式,构建正常、诈骗以及推销识别的融合分类模型,识别诈骗电话。
一种计算机设备,包括一个或多个处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于多源特征的诈骗电话识别方法。
一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现本发明所述的基于多源特征的诈骗电话识别方法。
与现有技术相比,本发明至少具有以下有益效果:
本发明提出将推销电话单独提出作为一类,构建三分类识别模型,并通过增加黑白名单过滤的方式,将一些生命周期较长的高呼出、高频次的电话通过黑白名单过滤,同时,通过三分类模型,移除推销电话的影响,这种机制能过够更加贴合实际的通信环境,带来诈骗电话识别效果的更大的提升;
本发明提出了基于用户通话数据构造多种时序数据,并通过tsfresh时序包,提取用户的不同的通话时序特征,从时序特征挖掘的角度,对用户的通话数据进行了更加深层次地解析,获取了更多地通话模式等的隐含特征,并取得不错的效果;
本发明提出基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别多点一线及一些隐含的诈骗模式结构,诈骗电话存在模式特征,这是与推销电话相区分之处,从模式结构的角度出发,挖掘诈骗电话的结构特征,区别于其他类型的电话,这对于诈骗电话的识别具有重要的作用;
本发明提出基于构建包括boosting和bagging的多种不同集成学习算法组合,并采用分配权值的方式,构建正常、诈骗、推销识别的分类模型。利用不同的集成学习组合算法,构建更加高效的分类模型;
与现有技术相比,本发明提出的一整套的基于多源特征的识别诈骗电话的组合算法,能够从不同的角度识别出诈骗电话的不同特点加以区分,并构建算法模型加黑白名单机制,使得模型的应用更加贴合实际的更加复杂的通信环境,最终使得诈骗电话的识别各项评估指标更高,效果更好。
附图说明
图1是本发明的一种基于多源特征的诈骗电话识别方法的流程图。
具体实施方式
本发明提供的基于多源特征的诈骗电话识别方法,此方法包括:用户选择包括正常号码、推销号码和诈骗号码,构建更加贴合实际的用户分类,并基于所选用户一段时间的二度通话数据、画像数据、位置数据以及上网数据构建多源特征指标,包括用户通话数据的基础特征,用户的基础通话特征,画像特征,用户的位置及上网特征,以及基于图结构相似的图网络模型——Struct2Vec提取用户二度网络的结构特征,识别多点一线等诈骗模式结构,并且基于用户二度通话数据转换为通话时序数据,提取基于时序的特征组合,在构建多源特征的基础上,利用改进的smote过采样方法Borderline-SMOTE平衡样本数据集,最终构建正常、诈骗、推销识别的分类模型,模型利用多种不同集成学习组合方式进行训练预测,结合黑白名单过滤机制,实现诈骗电话的精准有效识别,参考图1。
具体包括以下步骤:
步骤一,构建包括正常号码、推销号码和诈骗号码三种类别的样本数据,包括:用户的二度通话数据,位置数据和上网数据,并基于此提取所选用户的基础特征,包括:用户的基础通话特征,画像特征,位置特征及上网特征。
步骤二,基于用户的二度通话数据,构建基于图结构相似的图网络模型——Struct2Vec,提取用户二度网络的结构特征,识别多点一线等诈骗模式结构。
步骤三,基于用户的通话数据,转换为通话时序数据,构建基于时序的通话时序特征组合。
步骤四,利用改进的smote过采样方法Borderline-SMOTE平衡特征样本数据集,特征样本数据集基于所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建而来。
步骤五,基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,并采用分配权值的方式,构建正常、诈骗、推销识别的分类模型,结合黑白名单机制,精准识别诈骗号码。
为使本发明的目的,技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
针对运营上大数据提供样本的诈骗电话、推销电话以及随机抽样取得的普通电话号码,对以上电话号码进行通话数据、画像数据、位置数据以及上网数据的获取;为后面的几个步骤奠定数据基础。
步骤一,构建包括正常号码、推销号码和诈骗号码三种类别的样本数据,所述样本数据包括用户的包括:用户的二度通话数据,位置数据和上网数据,并基于此提取所选用户的基础特征,所述基础特征包括用户的基础通话特征、画像信息特征、位置信息特征及上网信息特征。
其中基础通话特征包括:不同时间周期的主叫、被叫总通话次数及占比,不同时间周期的主被叫通话时长及占比,主被叫平均通话时长、方差、标准差,周内工作日呼出与被呼入比例,天内各时间段呼出与被呼入比例、次数,主被叫未应答数占比,通话平均间隔时间,同一号码联系间隔平均时长,呼出号段是否存在连号及占比,单位时间通话次数(小时,天,周,月),连续呼叫平均通话时长,连续呼叫概率,主叫通话次数为1的次数占比,被叫是否在被拨打后一定时间内拨打110或12321等标记电话,被叫是否是主叫的联系人或陌生人,主叫呼出不同号码个数,主被叫通话时长为0数占比,主叫被挂断率,振铃时长均值、方差、标准差,以及对端用户通话上述指标。
位置信息特征包括:呼出位置数量,同一位置呼出比例分布,所有位置分布占比熵,身为主叫不同位置出现占比,日均通话省数、城市数及熵值,被叫为外地号码占比,访问基站的日最大距离、平均次数及熵值,通话发生在工作地、家中的次数及比例,白天、夜晚位置记录条数及占比等。
画像信息特征包括:用户性别,年龄,开户时间,累计活跃天数,近期话费花费分布,是否外网,注册方式,最近一次停机时间,停机次数,换机次数,换卡次数,所属运营商,是否为虚拟号端等。
上网信息特征包括:流量相关,如:一定时间周期内流量使用总量,均值,方差及使用趋势等,url访问统计,如:恶意网站,***,赌博网站,等访问趋势及次数等统计,APP使用统计,如:常用APP使用次数及占比,特殊类APP使用统计等。
步骤二,基于用户的二度通话数据,构建基于图结构相似的图网络模型——Struct2Vec,提取用户二度网络的结构特征,识别多点一线等诈骗模式结构。分为以下小步骤:
步骤1:利用二度通话网络构建图,基于每个顶点,获取每一层的顶点对距离,其中,层为以顶点为原点,一度网络为第一层,二度网络为第二层,以此类推。
顶点对距离公式:
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0 and|Rk(u)|,|Rk(v)|>0
其中,Rk(u)表示到顶点u距离为k的顶点集合,Rk(v)表示到顶点v距离为k的顶点集合,S(Rk(u))表示顶点集合Rk(u)的有序度序列,即该集合顶点均为到顶点u距离为k的顶点,按照顶点的度数按顺序排列。
g(D1,D2)≥0是衡量有序度序列D1,D2的距离的函数,即两个有序度序列的距离。由于,s(Rk(u))和s(Rk(v))的长度可能不同,并且可能含有重复元素,这里采用的是DynamicTime Warping(DTW)来衡量两个有序度序列,即DTW可以用来衡量两个不同长度且含有重复元素的序列的距离,基于DTW,定义元素之间的距离函数为:
Figure GDA0003547838570000091
这样定义的距离函数实际上惩罚了当两个顶点的度数都比较小的时候两者的差异;
fk(u,v)表示顶点u和v之间距离为k的环路上的结构距离,这里的距离k实际上是指距离小于等于k的节点集合,因为每次会加上fk-1(u,v),迭代相加,这就是顶点对距离的函数。
步骤2:根据顶点对距离构建带权层次图
对于每一个k都可以计算出两个顶点之间的一个距离,这一步主要用于通过上面得到的顶点之间的有序度序列距离来构建一个层次化的带权图,用于后续的随机游走。
定义在某一层k中两个顶点的边权为
Figure GDA0003547838570000101
这样定义的边权都是小于1的,当且仅当距离为0的是时候,边权为1。
通过有向边将属于不同层次的同一顶点连接起来,即对每个顶点,都会和其对应的相同的上层顶点还有下层顶点相连。
步骤3:在带权层次图中随机游走采样顶点序列
基于随机游走的方式在带权层次图中进行采样顶点序列。首先选择任意一点为起始点,做随机游走得到点的序列,然后将这个得到的序列视为句子,用word2vec来学习,得到所述顶点的表示嵌入特征向量;遍历带权层次图中的顶点,随机游走获取所有顶点的嵌入特征向量。
步骤三,基于用户的通话数据,转换为通话时序数据,构建基于时序的通话时序特征组合。包括以下小步骤:
步骤1:基于用户每个时刻发生的通话及其时长、设定时间段内每天的通话次数以及用户每个时刻发生的通话间隔构建用户的通话时序数据;
步骤2:利用python中的开源包tsfresh,输入构建好的时序数据,输出设置的时序特征,所述时序特征包括但不限于:时间序列的平方和、序列的连续变化的绝对值之和、序列近似熵(用来衡量一个时间序列的周期性、不可预测性和波动性)、自回归模型系数、大(小)于均值的数的个数、最大值、最小值及有无重复值、大(小)于均值的最长连续子序列长度、连续变化值绝对值的均值等64种基于时序变化的特征,作为模型输入的通话时序特征值。
步骤四,利用改进的smote过采样方法Borderline-SMOTE平衡特征样本数据集。包括以下小步骤:
步骤1:将特征样本数据集按照预设比例划分为训练集和测试集,并固定随机种子,保持测试集不变,进行效果比对;特征样本数据集基于所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建而来;
步骤2:基于Borderline SMOTE过采样技术,操作训练集,将训练集中少数的诈骗样本类分为3类,别为Safe、Danger和Noise,其中,Safe类为样本周围一半以上均为少数类样本,Danger类为样本周围一半以上均为多数类样本,视为在边界上的样本,Noise类为样本周围均为多数类样本,视为噪音,仅对Danger类的少数类样本进行过采样。
步骤3:对Danger类的少数类进行过采样,采用K近邻方法在随机选择少数类样本,进行少数样本的过采样。
步骤4:随机改变固定的测试集,进行效果比对,选择合适的可扩充比例及参数。
步骤五,基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,并采用分配权值的方式,构建正常、诈骗、推销识别的分类模型,结合黑白名单机制,精准识别诈骗号码,具体如下:
步骤1:分别构建正常和诈骗,正常和推销,推销和诈骗的二分类模型,其中的单个二分类模型分别使用基于boosting和bagging的集成学习算法进行组合学习,如:bagging中的随机森林、boosting中XGBOOST、LightGBM、GBDT和AdaBoost,综合集成学习中的两种集成学习方式优势再集成。训练过程中,最终模型训练结果以概率输出。
步骤2:将所述概率进行组合,网格搜索法选取合适的权值进行分配,构建三分类模型。如:以x,y,z表示选取的模型输出,a,b,c分别表示权重分配,使得a+b+c=1,采用网格搜索法,选择最佳的算法权重分配,组合输出各二分类器,构建三分类识别模型;w=ax+by+cz,a+b+c=1
步骤3:在黑白名单中进行白名单过滤和黑名单匹配,将剩余不可识别号码采用三分类识别模型识别;
其中黑白名单包括:已识别并确定的诈骗电话,推销电话,一些可靠标记的外卖人员、出租车,滴滴司机,注册公司电话等,这些号码同样具有高呼出、高频次的特点,但号码生存周期长,一经标记识别,可通过黑白名单有效过滤,而推销电话,与诈骗电话类似,存在呼出频率高,生存周期短的特点,故本发明中单成一类,进行识别。
可选的,本发明还提供一种计算机设备,包括但不限于一个或多个处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现本发明所述基于多源特征的诈骗电话识别方法的部分步骤或所有步骤。
所述识别以太坊上庞氏骗局的的设备可以是笔记本电脑、平板电脑、桌面型计算机或工作站。
处理器可以是中央处理器(CPU)、数字信号处理器(DSP)、专用集成电路(ASIC)或现成可编程门阵列(FPGA)。
对于本发明所述存储器,可以是笔记本电脑、平板电脑、桌面型计算机、手机或工作站的内部存储单元,如内存、硬盘;也可以采用外部存储单元,如移动硬盘、闪存卡。
计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、固态硬盘(SSD,Solid State Drives)或光盘等。其中,随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance)。

Claims (7)

1.一种基于多源特征的诈骗电话识别方法,其特征在于,包括以下步骤:
构建包括正常号码、推销号码和诈骗号码三种类别用户的二度通话数据、位置数据和上网数据,并基于所述二度通话数据、位置数据和上网数据提取所述用户的基础特征;
基于用户的二度通话数据,构建基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别出多点一线的诈骗模式结构;
将用户的一度通话数据转换为所述用户通话时序数据,根据所述通话时序数据构建基于时序的通话时序特征组合;
将所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建出特征样本数据集;
用过采样方法Borderline-SMOTE平衡所述特征样本数据集;
构建黑白名单机制,并基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,基于所述集成学习组合,采用分配权值的方式,构建正常、诈骗以及推销识别的融合分类模型,识别诈骗电话;基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别多点一线诈骗模式结构具体如下:
利用二度通话网络构建图,基于网络的每个顶点,获取每一层网络的顶点对距离,其中,层为以顶点为原点,一度网络为第一层,二度网络为第二层,以此类推;
顶点对距离fk(u,v)为:
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0and|Rk(u)|,|Rk(v)|>0
其中,Rk(u)表示到顶点u距离为k的顶点集合,Rk(v)表示到顶点v距离为k的顶点集合,S(Rk(u))表示顶点集合Rk(u)的有序度序列,即该集合顶点均为到顶点u距离为k的顶点,按照顶点的度数按顺序排列;
g(D1,D2)≥0是衡量有序度序列D1和D2距离的函数,即两个有序度序列的距离,基于Dynamic Timc Warping,定义元素之间的距离函数为:
Figure FDA0003539167250000021
fk(u,v)表示顶点u和v之间距离为k的环路上的结构距离,距离k实际上是指距离小于等于k的节点集合,每次会加上fk-1(u,v),迭代相加,这就是顶点对距离的函数;fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0 and|Rk(u)|,|Rk(v)|>0g(D1,D2)≥0fk(u,v);
对于每一个k计算出两个顶点之间的一个距离,通过所述顶点之间的有序度序列距离来构建一个带权层次图,用于后续的随机游走;
定义在某一层k中两个顶点的边权为
Figure FDA0003539167250000022
所述边权都小于1,当且仅当距离为0的是时候,边权为1;
通过有向边将属于不同层次的同一顶点连接起来,即对每个顶点,都会与其对应的相同的上层顶点以及下层顶点相连,得到带权层次图;
基于随机游走的方式在所述带权层次图中进行采样顶点序列,选择每一个顶点为起始点,做随机游走得到点的序列,然后将所述序列视为句子,用word2vec学***衡所述特征样本数据集具体如下:
将特征样本数据集按照预设比例划分为训练集和测试集,测试集不变;
基于Borderline-SMOTE过采样技术,操作训练集,将训练集中少数的诈骗样本类分为3类,分别为Safe、Danger和Noise,其中,Safe类为样本周围一半以上均为少数类样本,Danger类为样本周围一半以上均为多数类样本,视为在边界上的样本,Noise类为样本周围均为多数类样本,视为噪音;
对Danger类的少数类进行过采样,采用K近邻方法随机选择少数类样本,进行少数样本的过采样;基于多源特征数据,构建包括boosting和bagging的多种不同集成学习组合,并采用分配权值的方式,构建正常、诈骗、推销识别的分类模型,结合黑白名单机制,识别诈骗号码具体如下:
分别构建正常和诈骗,正常和推销,推销和诈骗的二分类模型,其中的单个二分类模型分别使用基于boosting和bagging的集成学习算法进行组合学习,最终组合学习结果以概率输出;综合boosting和bagging集成学习算法中的优势,选取不同模型进行集成;
将所述概率进行组合,网格搜索法进行权值匹配,构建三分类模型;
在黑白名单中进行白名单过滤和黑名单匹配,将剩余不可识别号码,采用三分类识别模型识别。
2.根据权利要求1所述的基于多源特征的诈骗电话识别方法,其特征在于,所述用户的基础特征包括用户的基础通话特征、画像信息特征、位置信息特征及上网信息特征。
3.根据权利要求1所述的基于多源特征的诈骗电话识别方法,其特征在于,基于用户的通话数据,转换为通话时序数据,构建基于时序的通话时序特征组合具体如下:
基于用户每个时刻发生的通话及其时长、设定时间段内每天的通话次数以及用户每个时刻发生的通话间隔构建用户的通话时序数据,根据所述时序数据提取时序特征;利用python中的开源包tsfresh,输入构建好的时序数据,输出设定的时序特征。
4.根据权利要求1所述的基于多源特征的诈骗电话识别方法,其特征在于,其中黑白名单包括:已识别并确定的诈骗电话、推销电话、可靠标记的外卖人员电话、出租车司机电话、滴滴司机电话以及注册公司电话,将推销电话与诈骗电话分为一类进行识别。
5.一种基于多源特征的诈骗电话识别***,其特征在于,包括基础特征提取模块、诈骗模式结构识别模块、时序特征组合构建模块、特征样本数据集构建模块、特征样本数据集平衡模块以及融合分类识别模块;
基础特征提取模块用于构建包括正常号码、推销号码和诈骗号码三种类别用户的二度通话数据、位置数据和上网数据,并基于所述二度通话数据、位置数据和上网数据提取所述用户的基础特征;
诈骗模式结构识别模块基于用户的二度通话数据,构建基于图结构相似的Struct2Vec图网络模型,提取用户二度网络的结构特征,识别出多点一线的诈骗模式结构;利用二度通话网络构建图,基于网络的每个顶点,获取每一层网络的顶点对距离,其中,层为以顶点为原点,一度网络为第一层,二度网络为第二层,以此类推;
顶点对距离fk(u,v)为:
fk(u,v)=fk-1(u,v)+g(s(Rk(u)),s(Rk(v))),k≥0 and|Rk(u)|,|Rk(v)|>0
其中,Rk(u)表示到顶点u距离为k的顶点集合,Rk(v)表示到顶点v距离为k的顶点集合,S(Rk(u))表示顶点集合Rk(u)的有序度序列,即该集合顶点均为到顶点u距离为k的顶点,按照顶点的度数按顺序排列;
g(D1,D2)≥0是衡量有序度序列D1和D2距离的函数,即两个有序度序列的距离,基于Dynamic Time Warping,定义元素之间的距离函数为:
Figure FDA0003539167250000041
fk(u,v)表示顶点u和v之间距离为k的环路上的结构距离,距离k实际上是指距离小于等于k的节点集合,每次会加上fk-1(u,v),迭代相加,这就是顶点对距离的函数;
对于每一个k计算出两个顶点之间的一个距离,通过所述顶点之间的有序度序列距离来构建一个带权层次图,用于后续的随机游走;
定义在某一层k中两个顶点的边权为
Figure FDA0003539167250000042
所述边权都小于1,当且仅当距离为0的是时候,边权为1;
通过有向边将属于不同层次的同一顶点连接起来,即对每个顶点,都会与其对应的相同的上层顶点以及下层顶点相连,得到带权层次图;
基于随机游走的方式在所述带权层次图中进行采样顶点序列,选择每一个顶点为起始点,做随机游走得到点的序列,然后将所述序列视为句子,用word2vec学习,得到所述每一个顶点的表示嵌入特征向量,挖掘出每个顶点在其二度网络中的结构,并生成所述嵌入特征向量,即得到识别多点一线诈骗模式结构;
时序特征组合构建模块用于将用户的一度通话数据转换为所述用户通话时序数据,根据所述通话时序数据构建基于时序的通话时序特征组合;
特征样本数据集构建模块用于将所述用户的基础特征、用户二度网络的结构特征以及通话时序特征组合进行融合,采用特征过滤和降维的方式构建出特征样本数据集;
特征样本数据集平衡模块用过采样方法Borderline-SMOTE平衡所述特征样本数据集;将特征样本数据集按照预设比例划分为训练集和测试集,测试集不变;
基于Borderline-SMOTE过采样技术,操作训练集,将训练集中少数的诈骗样本类分为3类,分别为Safe、Danger和Noise,其中,Safe类为样本周围一半以上均为少数类样本,Danger类为样本周围一半以上均为多数类样本,视为在边界上的样本,Noise类为样本周围均为多数类样本,视为噪音;
对Danger类的少数类进行过采样,采用K近邻方法随机选择少数类样本,进行少数样本的过采样
融合分类识别模块用于构建黑白名单机制,并基于平衡后的特征样本数据集,构建包括boosting和bagging的多种不同集成学习组合,基于所述集成学习组合,采用分配权值的方式,构建正常、诈骗以及推销识别的融合分类模型,识别诈骗电话;分别构建正常和诈骗,正常和推销,推销和诈骗的二分类模型,其中的单个二分类模型分别使用基于boosting和bagging的集成学习算法进行组合学习,最终组合学习结果以概率输出;综合boosting和bagging集成学习算法中的优势,选取不同模型进行集成;
将所述概率进行组合,网格搜索法进行权值匹配,构建三分类模型;
在黑白名单中进行白名单过滤和黑名单匹配,将剩余不可识别号码,采用三分类识别模型识别。
6.一种计算机设备,其特征在于,包括一个或多个处理器以及存储器,存储器用于存储计算机可执行程序,处理器从存储器中读取部分或全部所述计算机可执行程序并执行,处理器执行部分或全部计算可执行程序时能实现权利要求1~4任一项所述基于多源特征的诈骗电话识别方法。
7.一种计算机可读存储介质,其特征在于,计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时,能实现如权利要求1-4任一项所述的基于多源特征的诈骗电话识别方法。
CN202110138462.XA 2021-02-01 2021-02-01 一种基于多源特征的诈骗电话识别方法、***及设备 Active CN112866486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110138462.XA CN112866486B (zh) 2021-02-01 2021-02-01 一种基于多源特征的诈骗电话识别方法、***及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110138462.XA CN112866486B (zh) 2021-02-01 2021-02-01 一种基于多源特征的诈骗电话识别方法、***及设备

Publications (2)

Publication Number Publication Date
CN112866486A CN112866486A (zh) 2021-05-28
CN112866486B true CN112866486B (zh) 2022-06-07

Family

ID=75987559

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110138462.XA Active CN112866486B (zh) 2021-02-01 2021-02-01 一种基于多源特征的诈骗电话识别方法、***及设备

Country Status (1)

Country Link
CN (1) CN112866486B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115529596A (zh) * 2021-06-25 2022-12-27 中国联合网络通信集团有限公司 异常号码识别方法、装置及电子设备
CN114037460B (zh) * 2021-11-25 2022-08-23 深圳安巽科技有限公司 一种综合反诈平台、方法及存储介质
CN114693317A (zh) * 2022-04-08 2022-07-01 重庆邮电大学 一种融合同质图与二分图的电信诈骗安全联邦检测方法
CN114828013B (zh) * 2022-06-27 2022-10-28 北京芯盾时代科技有限公司 诈骗号码识别及其模型训练方法、相关设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147430A (zh) * 2019-04-25 2019-08-20 上海欣方智能***有限公司 基于随机森林算法的骚扰电话识别方法及***
CN111222025A (zh) * 2019-12-27 2020-06-02 南京中新赛克科技有限责任公司 一种基于卷积神经网络的诈骗号码识别方法及***
CN111726460A (zh) * 2020-06-15 2020-09-29 国家计算机网络与信息安全管理中心 一种基于时空图的诈骗号码识别方法
CN112199388A (zh) * 2020-09-02 2021-01-08 卓望数码技术(深圳)有限公司 陌电识别方法、装置、电子设备及存储介质
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060149674A1 (en) * 2004-12-30 2006-07-06 Mike Cook System and method for identity-based fraud detection for transactions using a plurality of historical identity records

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147430A (zh) * 2019-04-25 2019-08-20 上海欣方智能***有限公司 基于随机森林算法的骚扰电话识别方法及***
CN111222025A (zh) * 2019-12-27 2020-06-02 南京中新赛克科技有限责任公司 一种基于卷积神经网络的诈骗号码识别方法及***
CN111726460A (zh) * 2020-06-15 2020-09-29 国家计算机网络与信息安全管理中心 一种基于时空图的诈骗号码识别方法
CN112199388A (zh) * 2020-09-02 2021-01-08 卓望数码技术(深圳)有限公司 陌电识别方法、装置、电子设备及存储介质
CN112291424A (zh) * 2020-10-29 2021-01-29 上海观安信息技术股份有限公司 一种诈骗号码识别方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN112866486A (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112866486B (zh) 一种基于多源特征的诈骗电话识别方法、***及设备
CN111461089B (zh) 一种人脸检测的方法、人脸检测模型的训练方法及装置
CN109697416B (zh) 一种视频数据处理方法和相关装置
CN110198310A (zh) 一种网络行为反作弊方法、装置及存储介质
CN110222728B (zh) 物品鉴别模型的训练方法、***及物品鉴别方法、设备
CN110956547A (zh) 一种基于搜索引擎的实时识别欺诈团伙的方法及***
CN112508094A (zh) 垃圾图片的识别方法、装置及设备
CN115713715B (zh) 一种基于深度学习的人体行为识别方法及识别***
CN110782333A (zh) 一种设备风险控制方法、装置、设备及介质
CN107169106A (zh) 视频检索方法、装置、存储介质及处理器
WO2022142903A1 (zh) 身份识别方法、装置、电子设备及相关产品
CN112651333B (zh) 静默活体检测方法、装置、终端设备和存储介质
WO2021003803A1 (zh) 数据处理方法、装置、存储介质及电子设备
CA3204311A1 (en) Method and system for securely deploying an artificial intelligence model
CN110046251A (zh) 社区内容风险评估方法及装置
CN111178146A (zh) 基于人脸特征识别主播的方法及装置
CN113709125A (zh) 一种异常流量的确定方法、装置、存储介质及电子设备
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
WO2023029397A1 (zh) 训练数据获取方法、异常行为识别网络训练方法及装置、计算机设备、存储介质、计算机程序、计算机程序产品
CN112131477A (zh) 一种基于用户画像的图书馆图书推荐***及方法
WO2020202327A1 (ja) 学習システム、学習方法、及びプログラム
CN110855474A (zh) Kqi数据的网络特征提取方法、装置、设备及存储介质
CN116959059A (zh) 一种活体检测的方法、装置以及存储介质
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
CN110472680B (zh) 目标分类方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant