具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
根据研究发现,诈骗电话、疑似诈骗电话普遍都具有较明显的特征差异,例如,诈骗电话具有忙时高频呼叫、被叫用户相对集中、呼叫时间间隔离散度较高的特征,疑似诈骗电话具有高频呼叫、被叫用户相对分散、呼叫圈重合度较高、呼叫时间离散度较高的特征,非诈骗电话具有低频呼叫且时间集中,呼叫圈重合度较低、主叫呼叫行为较少、忙时基本无呼叫行为的特征。因此,本发明可以采用聚类算法,根据话单记录中所有主叫号码的多个特征指标值来对主叫号码进行特征分类,将具有相同或相似特征的主叫号码分到一个簇中,也即是,将全部用户分为具有明显特征差异的多个簇,再通过和已确认诈骗电话的特征对比,从而找到和已确认诈骗电话特征最接近的诈骗电话簇、以及较接近的疑似诈骗电话簇。对于诈骗电话簇和疑似诈骗电话簇,本发明再进一步采用逻辑回归算法来精准识别出其中的诈骗电话和疑似诈骗电话,从而实现全网范围内诈骗电话的精准识别和拦截。
如图1所示,本发明一种基于聚类算法的实时拦截诈骗电话的方法,包括有:
步骤一、根据所采集的话单记录,计算所有主叫号码在一定时间周期内的若干个特征指标值,然后采用聚类算法将所有主叫号码划分到三个簇中,从而使得每个簇中的主叫号码具有相同或相近的特征指标值;
步骤二、将已确认诈骗号码的特征指标值分别和三个簇中主叫号码的特征指标值进行匹配,如果特征指标值所构成的取值区间越接近则说明匹配相似度越高,最后将其中匹配相似度最高的簇设置为诈骗电话簇、匹配相似度次之的簇设置为疑似诈骗电话簇;
由于诈骗电话、疑似诈骗电话具有相同或相似的特征,可以选取多个有明显差异的特征指标,通过不断的试运行和验证发现,本发明可以选取如下特征指标来有效识别诈骗电话和非诈骗电话:主叫呼叫频次、被叫号码个数、呼叫时间间隔标准差、频繁被叫号码呼叫次数、最高呼叫时段、呼叫同一被叫号码次数的最大值、呼叫同一被叫号码次数的第二大值、呼叫同一被叫号码次数的第三大值。判断上述多个特征指标值是否和已确认诈骗电话的特征指标值在相同、或相近的区间范围内,当特征指标值越接近,则说明匹配相似度越高。同时,还可以将三个簇中的主叫号码和已确认诈骗号码进行比对,从而统计出三个簇中已确认诈骗号码的个数。最后,从多个特征指标值的匹配相似度、已确认诈骗号码的个数等多种因素综合考虑,从三个簇中遴选出一个诈骗电话簇、和一个疑似诈骗电话簇;
步骤三、采用逻辑回归算法,分别计算诈骗号码簇、或疑似诈骗号码簇中每个主叫号码的诈骗可疑度指数:其中,zij是簇j中的第i个主叫号码,j=1或2,簇1是诈骗号码簇,簇2是疑似诈骗号码簇,Y(zij)是主叫号码zij的诈骗特征值,N是特征指标数,αjt是簇j中的特征指标t的权重系数,是主叫号码zij的特征指标t的值,βj是簇j的极大似然估计值,然后判断主叫号码的诈骗可疑度指数是否大于诈骗可疑度指数的阈值?如果是,则说明该主叫号码是诈骗电话、或疑似诈骗电话;如果否,则说明该主叫号码不是诈骗号码、或疑似诈骗号码,从主叫号码所归属的诈骗号码簇、或疑似诈骗号码簇中删除所述主叫号码;
所述诈骗可疑度指数的阈值是在区间[0,1)之间的一个实数,其值可以根据实际情况而设,当诈骗可疑度指数越大时,主叫号码是诈骗电话/疑似诈骗电话的可能性也越大,例如诈骗可疑度指数的阈值设置为0.9,当主叫号码的诈骗可疑度指数大于或等于0.9时,则确定该主叫号码是诈骗电话/或疑似诈骗电话;对于αjt、βj的值,可以从诈骗号码簇、或疑似诈骗号码簇中提取部分已确认诈骗电话和非诈骗电话来作为样本,并对αjt、βj设置初始值,然后将样本中每个主叫号码所计算出的诈骗可疑度指数和是否是诈骗电话的实际情况进行对比,再对αjt、βj的值进行反复调整,从而使得根据样本所计算出的诈骗可疑度指数满足***实际需要,例如,通过不断调整后,将特征指标“主叫呼叫频次”的权重***设为-0.6626,特征指标“被叫号码个数”的权重***设为0.004633,特征指标“呼叫时间间隔标准差”的权重***设为-0.001043,特征指标“频繁被叫号码呼叫次数”的权重***设为0.351,极大似然估计值设为-6.189;
步骤四、将诈骗号码簇、和疑似诈骗号码簇中的所有主叫号码分别更新到取证号码表、和拦截号码表中。即,将诈骗号码簇中的主叫号码写到取证号码表中,疑似诈骗号码簇中的主叫号码写到拦截号码表中。
如图2所示,步骤一还可以进一步包括有:
步骤11、计算所有主叫号码在一定时间周期内的若干个特征指标值,并为所有主叫号码分别构建对应的特征指标集:Xi=(xi1,xi2,…,xiN),其中Xi是主叫号码zi的特征指标集,xi1、xi2、…xiN分别是主叫号码zi的若干个特征指标值,N是特征指标数;
例如,可以选取如下特征指标:主叫呼叫频次、被叫号码个数、呼叫时间间隔标准差、频繁被叫号码呼叫次数、最高呼叫时段、呼叫同一被叫号码次数的最大值、呼叫同一被叫号码次数的第二大值、呼叫同一被叫号码次数的第三大值,N=8;
步骤12、构建三个簇(例如簇1、簇2、簇3),并将所有主叫号码随机划分到三个簇中,其中每个主叫号码都唯一的归属于一个簇;
步骤13、计算每个簇的特征指标中心值集Cj:其中Cj是簇j的特征指标中心值集,j=1、2或3,是Cj中的特征指标t的中心值,t是1到N之间的一个自然数,且i是1到Mj之间的一个自然数,Mj是簇j中的主叫号码数,是簇j中的主叫号码zij的特征指标t的值;
步骤14、计算所有主叫号码的平方误差和:并判断E是否小于或等于E的阈值?如果是,则本流程结束;如果否,则再计算每个主叫号码和所有簇的特征指标中心值集之间的距离,并从中挑选距离的最小值,然后将主叫号码重新划分到距离的最小值所对应的簇中,其中主叫号码zi和簇j的特征指标中心值集之间的距离的计算公式如下:xit是主叫号码zi的特征指标t的值,然后转向步骤13,其中,E的阈值是0到1之间的一个数,其值可以根据实际情况而设定,例如2.71828-5。
对于取证号码表和拦截号码表中的诈骗电话和疑似诈骗电话,本发明还可以对其分别实施录音取证和实时拦截手段,以实现诈骗电话的有效防治。如图3所示,当用户发起呼叫时,本发明还包括有:
步骤A1、主叫MSC将用户发起的呼叫触发至SCP,SCP判断所述呼叫请求的主叫号码是否在取证号码表或拦截号码表中?如果是,则向主叫MSC返回呼叫接续CONTINUE消息,所述呼叫接续消息中携带有取证路由号或拦截路由号信息,并指示主叫MSC将呼叫继续触发至防诈骗平台,然后继续下一步;如果否,则执行原有业务流程,本流程结束;
当主叫号码在取证号码表中时,则呼叫接续消息中携带取证路由号,当主叫号码在拦截号码表中时,则呼叫接续消息中携带有拦截路由号;
步骤A2、防诈骗平台接收到主叫MSC发送来的呼叫请求时,判断呼叫请求中是否携带有取证路由号?如果是,则对呼叫请求中主、被叫之间的语音通道进行桥接,然后对主叫语音进行单向录音,生成一个录音文件,然后将所述录音文件保存到自然音样本库、或重复音样本库中,本流程结束;如果否,则继续下一步;
步骤A3、防诈骗平台判断呼叫请求中是否携带有拦截路由号?如果是,则对呼叫请求中主、被叫之间的语音通道进行桥接,然后对主叫语音进行单向录音,录音S秒后生成一个录音文件,然后将录音文件逐一和重复音样本库、自然音样本库中的所有诈骗样本一一比对,当录音文件和诈骗样本是相同语音时,则说明所述录音文件是诈骗电话,指示被叫MSC中断主、被叫之间的语音通道,当录音文件和所有诈骗样本都不是相同语音时,则说明录音文件不是诈骗电话,继续执行原有的业务流程。
通过桥接主、被叫之间的语音通道,主、被叫之间的语音数据都将经过防诈骗平台来传输,由于被叫侧的语音则会对主叫语音形成干扰,所以本发明仅对主叫语音进行单向录制。步骤A2中,可以采用人工方式对录音文件来试听甄别,如果录音文件中是真人说话的诈骗电话,则将录音文件作为诈骗样本保存到自然音样本库中;如果录音文件中是机器播放录音的诈骗电话,则将录音文件作为诈骗样本保存到重复音样本库中,如此下来,随着诈骗样本的不断增多,自然音样本库、或重复音样本库的信息会越来越丰富,对诈骗电话的识别正确率也会越来越高。步骤A3中,S的值可以根据实际需要而设定,以满足疑似诈骗电话在通话过程中被实时识别和拦截。
图3步骤A3中,将录音文件逐一和重复音样本库、自然音样本库中的所有诈骗样本一一比对,还可以进一步包括有:先将录音文件和重复音样本库中的诈骗样本一一比对,当录音文件和重复音样本库中的所有诈骗样本都不是相同语音时,再将录音文件和自然音样本库中的诈骗样本一一比对。
如图4所示,将录音文件和重复音样本库中的诈骗样本一一比对,还可以进一步包括有:
步骤A31、为录音文件构建一个时间特征值集:从录音文件的语音起始点开始,以n秒为一帧,逐一从录音文件中顺序提取出G个W帧语音信息,并利用语音端点检测技术,计算每个W帧语音信息中有效语音起始点到结束点之间的帧数,将所述帧数记为所述W帧语音信息的时间特征值,然后将计算出的G个时间特征值按照录音文件的先后次序保存到录音文件的时间特征值集中;
可以采用短时能量和过零率的双门限值判定方法来检测语音起始点和结束点,以剔除通话空白段的干扰;n、G、W的值可以根据实际需要而设定,例如n=10ms,G=100,W=5。通过多次测试发现,最短的语音长度设定在10s以上本发明具有较好的实施效果,即G≥100,W=5;
步骤A32、为录音文件构建一个能量特征值集:从录音文件的语音起始点开始,以n秒为一帧,逐一从录音文件或诈骗样本中顺序提取出G*W帧语音信息,并计算每一帧语音信息的短时能量值,将所述短时能量值记为每帧语音信息的能量特征值,然后将所述G*W个能量特征值按照录音文件的先后次序保存到录音文件的能量特征值集中;
步骤A33、从重复音样本库中读取一个诈骗样本的时间特征值集和能量特征值集;
重复音样本库中每个诈骗样本的时间特征值集和能量特征值集的构建方法和录音文件的时间特征值集和能量特征值集的构建方法相同,不在此赘述;
步骤A34、将录音文件和诈骗样本各自的时间特征值集中处于相同排序位置的时间特征值逐一比对,从而计算出录音文件和诈骗样本的时间特征值集中的时间特征值相同数TS;
步骤A35、分别从录音文件和诈骗样本的能量特征值集中提取前K个能量特征值,K的值可以根据实际需要而设定,例如K=5;
步骤A36、计算诈骗样本和录音文件的能量放大倍数:其中,YEb是诈骗样本的能量特征值集中的第b个能量特征值,GEb是录音文件的能量特征值集中的第b个能量特征值;
步骤A37、根据能量放大倍数B,对录音文件的能量特征值集中的每个能量特征值进行调整:GEb=B×GEb,其中,b是1到G*W之间的自然数;
步骤A38、将录音文件和诈骗样本的能量特征值集中处于相同排序位置的能量特征值逐一比对,从而计算出录音文件和诈骗样本的能量特征值集中的能量特征值相同数ES;
步骤A39、计算录音文件和诈骗样本的诈骗语音置信度:其中,F是置信度的加权系数,并判断录音文件和诈骗样本的诈骗语音置信度是否大于诈骗语音置信度的阈值CC?如果是,则表示录音文件和诈骗样本是相同语音,即录音文件对应的主叫来电可以被判定为诈骗电话,本流程结束;如果否,则表示录音文件和诈骗样本不是相同语音,继续从重复音样本库中读取下一个诈骗样本的时间特征值集和能量特征值集,然后转向步骤A34;其中,F、诈骗语音置信度的阈值CC的值可以根据实际情况而设置,例如,F=0.5,CC=90%。
通过文本无关的说话人识别技术(简称说话人识别技术)可以实现录音文件和自然音样本库中的诈骗样本的比对。说话人识别技术从本质上来说是个模式匹配的问题,基本原理是将待识别目标说话人的语音进行特征提取与模式训练,将得到的模型特征与自然音样本库里的模型特征进行匹配,然后根据匹配的相似度来判断最可能是自然音样本库中的哪个说话人。目前比较常用的特征提取方法有基于线性预测编码(Linear Predictive Coding,LPC)的线性预测倒普系数(Linear Predictive Cepstrum Coefficients,LPCC)、基于人声原理和听觉原理的Mel频率倒谱系数(Mel-scale Frequency Cepstral Coefficients,MFCC);常见的模式匹配方法有基于动态时间规整(dynamic time warping,DTW)、矢量量化(VectorQuantization,VQ)、隐马尔可夫模型(Hidden Markov Model,HMM)以及高斯混合模型(GaussianMixture Model,GMM)的模板匹配方法等。
采用不同的特征量提取和模式匹配方法,量化及识别的步骤不尽相同,这里不做详细描述。有研究数据表明,使用基于GMM的说话人识别技术,在高斯混合度为32、训练数据充分的情况下,准确率最高可达到98%。
如图5所示,本发明一种基于聚类算法的实时拦截诈骗电话的***,包括有防诈骗平台、业务控制点SCP和移动交换中心MSC,其中:
主叫MSC,用于当接收到用户发起的呼叫时,将所述呼叫触发至SCP,然后根据SCP的指示,继续将呼叫触发至防诈骗平台;
SCP,用于当接收到主叫MSC转发来的用户呼叫请求时,判断所述呼叫请求的主叫号码是否在取证号码表或拦截号码表中,如果是,则向主叫MSC返回呼叫接续CONTINUE消息,所述呼叫接续消息中携带有取证路由号或拦截路由号信息,并指示主叫MSC将呼叫继续触发至防诈骗平台;如果否,则执行原有业务流程,其中,当主叫号码在取证号码表中时,则呼叫接续消息中携带取证路由号,当主叫号码在拦截号码表中时,则呼叫接续消息中携带有拦截路由号;
防诈骗平台还可以进一步包括有:
聚类分析装置,用于根据所采集的话单记录,计算所有主叫号码在一定时间周期内的若干个特征指标值,然后采用聚类算法将所有主叫号码划分到三个簇中,从而使得每个簇中的主叫号码具有相同或相近的特征指标值,再将已确认诈骗号码的特征指标值分别和三个簇中主叫号码的特征指标值进行匹配,如果特征指标值所构成的取值区间越接近则说明匹配相似度越高,最后将其中匹配相似度最高的簇设置为诈骗电话簇、匹配相似度次之的簇设置为疑似诈骗电话簇;
逻辑回归装置,用于采用逻辑回归算法,分别计算诈骗号码簇、或疑似诈骗号码簇中每个主叫号码的诈骗可疑度指数:其中,zij是簇j中的第i个主叫号码,j=1或2,簇1是诈骗号码簇,簇2是疑似诈骗号码簇,Y(zij)是主叫号码zij的诈骗特征值,N是特征指标数,αjt是簇j中的特征指标t的权重系数,是主叫号码zij的特征指标t的值,βj是簇j的极大似然估计值,然后判断主叫号码的诈骗可疑度指数是否大于诈骗可疑度指数的阈值,如果是,则说明该主叫号码是诈骗电话、或疑似诈骗电话;如果否,则说明该主叫号码不是诈骗号码、或疑似诈骗号码,从主叫号码所归属的诈骗号码簇、或疑似诈骗号码簇中删除所述主叫号码;
号码表更新装置,用于将诈骗号码簇、和疑似诈骗号码簇中的所有主叫号码分别更新到取证号码表、和拦截号码表中;
呼叫转发装置,用于接收到主叫MSC发送来的呼叫请求时,判断呼叫请求中是否携带有取证路由号或拦截路由号,如果携带有取证路由号,则通知录音取证装置,如果携带有拦截路由号,则通知诈骗拦截装置;
录音取证装置,用于对呼叫请求中主、被叫之间的语音通道进行桥接,然后对主叫语音进行单向录音,生成一个录音文件,并将所述录音文件保存到自然音样本库、或重复音样本库中;
诈骗拦截装置,用于对呼叫请求中主、被叫之间的语音通道进行桥接,然后对主叫语音进行单向录音,录音S秒后生成一个录音文件,再将录音文件逐一和重复音样本库、自然音样本库中的所有诈骗样本一一比对,当录音文件和诈骗样本是相同语音时,说明录音文件是诈骗电话,则指示被叫MSC中断主、被叫之间的语音通道。
如图6所示,聚类分析装置还可以进一步包括有:
特征指标构建单元,用于计算所有主叫号码在一定时间周期内的若干个特征指标值,并为所有主叫号码分别构建对应的特征指标集:Xi=(xi1,xi2,…,xiN),其中Xi是主叫号码zi的特征指标集,xi1、xi2、…xiN分别是主叫号码zi的若干个特征指标值,N是特征指标数;
簇构建初始化单元,用于构建三个簇:簇1、簇2和簇3,并将所有主叫号码随机划分到三个簇中,其中每个主叫号码都唯一的归属于一个簇;
簇中心计算单元,用于计算每个簇的特征指标中心值集Cj:其中Cj是簇j的特征指标中心值集,j=1、2或3,是Cj中的特征指标t的中心值,t是1到N之间的一个自然数,且i是1到Mj之间的一个自然数,Mj是簇j中的主叫号码数,是簇j中的主叫号码zij的特征指标t的值,然后通知簇调整单元计算所有主叫号码的平方误差和;
簇调整单元,用于计算所有主叫号码的平方误差和:并判断E是否小于或等于E的阈值,如果否,则再计算每个主叫号码和所有簇的特征指标中心值集之间的距离,并从中挑选距离的最小值,然后将主叫号码重新划分到距离的最小值所对应的簇中,其中主叫号码zi和簇j的特征指标中心值集之间的距离的计算公式如下:xit是主叫号码zi的特征指标t的值,最后通知簇中心计算单元重新计算每个簇的特征指标中心值集,其中,E的阈值是0到1之间的一个数,其值可以根据实际情况而设定,例如2.71828-5。
如图7所示,诈骗拦截装置还可以进一步包括有:
语音录音单元,用于接收主叫发出的呼叫请求,然后桥接主、被叫之间的语音通道,并在主、被叫之间的语音通道建立后,对主叫语音进行单向录音,录音S秒后生成一个录音文件;
重复音识别单元,用于将录音文件和重复音样本库中的诈骗样本一一比对,以识别录音文件和重复音样本库中的诈骗样本是否是相同语音;
自然音识别单元,用于将录音文件和自然音样本库中的诈骗样本一一比对,以识别录音文件和自然音样本库中的诈骗样本是否是相同语音。
如图8所示,重复音识别单元还可以进一步包括有:
时间特征构建部件,用于为录音文件、或重复音样本库中每个诈骗样本构建各自的时间特征值集:从录音文件或诈骗样本的语音起始点开始,以n秒为一帧,逐一从录音文件或诈骗样本中顺序提取出G个W帧语音信息,并利用语音端点检测技术,计算每个W帧语音信息中有效语音起始点到结束点之间的帧数,将所述帧数记为所述W帧语音信息的时间特征值,然后将计算出的G个时间特征值按照录音文件或诈骗样本中的先后次序保存到录音文件或诈骗样本的时间特征值集中,其中,可以采用短时能量和过零率的双门限值判定方法来检测语音起始点和结束点,以剔除通话空白段的干扰;
能量特征构建部件,用于为录音文件、或重复音样本库中每个诈骗样本构建各自的能量特征值集:从录音文件或诈骗样本的语音起始点开始,以n秒为一帧,逐一从录音文件、或诈骗样本中顺序提取出G*W帧语音信息,并计算每一帧语音信息的短时能量值,将所述短时能量值记为每帧语音信息的能量特征值,然后将所述G*W个能量特征值按照录音文件、或诈骗样本的先后次序保存到录音文件、或诈骗样本的能量特征值集中;
诈骗置信度计算部件,用于从重复音样本库中读取每个诈骗样本的时间特征值集和能量特征值集,并将录音文件和诈骗样本的时间特征值集发送给时间特征识别部件,同时将录音文件和诈骗样本的能量特征值集发送给能量特征识别部件,然后计算录音文件和诈骗样本的诈骗语音置信度:其中,F是置信度的加权系数,并判断录音文件和诈骗样本的诈骗语音置信度是否大于阈值CC,如果是,则表示录音文件和诈骗样本是相同语音;如果否,则表示录音文件和诈骗样本不是相同语音;
时间特征识别部件,用于将录音文件和诈骗样本各自的时间特征值集中处于相同排序位置的时间特征值逐一比对,从而计算出录音文件和诈骗样本的时间特征值集中的时间特征值相同数TS;
能量特征识别部件,用于从录音文件和诈骗样本各自的能量特征值集中提取前K个能量特征值,然后计算诈骗样本和录音文件的能量放大倍数:其中,YEb是诈骗样本的能量特征值集中的第b个能量特征值,GEb是录音文件的能量特征值集中的第b个能量特征值,再根据能量放大倍数B,对录音文件的能量特征值集中的每个能量特征值进行调整:GEb=B×GEb,其中,b是1到G*W之间的自然数,最后将录音文件和诈骗样本的能量特征值集中处于相同排序位置的能量特征值逐一比对,从而计算出录音文件和诈骗样本的能量特征值集中的能量特征值相同数ES。
自然音识别单元可以通过文本无关的说话人识别技术(简称说话人识别技术)来实现录音文件和自然音样本库中的诈骗样本的比对。说话人识别技术从本质上来说是个模式匹配的问题,基本原理是将待识别目标说话人的语音进行特征提取与模式训练,将得到的模型特征与自然音样本库里的模型特征进行匹配,然后根据匹配的相似度来判断最可能是自然音样本库中的哪个说话人。目前比较常用的特征提取方法有基于线性预测编码(Linear PredictiveCoding,LPC)的线性预测倒普系数(Linear Predictive Cepstrum Coefficients,LPCC)、基于人声原理和听觉原理的Mel频率倒谱系数(Mel-scale Frequency CepstralCoefficients,MFCC);常见的模式匹配方法有基于动态时间规整(dynamic timewarping,DTW)、矢量量化(Vector Quantization,VQ)、隐马尔可夫模型(Hidden Markov Model,HMM)以及高斯混合模型(Gaussian Mixture Model,GMM)的模板匹配方法等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。