CN109756632A

CN109756632A - 一种基于多维时间序列的诈骗电话分析方法

Info

Publication number: CN109756632A
Application number: CN201811554685.9A
Authority: CN
Inventors: 张震; 孟许歌; 缪亚男; 马欢; 庞韶敏; 李波波; 于芳名; 金红; 杨满智; 刘长永
Original assignee: Heng Jia Jia (beijing) Technology Co Ltd; National Computer Network and Information Security Management Center
Current assignee: Heng Jia Jia (beijing) Technology Co Ltd; National Computer Network and Information Security Management Center; Eversec Beijing Technology Co Ltd
Priority date: 2018-12-19
Filing date: 2018-12-19
Publication date: 2019-05-14
Anticipated expiration: 2038-12-19
Also published as: CN109756632B

Abstract

本发明公开了一种基于多维时间序列的诈骗电话分析方法，该方法包括：将每个号码的所有通话作为一个整体，每间隔时间段选取与诈骗呼叫相关性较大的行为特征，计算每个号码在该间隔时间段内的特征统计量，并设定是否为诈骗呼叫的标签；将每个号码在设定的间隔时间段的多个行为特征按时间顺序排列，整合形成在一个完整时间段内的一个多维时间序列数据集，多个号码形成多个多维时间序列数据集；将带标签的多个多维时间序列数据集，代入LSTM网络模型训练；根据某号码在该一个完整时间段的模型训练，预测该号码在该完整时间段的下一个间隔时间段时的通话呼叫是否为诈骗呼叫。通过本发明的方法，能够从众多的话单数据中分析预判是否为诈骗呼叫。

Description

一种基于多维时间序列的诈骗电话分析方法

技术领域

本发明属于人工智能及大数据技术领域，具体涉及一种基于多维时间序列的诈骗电话分析方法。

背景技术

近年来利用电话进行的诈骗方式呈爆发趋势，受骗面广，金额巨大，通信诈骗成为巨大的用户痛点。

目前的诈骗电话具有多样性、隐蔽性、高对抗性等特点，甚至通过高科技手段进行改号，仿冒他人或组织机构的号码进行诈骗。这些诈骗电话和一般正常电话的通话行为极其相似，隐藏在海量话单之中，很难将其区分，而且很多诈骗电话前期是正常通话，具有很大的迷惑性，诈骗者诈骗手段多种多样、***，让人防不胜防，这也严重影响了通话秩序也威胁到整个电信网的安全，损害了电信用户的利益以及电信网的信誉。

因此，如何从众多的话单数据中分析预判是否为诈骗呼叫，便成为了目前亟待解决的技术问题。

发明内容

本发明的目的是提供一种基于多维时间序列的诈骗电话分析方法，以有效的发现隐蔽的诈骗电话号码。

本发明采用的技术方案如下：

一种基于多维时间序列的诈骗电话分析方法，所述方法包括：

一.行为特征计算

全国每天能够产生几十亿条CDR话单数据，每个号码可以产生多个话单。首先把每个号码的所有通话作为一个整体，每个整体以每个小时的通话行为为研究对象。其次从业务角度出发，选取和诈骗呼叫相关性较大的特征。如：主叫通话次数、通话总时长、通话间隔等。行为特征统计量详细见表1。最后计算每个号码每个小时的特征统计量；并赋予人工审核其在该时间段是否为诈骗呼叫的标签。

二.多维时间序列整合

将每个号码每小时的多个行为特征统计量按时间顺序排列整合形成一个多维时间序列数据集；多个号码整合形成多个多维时间序列数据集。

三.多维时间序列建模

利用前两步得到的带标签的多维时间序列数据，代入LSTM网络进行模型训练。

四.多维时间序列预测

将一个号码连续24小时(可根据实际情况进行调整)的CDR话单经过特征计算以及数据整合形成多维时间序列数据，将该序列输入3中的模型，便可输出该号码第25小时的通话呼叫是否诈骗呼叫。

与现有技术相比，本发明所公开的一种基于多维时间序列的诈骗电话分析方法，基于CDR话单的多维时间序列数据进行建模分析，将号码一段时间的通话行为全部统计并纳入模型之中，使模型可以充分的学习诈骗电话的长期行为特征，可以有效的发现一些隐蔽的诈骗电话，甚至可以根据号码的前期时间序列数据预测其未来进行诈骗的风险，对诈骗风险较高的号码，提前交相关单位处理，将诈骗扼杀在萌芽之中。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例所述的基于多维时间序列的诈骗电话分析方法的流程示意图。

图2为本发明实施例所述的递归神经网络结构的原始图。

图3是本发明实施例所述的LSTM建模的结构示意图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明作进一步详细描述。

本发明是基于带诈骗标记的CDR话单数据，根据其号码特征及行为特征，衍生出多维变量，进而在时间维度上对数据进行计算，最终形成带标签的多维时间序列数据，将带标签的多维时间序列数据带入长短期记忆网络(LSTM)进行训练，建立长短期记忆神经网络模型。将一个号码连续24个小时的多维统计特征代入该模型即可得出该号码的在第25小时的是否为诈骗呼叫。

参照图1所示，本发明实施例所公开的一种基于多维时间序列的诈骗电话分析方法，包括如下步骤：

第一步、CDR话单的行为特征的统计计算。

全国每天能够产生几十亿条CDR话单数据，每个号码可以产生多个话单。首先把每个号码的所有通话作为一个整体，每个整体以一个间隔时间段进行统计，为了方便统计，优选以每间隔一个小时的通话行为为研究对象，每一个小时统计一次，然后24小时进行一次汇总，形成一个整体的时间段，当然一个完整的时间段可以根据实际情况进行调整，比如设置为两天或者一周等。然后从业务角度出发，选取和诈骗呼叫相关性较大的行为特征，进行统计。本实施例中选取的行为特征包括：通话频次特征，如主叫次数、主叫通话未接通次数，比例特征，如通话记录中主叫比例、通话未接通率，通话离散度特征，如通话被叫号码数、通话离散度、被叫号码万号段是否相同，按时间分布的特征，如工作时段通话频次特征，通话时长特征，如通话平均时长、通话最大时长、从通话结束到下一次通话开始时间小于s秒连续发生n次以上程度，连续通话特征，如最早通话时间、最晚通话时间，通话时间间隔特征，如通话平均时间间隔，以及通话交互特征，如主叫通话记录中被叫首次出现比例。

行为特征统计量详细见下表1。最后计算每个号码每个小时的特征统计量；并赋予人工审核其在该时间段是否为诈骗呼叫的标签。前期为人工审核确定标签，通过模型训练后，后期则可由电脑进行预判。

表1多维行为特征统计表

第二步、多维时间序列的整合。

将每个号码在设定的间隔时间段(比如每一个小时)的多个行为特征的统计量按时间顺序排列，整合形成在一个完整时间段内(比如24小时)的一个多维时间序列数据集，多个号码形成多个多维时间序列数据集。

将每个号码在一个完整的时间段内分成多个间隔时间段，按照时间顺序，分别依次提取各时间段的各行为特征，并贴上该间隔时间段的标签，形成该一个电话号码的一个多维时间序列数据集。如号码1统计了t1、t2….t24，t1时间段的多个特征分别记录为x(1,1)、x(1,2)….t2时间段的多个特征分别记录为x(2,1)、x(2,2)…，t1时间段贴上的标签为l1、t2时间段贴上的标签为l2，以此类推，tn时间段贴上的标签为ln。多个号码形成多个多维时间序列数据集。如下表2所示。

表2多维时间序列整合

时间序列数据是数据库中一类非常重要的数据，它反映了属性值在时间顺序上的特征，时间序列问题作为数据分析中的一类重要问题，表现在现实世界中大量数据具有时间上的关联性，利用时间序列进行分析，可以得到数据中蕴含的与时间相关的有用信息。

第三步、多维时间序列建模。

电话诈骗具有隐蔽性、多面性和高对抗性，想要准确找出诈骗电话首先要研究其长期行为特征，发现不同特征在时间维度上的关联性，多维时间序列数据刚好具有这样的特性。

LSTM神经网络模型可以很好的处理多维度的时间序列数据，原理如下：

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。

递归神经网络在隐藏层加入了循环过程，使网络具有记忆功能，图2展示了网络隐藏层的展开过程：

LSTM神经网络对递归神经网络的改进：通过遗忘门(forget gate)、输入门(inputgate)、细胞状态(cell state)更新、输出门(output gate)来控制网络记忆功能的时间，避免递归神经网络梯度消失的问题。

第一步是用来决定什么信息可以通过“cell state”。这个决定由“forget gate”层通过sigmoid函数来控制，它会根据上一时刻的输出h_t-1和当前输入x_t来产生一个0到1的f_t值，来决定是否让上一时刻学到的信息C_t-1通过或部分通过。计算公式如下：

f_t＝σ(W_f·[h_t-1，x_t]+b_f)。

第二步是“input gate”通过一个tanh层用来生成新的候选值它作为当前层产生的候选值可能会添加到cell state中。计算公式如下：

i_t＝σ(W_i·[h_t-1，x_t]+b_i)

在第三步中，产生我们需要更新的新信息。这一步包含两部分，第一个是一个“forget gate”层通过sigmoid来决定哪些值用来更新，第二个是“input gate”通过一个tanh层用来生成新的候选值它作为当前层产生的候选值可能会添加到cell state中。我们会把这两部分产生的值结合来进行更新。计算公式如下：

第四步，决定模型的输出，首先是“output gate”通过sigmoid层来得到一个初始输出，然后使用tanh将C_t值缩放到-1到1间，再与sigmoid得到的输出逐对相乘，从而得到模型的输出。计算公式如下：

o_t＝σ(W_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(C_t)

参照图3所示，x1，x2，x3，…，x24分别对应t1，t2，t3，…，t24时刻时间点的特征向量，即为网络的输入，即设定每次输入序列长度为24小时，以滑动窗口形式不断输入，y24对应l25时刻的标签值，表示该时间点的输出。其中(h1、h2、h3、…)代表网络的隐藏层，Whh表示网络t-1时刻的隐藏层到t时刻的隐藏层所乘的系数矩阵；Wxh代表t时刻输入层(x1，x2，x3，…，x24)到t时刻隐藏层所乘的系数矩阵；Why表示t时刻网络的隐藏层到t时刻的输出层y24所乘的系数矩阵，这三个系数矩阵都是由模型训练自动得到的。得到系数矩阵之后，输入连续24小时的一个预测数据就可以得到预测结果y24，及下一时刻的标签(是否为诈骗呼叫)。

第四步、多维时间序列预测

根据某号码在该一个完整时间段的模型训练，预测该号码在该完整时间段的下一个间隔时间段时的通话呼叫是否为诈骗呼叫。比如，将一个号码连续24小时的CDR话单经过特征计算形成一条多维时间序列数据，将该序列输入模型，便可输出该号码下1小时的呼叫是否诈骗呼叫。当然，本发明设定的时间序列长度为24小时，根据需要可以进行调整。

本发明基于带标签的CDR话单数据，根据其号码特征及行为特征，衍生出多维变量，进而在时间维度上对数据进行特征计算及整合，最终形成带标签的多维时间序列数据，将带标签的多维时间序列数据代入长短期记忆网络(LSTM)进行训练，建立长短期记忆神经网络模型。基于该模型可对电话的某一时间段的诈骗呼叫进行预测。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于多维时间序列的诈骗电话分析方法，其特征在于，所述方法包括：

将每个号码的所有通话作为一个整体，每间隔时间段选取与诈骗呼叫相关性较大的行为特征，计算每个号码在该间隔时间段内的特征统计量，并赋予人工审核其在该间隔时间段是否为诈骗呼叫的标签；

将每个号码在设定的间隔时间段的多个行为特征的统计量按时间顺序排列，整合形成在一个完整时间段内的一个多维时间序列数据集，多个号码形成多个多维时间序列数据集；

将带标签的多个多维时间序列数据集，代入LSTM网络进行模型训练；

根据某号码在该一个完整时间段的模型训练，预测该号码在该完整时间段的下一个间隔时间段时的通话呼叫是否为诈骗呼叫。

2.根据权利要求1所述的诈骗电话分析方法，其特征在于，计算的所述特征统计量包括：通话频次特征、比例特征、通话离散度特征、按时间分布的特征、通话时长特征、连续通话特征、通话时间间隔特征及通话交互特征。

3.根据权利要求1或2所述的诈骗电话分析方法，其特征在于，将每个号码在一个完整的时间段内分成多个间隔时间段，按照时间顺序，分别依次提取各时间段的各行为特征，并贴上该间隔时间段的标签，形成该一个电话号码的一个多维时间序列数据集，多个号码形成多个多维时间序列数据集。

4.根据权利要求3所述的诈骗电话分析方法，其特征在于，在LSTM网络中，网络的输入为用户号码在该一个完整时间段内的多个间隔时间段的特征向量，以滑动窗口形式不断输入至隐藏层，最终得到该完整时间段的最后一个时刻的预测数据。

5.根据权利要求3所述的诈骗电话分析方法，其特征在于，该间隔时间段以小时为单位，完整时间段以24小时为单位。

6.根据权利要求1或2所述的诈骗电话分析方法，其特征在于，对某间隔时间段没有通话记录的所有特征值记为0。