CN112512052A

CN112512052A - 基于时间分段特征统计的数据安全异常检测方法及***

Info

Publication number: CN112512052A
Application number: CN202110157348.1A
Authority: CN
Inventors: 陈晓莉; 丁一帆; 徐佳丽; 杨世宏; 林建洪
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2021-02-05
Filing date: 2021-02-05
Publication date: 2021-03-16

Abstract

本发明公开了基于时间分段特征统计的数据安全异常检测方法及***，其中涉及的基于时间分段特征统计的数据安全异常检测方法，包括：S1.采集多种类号码的通话话单数据；S2.对采集到的号码相对应的通话话单数据中的每一条通话记录的时间基于预设时间范围进行分段，并对分段后时间相对应的通话记录进行打标签，得到4种类型的通话记录；S3.统计每小时通话话单数据中4种类型的通话个数，将每小时统计的4种类型的通话个数转化为相对应的96维特征，并统计24小时内的96维特征；96维特征为神经网络的输入的维度；S4.将统计的96维特征作为输入，构建神经网络检测模型；S5.将测试号码执行步骤S2‑S3，并通过构建的神经网络检测模型输出是否为不良号码的结果。

Description

基于时间分段特征统计的数据安全异常检测方法及***

技术领域

本发明涉及通信安全以及机器学习技术领域，尤其涉及基于时间分段特征统计的数据安全异常检测方法及***。

背景技术

新冠肺炎疫情复工复产期间，各地开始逐步解除限制恢复生产。在此期间，电信骚扰与诈骗也同步出现，且与疫情前相比攀升了35%。防疫期间从超市到药店，从小区物业到公交地铁，各机构与场所都要求登记个人信息，包括姓名、手机号、身份证都是必填，通过此类数据收集精准追溯到个人进行骚扰诈骗易如反掌，如果收集数据的人员与机构不能按照《个人信息安全规范》进行数据保护与脱敏处理，公开姓名、年龄、身份证号码、电话号码、家庭住址等个人信息或是非法倒卖此类信息，数据就会大量流入黑灰产业链，造成骚扰与诈骗飙升的状况。

公开号为CN107222865A的专利公布了一种基于可疑行为识别的通讯诈骗实时检测方法和***，包括离线模型训练阶段与实时诈骗检测阶段；建立动作特征识别模型和动作特征风险预测模型，通过分析陌生来电的通话语音和短信内容，检测其异常的、可疑的行为来进行诈骗预测。来电语音通过语音转文字的方式将来电主叫方的通话内容转变成文字信息，与短信内容同时使用自然语言处理方法提取出动作行为特征，并判断对话中出现的动作行为特征中是否有包含隐私信息询问和恶意命令等在内的可疑行为的可能性。上述专利虽然能够实现快速准确的防通讯诈骗检测，降低用户被欺诈的可能性；但是上述专利是在通话时进行检测的，不能根据用户的通话话单进行分析。

针对以上现状，本专利提出的一种基于时间分段特征统计的数据安全异常检测方法及***。

发明内容

本发明的目的是针对现有技术的缺陷，提供了基于时间分段特征统计的数据安全异常检测方法及***。

为了实现以上目的，本发明采用以下技术方案：

基于时间分段特征统计的数据安全异常检测方法，包括步骤：

S1.采集多种类号码的通话话单数据；

S2.对采集到的号码相对应的通话话单数据中的每一条通话记录的时间基于预设时间范围进行分段，并对分段后时间相对应的通话记录进行打标签，得到4种类型的通话记录；

S3.统计每小时通话话单数据中4种类型的通话个数，将每小时统计的4种类型的通话个数转化为相对应的96维特征，并统计24小时内的96维特征；其中，96维特征为神经网络的输入的维度；

S4.将统计的96维特征作为输入，构建神经网络检测模型；

S5.将测试号码执行步骤S2-S3，并通过构建的神经网络检测模型输出是否为不良号码的结果。

进一步的，所述步骤S2中预设时间范围包括T=0s、0s＜T≤10s、10s＜T≤30s、T＞30s；其中，T表示通话记录的时间。

进一步的，所述步骤S2中对分段后时间相对应的通话记录进行打标签具体为：

将T=0s的通话记录定义为silence通话类型；将0s＜T≤10s的通话记录定义为short通话类型；将10s＜T≤30s的通话记录定义为medium通话类型；将T＞30s的通话记录定义为long通话类型。

进一步的，所述步骤S3包括：

S31.统计每小时通话话单数据中的silence通话类型、short通话类型、medium通话类型、long通话类型的通话个数；

S32.将统计的每小时的silence通话类型、short通话类型、medium通话类型、long通话类型的通话个数转化为96维特征；

S33.统计24小时内的96维特征。

进一步的，所述步骤S4中构建神经网络检测模型中的神经网络为3层神经网络，其中第1层神经网络有128个节点，第2层神经网络有32个节点，第3层神经网络有4个节点。

相应的，还提供基于时间分段特征统计的数据安全异常检测***，包括：

采集模块，用于采集多种类号码的通话话单数据；

分段模块，用于对采集到的号码相对应的通话话单数据中的每一条通话记录的时间基于预设时间范围进行分段，并对分段后时间相对应的通话记录进行打标签，得到4种类型的通话记录；

第一统计模块，用于统计每小时通话话单数据中4种类型的通话个数，将每小时统计的4种类型的通话个数转化为相对应的96维特征，并统计24小时内的96维特征；其中，96维特征为神经网络的输入的维度；

构建模块，用于将统计的96维特征作为输入，构建神经网络检测模型；

测试模块，用于将测试号码相对应的数据输入构建的神经网络检测模型中，输出是否为不良号码的结果。

进一步的，所述分段模块中预设时间范围包括T=0s、0s＜T≤10s、10s＜T≤30s、T＞30s；其中，T表示通话记录的时间。

进一步的，所述分段模块中对分段后时间相对应的通话记录进行打标签具体为：

进一步的，所述第一统计模块包括：

第二统计模块，用于统计每小时通话话单数据中的silence通话类型、short通话类型、medium通话类型、long通话类型的通话个数；

转换模块，用于将统计的每小时的silence通话类型、short通话类型、medium通话类型、long通话类型的通话个数转化为96维特征；

第三统计模块，用于统计24小时内的96维特征。

进一步的，所述构建模块中构建神经网络检测模型中的神经网络为3层神经网络，其中第1层神经网络有128个节点，第2层神经网络有32个节点，第3层神经网络有4个节点。

与现有技术相比，本发明可从通信行为层面挖掘异常通信行为，挖掘骚扰、诈骗号码与受害用户，从而定位用户数据安全异常情况，为打击用户数据泄露提供技术支撑。

附图说明

图1是实施例一提供的基于时间分段特征统计的数据安全异常检测方法流程图；

图2是实施例一提供的训练阶段结构示意图；

图3是实施例一提供的判断阶段结构示意图；

图4a是实施例二提供的骚扰诈骗号码通话时间分段分布示意图；

图4b是实施例二提供的出租车号码通话时间分段分布示意图；

图4c是实施例二提供的外卖快递号码通话时间分段分布示意图；

图4d是实施例二提供的正常号码通话时间分段分布示意图；

图5是实施例三提供的基于时间分段特征统计的数据安全异常检测***结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

实施例一

本实施例提供基于时间分段特征统计的数据安全异常检测方法，如图1所示，包括步骤：

S1.采集多种类号码的通话话单数据；

S4.将统计的96维特征作为输入，构建神经网络检测模型；

本实施例的基于时间分段特征统计的数据安全异常检测方法包括训练阶段和判断阶段。

训练阶段如图2所示，具体为：对明确确认的多个类型的正常号码（网约车号码、快递号码、外卖号码等）和不良号码的通话时间进行分段统计，每小时统计一次，共24小时，最后将每个号码统计后的通话时间特征转化为96维特征向量；将特征向量作为神经网络的输入，将号码的类标作为神经网络的输出，模拟多种类型的正常号码和不良号码的行为，完成模型构建。

判断阶段如图3所示，具体为：对现网的每一个号码进行上述同样的通话时间分段统计构建通话时间特征；将号码96维特征向量输入到训练好的模型中，由模型判断每一个号码的类别，输出正常号码和不良号码。

本实施例的步骤S1-S4为训练阶段，步骤S5为判断阶段。

在步骤S1中，采集多种类的正常号码和不良号码的通话话单数据。

对多种类的正常号码和不良号码的通话话单数据进行采集，作为建模的样本数据。

在步骤S2中，对采集到的号码相对应的通话话单数据中的每一条通话记录的时间基于预设时间范围进行分段，并对分段后时间相对应的通话记录进行打标签，得到4种类型的通话记录。

步骤S1中会预先采集多种类号码的通话话单数据，对采集的所有种类号码的通话话单数据均会进行处理，具体的对任一号码的通话话单数据进行处理具体如下：

本实施例以小时为单位，对采集的主叫号码（即号码）24小时（0-23点）中每小时内的每一条通话记录中的时间进行分段，将不同时间范围的通话定义为不同的类型，并基于定义打标签，对应定义的时间范围其标签记为1，其他标签记为0，然后执行步骤S3。

其中定义包括：通话记录的时间T为0s，定义为silence类型，通话记录的时间T大于0s且小于10s，定义为short通话类型，通话记录的时间T大于10s且小于30s，定义为medium类型，通话记录的时间T大于30s，定义为long通话类型，定义规则见下表1：

通话时间(s)	类型
		0	silence
0-10	short
		10-30	medium
>30	long

表1

如当前主叫号码为‘135XXXXXXXX’，当其在5月3日11点的一条通话记录的通话时间为8s，则将当前通话记录定义为short通话类型，即当前通话记录对应的short通话类型的标签为1，其余silence通话类型、medium通话类型、long通话类型的标签都为0；当其在5月3日11点的另一条通话记录的通话时间为13s，则将当前通话记录定义为medium通话类型，即当前通话记录对应的medium通话类型的标签为1，其余silence通话类型、short通话类型、long通话类型的标签都为0；当其在5月3日17点的一条通话记录的通话时间为40s，则将当前通话记录定义为long通话类型，即当前通话记录对应的long通话类型的标签为1，其余silence通话类型、short通话类型、medium通话类型的标签都为0。

在步骤S3中，统计每小时通话话单数据中4种类型的通话个数，将每小时统计的4种类型的通话个数转化为相对应的96维特征，并统计24小时内的96维特征。具体包括：

由于本实施例是以小时为单位的，因为会先统计每个小时通化行为silence通话类型、short通话类型、medium通话类型、long通话类型的通话个数。

如号码‘135XXXXXXXX’，在5月3日11点这一个小时中，有8条通话记录，通话记录对应的通话时间分别为[8,49,27,926,13,91,74,24,]，则通过步骤S2中打标签处理后，当前这一小时统计后的标签为[‘slience’:0，‘short’:1，‘medium’:3，‘long’:4]。

将号码每小时的通话行为转为96维特征，其中，1到24维对应号码在0-23点silence通话类型的通话个数；25到48维对应号码在0点到23点short通话类型的通话个数；49到72维对应号码在0-23点medium通话类型的通话个数；73到96维对应号码在0点到23点long通话类型的通话个数。

如步骤S31中得到5月3日10点-11点这一小时统计后的标签为[‘slience’:0，‘short’:1，‘medium’:3，‘long’:4]；则96维特征为：

[‘hour0_silence’:0,‘hour1_silence’:0,‘hour2_silence’:0,‘hour3_silence’:0,‘hour4_silence’:0,‘hour5_silence’:0,‘hour6_silence’:0,‘hour7_silence’:0,‘hour8_silence’:0,‘hour9_silence’:0,‘hour10_silence’:0,‘hour11_silence’:0,‘hour12_silence’:0,‘hour13_silence’:0,‘hour14_silence’:0,‘hour15_silence’:0,‘hour16_silence’:0,‘hour17_silence’:0,‘hour18_silence’:0,‘hour19_silence’:0,‘hour20_silence’:0,‘hour21_silence’:0, ‘hour22_silence’:0,‘hour23_silence’:0,

‘hour0_short’:0,‘hour1_short’:0,‘hour2_short’:0,‘hour3_short’:0,‘hour4_short’:0,‘hour5_short’:0,‘hour6_short’:0,‘hour7_short’:0,‘hour8_short’:0,‘hour9_short’:0,‘hour10_short’:0,‘hour11_short’:1,‘hour12_short’:0,‘hour13_short’:0,‘hour14_short’:0,‘hour15_short’:0,‘hour16_short’:0,‘hour17_short’:0,‘hour18_short’:0,‘hour19_short’:0, ‘hour20_short’:0, ‘hour21_short’:0, ‘hour22_short’:0, ‘hour23_short’:0,

‘hour0_medium’:0,‘hour1_medium’:0,‘hour2_medium’:0,‘hour3_medium’:0,‘hour4_medium’:0,‘hour5_medium’:0,‘hour6_medium’:0,‘hour7_medium’:0,‘hour8_medium’:0,‘hour9_medium’:0,‘hour10_medium’:0,‘hour11_medium’:3,‘hour12_medium’:0,‘hour13_medium’:0,‘hour14_medium’:0,‘hour15_medium’:0,‘hour16_medium’:0,‘hour17_medium’:0,‘hour18_medium’:0,‘hour19_medium’:0,‘hour20_medium’:0, ‘hour21_medium’:0, ‘hour22_medium’:0, ‘hour23_medium’:0,

‘hour0_long’:0,‘hour1_long’:0,‘hour2_long’:0,‘hour3_long’:0,‘hour4_long’:0,‘hour5_long’:0,‘hour6_long’:0,‘hour7_long’:0,‘hour8_long’:0,‘hour9_long’:0,‘hour10_long’:0,‘hour11_long’:4,‘hour12_long’:0,‘hour13_long’:0,‘hour14_long’:0,‘hour15_long’:0,‘hour16_long’:0,‘hour17_long’:0,‘hour18_long’:0,‘hour19_long’:0,‘hour20_long’:0, ‘hour21_long’:0, ‘hour22_long’:0,‘hour23_long’:0]。

S33.统计24小时内的96维特征。

将步骤S32中每个小时统计的96维特征进行合并，得到24小时的96维通话特征。本实施例由于直接统计24小时的实现起来不太方便，所以先实现每个小时的，最后拼接起来合并。

如号码‘135XXXXXXXX’，假设分别在5月3日6点，7点，8点，9点，10点，11点，12点，14点，15点，16点，17点，18点，19点都有通话记录，将各自时间点的通话记录均按照步骤S32进行处理，则会得到各自时间点的96维特征，然后将各自时间的96维度进行合并，则此号码在5月3日每小时的通话行为映射到合并后的24小时96维通话特征形式为：

‘hour0_medium’:0,‘hour1_medium’:0,‘hour2_medium’:0,‘hour3_medium’:0,‘hour4_medium’:0,‘hour5_medium’:0,‘hour6_medium’:1,‘hour7_medium’:0,‘hour8_medium’:0,‘hour9_medium’:0,‘hour10_medium’:1,‘hour11_medium’:3,‘hour12_medium’:0,‘hour13_medium’:0,‘hour14_medium’:0,‘hour15_medium’:0,‘hour16_medium’:0,‘hour17_medium’:1,‘hour18_medium’:1,‘hour19_medium’:3,‘hour20_medium’:0, ‘hour21_medium’:0, ‘hour22_medium’:0, ‘hour23_medium’:0,

‘hour0_long’:0,‘hour1_long’:0,‘hour2_long’:0,‘hour3_long’:0,‘hour4_long’:0,‘hour5_long’:0,‘hour6_long’:0,‘hour7_long’:3,‘hour8_long’:4,‘hour9_long’:2,‘hour10_long’:2,‘hour11_long’:4,‘hour12_long’:1,‘hour13_long’:0,‘hour14_long’:3,‘hour15_long’:2,‘hour16_long’:3,‘hour17_long’:5,‘hour18_long’:6,‘hour19_long’:4,‘hour20_long’:0, ‘hour21_long’:0, ‘hour22_long’:0,‘hour23_long’:0]。

在步骤S4中，将统计的96维特征作为输入，构建神经网络检测模型。

神经网络是由函数组成的一种运算模型，通过建模来探索输入和输出间的复杂关系，训练神经网络的主要工作是建立模型和确定权值。通常神经网络的学习和训练需要一组输入数据和输出数据对应，选择网络模型和传递、训练函数后神经网络计算得到输出结果，根据实际输出和期望输出之间的误差进行权值的修正，在网络进行判断的时候就只有输入数据而没有预期的输出结果。神经网络一个重要的能力是其网络能通过它的神经元权值和阈值的不断调整从环境中进行学习，直到网络的输出误差达到预期的结果。

本实施例通过统计话单将号码的24小时通话行为转化为神经网络的输入向量X，X为一个96维度的向量；并利用96维特征作为输入，构建3层神经网络，层结构如下：第1层有128个节点，第2层有32个节点，第3层有4个节点，激活函数使用sigmoid函数。将已知的4类样本打上标签，每个输入对应一个四维的标签：其中[1,0,0,0]代表不良语音，[0,1,0,0],[0,1,0,0]为出租车，[0,0,1,0]为快递外卖，[0,0,0,1]代表正常通话。利用神经网络拟合96维通话时间的特征到分类目标的映射来完成模型训练。

在步骤S5中，将测试号码执行步骤S2-S3，并通过构建的神经网络检测模型输出是否为不良号码的结果。

对现网的所有号码进行上述S2-S3步骤的处理，通过构建的模型判断号码是否为不良号码，并将结果输出。

与现有技术相比，本实施例可从通信行为层面挖掘异常通信行为，挖掘骚扰、诈骗号码与受害用户，从而定位用户数据安全异常情况，为打击用户数据泄露提供技术支撑。

实施例二

本实施例提供的基于时间分段特征统计的数据安全异常检测方法与实施例一的不同之处在于：

本实施例以具体实例进行说明。

本实施例使用32948训练样本，5815个测试样本，将通话时间按照定义规则分段后，各类号码的24小时通话统计特征关于定义的4种通话类型的分布情况，图4a为骚扰诈骗号码通话时间分段分布示意图；图4b为出租车号码通话时间分段分布示意图；图4c为外卖快递号码通话时间分段分布示意图；图4d为正常号码通话时间分段分布示意图。

图4a中的每幅图表示骚扰诈骗类型某个号码的通话时间与对应个数；

图4b中的每幅图表示出租车类型某个号码的通话时间与对应个数；

图4c中的每幅图表示外卖快递类型某个号码的通话时间与对应个数；

图4d中的每幅图表示正常类型的某个号码的通话时间与对应个数。

基于以上分段特征统计，运用上述算法及流程对话单数据进行训练，将所有训练样本训练20次之后，识别出骚扰、诈骗、推销等黑名单号码以及网约车、快递、外卖等白名单号码，模型训练准确率约为97.8%。

实施例三

本实施例提供基于时间分段特征统计的数据安全异常检测***，如图5所示，包括：

采集模块11，用于采集多种类号码的通话话单数据；

分段模块12，用于对采集到的号码相对应的通话话单数据中的每一条通话记录的时间基于预设时间范围进行分段，并对分段后时间相对应的通话记录进行打标签，得到4种类型的通话记录；

第一统计模块13，用于统计每小时通话话单数据中4种类型的通话个数，将每小时统计的4种类型的通话个数转化为相对应的96维特征，并统计24小时内的96维特征；其中，96维特征为神经网络的输入的维度；

构建模块14，用于将统计的96维特征作为输入，构建神经网络检测模型；

测试模块15，用于将测试号码相对应的数据输入构建的神经网络检测模型中，输出是否为不良号码的结果。

进一步的，所述第一统计模块包括：

第三统计模块，用于统计24小时内的96维特征。

需要说明的是，本实施例提供的基于时间分段特征统计的数据安全异常检测***与实施例一类似，在此不多做赘述。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.基于时间分段特征统计的数据安全异常检测方法，其特征在于，包括步骤：

S1.采集多种类号码的通话话单数据；

S4.将统计的96维特征作为输入，构建神经网络检测模型；

2.根据权利要求1所述的基于时间分段特征统计的数据安全异常检测方法，其特征在于，所述步骤S2中预设时间范围包括T=0s、0s＜T≤10s、10s＜T≤30s、T＞30s；其中，T表示通话记录的时间。

3.根据权利要求2所述的基于时间分段特征统计的数据安全异常检测方法，其特征在于，所述步骤S2中对分段后时间相对应的通话记录进行打标签具体为：

4.根据权利要求3所述的基于时间分段特征统计的数据安全异常检测方法，其特征在于，所述步骤S3包括：

S33.统计24小时内的96维特征。

5.根据权利要求1所述的基于时间分段特征统计的数据安全异常检测方法，其特征在于，所述步骤S4中构建神经网络检测模型中的神经网络为3层神经网络，其中第1层神经网络有128个节点，第2层神经网络有32个节点，第3层神经网络有4个节点。

6.基于时间分段特征统计的数据安全异常检测***，其特征在于，包括：

采集模块，用于采集多种类号码的通话话单数据；

7.根据权利要求6所述的基于时间分段特征统计的数据安全异常检测***，其特征在于，所述分段模块中预设时间范围包括T=0s、0s＜T≤10s、10s＜T≤30s、T＞30s；其中，T表示通话记录的时间。

8.根据权利要求7所述的基于时间分段特征统计的数据安全异常检测***，其特征在于，所述分段模块中对分段后时间相对应的通话记录进行打标签具体为：

9.根据权利要求8所述的基于时间分段特征统计的数据安全异常检测***，其特征在于，所述第一统计模块包括：

第三统计模块，用于统计24小时内的96维特征。

10.根据权利要求6所述的基于时间分段特征统计的数据安全异常检测***，其特征在于，所述构建模块中构建神经网络检测模型中的神经网络为3层神经网络，其中第1层神经网络有128个节点，第2层神经网络有32个节点，第3层神经网络有4个节点。