CN113591924A - 一种网络诈骗号码检测方法、***、存储介质及终端设备 - Google Patents

一种网络诈骗号码检测方法、***、存储介质及终端设备 Download PDF

Info

Publication number
CN113591924A
CN113591924A CN202110748349.3A CN202110748349A CN113591924A CN 113591924 A CN113591924 A CN 113591924A CN 202110748349 A CN202110748349 A CN 202110748349A CN 113591924 A CN113591924 A CN 113591924A
Authority
CN
China
Prior art keywords
model
matrix
training
feature
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110748349.3A
Other languages
English (en)
Inventor
杨伟志
衣杨
赵小蕾
张海
曾青青
刘少江
黎丹雨
王玉娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinhua College of Sun Yat Sen University
Original Assignee
Xinhua College of Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinhua College of Sun Yat Sen University filed Critical Xinhua College of Sun Yat Sen University
Priority to CN202110748349.3A priority Critical patent/CN113591924A/zh
Publication of CN113591924A publication Critical patent/CN113591924A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种网络诈骗号码检测方法,所述方法包括:首先针对信息诈骗行为设计相应特征并对用户行为日志进行特征提取,以构建原始特征矩阵并进行数据预处理;然后根据数据预处理后原始特征矩阵中正常用户与风险用户比例的不平衡度,采用自调节过采样算法进行少数类样本过采样,重构训练集;接着通过XGBoost模型进行预训练及特征重要性评估和特征筛选;然后对重构后的特征矩阵使用XGBoost和LightGBM模型进行模型训练;最后通过Stacking多模型融合方式提高模型性能,得到二层模型Logistic,完成移动网络风险用户识别模型。本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。

Description

一种网络诈骗号码检测方法、***、存储介质及终端设备
技术领域
本申请涉及机器学习和网络安全领域,特别是涉及一种网络诈骗号码检测方法、***、存储介质及终端设备。
背景技术
随着信息技术及通信技术的不断发展,信息通信诈骗等网络风险行为越来越频繁,技术也越来越先进且多样性,严重影响人们生活和工作。利用大数据,人工智能实现诈骗号码的识别是提升防范打击通信诈骗技术能力的重要方向。
目前,对诈骗号码的的检测,通常是基于特定的约束条件约束,或者采用随机森林算法进行的。然而,基于规则的检测方法不利于诈骗行为变化多端的情况,且基于人工设计特定的规则,不够灵活,效果比较有限;随机森林算法其预测准确度较低,因此在对于诈骗风险用户的检出率也相对较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对网络通信中诈骗号码识别的准确度及鲁棒性的网络诈骗号码检测方法、***、存储介质及终端设备。
本发明实施例提供了一种网络诈骗号码检测方法,所述方法包括以下步骤:
通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;
将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;
通过所述Logistic模型对通信过程中的网络风险用户进行识别。
进一步地,所述特征工程矩阵的获取方法包括:
对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;
对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
进一步地,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵的方法包括:
对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;
将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。
进一步地,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵的方法包括:
统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;
通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;
计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
进一步地,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:
根据距离度量计算每个少数类样本的K近邻样本;其中,K为计算近邻样本的个数;
根据同类系数模型计算每个少数类样本K近邻样本的同类系数C,并筛选出C>C_method的少数类样本作为采样少数样本;其中,C_method为同类系数阈值;
所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到符合的少数类过采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
进一步地,通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练的方法包括:
将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据;
将所述训练集及测试集分别输入所述XGBoost模型和LightGBM模型进行5折交叉验证训练,使得测试集覆盖整个训练集。
进一步地,在交叉验证训练的过程中,
设置超参数:损失函数为AUC,评估函数为fs_score,模型决策树节点***的最大深度参数为6,学习率参数为0.08,正则化参数为2,最大迭代次数为10000轮,早停为100轮;
Figure BDA0003143468570000031
Figure BDA0003143468570000032
Figure BDA0003143468570000033
其中,Precision为精确率,Recall为召回率,TP为真正例,FP为假正例,thk为阈值,K为常数。
本发明的另一实施例提出一种网络诈骗号码检测***,解决了现有对诈骗号码的的检测,通常是基于特定的约束条件约束,或者采用随机森林算法进行的;然而,基于规则的检测方法不利于诈骗行为变化多端的情况,且基于人工设计特定的规则,不够灵活,效果比较有限;随机森林算法其预测准确度较低,因此在对于诈骗风险用户的检出率也相对较低的问题。
根据本发明实施例的网络诈骗号码检测***,包括:
采样模块,用于通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
训练模块,用于通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;
融合模块,用于将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;
识别模块,用于通过所述Logistic模型对通信过程中的网络风险用户进行识别。
本发明的另一个实施例还提出一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的网络诈骗号码检测方法。
本发明的另一个实施例还提出一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如上所述的网络诈骗号码检测方法。
上述网络诈骗号码检测方法,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;通过所述Logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
附图说明
图1为本发明实施例提供的网络诈骗号码检测方法的一种流程示意图;
图2为本发明实施例提供的网络诈骗号码检测方法的数据流;
图3为图1中步骤S11的具体流程示意图;
图4为图1中步骤S12的具体流程示意图;
图5为图1中步骤S13的模型融合示意图;
图6为本发明实施例提供的网络诈骗号码检测***的结构框图;
图7为本发明实施例提供的终端设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本技术领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,文中的步骤编号,仅为了方便具体实施例的解释,不作为限定步骤执行先后顺序的作用。本实施例提供的方法可以由相关的服务器执行,且下文均以服务器作为执行主体为例进行说明。
如图1至图5所示,本发明实施例提供的网络诈骗号码检测方法,所述方法包括步骤S11至步骤S14:
步骤S11,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵。
其中,所述特征工程矩阵的获取方法包括:对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
具体的,对实际数据集中通信网络用户的通信信息进行原始特征提取前,主要考虑通信网络用户的基础属性、通话、短信和网络行为。其中,通话/短信特征包括:每个用户的月通话次数、平均通话时长、通话频率、拨出及接听比例、通信时段分布、对端号码长度、对端号码前缀、通话对象数等;网络特征包括用户上下行流量情况、访问网站数、特殊网站访问频率、上下行流量和访问类型等特征。
对实际数据集中通信网络用户的通信信息进行原始特征提取时,对通信网络用户的通话日志、短信和网络信息原始日志编写代码,以通过统计函数、聚合功能函数、透视表等功能函数进行原始特征提取,并将三个日志表提取出的特征信息根据用户ID进行合并,从而将日志数据转化为结构化数据,即模型训练需要的“样本-特征”形式的数值特征矩阵。此外,对数值特征矩阵进行异常值处理(删除)及缺失值填充(均值填充)等数据清洗工作,得到原始特征矩阵。
进一步地,在特征工程矩阵获取时,统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
可以理解的,通过统计正常用户群体和诈骗用户群体的各个特征维度的数据情况,并通过核密度图、条形图等可视化工具进行对比分析,进一步获得两种类别用户群体特征差异度较大的特征。并在此基础上:计算各个特征维度在样本集的方差,根据方差选择法提取出方差大于阈值的特征;删除正常用户和诈骗用户群体差异度较小的特征,从而得到特征工程处理后的特征工程矩阵。由于通过基于特征方差阈值、正常用户与诈骗用户特征对比等方法进行有效特征筛选,从而降低了特征维度,提搞了模型泛化能力。
请参阅图3,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:
步骤S111,根据距离度量计算每个少数类样本的K近邻样本;其中,K为计算近邻样本的个数。
步骤S112,根据同类系数模型计算每个少数类样本K近邻样本的同类系数C,并筛选出C>C_method的少数类样本作为采样少数样本;其中,C_method为同类系数阈值,近邻少数类样本为K近邻样本中的少数类样本。
步骤S113,将所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到符合的少数类过采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
具体的,由于实际情况中,诈骗用户样本比例远小于正常用户,样本不平衡会导致模型训练学***衡,即在不改变数据分布的情况下,生成更多的少数类样本,避免两种类别的样本比例差距过大。SA-SMOTE算法主要根据已有的少数类样本和欧式距离度量方式,得到每个少数类样本的K个邻近样本。对于所有少数类样本,筛选出K近邻样本中,与目标少数类样本同类系数大于阈值C的少数类样本,然后根据原少数样本与其K近邻样本中同类样本的特征分布情况,随机生成新样本。
进一步地,所述同类系数模型为,
Figure BDA0003143468570000081
其中,target_class为少数样本类别,class(i)表示样本i的类别,K为邻近样本数。
进一步地,所述随机样本生成模型为,
xnew=x+rand(0,1)*(xn-x)
x为原有的少数类样本特征向量,xn为该样本的K近邻样本中的第n个近邻样本的特征向量,rand(0,1)为生成随机的0-1之间的小数。
进一步地,通过“嵌入法”生成样本筛选:训练分类算法,分别得到添加过采样样本前的预测评价指标得分和添加当前过采样样本后的算法预测评价指标得分,若添加过采样样本使得预测结果评价指标在验证集上得分提升,则保留当前产生的过采样少数类样本,否则丢弃,直到正负样本比例符合预设比例。其中,在SA-SMOTE算法随机生成少数类样本的过程中,近邻样本数K和少数类K近邻样本同类系数阈值C_method作为超参数,可根据实验进行调优。由于得到过采样后的过采样数据集在原数据分布情况下,增加了少数类样本,从而在一定程度上缓解数据不平衡对训练模型精度的影响。
可以理解的,通过自调节过采样平衡算法对诈骗用户样本数据增强,从而在不改变数据分布的情况下避免诈骗用户于正常用户数据比例差距过大,提高模型的学习能力。该算法能针对训练数据有限的情况提高模型的检测性能。
步骤S12,通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练。
具体的,过采样数据集在原数据分布情况下,增加了少数类样本,增加的样本和原样本一起构成新的训练数据集,从而在一定程度上缓解数据不平衡对训练模型精度的影响。对全量数据集进行特征筛选。特征筛选使用嵌入法,即将训全量数据集形成的练特征矩阵放入XGBoost模型和LightGBM模型进行训练。
请参阅图4,通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练的方法包括:
步骤S121,将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据。
步骤S122,将所述训练集及测试集分别输入所述XGBoost模型和LightGBM模型进行5折交叉验证训练,使得验证集覆盖整个训练集。
其中,针对分类任务进行5折交叉验证训练时,将每次的4/5训练数据作为训练集,1/5作为测试集,切换测试集重复5次,使得测试集覆盖整个训练集。
与传统机器学习中的评价方式不同,在信息诈骗识别任务中,除了正确率,往往更关注在高精确率的情况下更多地识别出诈骗用户。精确率Precision是对给定的测试数据集中,分类器正确预测为正类(诈骗用户)的样本占所有预测为正类样本的比例,其计算公式为:
Figure BDA0003143468570000091
其中,TP为真正例(真实标签为正类,预测结果为正类),FP为假正例(真实标签为负类,预测结果为正类)。精确率用于直观地表示分类器标记正例的能力。
召回率Recall是对给定的测试数据集中,标签为正类的样本,被预测为正类的比例,其计算公式为:
Figure BDA0003143468570000092
其中,FN是假负类(真实标签为正类,预测结果为负类)。
因而,对XGBoost模型进行相应改进,修改训练逻辑,其评估函数fs_score为模型在精确率超过阈值下,召回率的得分,其计算公式为:
Figure BDA0003143468570000101
其中,Precision为精确率,Recall为召回率,thk为阈值,K为常数。
进一步地,交叉验证训练过程中,设置超参数:损失函数为AUC,评估函数为fs_score,XGBoost里面的决策树节点***最大深度参数max_depth为6,学习率参数eta为0.08,L2正则化参数设为2。
进一步地,在训练过程中,最大迭代次数设置为10000轮,并设置早停为100轮,即每100轮新训练效果在验证集fs_score得分不能超过当前最优,则停止训练,防止过拟合。
进一步地,XGBoost为树状集成模型,训练完成后,根据每个特征在树节点***的次数得到特征重要性排序。根据排序情况进行特征筛选,从而降低特征维度,提高模型的泛化能力。
在此还需要说明的是,为了提高检测模型的泛化能力和稳定性,可对XGBoost模型和LightGBM模型进行集体训练之前,通过XGBoost模型进行预训练及特征重要性评估和特征筛选。即在XGBoost模型预训练及特征重要性评估和特征筛选得到的新训练特征矩阵的基础上,再次训练XGBoost和LightGBM两个模型。
步骤S13,将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型。
可以理解的,基于XGBoost与LightGBM模型进行模型训练,并使用Stacking方法进行融合,从而提高了移动网络诈骗用户识别方法的准确度和泛化能力。
步骤S14,通过所述Logistic模型对通信过程中的网络风险用户进行识别。
请参阅图5,将两种模型的预测结果通过Stacking方式进行模型融合,得到最终的移动网络诈骗用户预测模型。Stacking是个二层模型结构,XGBoost和LightGBM为第一层,使用Logistic模型作为第二层,融合方式为分别以5折交叉验证方法训练XGBoost和LightGBM模型,将两个模型对训练集及测试集样本的预测值作为Logistic模型的特征进行训练,Logistic基于此进行最终类别预测。
可以理解的,采用机器学***均,而是通过对目标损失函数进行最优化理论计算所得。目标损失函数中的权值变化实际上是一个负梯度因子乘以一个由二阶梯度加常数的倒数组成的系数。即权值变化会沿着负梯度方向进行优化,并且根据梯度变化幅度(二阶梯度描述梯度变化的情况)动态调节优化幅度,因而,XGBoost中的树模型更容易得到最优解,且一定程度上避免了在接近最优点附近出现“震荡”现象。使模型预测更准确。
本发明结合电信诈骗识别任务中,针对高精确率下,提高诈骗用户识别召回率的特点,对XGBoost和LightGBM进行优化,自定义评估函数fs_score,保证高精确率下,提高诈骗用户识别能力。
本发明采用Stacking模型融合算法,对上述XGBoost和LightGBM模型进行融合,得到准确度高、鲁棒性能较好的诈骗号码预测模型。不同的模型在数据训练过程中,会学习到不同的规则和信息,通过适当的模型融合,可以让最终模型集成内部模型的优点,从而提升预测的准确率,并提高鲁棒性,让其在新数据上的表现也更稳定。
在分类任务中,样本不平衡会导致模型训练学***衡算法,在不改变原数据分布的情况下,生成合适的少数类样本,从而提高模型训练效果。
上述网络诈骗号码检测方法,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;通过所述Logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图6所示,是本发明提供的一种网络诈骗号码检测***的结构框图,所述***包括:
采样模块21,用于通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵。
其中,所述特征工程矩阵的获取方式包括:
对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;
对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
具体的,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵,具体为,
对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;
将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。
进一步地,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵,具体为,
统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;
通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;
计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
进一步地,所述采样模块21具体用于,根据距离度量计算每个少数类样本的K近邻样本;其中,K为计算近邻样本的个数;
根据同类系数模型计算每个少数类样本K近邻样本的同类系数C,并筛选出C>C_method的少数类样本作为采样少数样本;其中,C_method为同类系数阈值;
将所述采样少数样本与其对应的近邻少数类样本,以及通过随机样本生成模型生成的随机样本形成采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
训练模块22,用于通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练。
具体的,将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据;
将所述训练集及测试集分别输入所述XGBoost模型和LightGBM模型进行5折交叉验证训练,使得测试集覆盖整个训练集。
进一步地,在交叉验证训练的过程中,
设置超参数:损失函数为AUC,评估函数为fs_score,模型决策树节点***的最大深度参数为6,学习率参数为0.08,正则化参数为2,最大迭代次数为10000轮,早停为100轮;
Figure BDA0003143468570000141
Figure BDA0003143468570000142
Figure BDA0003143468570000143
其中,Precision为精确率,Recall为召回率,TP为真正例,FP为假正例,thk为阈值,K为常数。
融合模块23,用于将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型。
识别模块24,用于通过所述Logistic模型对通信过程中的网络风险用户进行识别。
本发明实施例所提供的网络诈骗号码检测***,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;通过所述Logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如上所述的网络诈骗号码检测方法。
本发明实施例还提供了一种终端设备,参见图7所示,是本发明提供的一种终端设备的一个优选实施例的结构框图,所述终端设备包括处理器10、存储器20以及存储在所述存储器20中且被配置为由所述处理器10执行的计算机程序,所述处理器10在执行所述计算机程序时实现如上所述的网络诈骗号码检测方法。
优选地,所述计算机程序可以被分割成一个或多个模块/单元(如计算机程序1、计算机程序2、······),所述一个或者多个模块/单元被存储在所述存储器20中,并由所述处理器10执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。
所述处理器10可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,通用处理器可以是微处理器,或者所述处理器10也可以是任何常规的处理器,所述处理器10是所述终端设备的控制中心,利用各种接口和线路连接所述终端设备的各个部分。
所述存储器20主要包括程序存储区和数据存储区,其中,程序存储区可存储操作***、至少一个功能所需的应用程序等,数据存储区可存储相关数据等。此外,所述存储器20可以是高速随机存取存储器,还可以是非易失性存储器,例如插接式硬盘,智能存储卡(Smart Media Card,SMC)、安全数字(Secure Digital,SD)卡和闪存卡(Flash Card)等,或所述存储器20也可以是其他易失性固态存储器件。
需要说明的是,上述终端设备可包括,但不仅限于,处理器、存储器,本领域技术人员可以理解,图7结构框图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件。
综上,本发明实施例所提供的网络诈骗号码检测方法、***、存储介质及终端设备,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;通过所述Logistic模型对通信过程中的网络风险用户进行识别。相比现有技术,本发明能够提高对网络通信中诈骗号码识别的准确度及鲁棒性,满足了实际应用需求。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (10)

1.一种网络诈骗号码检测方法,其特征在于,所述方法包括以下步骤:
通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;
将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;
通过所述Logistic模型对通信过程中的网络风险用户进行识别。
2.根据权利要求1所述的网络诈骗号码检测方法,其特征在于,所述特征工程矩阵的获取方法包括:
对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵;
对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵。
3.根据权利要求2所述的网络诈骗号码检测方法,其特征在于,对实际数据集中通信网络用户的原始数据进行特征提取,并根据提取到的特征数据构建原始特征矩阵的方法包括:
对通信网络用户的通话日志、短信日志和网络原始日志进行特征提取;
将提取到的所述通话日志、短信日志和网络原始日志的特征信息与用户基础数据进行合并,以得到原始特征矩阵。
4.根据权利要求2所述的网络诈骗号码检测方法,其特征在于,对所述原始特征矩阵进行特征工程处理,以得到特征工程矩阵的方法包括:
统计所述原始特征矩阵中正常用户群体和诈骗用户群体的特征维度信息;
通过可视化工具获取正常用户群体和诈骗用户群体差异度大于目标值的多个特征;
计算各个特征维度在原始特征矩阵的方差,根据方差选择法提取出方差大于阈值的特征,并删除正常用户和诈骗用户群体差异度小于目标值的特征,从而得到特征工程矩阵。
5.根据权利要求4所述的网络诈骗号码检测方法,其特征在于,通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵的方法包括:
根据距离度量计算每个少数类样本的K近邻样本;其中,K为计算近邻样本的个数;
根据同类系数模型计算每个少数类样本K近邻样本的同类系数C,并筛选出C>C_method的少数类样本作为采样少数样本;其中,C_method为同类系数阈值;
所述采样少数样本与其对应的近邻少数类样本通过随机样本生成模型得到过采样数据集,过采样数据集结合分类器模型采用“嵌入法”进行样本筛选,得到符合的少数类过采样矩阵,并与所述特征工程矩阵融合后得到训练特征矩阵。
6.根据权利要求1所述的网络诈骗号码检测方法,其特征在于,通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练的方法包括:
将所述训练特征矩阵所对应的数据集划分为训练集和测试集;其中,所述训练集为用于模型训练的训练数据,所述测试集为用于模型测试的测试数据;
将所述训练集及测试集分别输入所述XGBoost模型和LightGBM模型进行5折交叉验证训练,使得测试集覆盖整个训练集。
7.根据权利要求6所述的网络诈骗号码检测方法,其特征在于,在交叉验证训练的过程中,
设置超参数:损失函数为AUC,评估函数为fs_score,模型决策树节点***的最大深度参数为6,学习率参数为0.08,正则化参数为2,最大迭代次数为10000轮,早停为100轮;
Figure FDA0003143468560000031
Figure FDA0003143468560000032
Figure FDA0003143468560000033
其中,Precision为精确率,Recall为召回率,TP为真正例,FP为假正例,thk为阈值,K为常数。
8.一种网络诈骗号码检测***,其特征在于,所述***包括:
采样模块,用于通过自调节过采样算法进行少数类样本的过采样,并将过采样得到的过采样矩阵与特征工程矩阵融合后得到训练特征矩阵;
训练模块,用于通过所述训练特征矩阵分别对XGBoost模型和LightGBM模型进行训练;
融合模块,用于将所述XGBoost模型和LightGBM模型的预测结果通过Stacking的方式进行模型融合,以得到Logistic模型;
识别模块,用于通过所述Logistic模型对通信过程中的网络风险用户进行识别。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行如权利要求1至7中任一项所述的网络诈骗号码检测方法。
10.一种终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现如权利要求1至7中任一项所述的网络诈骗号码检测方法。
CN202110748349.3A 2021-07-01 2021-07-01 一种网络诈骗号码检测方法、***、存储介质及终端设备 Pending CN113591924A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110748349.3A CN113591924A (zh) 2021-07-01 2021-07-01 一种网络诈骗号码检测方法、***、存储介质及终端设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110748349.3A CN113591924A (zh) 2021-07-01 2021-07-01 一种网络诈骗号码检测方法、***、存储介质及终端设备

Publications (1)

Publication Number Publication Date
CN113591924A true CN113591924A (zh) 2021-11-02

Family

ID=78245983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110748349.3A Pending CN113591924A (zh) 2021-07-01 2021-07-01 一种网络诈骗号码检测方法、***、存储介质及终端设备

Country Status (1)

Country Link
CN (1) CN113591924A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035468A (zh) * 2021-11-08 2022-02-11 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与***
CN114511330A (zh) * 2022-04-18 2022-05-17 山东省计算中心(国家超级计算济南中心) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及***
CN115174745A (zh) * 2022-07-04 2022-10-11 联通(山东)产业互联网有限公司 一种基于图网络和机器学习的电话号码诈骗模式识别的方法
CN115550506A (zh) * 2022-09-27 2022-12-30 中国电信股份有限公司 用户识别模型的训练、用户识别方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035468A (zh) * 2021-11-08 2022-02-11 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与***
CN114035468B (zh) * 2021-11-08 2024-05-28 山东理工大学 基于XGBoost算法的风机检修流程预测性监控方法与***
CN114511330A (zh) * 2022-04-18 2022-05-17 山东省计算中心(国家超级计算济南中心) 一种基于改进的cnn-rf的以太坊庞氏骗局检测方法及***
CN115174745A (zh) * 2022-07-04 2022-10-11 联通(山东)产业互联网有限公司 一种基于图网络和机器学习的电话号码诈骗模式识别的方法
CN115174745B (zh) * 2022-07-04 2023-08-15 联通(山东)产业互联网有限公司 一种基于图网络和机器学习的电话号码诈骗模式识别的方法
CN115550506A (zh) * 2022-09-27 2022-12-30 中国电信股份有限公司 用户识别模型的训练、用户识别方法和装置

Similar Documents

Publication Publication Date Title
CN113591924A (zh) 一种网络诈骗号码检测方法、***、存储介质及终端设备
CN111177792B (zh) 基于隐私保护确定目标业务模型的方法及装置
Gupta et al. A comparative study of spam SMS detection using machine learning classifiers
CN108737406B (zh) 一种异常流量数据的检测方法及***
Bhuiyan et al. A survey of existing e-mail spam filtering methods considering machine learning techniques
CN112311780B (zh) 一种基于多维度攻击路径与攻击图的生成方法
Debnath et al. Email spam detection using deep learning approach
Janjua et al. Handling insider threat through supervised machine learning techniques
Dada et al. Random forests machine learning technique for email spam filtering
Abinaya et al. Spam detection on social media platforms
Yang et al. Anti-spam filtering using neural networks and Baysian classifiers
Saini et al. Machine Learning Approaches for an Automatic Email Spam Detection
Abu-Nimeh et al. Bayesian additive regression trees-based spam detection for enhanced email privacy
Ying et al. FrauDetector+ An Incremental Graph-Mining Approach for Efficient Fraudulent Phone Call Detection
Singh et al. Enhancing spam detection on SMS performance using several machine learning classification models
CN116663018A (zh) 一种基于代码可执行路径的漏洞检测方法及装置
Thanh et al. An approach to reduce data dimension in building effective network intrusion detection systems
Wang et al. An efficient intrusion detection model combined bidirectional gated recurrent units with attention mechanism
CN112069392B (zh) 涉网犯罪防控方法、装置、计算机设备及存储介质
CN115022038A (zh) 一种电网网络异常检测方法、装置、设备及存储介质
WO2021243534A1 (zh) 一种行为控制方法及装置、存储介质
de la Torre-Abaitua et al. A compression based framework for the detection of anomalies in heterogeneous data sources
Santos et al. Spam filtering through anomaly detection
Borkar et al. Comparative study of supervised learning algorithms for fake news classification
Kalaibar et al. Spam filtering by using genetic based feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination