CN114006982B

CN114006982B - 一种基于分类梯度提升算法的骚扰号码识别方法

Info

Publication number: CN114006982B
Application number: CN202111288535.XA
Authority: CN
Inventors: 周晓辉; 蒋胜波; 史慧; 顾湘芸; 马钰璐; 李华; 金忻; 陈益辉; 郑珍珍; 顾清
Original assignee: Best Tone Information Service Corp Ltd
Current assignee: Best Tone Information Service Corp Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2024-04-30
Anticipated expiration: 2041-11-02
Also published as: CN114006982A

Abstract

本发明涉及网络通信技术和机器学***衡问题，采用XGBoost特征选择方法有效降低特征维度，并结合蝙蝠算法配合训练Catboost模型避免陷入局部最优解，最终使用Catboost模型有效提高了骚扰号码的预测精度。

Description

一种基于分类梯度提升算法的骚扰号码识别方法

技术领域

本发明涉及网络通信技术和机器学习算法建模领域，特别是一种基于分类梯度提升算法的骚扰号码识别方法。

背景技术

随着新一代5G通信技术的不断发展，通信用户在体验通信技术给生活和工作上带来便捷的同时，骚扰通话行为和方式也不断的发展变化，呈现出骚扰样式变化多端，骚扰目标精准化的演变趋势。骚扰电话不仅打乱了通信用户正常的生活和工作秩序，同时也极大的危害了电信运营商的社会公信度，给人民群众切身利益带来了危害。据大数据分析显示，2020年骚扰电话标记总量超2.63亿次，相比2019年的1.9亿次标记量上升了38.42%。在骚扰电话的号源分布中，固话端占比48.27%，手机端占比35.58%，其他类型占比16.15%。其中，1开头的号码属于移动端，0开头的号码属于固话端，400/95/96等特殊号码属于其他类型。以一周时间为周期，对骚扰电话进行了统计分析，相对而言周三和周四是骚扰电话量最高的时间段，休息日活跃度略低于工作日，但整体来说峰值并不明显。在骚扰电话的区域分布方面，经济发达地区和省份属于骚扰电话的重点来源和目标。其中广东省拨出骚扰电话量最高，占比9.48％，其次是江苏省和山东省，占比分别为4.87％和4.33％。骚扰电话屡禁不止，极大的影响了人们的正常生活，但因为骚扰电话问题过于复杂，目前还没有得到彻底解决。因此，有效地从信令话单数据中识别出骚扰号码，就成了目前亟待解决的技术问题,生活中，骚扰号码和诈骗号码均具有呼出频次高，呼出量大，通话时间短等特征，同时骚扰号码具有多个类别，如推销电话，外卖电话，诈骗电话等，但是现有技术并没有涉及骚扰号码多类别识别的解决方案。

发明内容

本发明的目的在于提供一种基于分类梯度提升算法的骚扰号码识别方法，主要解决上述现有技术存在的问题，从而营造良好通信网络环境、提供一个高准确度、高稳定性的骚扰号码多类别识别方法，切实落实骚扰电话整治工作。

为了实现上述目的，本发明所采用的技术方案是提供一种基于分类梯度提升算法的骚扰号码识别方法，其特征在于，包含步骤：首先选择样本，再对所述样本进行数据清洗和融合形成包含多维数据的原始数据集，然后从所述原始数据集中提取特征变量集；利用所述特征变量集构建识别模型，最后将完成训练的最终模型部署到生产***中，用于在具体业务中识别骚扰号码，并对所述骚扰号码加以针对性处理；

所述样本包含从信令话单数据库中得到的业务电话样本和从黑白名单数据库中得到的分类电话样本；

所述识别模型是Catboost模型，所述识别模型的构建包括初始化Catboost模型、设置模型精度阈值，以及利用所述特征变量集对Catboost模型进行训练，并在训练过程达到满足所述模型精度阈值的要求时，将当前所述识别模型输出为最终模型。

进一步地，使用同质集成算法构建所述Catboost模型。

进一步地，采用SMOTE TomeK算法从所述原始数据集中提取所述特征变量集，具体包含：先利用综合采样将所述原始数据集转换为模型样板数据集，然后并将所述模型样板数据集分为数据训练集和数据测试集；在所述数据训练集中提取所述特征变量集，用于模型训练；所述数据测试集配合所述模型精度阈值，用于判定模型训练终止条件，确定所述最终模型。

进一步地，采用五折交叉验证法将所述模型样板数据集划分为数据训练集和数据测试集。

进一步地，在利用所述特征变量构建识别模型之前，采用XGBoost特征选择方法来度量所述特征变量集中每个特征变量的特征重要性，并利用所述特征重要性来选择最佳特征分类，从而在通过删除冗余的所述特征变量的方式优化所述特征变量集。

进一步地，在所述XGBoost特征选择方法中，特征重要性包含权重、增益和覆盖度。

进一步地，在利用所述特征变量集对所述Catboost模型进行训练的过程中，使用蝙蝠算法对所述Catboost模型的参数进行优化。

进一步地，具体业务中识别出骚扰号码的过程，包含首先由所述最终模型识别出疑似骚扰号码，然后将所述疑似骚扰号码与所述黑白名单数据库对比；如果所述疑似骚扰号码与所述黑白名单数据库中的白名单数据不匹配，则识别为骚扰号码，反之则认为是正常号码。

进一步地，所述业务电话样本为所述信令话单数据库中最近N个月的电话样本；所述分类电话样本从第三方标注数据、客户反馈信息以及投诉数据中形成，形成闭环，用于动态提升所述识别模型的能力。

进一步地，当所述识别模型在训练过程中达到满足所述模型精度阈值的要求后，设置复核阈值，并利用外部数据复核当前所述识别模型的识别精度；当所述识别精度达到所述复核阈值后，将所述识别模型输出为最终模型；所述复核阈值大于等于所述模型精度阈值。

进一步地，所述特征变量集包含主叫号码特征和被叫号码特征；所述主叫号码特征包含主叫号码呼出的频次、主叫号码频率、被叫号码呼入的频次、被叫号码频率、主叫号码接通的频次、主叫号码频率、主叫号码平均振铃时长和主叫号码平均通话时长；所述被叫号码特征包括被叫号码的归属地地分布、被叫号码离散度、被叫号码的号段分布、被叫号码离散度、被叫号码地域分布和被叫号码离散度。

进一步地，识别出的所述骚扰号码被应用于来电名片、安全提醒业务和防骚扰拒接业务中。

鉴于上述技术特征，本发明具有如下优点：

1、采用SMOTE TomeK算法对原始数据进行综合采样，有效解决数据不平衡问题。

2、选择Catboost模型进行识别，Catboost模型采用有序原则的方式，将传统的梯度增强算法转化为有序增强算法，提高了模型的泛化能力，同时因为其采用贪婪策略构造分类特征值的组合，并将这些组合作为附加特征，这有助于模型更容易捕获高阶依赖关系，进一步提高预测精度。

3、在Catboost模型特征变量选择上，采用XGBoost特征选择方法度量每个的特征重要度，删除冗余特征，选择最佳分类特征，有效降低特征维度。

4、在Catboost模型参数优化上，引入具有强大搜索功能的蝙蝠算法进行参数的优化，提升Catboost模型处理参数的能力，增强模型的预测准确度及鲁棒性。

附图说明

图1是本发明一种基于分类梯度提升算法的骚扰号码识别方法的一个较佳实施例中的建立识别模型的流程图；

图2是本发明一种基于分类梯度提升算法的骚扰号码识别方法的一个较佳实施例的流程图。

具体实施方式

下面结合具体实施方式，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

请参阅图1，本发明公开了一种基于分类梯度提升算法的骚扰号码识别方法。如图所示，它的一个较佳实施例中的识别模型的建立，包含步骤：

步骤S101，样本选择。

样本选择由两步构成，第一步是从信令话单数据库中获得业务电话样本和从黑白名单数据库中获得分类电话样本。第二步，使用SMOTE Tomek算法，对提取到的样本进行综合采样，完成数据清洗和融合，形成包含多维数据的原始数据集。

步骤S102，特征变量输入。

从原始数据集中提取特征变量集后，利用XGBoost特征选择方法来度量和评估每个特征变量的特征重要性，优化特征变量集，最后形成用于识别模型训练的特征变量集合，包含通话时长、通话频次、通话地址、被叫地域分散度和被叫号码分散度。

步骤S103，识别模型构建。

识别模型为Catboost模型。在Catboost模型初始化和构建之后，设置模型精度阈值，利用特征变量集对Catboost模型进行训练。当在训练过程中达到满足模型精度阈值要求时，将当前识别模型输出为试运行模型。在训练的过程中，引入蝙蝠算法（BAT）进行参数优化，从而加快训练过程的收敛。

在Catboost模型构建时，还可以根据实际业务的需求，引入同质集成算法，从而更好地保证Catboost模型的稳定性，优化识别的效果，提高识别精度。

步骤S104，模型的验证和评估。

在试运行模型实际部署到业务运用之前，需要试运行以对最终模型进行验证和评估，目的是确保试运行模型在复核验证中表现的识别精度，不差于训练时的识别精度。在试运行中，设置一个复核阈值范围：大于等于0.90且小于等于0.95,优选为0.90。即针对模型识别出的骚扰号码，采用人工回拨验证和第三方数据核对，当正确率大于复核阈值0.90时，则试运行模型精度复核验证通过，可以作为最终模型部署到业务中，反之则不能部署到实际业务中，需要重新训练。

其中人工回拨验证方式是将模型识别出的骚扰号码通过人工抽样回拨的方式进行模型准确率验证，抽样率选择为5%-15%，优选为10%。第三方数据核对校验是将骚扰号码通过与第三方（互联网）标注数据进行比对校验，进而验证模型准确率。

步骤S105，模型的部署和应用。

模型经过复核之后，即可以部署到生产***中，用于在具体业务中识别骚扰号码。对识别出的骚扰号码，结合具体业务对骚扰号码加以针对性处理。

请参阅图2，本发明公开了一种基于分类梯度提升算法的骚扰号码识别方法。如图所示，它的一个较佳实施例包含步骤：

步骤S201，结合黑白名单数据库中取得已经完成分类的分类电话样本，和从信令话单数据库中取得的业务电话样本，进行数据清洗、转换等ETL工程。其中，业务电话样本为3个月通话记录。分类电话样本从正常业务中收集到的客户反馈信息以及投诉数据中形成。

步骤S202，通过数据关联融合得到识别模型所需的原始数据集。原始数据集的数据维度为50维。

步骤S203，在原始数据集上，采用SMOTE TomeK算法进行综合采样，形成模型样板数据集，并将模型样板数据集分成数据训练集和数据测试集两类。具体而言，是先采用SMOTE先进行过采样，待扩大样本后再对处在胶着状态的点或者距离很近的点采用Tomek算法进行删除，然后根据五折交叉验证法，按照4：1的比例，划分数据训练集中数据数量和数据测试集中数据数量。

在数据训练集中提取特征变量集，用于模型训练。数据测试集配合模型精度阈值，用于判定模型训练终止条件，确定最终模型。

步骤S204，基于数据训练集提取模型需要的特征变量，针对特征冗余问题，采用XGBoost特征选择方法度量特征重要度，从而删除冗余特征后，选择最佳分类特征。

在XGBoost算法的特征选择技术中，特征重要性可以用来做模型可解释性。XGBoost算法中Booster类get_score方法输出特征重要性，其中importance_type参数支持三种特征重要性的计算方法：

importance_type=weight（权重）：特征重要性使用特征在所有树中作为划分属性的次数。

importance_type=gain（增益）：特征重要性使用特征在作为划分属性时loss平均的降低量。

importance_type=cover（覆盖度）：特征重要性使用特征在作为划分属性时对样本的覆盖度。

步骤S205，根据XGBoost特征选择方法选择的特征重要度为标准，在数据训练集中提取出特征变量集。特征变量主要分为：主叫号码呼出的频次、主叫号码频率、被叫号码呼入的频次、被叫号码频率、主叫号码接通的频次、主叫号码频率、主叫号码平均振铃时长、主叫号码平均通话时长等，而被叫号码特征主要包括被叫号码的归属地地分布、被叫号码离散度、被叫号码的号段分布、被叫号码离散度、被叫号码地域分布，被叫号码离散度等。

步骤S206，初始化Catboost模型的训练参数，同时设置模型精度阈值范围：大于等于0.85且小于等于0.90,优选为0.90。需要保证在训练时候使用的模型精度阈值，小于等于复核时候设置的复核阈值。在本实施例中，模型精度阈值为0.9，复核阈值也是0.9。

基于Catboost算法模型的识别技术，其采用有序原则的方式，将传统的梯度增强算法转化为有序增强算法，提高了模型的泛化能力。其采用贪婪策略构造分类特征值的组合，并将这些组合作为附加特征，这有助于模型更容易捕获高阶依赖关系，进一步提高预测精度。

步骤S207，根据五折交叉验证法，训练Catboost模型，使用占模型样板数据集80%数据的数据训练集训练模型，然后使用占模型样本数据20%数据的数据测试集验证训练结果，并计算出模型的精准率，召回率以及F1分数值。（具体流程请参阅图1）

步骤S208，判别Catboost模型是否达到预先设定的模型精度阈值0.90，即将Catboost模型在数据测试集上的预测结果和数据测试集中已知的结果比对，如果正确率小于0.90，进入步骤S209。反之，则进一步进行复核验证，通过复核的模型，进入步骤S210，其它的进入步骤S210。

步骤S209，因Catboost模型需要设置的参数较多，增加了陷入局部最优解的可能性。因此，引入具有强大搜索功能的蝙蝠算法进行参数的优化，提升Catboost模型处理参数的能力，增强模型的预测准确度及鲁棒性。

蝙蝠算法的原理是仿生蝙蝠觅食行为，利用每只微型蝙蝠发出的高频脉冲搜索目标，并分析其独特的回声信息特征来定位目标的元启发式算法。

步骤S210，对满输出满足预先设定的模型精度阈值的模型，进行生产环境服务器部署。

步骤S211，在具体业务中，待预测通话记录被输入到Catboost模型，经模型预测后，输出预测结果。

步骤S212，利用黑白名单数据库，对预测结果做异议数据的剔除操作。如果疑似骚扰号码与黑白名单数据库中的白名单数据不匹配，则识别为骚扰号码，反之则认为是正常号码。

步骤S213，将最后的骚扰号码应用在来电名片业务、安全提醒业务和和防骚扰拒接业务的场景中。

步骤S214，在业务运行过程中，持续收集业务场景应用中的客服反馈的数据及投诉数据，结合第三方（互联网）标注数据，更新黑白名单数据库中，用于下次模型训练，形成模型闭环。

第三方（互联网）标注数据包含由最终用户利用360手机助手或者腾讯手机助手主动标注的骚扰电话信息，由互联网供应商收集并整理。

在得到了骚扰号码之后，通过如下手段，切实落实骚扰电话整治工作：

1、安全提醒：以电信运营商闪信能力实时的在手机端提醒用户您接到的电话为骚扰电话。用户自己判断是否还需要接听。

2、通讯助理:识别的骚扰电话，以中国电信的大网能力，通过机器人秘书自动接听，文字识别后微信公众号推送。

3、天翼防骚扰：识别的骚扰电话，以中国电信的大网能力，可以自己设置拒绝接听。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于分类梯度提升算法的骚扰号码识别方法，其特征在于，包含步骤：首先选择样本，再对所述样本进行数据清洗和融合形成包含多维数据的原始数据集，然后从所述原始数据集中提取特征变量集；利用所述特征变量集构建识别模型，最后将完成训练的最终模型部署到生产***中，用于在具体业务中识别骚扰号码，并对所述骚扰号码加以针对性处理；

所述识别模型是Catboost模型，所述识别模型的构建包括初始化Catboost模型、设置模型精度阈值，以及利用所述特征变量集对Catboost模型进行训练，并在训练过程达到满足所述模型精度阈值的要求时，将当前所述识别模型输出为最终模型;

使用同质集成算法构建所述Catboost模型;

采用SMOTE TomeK算法从所述原始数据集中提取所述特征变量集，具体包含：先利用综合采样将所述原始数据集转换为模型样板数据集，然后并将所述模型样板数据集分为数据训练集和数据测试集；在所述数据训练集中提取所述特征变量集，用于模型训练；所述数据测试集配合所述模型精度阈值，用于判定模型训练终止条件，确定所述最终模型;

采用五折交叉验证法将所述模型样板数据集划分为数据训练集和数据测试集;

在利用所述特征变量集构建识别模型之前，采用XGBoost特征选择方法来度量所述特征变量集中每个特征变量的特征重要性，并利用所述特征重要性来选择最佳特征分类，从而通过删除冗余的所述特征变量的方式优化所述特征变量集;

在所述XGBoost特征选择方法中，特征重要性包含权重、增益和覆盖度。

2.根据权利要求1所述的基于分类梯度提升算法的骚扰号码识别方法，其特征在于，在利用所述特征变量集对所述Catboost模型进行训练的过程中，使用蝙蝠算法对所述Catboost模型的参数进行优化。

3.根据权利要求1所述的基于分类梯度提升算法的骚扰号码识别方法，其特征在于，具体业务中识别出骚扰号码的过程，包含首先由所述最终模型识别出疑似骚扰号码，然后将所述疑似骚扰号码与所述黑白名单数据库对比；如果所述疑似骚扰号码与所述黑白名单数据库中的白名单数据不匹配，则识别为骚扰号码，反之则认为是正常号码。

4.根据权利要求1所述的基于分类梯度提升算法的骚扰号码识别方法，其特征在于，所述业务电话样本为所述信令话单数据库中最近N个月的电话样本；所述分类电话样本从第三方标注数据、客户反馈信息以及投诉数据中形成，形成闭环，用于动态提升所述识别模型的能力。

5.根据权利要求1所述的基于分类梯度提升算法的骚扰号码识别方法，其特征在于，当所述识别模型在训练过程中达到满足所述模型精度阈值的要求后，设置复核阈值，并利用外部数据复核当前所述识别模型的识别精度；当所述识别精度达到所述复核阈值后，将所述识别模型输出为最终模型；所述复核阈值大于等于所述模型精度阈值。

6.根据权利要求1所述的基于分类梯度提升算法的骚扰号码识别方法，其特征在于，所述特征变量集包含主叫号码特征和被叫号码特征；所述主叫号码特征包含主叫号码呼出的频次、主叫号码频率、被叫号码呼入的频次、被叫号码频率、主叫号码接通的频次、主叫号码频率、主叫号码平均振铃时长和主叫号码平均通话时长；所述被叫号码特征包括被叫号码的归属地地分布、被叫号码离散度、被叫号码的号段分布、被叫号码离散度、被叫号码地域分布和被叫号码离散度。

7.根据权利要求1所述的基于分类梯度提升算法的骚扰号码识别方法，其特征在于，识别出的所述骚扰号码被应用于来电名片、安全提醒业务和防骚扰拒接业务中。