CN110401779B

CN110401779B - 一种识别电话号码的方法、装置和计算机可读存储介质

Info

Publication number: CN110401779B
Application number: CN201810372550.4A
Authority: CN
Inventors: 贺小红; 庄仁峰; 胡文辉; 叶天宽; 黄鹤羽; 何亚玲; 卓彩霞; 黄浩; 曹阳; 潘锦彬; 陈德志
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Internet Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Internet Co Ltd
Priority date: 2018-04-24
Filing date: 2018-04-24
Publication date: 2022-02-01
Anticipated expiration: 2038-04-24
Also published as: CN110401779A

Abstract

本发明实施例公开了一种识别电话号码的方法，该方法包括：获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息；对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型；对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型；根据骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到其属性；该方法对多种数据分别进行机器学习模型训练和数据分析，得到可靠性较高的骚扰电话模型和属性筛选模型，再用这两种模型对每个电话号码进行属性识别，进一步提高了对每个电话号码的识别准确率。

Description

一种识别电话号码的方法、装置和计算机可读存储介质

技术领域

本发明涉及移动通信技术领域，尤其涉及一种识别电话号码的方法、装置和计算机可读存储介质。

背景技术

由于现在很多网站注册或外出消费都要求用户填写手机电话号码，这种情况下用户的手机电话号码被泄漏给一些不法分子的可能性也大大增加，几乎每个用户都曾接听到一些广告推销或诈骗的骚扰电话，为了帮助用户预先识别骚扰电话，现有的一些云计算平台，对所有电话号码的通话行为数据(例如，通话记录)进行大数据处理和机器学习的模型训练，得到由骚扰电话特征为分类参数的机器学习模型，根据这一个机器学习模型对任意一个电话号码进行识别；另一方面，现在的手机基本都带有标记功能，当任一个用户在手机上将任一个主叫电话标记为骚扰电话之后，当该电话再向任一个手机号码发起呼叫请求时，被叫号码的手机界面上就会显示骚扰电话的标记，从而提醒被叫用户。

现有技术中，要么是基于通信行为数据提取骚扰电话的特征，由骚扰电话特征构成一个机器学习模型来识别骚扰电话，要么是基于手机用户对电话号码的标记信息识别骚扰电话，但是，这两种现有技术都是基于单方面数据，较难精准的识别骚扰电话，例如，仅根据由骚扰电话特征构成的一个机器学习模型识别骚扰电话，骚扰电话识别的准确度完全取决于该机器学习模型的准确度，将外卖电话、快递电话和出租车电话等高频非骚扰属性号码与高频骚扰号码识别错误的情况发生率较高；仅根据用户对电话号码的标记信息识别骚扰电话时，存在一些用户进行恶意标记的情况，识别准确率也是有待进一步提升。

发明内容

本发明的主要目的在于提出一种识别电话号码的方法、装置和计算机可读存储介质，旨在解决现有电话号码识别方法中识别依据可靠性不高，降低了电话号码识别准确率的问题。

本发明的技术方案是这样实现的：

本发明实施例提供一种识别电话号码的方法，所述方法包括：

获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息；

对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型；

对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，所述属性筛选模型用于表示确定电话号码的属性的标准；

根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性。

上述方案中，所述根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性，包括：

根据所述骚扰电话模型，对发起新呼叫请求的电话号码进行类型预测，得到发起新呼叫请求的电话号码的预测类型；其中，所述预测类型为骚扰电话或非骚扰电话；

根据所述属性筛选模型，对发起新呼叫请求的电话号码中预测类型为骚扰电话的电话号码进行属性识别，得到预测类型为骚扰电话的电话号码的属性。

上述方案中，所述对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，包括：

从所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息中选择分类参数，根据所述分类参数建立属性筛选模型。

上述方案中，所述对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型，包括：

对所述用户通话行为数据进行分类整理，得到用户通话行为数据中每个电话号码的通话行为特征，其中，所述通话行为特征包括以下至少一项：历史主叫次数、历史主叫通话时长、历史被叫次数、历史被叫通话时长、被接听次数、未被接听次数；

对所述用户通话行为数据中所有电话号码的属性信息进行分类整理，得到用户通话行为数据中每个电话号码的属性特征；其中，所述属性特征是：骚扰电话、快递送餐电话、企业电话、被拒听电话、优先接听电话、中间号电话或常用联系人电话；

对所述用户通话行为数据中每个电话号码的通话行为特征和属性特征，采用机器学习算法进行模型训练，得到所述骚扰电话模型。

上述方案中，所述对所述用户通话行为数据中所有电话号码的属性信息进行分类整理，得到用户通话行为数据中每个电话号码的属性特征，包括：

根据所述用户通话行为数据中所有电话号码的属性信息，获得所述用户通话行为数据中每个电话号码的N个待定属性；其中，N为大于或等于1的整数；

对所述用户通话行为数据中每个电话号码的N个待定属性进行筛选，得到用户通话行为数据中每个电话号码的属性特征。

上述方案中，所述用户通话行为数据中所有电话号码的属性信息包括以下至少一项：

用户标记信息、企业认证信息、企业黄页信息、电话黑名单信息、电话白名单信息。

上述方案中，所述属性筛选模型包括以下至少一项：中间号电话模型、常用联系人电话模型。

上述方案中，所述根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，包括：

当满足预设的预测条件时，根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，其中，所述预设的预测条件包括以下至少一项：

发起新呼叫请求的电话号码的数量大于或等于预设的数量阈值；

当前时刻到上一次电话号码的属性的更新时刻的时间间隔大于或等于预设的时间阈值。

本发明实施例还提供一种识别电话号码的装置，所述装置包括：存储器和处理器；其中，

所述存储器，用于存储计算机程序

所述处理器，用于在运行所述计算机程序时，执行以下步骤：

上述方案中，所述处理器具体用于在运行所述计算机程序时，执行以下步骤：

本发明实施例还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，

当所述计算机程序被至少一个处理器执行时，导致所述至少一个处理器执行上述任意一种识别电话号码的方法的步骤。

本发明实施例提供一种识别电话号码的方法，获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息；对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型；对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，所述属性筛选模型用于表示确定电话号码的属性的标准；根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性。如此，本发明实施例中对多类数据分别进行机器学习算法的模型训练和数据分析，得到可靠性较高的骚扰电话模型和属性筛选模型，再通过这两种模型对每个电话号码进行属性识别，进一步提高了对每个电话号码的识别准确率。

附图说明

图1为本发明实施例提供的一种识别电话号码的方法流程图一；

图2为本发明实施例提供的一种识别电话号码的方法流程图二；

图3为本发明实施例提供的一种识别电话号码的装置的结构示意图；

图4为本发明实施例提供的一种智能防骚扰***的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

实施例一

本发明实施例提供一种识别电话号码的方法，如图1所示，该方法包括：

步骤S101：获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息。

在实际实施时，用户可以通过手机、固话、网络电话或伪基站发起呼叫请求，对所有发起过呼叫请求的电话号码，可以从运营商的服务器中获取其对应的用户通话行为数据，包括：获取预设时间段内的所有发起过呼叫请求的电话号码的用户通话行为数据，或者获取所有发起过呼叫请求的电话号码在预设时间段内的用户通话行为数据；其中，每个发起过呼叫请求的电话号码的用户通话行为数据可以包括以下至少一项：所有该电话号码呼叫过的被叫电话号码、所有呼叫该电话号码的主叫电话号码、与每个通话过的电话号码的通话时长和通话时间、所有接收该电话号码的短信的电话号码、所有向该电话号码发送短信的电话号码、被接听次数、未被接听次数等；

再对用户通话行为数据中所有电话号码，通过采用网络爬虫的方式、利用搜索引擎进行搜索的方式、或者检索相关数据库的方式，获得用户通话行为数据中所有电话号码的属性信息，属性信息可以包括以下至少一项：用户标记信息、企业认证信息、企业黄页信息、电话黑名单信息、电话白名单信息；例如，利用网络爬虫的方式是将用户通话行为数据中所有电话号码放到网页爬虫程序中，然后爬虫程序会在www.***.com和www.so.com等搜索引擎中搜索待识别电话号码的相关的属性信息，还可以从万维网上抓取到更多的用户标记信息。

可选地，对获取到的用户通话行为数据和用户通话行为数据中所有电话号码的属性信息，利用大数据平台进行分布式存储，例如，基于Hadoop分布式***，架构一个大数据平台用于对海量数据进行高速运算和存储；进一步地，还可以利用大数据平台的分布式处理技术执行步骤S102至步骤S104。

进一步地，获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息之后，还可以包括：对用户通话行为数据进行分类整理，得到用户通话行为数据中每个电话号码的通话行为特征，其中，通话行为特征可以包括以下至少一项：历史被叫电话名单、历史主叫次数、历史主叫通话时长、历史被叫次数、历史被叫通话时长、被接听次数、未被接听次数；示例性地，从预设时间段可以为一日的用户通话行为数据中，获得用户通话行为数据中每个电话号码的通话行为特征，其包括以下至少一项：日累计被叫电话号码名单、日累计主叫次数、日累计平均主叫通话时长、日累计对端号码百分比、日累计短通话百分比、日累计被叫次数、日累计平均被叫通话时长、日累计被叫对端号码个数、日累计漫游位置变化个数等；

对用户通话行为数据中所有电话号码的属性信息进行分类整理，得到用户通话行为数据中每个电话号码的属性特征；其中，属性特征可以是：骚扰电话、非骚扰电话、快递送餐电话、企业电话、被拒听电话、优先接听电话、中间号电话或常用联系人电话。

步骤S102：对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型。

在实际实施时，以所有通话行为特征为分类参数建立骚扰电话模型，可以根据用户通话行为数据中每个电话号码的属性特征，将用户通话行为数据中每个电话号码分为骚扰电话或非骚扰电话，再结合用户通话行为数据中每个电话号码的通话行为特征作为输入，采用机器学习算法中的监督学习算法进行模型训练，得到骚扰电话模型。

步骤S103：对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，属性筛选模型用于表示确定电话号码的属性的标准。

在实际实施时，为了提高电话号码的识别准确率，除了通过机器学习算法获得骚扰电话模型，还可以根据某一个属性特征的所有电话号码具有的区别于其他属性特征的所有电话号码的特有特征，从用户通话行为数据和用户通话行为数据中所有电话号码的属性信息中选择分类参数，根据该分类参数建立某一个属性特征对应的属性筛选模型，进而得到包括多个不同属性特征对应的属性筛选模型，其中，属性筛选模型可以包括以下至少一项：中间号电话模型、常用联系人电话模型等，每个属性筛选模型可以唯一的识别某一个属性特征的所有电话号码，通过属性筛选模型对骚扰电话模型的识别结果进一步筛选，从而得到更准确的识别结果。

示例性地，中间号是基于虚拟副号灵活绑定的原理，当O2O(Online To Offline，在线离线/线上到线下)交易订单生成后，O2O平台将为交易双方随机分配一个中间号作为临时通话的电话号码，该中间号与该交易订单捆绑使用，交易结束后该中间号被解绑并回收，保证交易双方在通话时只显示中间号，从而对交易双方的真实电话号码信息实施有效加密保护；示例性地，电话号码A呼叫电话号码B时，通过中间号C进行呼出，在电话号码A和B所属终端上只显示中间号C，生成的通话行为数据中电话号码A呼叫中间号C和中间号C呼叫电话号码B同时存在，也就是说，中间号具有主叫次数等于被叫次数、主叫通话时长等于被叫通话时长的特有特征，因此，可以建立中间号电话模型，其分类参数是主叫次数、被叫次数、主叫通话时长和被叫通话时长这四个通话行为特征；

常用联系人是对用户1和用户2的电话号码的通话行为数据进行分析，当用户3的电话号码同时存在于用户1和用户2的电话号码的通话行为数据中，用户3就是用户1和用户2的共同联系人，并且，当用户1和用户2的共同联系人越多，则用户1和用户2的亲密度越高，用户1和用户2互为常用联系人的可能性越高；另外，还可以根据用户1和用户2的通讯录好友、企业圈(企业通讯录)、家庭圈(家庭网)等，获取用户1和用户2的共同联系人；示例性地，获取用户通话行为数据中任意两个电话号码A、B的被叫电话号码名单，两个电话号码A、B的被叫电话号码名单中有i个相同的被叫电话号码时，电话号码A和B的亲密度值等于i，i为大于或等于1的整数，当电话号码A和B的亲密度值大于预设亲密度阈值时，电话号码A和B为两个常用联系人的电话号码，因此，可以建立常用联系人电话模型，其分类参数是被叫电话号码名单和亲密度值。

需要说明的是，本发明实施例中，并不对步骤S102和步骤S103的执行顺序进行限制，例如，步骤S102可以在步骤S103之前执行，也可以在步骤S103之后执行，两者也可以同时执行。

步骤S104：根据骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性。

在实际实施时，根据骚扰电话模型，对发起新呼叫请求的电话号码进行类型预测，得到发起新呼叫请求的电话号码的预测类型，其中，预测类型为骚扰电话或非骚扰电话；相应地，对发起新呼叫请求的电话号码中预测类型为非骚扰电话的电话号码，确定其属性为非骚扰电话；对发起新呼叫请求的电话号码中预测类型为骚扰电话的电话号码，根据属性筛选模型确定其属性；

根据属性筛选模型，对发起新呼叫请求的电话号码中预测类型为骚扰电话的电话号码进行属性识别，得到该预测类型为骚扰电话的电话号码的属性；示例性地，属性筛选模型可以包括中间号模型和常用联系人模型，当满足预设的属性判断条件中至少一个时，确定该预测类型为骚扰电话的电话号码的属性为非骚扰电话，否则，该预测类型为骚扰电话的电话号码的属性为骚扰电话，其中，预设的属性判断条件包括：用中间号模型对该预测类型为骚扰电话的电话号码进行属性识别，该预测类型为骚扰电话的电话号码为中间号电话号码；用常用联系人模型对该预测类型为骚扰电话的电话号码进行属性识别，该预测类型为骚扰电话的电话号码为常用联系人电话号码。

需要说明的是，步骤S101至步骤S104均可以由采用分布式处理和分布式存储的大数据平台实现。

由此可见，本发明实施例中，获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息；对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型；对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型；根据骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性；上述的属性筛选模型是根据一些电话号码的特有特征进行数据分析得到，每个属性筛选模型可以准确的识别某一个属性特征的所有电话号码，因此，通过属性筛选模型，对骚扰电话模型的识别结果进行进一步判断筛选，提高了对每个发起新呼叫请求的电话号码的识别准确率。

实施例二

为了能够更加体现本发明的目的，在上述实施例的基础上，进行进一步的举例说明。

本发明实施例提供一种识别电话号码的方法，如图2所示，该方法包括：

步骤S201：对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行分类整理，获得用户通话行为数据中每个电话号码的通话行为特征和属性特征。

在实际实施时，可以对用户通话行为数据进行分类整理，获得用户通话行为数据中每个电话号码的通话行为特征；对用户通话行为数据中所有电话号码的属性信息进行分类整理，获得用户通话行为数据中每个电话号码的属性特征。

进一步地，对用户通话行为数据中所有电话号码的属性信息进行分类整理，获得用户通话行为数据中每个电话号码的属性特征，包括以下的步骤：

S2011：根据用户通话行为数据中所有电话号码的属性信息，获得用户通话行为数据中每个电话号码的N个待定属性；其中，N为大于或等于1的整数，每个待定属性可以是：骚扰电话、快递送餐电话、企业电话、被拒听电话、优先接听电话、中间号电话或常用联系人电话。

示例性地，属性信息可以包括用户标记信息、企业认证信息、企业黄页信息、电话黑名单信息、电话白名单信息、中间号信息和常用联系人信息。

在实际实施时，用户标记信息可以是用户在任一个APP(Application，应用程序)上对任一个电话号码的评论标记，从用户标记信息中获得每个被标记电话的骚扰电话、诈骗电话、广告推销电话或快递送餐电话的待定属性；企业认证信息和企业黄页信息可以是每个企业在企业认证管理***或企业黄页管理***中添加的包括了企业电话号码的企业信息，从企业认证信息和企业黄页信息中获得每个企业电话的企业电话的待定属性；电话黑名单信息可以是用户设置的无法呼叫自身号码的电话号码，从电话黑名单中获得每个黑名单电话的被拒听电话的待定属性；电话白名单信息可以是用户设置的能呼叫自身号码的电话号码，从电话白名单中获得每个白名单电话的优先接听电话的待定属性；中间号是指为通话双方设置一个临时电话号码作为通话双方的来电显示，从具有中间号功能的APP中获得每个中间电话的中间号电话的待定属性，或者根据用户通话行为数据分析得到的任一个中间电话的中间号电话的待定属性；常用联系人是指当一个电话与另一个电话的联系电话名单中相同电话的数目较高时，认定这两个电话是属于常用联系人电话，从用户通话行为数据中分析得到任两个电话的常用联系人电话的待定属性。

S2012：对用户通话行为数据中每个电话号码的N个待定属性进行筛选，得到用户通话行为数据中每个电话号码的属性特征。

示例性地，可以按照预设的规则对用户通话行为数据中每个电话号码的N个待定属性进行筛选，例如，根据每种属性信息的可信度，对每种属性信息进行可信度从高到低的排序，属性信息从高到低的排序可以是：用户标记信息、企业认证信息、企业黄页信息、电话黑名单信息、电话白名单信息、中间号、常用联系人；然后，根据属性信息的可信度排序，从用户通话行为数据中每个电话号码的N个待定属性中选择可信度最高的属性信息对应的待定属性；

可以将属性特征分为骚扰电话和非骚扰电话，其中，划分为属性特征是骚扰电话的待定属性有：骚扰电话、诈骗电话、广告推销电话和被拒听电话，划分为属性特征是非骚扰电话的待定属性有：企业电话、优先接听电话、中间号电话和常用联系人电话；然后，可以根据该划分依据和用户通话行为数据中每个电话号码的可信度最高的属性信息对应的待定属性，得到用户通话行为数据中每个电话号码的属性特征。

进一步地，在将每个待定属性划分为骚扰电话或非骚扰电话时，还可以统计每个待定属性的重复出现次数，当划分为骚扰电话的任一个待定属性的出现次数不小于预设的次数阈值时，才确定该待定属性为骚扰电话，否则将该待定属性重新划分到非骚扰电话。

步骤S202：对用户通话行为数据中所有电话号码的通话行为特征进行数据清洗，得到清洗后的用户通话行为数据中所有电话号码的通话行为特征。

在实际实施时，对有限的用户通话行为数据任意地进行分类，得到很多的用户通话行为特征，但是并不是所有的通话行为特征都是有利于机器学习模型训练的，因此需要对获取的通话行为特征进行数据清洗，数据清洗是指发现并纠正数据文件中可识别的错误，包括检查数据一致性、处理无效值和处理缺失值等。

示例性地，对用户通话行为数据中所有电话号码的通话行为特征进行数据清洗，可以包括以下步骤：

S2021：对用户通话行为数据中所有电话号码的通话行为特征进行无效列删除，无效列删除主要对两种类型的数据，一是历史数据中任一类型的数据在整体历史数据中的所占比例非常小，例如，几万行的数据中某几列数据的行数小于1000，对这几列数据做删除处理；二是历史数据中一些与通话行为特征无关的数据。

示例性地，对用户通话行为数据中所有电话号码的通话行为特征进行无效列删除，可以包括以下至少一项：

用户通话行为数据中任一电话号码的通话行为特征中包括的特征个数小于预设的特征个数阈值，删除该电话号码及自身的通话行为特征，其中，预设的特征个数阈值可以根据所有电话号码的通话行为特征中不同的特征的总个数进行设置；

包含通话行为特征中任一特征的电话号码的个数小于预设的号码个数阈值，从所有电话号码的通话行为特征中删除该特征；

对用户通话行为数据中所有电话号码的通话行为特征中的“是”和“否”进行删除，其中，“是”和“否”是从用户通话行为数据中推断得到的。

S2022：对无效列删除后的用户通话行为数据中所有电话号码的通话行为特征进行空值处理，由于每个电话号码的通话行为特征不一定包括所有的特征，任一个电话号码的通话行为特征中部分特征没有特征值，因此，可以对该电话号码中部分特征赋予0值，表示没有发生对应的通信行为。

S2023：对空值处理后的所有电话号码的通话行为特征进行归一化处理，由于通话行为特征中存在任一特征的特征值的取值范围过大，导致对分类结果影响非常大，因此，可以根据空值处理后的所有电话号码的通话行为特征，确定出通话行为特征中每个特征的平均值，当任一特征的平均值大于预设特征阈值时，对该特征的特征值进行归一化处理，保证该特征的所有特征值处于合适的数值范围内，例如，采用L2范数归一化方法。

步骤S203：对清洗后的用户通话行为数据中所有电话号码的通话行为特征进行特征提取，得到选择后的用户通话行为数据中所有电话号码的通话行为特征。

在实际实施时，为了能够从清洗后的通话行为特征中学习出骚扰电话识别问题的结构与本质，对清洗后的通话行为特征进行特征提取，挑选出对骚扰电话模型有更好的解释的特征，通常来说，根据以下两个依据进行特征提取：一是特征是否发散，如果任一个特征不发散，对所有电话号码的该特征的特征值进行方差计算，该特征的方差值约等于0，也就是说所有电话号码在该特征上基本上没有差异，因此，不发散的特征对于电话号码的区分并没有什么用；二是特征与目标的相关性，与骚扰电话相关性高的特征，应当优先选择。

特征提取的方法包括：特征选择和降维，两者的目的都是试图减少特征数据集中的特征的数目；其中，特征选择的方法是从原始特征数据集中选择出子集，不改变原始的特征空间的情况下，从子集进行筛选部分特征，主要分为3类：(1)Filter过滤法，按照发散性或者相关性对各个特征进行评分，设定评分阈值或者待选择特征个数阈值，选择特征；主要的方法有：卡方校验(Chi-squared test)、信息增益(information gain)和相关系数(correlation coefficient scores)；(2)Wrapper包装法，由若干特征生成不同的组合，根据目标函数对每个组合进行预测效果评分，再与其他组合进行比较，每次选择若干特征或排除若干特征；主要方法有：递归特征消除算法(recursive feature eliminationalgorithm)；(3)Embedded嵌入法，先使用预设机器学习的算法和模型进行训练，得到各个特征的权值系数，根据权值系数从大到小选择特征；主要方法有：正则化；

降维的方法是通过特征间的关系，组合不同的特征得到新特征，改变了原来的特征空间，从新特征中选择部分特征，主要的方法有：主成分分析法(Principal ComponentAnalysis，PCA)、线性判断分析(Linear Discriminant Analysis，LDA)、奇异值分解法(Singular Value Decomposition，SVD)、Sammon映射法(Sammon's Mapping)。

示例性地，可以采用以下几种方法依次对清洗后的所有电话号码的通话行为特征进行特征提取：(1)卡方校验，卡方校验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大，对应的样本不利于数据分类，删除该样本；卡方值越小，对应的样本有利于数据分类，保留该样本；(2)递归特征消除，递归特征消除是使用一个基模型对特征集合进行训练，获得每个特征的重要程度(例如，权值系数)，并消除最不重要的特征，再对新的特征集合进行下一轮训练，直到达到所需要的特征数量；(3)基于树模型的特征选择，将树模型中GBDT(GradientBoost Decision Tree，迭代决策树)作为基模型对特征集合进行训练，再根据训练结果对特征进行选择；(4)线性判断分析，线性判断分析就是求取一个线性变换，使样本数据中不同类数据间的协方差矩阵和同一类数据内部的各个数据间协方差矩阵之比达到最大。

步骤S204：对选择后的用户通话行为数据中所有电话号码的通话行为特征和属性特征，采用机器学习算法进行模型训练，得到训练后的骚扰电话模型。

在实际实施时，可以选择主要对电话号码是否为骚扰电话进行识别，相应地，采用机器学习算法得到一个骚扰电话模型，具体过程为：可以采用2比8的划分比例，将选择后的用户通话行为数据中所有电话号码的通话行为特征划分为训练数据和测试数据，将选择后的通话行为特征中所有特征作为骚扰电话模型的分类参数，使用训练数据对骚扰电话模型进行训练，再使用测试数据对训练后的骚扰电话模型进行准确率验证；其中，骚扰电话模型可以采用随机森林分类器。

进一步地，当训练后的骚扰电话模型不满足预设准确率阈值时，对训练后的骚扰电话模型进行模型调整，得到最优的骚扰电话模型，例如，采用k折交叉验证的方法，充分利用选择后的用户通话行为数据中所有电话号码的通话行为特征对训练后的骚扰电话模型进行测试，得到最优的骚扰电话模型。

具体地，k折交叉验证的方法包括以下步骤：对训练后的骚扰电话模型中的分类参数或分类参数的权值进行改变，得到m个分类参数或分类参数的权值互不相同的待定骚扰电话模型，m为大于或等于1的整数；将选择后的用户通话行为数据中所有电话号码的通话行为特征作为数据集S，将数据集S分为k个不相交的子集，k为大于的整数；对每个待定骚扰电话模型执行以下过程：不重复地每次取k个子集中的1个子集作为测试集，其他k-1个子集作为训练集用于训练模型，之后计算该待定骚扰电话模型在测试集上的识别准确率，再将k次的识别准确率取平均值，作为该待定骚扰电话模型的真实识别准确率；从m个待定骚扰电话模型中选择真实识别准确率最高的，作为最优的骚扰电话模型。

步骤S205：对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，属性筛选模型用于表示确定电话号码的属性的标准。

本步骤的实现方式与步骤S103的实现方式相同，这里不再赘述。

需要说明的是，本发明实施例中，并不对步骤S202至步骤S204与步骤S205的执行顺序进行限制，例如，步骤S202至步骤S204可以在步骤S205之前执行，也可以在步骤S205之后执行，两者也可以同时执行。

步骤S206：根据训练后的骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性。

在实际实施时，当满足预设的预测条件时，根据训练后的骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，其中，预设的预测条件包括以下至少一项：发起新呼叫请求的电话号码的数量大于或等于预设的数量阈值；当前时刻到上一次电话号码的属性的更新时刻的时间间隔大于或等于预设的时间阈值。

需要说明的是，步骤S201至步骤S206均可以由采用分布式处理和分布式存储的大数据平台实现。

由此可见，本发明实施例中，对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行分类整理，获得用户通话行为数据中每个电话号码的通话行为特征和属性特征；对用户通话行为数据中所有电话号码的通话行为特征依次进行数据清洗和特征提取，得到选择后的用户通话行为数据中所有电话号码的通话行为特征；对选择后的用户通话行为数据中所有电话号码的通话行为特征和属性特征进行模型训练，得到训练后的骚扰电话模型；对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型；根据训练后的骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性；上述过程中，对多种数据进行分类整理、数据清洗和特征提取，得到选择后的用户通话行为数据中所有电话号码的通话行为特征，用于模型训练，从而获得识别准确率较高的骚扰电话模型，再根据一些电话号码的特有特征进行数据分析得到属性筛选模型，通过骚扰电话模型和属性筛选模型进行骚扰电话识别，提高了对电话号码的识别准确率。

实施例三

为了能够更加体现本发明的目的，在前述方法实施例的基础上，进行进一步的举例说明。

本发明实施例提供一种识别电话号码的装置，如图3所示，识别电话号码的装置300包括：存储器301和处理器302，其中，

存储器301用于存储计算机程序；

处理器302用于在运行存储器301中存储的计算机程序时，执行以下步骤：

对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型；

对用户通话行为数据和用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，属性筛选模型用于表示确定电话号码的属性的标准；

根据骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的识别属性。

上述方案中，处理器302具体用于在运行存储器301中存储的计算机程序时，执行以下步骤：

根据骚扰电话模型，对发起新呼叫请求的电话号码进行类型预测，得到发起新呼叫请求的电话号码的预测类型，其中，预测类型为骚扰电话或非骚扰电话；相应地，对发起新呼叫请求的电话号码中预测类型为非骚扰电话的电话号码，确定其属性为非骚扰电话；对发起新呼叫请求的电话号码中预测类型为骚扰电话的电话号码，根据属性筛选模型确定其属性；

上述方案中，处理器302具体用于在运行存储器301中存储的计算机程序时，执行以下步骤：从用户通话行为数据和用户通话行为数据中所有电话号码的属性信息中选择分类参数，根据该分类参数建立属性筛选模型，其中，属性筛选模型可以包括以下至少一项：中间号电话模型、常用联系人电话模型等，每个属性筛选模型可以唯一的识别某一个属性特征的所有电话号码。

上述方案中，处理器302具体用于在运行存储器301中存储的计算机程序时，执行以下步骤：对用户通话行为数据进行分类整理，得到用户通话行为数据中每个电话号码的通话行为特征，其中，通话行为特征可以包括以下至少一项：历史被叫电话名单、历史主叫次数、历史主叫通话时长、历史被叫次数、历史被叫通话时长、被接听次数、未被接听次数；

对用户通话行为数据中所有电话号码的属性信息进行分类整理，得到用户通话行为数据中每个电话号码的属性特征；其中，属性特征可以是：骚扰电话、非骚扰电话、快递送餐电话、企业电话、被拒听电话、优先接听电话、中间号电话或常用联系人电话；

对用户通话行为数据中每个电话号码的通话行为特征和属性特征，采用机器学习算法进行模型训练，得到骚扰电话模型。

上述方案中，用户通话行为数据中所有电话号码的属性信息包括以下至少一项：用户标记信息、企业认证信息、企业黄页信息、电话黑名单信息、电话白名单信息；

属性筛选模型包括以下至少一项：中间号电话模型、常用联系人电话模型。

当满足预设的预测条件时，根据骚扰电话模型和属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，其中，预设的预测条件包括以下至少一项：

当前时刻到上一次电话号码的预测类型属性的更新时刻的时间间隔大于或等于预设的时间阈值。

示例性地，识别电话号码的装置可以是采用分布式架构的大数据平台，由识别电话号码的装置、移动核心网络和业务平台可以组成一个智能防骚扰***，智能防骚扰***的结构示意图如图4所示，其中，移动核心网络可以包括移动交换中心MSC(MobileSwitching Center)、业务监控平台SCP(Business Monitoring Platform)和归属位置寄存器HLR(Home Location Register)，移动交换中心用于接收电话号码的呼叫请求，并向业务监控平台发送通知信令；业务监控平台用于接收到通知信令时，向识别电话号码的装置发送携带电话号码的骚扰电话识别请求；

识别电话号码的装置用于接收到携带电话号码的电话号码识别请求时，对电话号码进行识别，并将识别结果返回业务监控平台。

进一步地，业务监控平台具体用于，当识别结果为电话号码属于骚扰电话，且被叫电话号码所属的被叫终端开通拦截业务时，通知移动交换中心中止该电话号码的呼叫，并将拦截状态发送到业务平台，使得业务平台发送短信通知被叫终端拦截结果；当识别结果为主叫号码属于骚扰电话，且被叫电话电话所属的被叫终端开通提醒业务时，通知移动交换中心对该电话号码的呼叫给予放行，并可以通过闪信的方式通知被叫终端该电话号码为骚扰电话；当识别结果为电话号码属于非骚扰电话时，通知移动交换中心对该电话号码的呼叫给予放行。

实施例四

基于与前述实施例相同的技术构思，本发明实施例五提供了一种计算机可读存储介质，可以应用于装置中；前述实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个计算机可读存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

具体来讲，本实施例中的一种识别电话号码的方法对应的计算机程序指令，可以被存储在光盘，硬盘，U盘等存储介质上，当存储介质中的与一种识别电话号码的方法对应的计算机程序指令被一电子设备读取或被执行时，导致所述至少一个处理器执行本发明前述实施例的任意一种识别电话号码的方法所述的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种识别电话号码的方法，其特征在于，所述方法包括：

获取用户通话行为数据和用户通话行为数据中所有电话号码的属性信息；其中获取用户通话行为数据包括：获取预设时间段内的所有发起过呼叫请求的电话号码的用户通话行为数据，或者获取所有发起过呼叫请求的电话号码在预设时间段内的用户通话行为数据；

根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性；

所述对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型，包括：

对所述用户通话行为数据和所述通话行为数据中所有电话号码的属性信息进行分类整理，获得所述用户通话行为数据中的每个电话号码的通话行为特征和属性特征；对所述通话行为特征进行数据清洗，得到所述清洗后的通话行为特征；对所述清洗后的通话行为特征进行特征提取，得到选择后的通话行为特征；所述数据清洗包括：检查数据一致性、处理无效值和缺失值；所述特征提取包括：特征选择和降维；

对所述选择后的通话行为特征和所述属性特征，采用机器学习算法进行模型训练，得到所述骚扰电话模型。

2.根据权利要求1所述的方法，其特征在于，所述根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，得到每个发起新呼叫请求的电话号码的属性，包括：

3.根据权利要求1所述的方法，其特征在于，所述对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息进行数据分析，得到属性筛选模型，包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述用户通话行为数据和所述用户通话行为数据中所有电话号码的属性信息，采用机器学习算法进行模型训练，得到骚扰电话模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述对所述用户通话行为数据中所有电话号码的属性信息进行分类整理，得到用户通话行为数据中每个电话号码的属性特征，包括：

6.根据权利要求1所述的方法，其特征在于，所述用户通话行为数据中所有电话号码的属性信息包括以下至少一项：

7.根据权利要求1所述的方法，其特征在于，所述属性筛选模型包括以下至少一项：中间号电话模型、常用联系人电话模型。

8.根据权利要求1所述的方法，其特征在于，所述根据所述骚扰电话模型和所述属性筛选模型，对发起新呼叫请求的电话号码进行属性识别，包括：

9.一种识别电话号码的装置，其特征在于，所述装置包括：存储器和处理器；其中，

所述存储器，用于存储计算机程序

处理器具体用于在运行存储器中存储的计算机程序时，还执行以下步骤：

10.根据权利要求9所述的装置，其特征在于，所述处理器具体用于在运行所述计算机程序时，执行以下步骤：

11.根据权利要求9所述的装置，其特征在于，所述处理器具体用于在运行所述计算机程序时，执行以下步骤：

12.根据权利要求9所述的装置，其特征在于，所述处理器具体用于在运行所述计算机程序时，执行以下步骤：

13.根据权利要求12所述的装置，其特征在于，所述处理器具体用于在运行所述计算机程序时，执行以下步骤：

14.根据权利要求9所述的装置，其特征在于，所述用户通话行为数据中所有电话号码的属性信息包括以下至少一项：

15.根据权利要求9所述的装置，其特征在于，所述属性筛选模型包括以下至少一项：中间号电话模型、常用联系人电话模型。

16.根据权利要求9所述的装置，其特征在于，所述处理器具体用于在运行所述计算机程序时，执行以下步骤：

17.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，

当所述计算机程序被至少一个处理器执行时，导致所述至少一个处理器执行权利要求1至8任一项所述的方法的步骤。