CN108449482A

CN108449482A - 号码识别的方法和***

Info

Publication number: CN108449482A
Application number: CN201810135848.3A
Authority: CN
Inventors: 王波; 杨帆; 杨优
Original assignee: Beijing Teddy Bear Mobile Technology Co Ltd
Current assignee: Beijing Teddy Bear Mobile Technology Co Ltd
Priority date: 2018-02-09
Filing date: 2018-02-09
Publication date: 2018-08-24

Abstract

本发明公开了一种号码识别的方法和***。其中，该方法包括：获取电话号码的特征信息；基于号码机器学习模型，根据特征信息确定电话号码的标记分值，其中，标记分值用于表征电话号码被标记正确的概率；判断标记分值是否大于等于第一阈值；在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息。本发明解决了现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的技术问题。

Description

号码识别的方法和***

技术领域

本发明涉及通信领域，具体而言，涉及一种号码识别的方法和***。

背景技术

近年来，随着智能手机技术的普及，手机在人们的生活和工作中，扮演着不可替代的角色。号码诈骗、短信诈骗给用户造成了巨大的财产损失。近日，工信部在打击境外电信诈骗发布的新规定中，明确表示将在年底前对冒充公检法的境外改号电话实现全部拦截，并研究解决不显示号码等措施。再加上始作俑者通常藏身境外，不仅让普通用户无法防范被骗，同时也给有关部门破获案件带来了难度。仅2016上半年境外打进国内的改号诈骗电话就有47亿条，而每年在境外通过改号电话实施电信诈骗造成的经济损失，超过了100亿元。因而，有效解决电信诈骗、短信诈骗等问题迫在眉睫。

目前，在电话诈骗识别领域，现存的解决方案，大部分是依靠第三方的APP、安全卫士(例如，腾讯安全卫士)等来实现。这种方案由于号码数据量有限，对多平台多领域的支持，还不够完善，对于数据评估的重要指标识别率具有较大影响。其次，由于依赖用户主动标记电话号码，使得号码标记数据生成具有一定的随机性，不能依靠有效的技术手段，因而，很难确保标记数据的质量。另外，由于需要安装第三方APP，极大的增大了用户安装的门槛，用户转化率并不高；由用户主动标记降低了用户体验，信息流的过载会带来额外的困扰，并留下不好的口碑。

针对上述现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种号码识别的方法和***，以至少解决现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的技术问题。

根据本发明实施例的一个方面，提供了一种号码识别的方法，包括：获取电话号码的特征信息；基于号码机器学习模型，根据特征信息确定电话号码的标记分值，其中，标记分值用于表征电话号码被标记正确的概率；判断标记分值是否大于等于第一阈值；在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息。

根据本发明实施例的另一方面，还提供了一种号码识别的***，包括：至少一个客户端设备，用于发送号码查询请求，其中，号码查询请求包括：至少一个电话号码；服务器，与至少一个客户端设备通信，用于获取电话号码的特征信息，基于号码机器学习模型，根据特征信息确定电话号码的标记分值，判断标记分值是否大于等于第一阈值，并在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息，其中，标记分值用于表征电话号码被标记正确的概率。

根据本发明实施例的另一方面，还提供了一种号码识别的装置，包括：获取单元，用于获取电话号码的特征信息；确定单元，用于基于号码机器学习模型，根据特征信息确定电话号码的标记分值，其中，标记分值用于表征电话号码被标记正确的概率；判断单元，用于判断标记分值是否大于等于第一阈值；第一执行单元，用于在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息。

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，程序执行上述的一种号码识别的方法。

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述的一种号码识别的方法。

在本发明实施例中，通过获取电话号码的特征信息；基于号码机器学习模型，根据特征信息确定电话号码的标记分值，其中，标记分值用于表征电话号码被标记正确的概率；判断标记分值是否大于等于第一阈值；在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息，达到了将机器学习应用于号码识别以提高电话号码识别的准确性的目的，从而实现了减少诈骗电话和诈骗短信的现象发生，以及提高用户体验的技术效果，进而解决了现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种号码识别的方法流程图；

图2是根据本发明实施例的一种可选的号码识别的方法流程图；

图3是根据本发明实施例的一种优选的采用机器学习进行号码识别在线引擎架构示意图；

图4是根据本发明实施例的一种优选的用于号码识别的机器学习模型示意图；

图5是根据本发明实施例的一种可选的基于卷积神经网络的机器学习的整体模型示意图；

图6是根据本发明实施例的一种号码识别的***示意图；

图7是根据本发明实施例的一种号码识别的装置示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

根据本发明实施例，提供了一种号码识别的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机***中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种号码识别的方法流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取电话号码的特征信息。

作为一种可选的实施例，上述电话号码可以是为电话机(包括固定电话和移动电话)之间进行通讯而设定的号码，可以是国内电话，也可以是国外电话，在电话号码为国内电话的情况下，包括但不限于***、***和中国电信任意一家运营商提供的电话号码。上述特征信息可以是选取的用于确定上述电话号码的标记信息的信息，包括但不限于号码类型、号码长度、呼入频度、呼出频度、平均通话时长、平均呼出时长、平均呼入时长等信息。

步骤S104，基于号码机器学习模型，根据特征信息确定电话号码的标记分值，其中，标记分值用于表征电话号码被标记正确的概率。

作为一种可选的实施例，上述号码机器学习模型可以是通过各种机器学习算法训练得到的用于识别电话号码的标记信息以及对应的标记分值，其中，标记信息包括但限于如下任意一种：广告推销、诈骗电话、骚扰电话、快递服务等。上述标记分值可以是通过号码机器学习模型对电话号码的标记信息进行评估的分值，其范围可以是0～100中的任意一个分值。

可选地，上述号码机器学习模型采用如下任意一种机器学习算法：随机森林算法、支持向量机算法、卷积神经网络算法、罗杰斯特回归算法。

一种可选的实施例中，可以根据电话号码的如下特征信息来确定电话号码的标记分值：呼入频率、呼出频率、平均通话时长、平均呼出时长、平均呼入时长。

步骤S106，判断标记分值是否大于等于第一阈值。

作为一种可选的实施例，上述第一阈值可以预先设置的用于表征电话号码被标记正确的最低标记分值，例如，上述第一阈值可以是70分。基于号码机器学习模型，根据特征信息确定电话号码的标记分值后，可以判断该电话号码的标记分值是否大于等于第一阈值(例如，70分)，如果电话号码的标记分值大于等于第一阈值，则认为该电话被标记的准确度比较高；反之，如果电话号码的标记分值小于第一阈值，则认为该电话被标记的准确度比较低。

步骤S108，在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息。

容易注意的是，现有技术中，由用户直接通过第三方应用程序(例如，各种安全卫士)来对电话号码进行标记，这种完全由用户主观标记的电话号码可能不一定准确，而本申请上述实施例公开的方案，根据获取到的电话号码的特征信息来对电话号码的标记信息进行打分，根据每个电话号码的标记信息对应的标记分值来确定是否输出该电话号码的标记信息，可以进一步提高电话号码被标记正确的概率。

由上可知，在本申请上述实施例中，在接收到用户对某一电话号码的查询请求后，可以获取查询请求中请求的电话号码的特征信息，并基于预先训练得到的号码机器学习模型，根据该电话号码的特征信息确定该电话号码的标记分值，只有该电话号码的标记分值大于等于第一阈值后，才输出该电话号码的标记信息，达到了将机器学习应用于号码识别以提高电话号码识别的准确性的目的，从而实现了减少诈骗电话和诈骗短信的现象发生，以及提高用户体验的技术效果，进而解决了现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的技术问题。

需要说明的是，由于接收到的电话号码可能是已标记的电话号码，也可能是未标记的电话号码，作为一种可选的实施方案，如图2所示，基于号码机器学习模型，根据特征信息确定电话号码的标记分值，可以包括如下步骤：

步骤S202，判断电话号码是否是已标记号码，其中，已标记号码用于表征电话号码已携带有标记信息；

步骤S204，在电话号码是已标记号码的情况下，基于号码机器学习模型，根据特征信息确定电话号码被标记为标记信息的标记分值。

可选地，如图2所示，上述方法还可以包括：步骤S206，在电话号码不是已标记号码的情况下，基于号码机器学习模型，根据特征信息确定电话号码的标记信息，以及被标记为标记信息的标记分值。

可选地，上述方法还可以包括如下步骤：步骤S110，在标记分值小于第一阈值的情况下，禁止输出电话号码的标记信息。

需要说明的是，在电话号码的标记分值小于第一阈值的情况下，则该电话号码的标记信息不一定准确，因而，可以禁止输出该电话号码的标记信息。可选地，作为一种可选的实施方式，在标记分值小于第一阈值的情况下，禁止输出电话号码的标记信息，可以包括如下步骤：

步骤一，判断标记分值是否小于第二阈值，其中，第二阈值小于第一阈值；

步骤二，在标记分值小于等于第二阈值的情况下，修改电话号码的标记信息。

具体地，在上述步骤中，第二阈值可以用于表征电话号码被标记错误的一个标记分值，第二阈值小于第一阈值，例如，第二阈值可以是30分。因而，在电话号码的标记分值小于第二阈值的情况下，可以确定该电话号码被标记错误，需要去掉该电话号码的标记信息，或者将该电话号码的标记信息修改为基于上述号码机器学习模型确定的标记信息。

基于上述任意一种可选的实施例，作为一种可选的实施例，在获取电话号码的特征信息之前，上述方法还可以包括：接收至少一个客户端设备上传的号码查询请求，其中，号码查询请求包括：至少一个电话号码。

可选地，基于上述实施例，作为一种可选的实施方式，在接收至少一个客户端上传的号码查询请求之后，上述方法还可以包括：通过在线识别引擎向至少一个客户端设备输出电话号码的标记信息。

作为一种优选的实施例，图3是根据本发明实施例的一种优选的采用机器学***台和原始***数据平台的处理，把结果输出给在线识别引擎。在线识别引擎将结果输出给客户端进行展示。另外，对于用户标记的数据，利用机器学习进行打分，例如10086标记为“骚扰电话”，那么***会根据10086的号码特征，分析10086是“骚扰电话”标记的得分。当电话号码的标记分值低于第二阈值(例如，30分)的时候，***认为用户给这个电话号码的标记是不准确的，当电话号码的标记分值高于第一阈值(例如，70分)的时候，***认为用户给这个电话号码的标记是正确的。当电话号码的标记分值大于第二阈值(例如，30分)，且小于第一阈值(例如，70分)的时候，则不向客户端输出该电话号码的标记信息，将该标记信息作为数据库的一部分。

可选地，一种可选的实施例，图4是根据本发明实施例的一种优选的用于号码识别的机器学习模型示意图，如图4所示，线上接口库根据***的判别逻辑，给每个号码打分，去校验已标记号码的标记和给未标记号码进行标记打分。当客户端的请求发起后，通过手机厂商的电话接口，把请求发送到线上查询接口，之后根据号码库查询逻辑对各类号码设置的阈值参数进行判定，当高于第一阈值时，输出电话号码的标记。当低于第二阈值时，去掉电话号码的标记。

需要说明的是，在构建上述用于号码识别的号码机器学习模型时，可以采用随机森林(random forest)、SVM(支持向量机)、CNN(卷积神经网络)、Logistic regression(罗杰斯特回归)等任意一种机器学习算法，机器学习建模效果如下：

(1)真正类率(true positive rate,TPR)，计算公式为：TPR＝TP/(TP+FN)，用于表征分类器所识别出的正实例占所有正实例的比例。

(2)负正类率(false positive rate,FPR)，计算公式为：FPR＝FP/(FP+TN)，用于表征分类器错认为正类的负实例占所有负实例的比例。

通常来讲，KS值越大，表示模型能够将正、负类别分开的程度越大。KS>0.2即表示模型有较好的预测准确性。由表1所示的统计结果表示KS值最大的是随机森林(randomforest)的KS值为0.59，其次是支持向量机(SVM)的KS值为0.56，可以选取KS值和TPR值较高的值，进行标记分类的人工正确率验证。

机器学习模型	KS值	TPR	FPR
				随机森林算法	0.51	79.38％	20.92％
支持向量机算法	0.56	79.33％	24.38％
				卷积神经网络算法	0.58	80.20％	24.47％
罗杰斯特回归算法	0.44	67.54％	23.06％

需要说明的是，机器学习中，一般可以将样本分成独立的三部分：训练集(trainset)，验证集(validation set)和测试集(test set)。其中，训练集用来估计模型，验证集用来确定网络结构或者控制模型复杂程度的参数，而测试集则检验最终选择最优的模型的性能如何。由于训练集用于建立模型，训练集占总样本的50％，而其它各占25％，三部分都是从样本中随机抽取。因此，机器学习的特征部分依赖于训练集的数据准确性。在验证号码的准确率上面，标记的数据越真实，机器学习模型的参数越接近真实值。但是不同于常见的机器学习模型所需要的数据集，此处所需要的数据集是需要人工去验证其正确率才能保证数据集的正确性。因此训练集存在以下二个局限性：一、训练集的数据还不够多；二、训练集的数据还不够准确。在训练集的数据数量上，我们采用各个数据的分类标记，作为数据的分类，进行处理。

由于构造号码机器学习的模型的目的是希望从原始的特征数据集中，学习出问题的结构与问题的本质，当然此时的挑选出的特征就应该能够对问题有更好的解释，所以特征选择的目标大致如下：

①提高预测的准确性；

②构造更快，消耗更低的预测模型；

③能够对模型有更好的理解和解释。

特征的选取对于机器学习的模型训练是非常关键的。越多的特征描述意味着，有着分类器能够利用到的信息更多，但是这并不意味着特征越多越好，越多的特征意味着达到收敛的速度的降低，其次是会造成较多的冗余特征。特征选取有以下三点IIS定律：

I:informative，既含有有效的信息

I:independent，既特征之间是相互独立的

S:simple，既信息一定是易于提取容易理解的

综上，在号码识别中选取呼入频度(incoming frequency)，呼出频度(outcomingfrequency)，平均通话时长(average talk time)，平均呼出时长(average outcomingtime)平均呼入时长(average incoming time)等特征作为模型特征。

作为一种优选的实施例，综合KS和TPR在随机森林，支持向量机，CNN及Logistic的表现，可以选取CNN作为号码识别的机器学习模型。

下面以CNN为例，来介绍号码机器学习模型的建立过程。

首先，表2所示为CNN涉及到的专业名词。

图5是根据本发明实施例的一种可选的基于卷积神经网络的机器学习的整体模型示意图，如图5所示，包括如下几部分：

(1)数据导入(import data)

使用python的import函数，导入号码识别所需要的训练集。这部分数据来自于泰迪熊移动的数据库所积累的单个类别的数据。其中，数据导入的代码实现如下：

#Import data

rec,rec_col,lab,lab_col＝read_train_file(FLAGS.data_dir)

rec_nd＝numpy.array(rec)

lab_nd＝numpy.array(lab)

#print(type(rec),rec[0])

#print(type(lab),lab[0])

#print(type(rec_nd),len(rec_nd),rec_nd[0])

#print(type(lab_nd),len(lab_nd),lab_nd[0])

#sys.exit()

rec_test,rec_col_test,lab_test,lab_col_test＝read_test_file(FLAGS.data_dir)

rec_test_nd＝numpy.array(rec_test)

lab_test_nd＝numpy.array(lab_test)

(2)创建节点(create op)

通过为输入图像和目标输出类别创建节点，来开始构建计算图。通过权重W和偏置b，来构建二者之间的映射关系，这里的x和y_并不是具体的值。初始化的过程中，使用占位符placeholder创建一个数据类型为float32位的rec_col维向量。None表示其值大小不定，在这里作为第一个维度值，用以指代batch的大小，意即x的数量不定。同理，y_中，None表示其值大小不定，在这里作为第一个维度值，用以指代batch的大小，意即y_的数量不定，lac_col是第二个维度的值，大小为lac_col，None和lac_col共同构成偏置b的二维向量。shape的参数是可选的，但是有了shape的存在可以使得自动捕捉因为数据维度不一致导致的错误。其中，创建节点的代码实现如下：

(3)第一层卷积(First Convolutional Layer)

第一层卷积核为5*5，RGB通道数为1，输出为32个16*16的数据。把x_image和权值向量W_conv1进行卷积，加上偏置项b_conv1，然后应用ReLU激活函数，最后进行2*2的池化(max pooling)。

(4)第二层卷积(Second Convolutional Layer)

第二层卷积核为5*5，RGB通道数为1。把x_image和权值向量W_conv1进行卷积，加上偏置项b_conv1，然后应用ReLU激活函数，最后进行池化(max pooling)，输出为64个16*16的张量。

(5)全连接层(Densely Connected Layer)

将数据尺寸定为1x1，加入一个有1024个神经元的全连接层，用于处理数据。我们把池化层输出的张量reshape成一些向量，乘上权重矩阵，加上偏置，然后对其使用ReLU函数(激活函数rectified linear unites)。

(6)防止过拟合层(Dropout Layer)

为了减少过拟合，在输出层之前加入dropout(防止过拟合层)。用一个placeholder(占位符)来代表一个神经元的输出。这样可以在训练过程中启用dropout，在测试过程中关闭dropout。dropout操作除了可以屏蔽神经元的输出外，还会自动处理神经元输出值的scale(刻度)。所以用dropout的时候可以不用考虑scale(刻度)的更新和处理。

(7)输出层(Readout Layer)

传统的机器学习模型logestic是softmax的特例(当且仅当只有两个分类的情况小)，softmax是处理多分类问题，在这里添加一个softmax层用于输出(将Drop层的数据作为输入x，通过Y＝wx+b得到输出层的数据Y)。

(8)训练模型和评估模型(Trian The Model&Value the Model)

为了进行训练和评估，使用与单层SoftMax神经网络模型，用较为复杂的ADAM优化器来做梯度下降的优化，在feed_dict中加入额外的参数keep_prob来控制dropout比例。然后每100次迭代输出一次日志。

本申请上述实施例提供的方案，将机器学习应用于号码识别领域，为号码识别的发展开启了新的道路。机器学习模型在号码领域的应用有以下优点：

首先，对于生产标签的过程是大为有利的，使得生产的过程不仅仅是依赖于平台的用户主动标记和第三方平台提供，较大地提升了数据生产的效率。

其次，机器学习在标签生产过程中起到了校验标签的作用，这样一个反馈式调节对于一个***的稳定性非常有必要的，提升了数据的质量和正确性。

另外，机器学习在号码识别领域的应用，可以充分的发掘数据的价值并加以利用。

根据本发明实施例，还提供了一种用于实现上述号码识别的方法的***实施例，图6是根据本发明实施例的一种号码识别的***示意图，如图6所示，该***包括：至少一个客户端设备601和服务器603。

其中，至少一个客户端设备601，用于发送号码查询请求，其中，号码查询请求包括：至少一个电话号码；

服务器603，与至少一个客户端设备通信，用于获取电话号码的特征信息，基于号码机器学习模型，根据特征信息确定电话号码的标记分值，判断标记分值是否大于等于第一阈值，并在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息，其中，标记分值用于表征电话号码被标记正确的概率。

由上可知，在本申请上述实施例中，客户端设备601向服务器603发送任意一个电话号码的号码查询请求，服务器603在接收到用户对该电话号码的查询请求后，可以获取查询请求中请求的电话号码的特征信息，并基于预先训练得到的号码机器学习模型，根据该电话号码的特征信息确定该电话号码的标记分值，只有该电话号码的标记分值大于等于第一阈值后，才输出该电话号码的标记信息，达到了将机器学习应用于号码识别以提高电话号码识别的准确性的目的，从而实现了减少诈骗电话和诈骗短信的现象发生，以及提高用户体验的技术效果，进而解决了现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的技术问题。

在一种可选的实施例中，上述服务器603还用于判断电话号码是否是已标记号码，其中，已标记号码用于表征电话号码已携带有标记信息；在电话号码是已标记号码的情况下，基于号码机器学习模型，根据特征信息确定电话号码被标记为标记信息的标记分值。

在一种可选的实施例中，上述服务器603还用于在电话号码不是已标记号码的情况下，基于号码机器学习模型，根据特征信息确定电话号码的标记信息，以及被标记为标记信息的标记分值。

在一种可选的实施例中，上述服务器603还用于在标记分值小于第一阈值的情况下，禁止输出电话号码的标记信息。

在一种可选的实施例中，上述服务器603还用于判断标记分值是否小于第二阈值，其中，第二阈值小于第一阈值；在标记分值小于等于第二阈值的情况下，修改电话号码的标记信息。

在一种可选的实施例中，上述服务器603还用于接收至少一个客户端设备上传的号码查询请求，其中，号码查询请求包括：至少一个电话号码。

在一种可选的实施例中，上述服务器603还用于通过在线识别引擎向至少一个客户端设备输出电话号码的标记信息。

基于上述任意一种可选的***实施例，作为一种可选的实施例，上述电话号码的特征包括如下至少之一：呼入频率、呼出频率、平均通话时长、平均呼出时长、平均呼入时长。

基于上述任意一种可选的***实施例，作为一种可选的实施例，上述号码机器学习模型采用如下任意一种机器学习算法：随机森林算法、支持向量机算法、卷积神经网络算法、罗杰斯特回归算法。

根据本发明实施例，还提供了一种用于实现上述号码识别的方法的装置实施例，图7是根据本发明实施例的一种号码识别的装置示意图，如图7所示，该装置包括：获取单元701、确定单元703、判断单元705和第一执行单元707。

其中，获取单元701，用于获取电话号码的特征信息；

确定单元703，用于基于号码机器学习模型，根据特征信息确定电话号码的标记分值，其中，标记分值用于表征电话号码被标记正确的概率；

判断单元705，用于判断标记分值是否大于等于第一阈值；

第一执行单元707，用于在标记分值大于等于第一阈值的情况下，输出电话号码的标记信息。

此处需要说明的是，上述获取单元701、确定单元703、判断单元705和第一执行单元707对应于方法实施例中的步骤S102至S108，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述方法实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机***中执行。

由上可知，在本申请上述实施例中，在接收到用户对某一电话号码的查询请求后，通过获取单元701获取查询请求中请求的电话号码的特征信息，并通过确定单元703基于预先训练得到的号码机器学习模型，根据该电话号码的特征信息确定该电话号码的标记分值，通过判断单元705判断该电话号码的标记分值是否大于等于第一阈值，通过第一执行单元707在该电话号码的标记分值大于等于第一阈值的情况下，才输出该电话号码的标记信息，达到了将机器学习应用于号码识别以提高电话号码识别的准确性的目的，从而实现了减少诈骗电话和诈骗短信的现象发生，以及提高用户体验的技术效果，进而解决了现有技术中借助第三方应用程序、依靠用户主动标记来实现号码识别的方案，导致数据质量较差的技术问题。

在一种可选的实施例中，上述确定单元包括：第一判断模块，用于判断电话号码是否是已标记号码，其中，已标记号码用于表征电话号码已携带有标记信息；第一确定模块，用于在电话号码是已标记号码的情况下，基于号码机器学习模型，根据特征信息确定电话号码被标记为标记信息的标记分值。

在一种可选的实施例中，上述确定单元还包括：第二确定模块，用于在电话号码不是已标记号码的情况下，基于号码机器学习模型，根据特征信息确定电话号码的标记信息，以及被标记为标记信息的标记分值。

在一种可选的实施例中，上述装置还包括：第二执行单元，用于在标记分值小于第一阈值的情况下，禁止输出电话号码的标记信息。

在一种可选的实施例中，上述第二执行单元包括：第二判断模块，用于判断标记分值是否小于第二阈值，其中，第二阈值小于第一阈值；修改模块，用于在标记分值小于等于第二阈值的情况下，修改电话号码的标记信息。

在一种可选的实施例中，上述装置还包括：接收单元，用于接收至少一个客户端设备上传的号码查询请求，其中，号码查询请求包括：至少一个电话号码。

在一种可选的实施例中，上述装置还包括：输出单元，用于通过在线识别引擎向至少一个客户端设备输出电话号码的标记信息。

基于上述任意一种可选的装置实施例，作为一种可选的实施例，上述电话号码的特征包括如下至少之一：呼入频率、呼出频率、平均通话时长、平均呼出时长、平均呼入时长。

基于上述任意一种可选的装置实施例，作为一种可选的实施例，上述号码机器学习模型采用如下任意一种机器学习算法：随机森林算法、支持向量机算法、卷积神经网络算法、罗杰斯特回归算法。

根据本发明实施例，还提供了一种存储介质，其特征在于，存储介质包括存储的程序，其中，程序执行上述方法实施例中任意一项可选的或优选的一种号码识别的方法。

根据本发明实施例，还提供了一种处理器，其特征在于，处理器用于运行程序，其中，程序运行时执行上述方法实施例中任意一项可选的或优选的一种号码识别的方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种号码识别的方法，其特征在于，包括：

获取电话号码的特征信息；

基于号码机器学习模型，根据所述特征信息确定所述电话号码的标记分值，其中，所述标记分值用于表征所述电话号码被标记正确的概率；

判断所述标记分值是否大于等于第一阈值；

在所述标记分值大于等于所述第一阈值的情况下，输出所述电话号码的标记信息。

2.根据权利要求1所述的方法，其特征在于，基于号码机器学习模型，根据所述特征信息确定所述电话号码的标记分值，包括：

判断所述电话号码是否是已标记号码，其中，所述已标记号码用于表征所述电话号码已携带有标记信息；

在所述电话号码是已标记号码的情况下，基于号码机器学习模型，根据所述特征信息确定所述电话号码被标记为所述标记信息的标记分值。

3.根据权利要求2所述的方法，其特征在于，在判断所述电话号码是否是已标记号码之后，所述方法还包括：

在所述电话号码不是已标记号码的情况下，基于号码机器学习模型，根据所述特征信息确定所述电话号码的标记信息，以及被标记为所述标记信息的标记分值。

4.根据权利要求1所述的方法，其特征在于，在判断所述标记分值是否大于等于第一阈值之后，所述方法还包括：

在所述标记分值小于所述第一阈值的情况下，禁止输出所述电话号码的标记信息。

5.根据权利要求4所述的方法，其特征在于，在所述标记分值小于所述第一阈值的情况下，禁止输出所述电话号码的标记信息，包括：

判断所述标记分值是否小于第二阈值，其中，所述第二阈值小于所述第一阈值；

在所述标记分值小于等于所述第二阈值的情况下，修改所述电话号码的标记信息。

6.根据权利要求1所述的方法，其特征在于，在获取所述电话号码的特征信息之前，所述方法还包括：

接收至少一个客户端设备上传的号码查询请求，其中，所述号码查询请求包括：至少一个电话号码。

7.根据权利要求6所述的方法，其特征在于，在接收至少一个客户端上传的号码查询请求之后，所述方法包括：

通过在线识别引擎向所述至少一个客户端设备输出所述电话号码的标记信息。

8.根据权利要求1至7中任意一项所述的方法，其特征在于，所述电话号码的特征包括如下至少之一：呼入频率、呼出频率、平均通话时长、平均呼出时长、平均呼入时长。

9.根据权利要求1至7中任意一项所述的方法，其特征在于，所述号码机器学习模型采用如下任意一种机器学习算法：随机森林算法、支持向量机算法、卷积神经网络算法、罗杰斯特回归算法。

10.一种号码识别的***，其特征在于，包括：

至少一个客户端设备，用于发送号码查询请求，其中，所述号码查询请求包括：至少一个电话号码；

服务器，与所述至少一个客户端设备通信，用于获取所述电话号码的特征信息，基于号码机器学习模型，根据所述特征信息确定所述电话号码的标记分值，判断所述标记分值是否大于等于第一阈值，并在所述标记分值大于等于所述第一阈值的情况下，输出所述电话号码的标记信息，其中，所述标记分值用于表征所述电话号码被标记正确的概率。