CN109547393B

CN109547393B - 恶意号码识别方法、装置、设备和存储介质

Info

Publication number: CN109547393B
Application number: CN201710861442.9A
Authority: CN
Inventors: 陈健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-09-21
Filing date: 2017-09-21
Publication date: 2021-04-06
Anticipated expiration: 2037-09-21
Also published as: CN109547393A

Abstract

本发明涉及一种恶意号码识别方法、装置、设备和存储介质，该方法包括：获取包括目标号码的多个通话记录；提取所述通话记录所包括的相应各项记录信息；根据所述各项记录信息生成相应的所述通话记录所对应的通话向量；将所述通话向量按照所对应通话记录的生成时序合并，得到特征向量；根据所述特征向量对所述目标号码进行恶意号码识别。本申请的方案使得恶意号码的识别结果更加的准确。

Description

恶意号码识别方法、装置、设备和存储介质

技术领域

本发明涉及计算机技术领域，特别是涉及一种恶意号码识别方法、装置、设备和存储介质。

背景技术

目前，通过通话设备实施恶意行为的情况屡见不鲜，比如，电话诈骗等恶意行为。针对这些恶意行为，传统方法是预先设置黑名单，通过检测号码是否存在于该黑名单中，来确定该号码是否为恶意号码。

然而，传统方法必须基于恶意号码预先被添加到黑名单中这一前提才能实现，而恶意号码是由用户举报而添加至黑名单中的，受限于用户的举报情况。如果用户不举报或者举报不及时，就无法识别出恶意号码，因而导致恶意号码识别的准确率比较低。

发明内容

基于此，有必要针对恶意号码识别准确率较低的问题，提供一种恶意号码识别方法、装置、计算机设备和存储介质。

一种恶意号码识别方法，所述方法包括：

获取包括目标号码的多个通话记录；

提取所述通话记录所包括的相应各项记录信息；

根据所述各项记录信息生成相应的所述通话记录所对应的通话向量；

将所述通话向量按照所对应通话记录的生成时序合并，得到特征向量；

根据所述特征向量对所述目标号码进行恶意号码识别。

一种恶意号码识别装置，所述装置包括：

获取模块，用于获取包括目标号码的多个通话记录；

记录信息提取模块，用于提取所述通话记录所包括的相应各项记录信息；

通话向量生成模块，用于根据所述各项记录信息生成相应的所述通话记录所对应的通话向量；

特征向量生成模块，用于将所述通话向量按照所对应通话记录的生成时序合并，得到特征向量；

恶意号码识别模块，用于根据所述特征向量对所述目标号码进行恶意号码识别。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取包括目标号码的多个通话记录；

提取所述通话记录所包括的相应各项记录信息；

根据所述特征向量对所述目标号码进行恶意号码识别。

一种存储有计算机程序的存储介质，所述计算机程序被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取包括目标号码的多个通话记录；

提取所述通话记录所包括的相应各项记录信息；

根据所述特征向量对所述目标号码进行恶意号码识别。

上述恶意号码识别方法、装置、计算机设备和存储介质，通过将包括目标号码的多个通话记录转换成对应的通话向量；按照相应通话记录的生成时序，将各通话向量合并得到特征向量。由于各通话向量对应于各通话记录，将通话向量按时序合并得到的特征向量在一定程度上就能够表征该目标号码所对应的通话行为的特征，从而基于表征目标号码的通话行为的特征向量对目标号码进行恶意号码识别，不需要用户举报就可以识别恶意号码，使得识别结果更加的准确。

附图说明

图1为一个实施例中恶意号码识别方法的流程示意图；

图2为一个实施例中在通话向量中取组合的示意图；

图3为一个实施例中统计向量元素信息的示意图；

图4为一个实施例中恶意号码识别方法的流程总览示意图；

图5为另一个实施例中恶意号码识别方法的流程示意图；

图6为一个实施例中恶意号码识别装置的结构框图；

图7为另一个实施例中恶意号码识别装置的结构框图；

图8为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

图1为一个实施例中恶意号码识别方法的流程示意图。本实施例主要以该恶意号码识别方法应用于计算机设备来举例说明。参照图1，该方法具体包括如下步骤：

S102，获取包括目标号码的多个通话记录。

其中，目标号码，是待识别是否为恶意号码的号码。通话记录，是对通话行为进行记录得到的记录信息。包括目标号码的通话记录，是目标号码作为主叫号码或被叫号码时对应的通话记录。

在一个实施例中，步骤S102中获取的多个通话记录是目标号码作为主叫号码和/或被叫号码时对应的通话记录。即所获取的多个通话记录可以是目标号码作为主叫号码时对应的通话记录，也可以是目标号码作为被叫号码时对应的通话记录，还可以是既包括目标号码作为主叫号码时对应的通话记录又包括目标号码作为被叫号码时对应的通话记录。在一个实施例中，步骤S102中获取的多个通话记录可以是包括该目标号码的所有或部分通话记录。

在一个实施例中，计算机设备可以从话单文件中提取包括目标号码的通话记录。

S104，提取通话记录所包括的相应各项记录信息。

其中，记录信息，是所记录的通话行为的相关信息。可以理解，通话记录中包括至少一项的记录信息。在一个实施例中，通话记录中包括的记录信息，包括主叫号码、被叫号码、主被叫关系、通话接入时间点、通话时长和通话结束时间点等中的至少一项记录信息。

比如，包括目标号码138********的一个通话记录如下：

138********，156********，主叫，2017-8-30 14:18:00，20。

则该通话记录包括的5项记录信息分别为：138********(主叫号码)、156********(被叫号码)，主叫(主被叫关系)，2017-8-30 14:18:00(通话接入时间点)，以及20(通话时长)。

可以理解，计算机设备是分别提取每个通话记录所包括的相应各项记录信息。

S106，根据各项记录信息生成相应的通话记录所对应的通话向量。

其中，通话向量，是表示通话记录所记录的通话行为的向量，即把通话记录所记录的通话行为用向量的形式进行表示。

在一个实施例中，步骤S106包括：将各项记录信息映射为向量元素，组合映射得到的各向量元素以生成与通话记录相应的通话向量。

具体地，计算机设备中预先设置了记录信息与向量元素间的映射关系，根据该映射关系，计算机设备可以直接将通话记录所包括的各项记录信息映射为向量元素。进一步地，计算机设备可以将映射得到的向量元素进行组合，以生成与该通话记录相应的通话向量。可以理解，当通话记录中仅包括单项记录信息时，与该通话记录相应的通话向量则仅包括该单项记录信息映射后得到的一个向量元素。

在另一个实施例中，计算机设备也可以根据各项记录信息确定对应于预设特征项的特征信息，根据所确定的对应于预设特征项的特征信息生成与该通话记录相应的通话向量。其中，预设特征项，是用于体现通话行为的特征的预设项。

S108，将通话向量按照所对应通话记录的生成时序合并，得到特征向量。

其中，通话记录的生成时序，是生成通话记录的先后顺序。向量的合并，是将向量的向量元素进行拼接，合并后得到的向量包括进行合并的各个向量的所有向量元素。特征向量，是表示目标号码的通话行为的特征的向量，即以向量形式表示目标号码的通话行为的特征。

可以理解，目标号码的多个通话行为能够在一定程度上反映出目标号码的通话行为的特征，那么将表示多个通话行为的多个通话向量进行合并后得到特征向量，该得到的特征向量也就能够在一定程度上表征目标号码的通话行为的特征。

可以理解，通话记录的生成时序与该通话记录所记录的通话行为发生的先后顺序相适应。比如，通话记录A用于记录通话行为a、通话记录B用于记录通话行为b、通话记录C用于记录通话行为c。其中，这三个通话行为发生的先后顺序依次为：通话行为c→通话行为a→通话行为b，那么，这三个通话记录的生成时序为：通话记录C→通话记录A→通话记录B。

具体地，计算机设备可以按照各通话向量所对应的通话记录之间的生成时序，将各通话向量中的向量元素进行拼接，得到特征向量。

比如，通话向量

通话向量

通话向量

和通话向量

所对应的通话记录的生成时序为：通话记录A→通话记录B，那么，则按照该生成时序，将通话向量

中的向量元素与通话向量

中的向量元素进行拼接，得到特征向量

需要说明的是，计算机设备可以将全部的通话向量按照所对应的通话记录的生成时序，合并得到一个特征向量。计算机设备也可以将各通话向量进行组合，将组合中的通话向量按照所对应通话记录的生成时序合并，得到特征向量。

S110，根据特征向量对目标号码进行恶意号码识别。

具体地，计算机设备可以直接根据步骤S108中得到的特征向量对目标号码进行恶意号码识别，以识别出目标号码是否为恶意号码。计算机设备也可以对得到的特征向量进行筛选(比如，计算机设备可以通过对得到的特征向量进行聚类或者重要性评分等方式，对特征向量进行筛选)，根据筛选出的特征向量对目标号码进行恶意号码识别，以识别出目标号码是否为恶意号码。

在一个实施例中，计算机设备可以将进行恶意号码识别的特征向量，输入恶意号码识别模型，输出得到目标号码为恶意号码的概率，当概率大于预设概率阈值时，则识别目标号码为恶意号码。其中，恶意号码识别模型，是由特征向量和恶意号码概率作为训练样本，进行机器学习训练得到的恶意号码识别模型。

上述恶意号码识别方法，通过将包括目标号码的多个通话记录转换成对应的通话向量；按照相应通话记录的生成时序，将各通话向量合并得到特征向量。由于各通话向量对应于各通话记录，将通话向量按时序合并得到的特征向量在一定程度上就能够表征该目标号码所对应的通话行为特征，从而基于表征目标号码的通话行为的特征向量对目标号码进行恶意号码识别，不需要用户举报就可以识别恶意号码，使得识别结果更加的准确。

在一个实施例中，步骤S106包括：根据各项记录信息确定对应于预设特征项的特征信息；将特征信息映射为向量元素；组合向量元素以生成与通话记录相应的通话向量。

其中，预设特征项，是用于体现通话行为特征的预设项。

在一个实施例中，预设特征项包括本号码类型、对端号码类型、主被叫关系、对端号码与本号码的通话关系、通话时长、与上次通话的通话间隔等中的至少一项。

在一个实施例中，号码类型包括海外号码、固定电话、移动号码和网络号码等类型中的至少一种。主被叫关系包括主叫关系和被叫关系。对端号码与本号码的通话关系包括首次通话、常通话和一般性通话等中的至少一个。

具体地，计算机设备可以根据该通话记录本身所包括的各项记录信息确定对应于预设特征项的特征信息。计算机设备还可以根据所获取的多个通话记录所包括的各项记录信息来确定对应于预设特征项的特征信息。比如，针对与上次通话的通话间隔这项特征项而言，计算机设备就需要根据上一通话记录中的记录信息和下一通话记录中的记录信息来确定对应于该特征项的特征信息，即确定具体的通话间隔。

在一个实施例中，计算机设备可以根据在当前的通话记录产生之前所产生的历史通话记录中的记录信息，来确定在当前的通话记录中，对端号码与本号码的通话关系。以确定在当前的通话记录中，对端号码与本号码间是否为首次通话、常通话或者一般性通话。

在一个实施例中，计算机设备中预先设置了特征信息与向量元素间的映射关系，根据该映射关系，计算机设备可以将所确定的预设特征项的特征信息映射为向量元素。进一步地，计算机设备可以将映射得到的向量元素进行组合，以生成与该通话记录相应的通话向量。

现结合例子进行举例说明。比如，包括目标号码138********的3个连续产生的通话行为的通话记录如下：

通话记录1：138********，156********，主叫，2017-8-30 14:18:00，20；

通话记录2：156********，138********，被叫，2017-8-30 15:08:00，10；

通话记录3：138********，137********，主叫，2017-8-30 15:30:00，15。

那么，在确定通话记录2的通话向量时，计算机设备可以根据通话记录2中的各项记录信息，确定预设特征项中的本号码类型为移动号码、对端号码类型为移动号码，主被叫关系为被叫，通话时长为10min，并根据在通话记录2之前产生的通话行为的通话记录，确定对端号码与本号码的关系为常通话关系，根据通话记录2中的记录信息与上一次通话的通话记录1中的记录信息，确定与上一次的通话间隔为30min。那么，该通话记录所对应的预设特征项的特征信息分别为：本号码类型为移动号码、对端号码类型为移动号码、主被叫关系为被叫、通话时长为10min、对端号码与本号码的关系为常通话关系、与上一次的通话间隔为30min，则计算机设备将得到的各特征信息分别映射为向量元素，可以得到与通话记录2相应的通话向量为(1,1,2,1,2,30)。

上述实施例中，根据各项记录信息确定对应于预设特征项的特征信息；将特征信息映射为向量元素，使得所生成的通话向量能够更加准确地表征通话行为的特征。从而提高了恶意号码识别的准确性。

在一个实施例中，步骤S108包括：在多个通话记录所对应的通话向量中取不同的组合；将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量。

在一个实施例中，计算机设备可以直接将多个通话向量划分组合。可以理解，直接将多个通话向量划分组合，所得到的各组合间的通话向量不重复，即一个通话向量仅存在于直接划分组合后的一个组合中。

具体地，计算机设备可以按照多个通话记录的生成时序确定相应多个通话向量的顺序，按照相应顺序，迭代地将每满足预设向量数量的通话向量划分为一组，从而得到通话向量所划分后的组合。其中，预设向量数量，是一个组合中的通话向量的预设数量。

比如，按照通话向量的顺序，将通话向量依次表示为通话向量1～9，预设向量数量为3，则可以得到3个组合，分别是组合G1：通话向量1～3，组合G2：通话向量4～6，以及组合G3：通话向量7～9。

可以理解，当最后剩下的通话向量的数量不满足预设向量数量，则将剩下的通话向量作为一个组合。

计算机设备也可以获取预设组合数量，按照相应顺序将多个通话向量划分为满足预设组合数量的组合。比如，预设组合数量为2，通话向量为1～8，则可以将通话向量划分为3个组合，分别为通话向量1～4和通话向量5～8这两个组合。

可以理解，当通话向量的总数量与预设组合数量的比值不为整数时，则计算机设备可以根据余出来的通话向量的数量，确定用于添加通话向量的组合，并将余出来的通话向量对应添加至所确定出来的组合中。

在另一个实施例中，计算机设备也可以将多个通话向量进行排列组合，以得到不同的组合。可以理解，一个通话向量可以存在于排列组合后得到的多个组合中。具体地，计算机设备可以按照预设向量数量将多个通话向量进行排列组合。预设向量数量，是一个组合中的通话向量的预设数量。

图2为一个实施例中在通话向量中取组合的示意图。参照图2，预设向量数量为2，则可以将通话向量1、2和3按照预设向量数量2进行排列组合(即每个组合中包括2个通话向量)，得到通话向量1和通话向量2的组合，通话向量2和通话向量3的组合，以及通话向量1和通话向量3的组合。图2中的双向箭头表示两端的通话向量相互组合。

在其它实施例中，计算机设备还可以将各通话向量间进行随机组合，以得到不同的组合。

上述实施例中，在多个通话记录所对应的通话向量中取不同的组合；将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量。保证了组合的多样性，从而使得根据组合生成的特征向量更多，进而更多方面地、更加准确地体现目标号码的通话行为的特征。此外，将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量，相当于使得通话行为具有有序性，进而能够使得特征向量更加准确地体现目标号码的通话行为的特征。

在一个实施例中，在多个通话记录所对应的通话向量中取不同的组合包括：按照多个通话记录的生成时序确定相应多个通话向量的顺序；从多个通话向量中，分别取预设数量且按所述顺序相邻的通话向量的组合。

具体地，计算机设备可以按照多个通话记录的生成时序确定相应多个通话向量的顺序，以使得多个通话向量的顺序与所对应的通话记录的生成时序相适应。即通话记录生成的越早，其所对应的通话向量的顺序就越靠前。

其中，按顺序相邻，是按照通话向量的顺序属于相邻关系。比如，按照通话向量的顺序，多个通话向量依次表示为通话向量1、2、3、4和5，则通话向量1和通话向量2间是按顺序相邻的，通话向量2和3是按顺序相邻的，通话向量1和3之间则不属于按顺序相邻，而属于不相邻。

预设数量且按顺序相邻的通话向量，是表示预设数量的通话向量间按顺序相邻。比如，通话向量1、2和3就是3个按顺序相邻的通话向量，而通话向量1、2和4就不属于3个按顺序相邻的通话向量，因为通话向量2和4之间不属于按顺序相邻。

进一步地，计算机设备可以按照通话向量的顺序，迭代地将每满足预设数量的通话向量划分为一组，从而得到通话向量所划分后的组合。

在一个实施例中，从多个通话向量中，分别取预设数量且按顺序相邻的通话向量的组合包括：根据预设数量，循环地选取当前的通话向量之后的、且按顺序相邻的通话向量，其中，当前的通话向量和选取的通话向量的数量之和满足该预设数量；将当前的通话向量和相应选取的通话向量作为组合。

可以理解，当前的通话向量，是在循环地确定组合的过程中，当前所要用于确定组合的通话向量。比如，通话向量为1～10(即有10个通话向量)，在针对第1个通话向量根据上述方式来确定组合时，第1个通话向量则为当前的通话向量，在针对第2个通话向量根据上述来确定组合时，第2个通话向量则为当前的通话向量。

具体地，计算机设备可以根据预设数量，循环地选取当前的通话向量之后的、且按顺序相邻的通话向量，其中，当前的通话向量和选取的通话向量的数量之和满足该预设数量。可以理解，对于所选取的通话向量来说，其相互间是按顺序相邻的，且其中顺序最前的通话向量也与当前的通话向量是按顺序相邻的。

比如，一共有n个通话向量，预设数量为3，那么，在针对第K个通话向量来确定组合时，则第K个通话向量为当前的通话向量，可以根据预设数量3，选取第K个通话向量之后的第K+1和第K+2个通话向量，使得当前的通话向量和选取的通话向量的数量(即选取2个通话向量)之和为3。将第K个通话向量和第K+1和第K+2个通话向量作为组合。

上述实施例中，从多个通话向量中，分别取预设数量且按顺序相邻的通话向量的组合，保证了组合的多样性，从而使得根据组合生成的特征向量更多，进而更多方面地、更加准确地体现目标号码的通话行为的特征。此外，取预设数量且按顺序相邻的通话向量作为组合，既避免了组合元素过多导致处理压力的问题，又由于按序相邻的通话向量进行组合，相当于使得相应的通话行为具有连续性，能够更加准确地体现目标号码的通话行为的特征。

在一个实施例中，将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量包括：将每个组合的通话向量按所对应通话记录的生成时序合并；在参与合并的各通话向量中确定与预设统计项对应的向量元素；按照预设统计项对应的统计方式将对应的向量元素进行统计；将统计得到的向量元素添加至相应合并后的向量中，得到特征向量。

其中，预设统计项，是用于统计向量元素信息的预设项。

具体地，计算机设备可以预先设置针对向量元素信息进行统计的预设统计项，针对每个预设统计项设置了对应的统计方式。计算机设备可以将每个组合的通话向量按所对应通话记录的生成时序合并，在参与合并的各通话向量中确定与预设统计项对应的向量元素，按照预设统计项对应的统计方式将对应的向量元素进行统计。其中，预设统计项可以为一个或多个。

在一个实施例中，计算机设备中可以针对通话向量的每项向量元素设置相应的预设统计项，以统计该项向量元素的信息。例如，可以针对通话向量中对应于通话时长的这项向量元素设置相应的预设统计项，比如，统计通话总时长等。

图3为一个实施例中统计向量元素信息的示意图。参照图3，将通话向量1、通话向量2和通话向量3，竖直虚线所表示的列方向的向量元素对应于相同的预设统计项，分别对应于三个不同的预设统计项。按照各预设统计项所对应的统计方式，将对应的向量元素进行统计，得到统计后的向量元素，图3中的向量元素“Vx0_s,”、“Vx1_s”和“Vx2_s”即为统计后的向量元素。

进一步地，计算机设备可以将统计得到的向量元素添加至相应合并后的向量中，得到特征向量。

具体地，计算机设备可以将统计得到的向量元素添加到合并后的向量中的预设位置。在一个实施例中，计算机设备可以将统计得到的向量元素添加到合并后的向量的首尾或末尾的位置。

比如，合并后的向量为(V00,V01,V02,V10,V11,V12,V20,V21,V22)，统计得到的向量元素为(Vx0_s,Vx1_s,Vx2_s)，则得到特征向量为(V00,V01,V02,V10,V11,V12,V20,V21,V22,Vx0_s,Vx1_s,Vx2_s)

上述实施例中，针对参与合并的通话向量的向量元素按照预设统计项进行统计，将统计得到的向量元素添加至合并后的向量中，使得得到的特征向量所具有的特征信息更加的丰富，进而能够更加准确地体现目标号码的通话行为的特征。

在一个实施例中，步骤S110包括：将特征向量聚类为不同的聚类簇；从聚类簇中选取代表相应聚类簇的特征向量；根据选取的特征向量对目标号码进行恶意号码识别。

其中，聚类簇，是聚为一类的特征向量集合。可以理解，同一聚类簇中的特征向量所表征的通话行为的特征较接近。

具体地，计算机设备可以通过聚类处理，将特征向量聚类为不同的聚类簇。在一个实施例中，计算机设备可以从特征向量中选择预设数量的特征向量作为初始聚类簇中心点，然后计算各特征向量到初始聚类簇中心点的距离，将各特征向量划分到距离最近的初始聚类簇中心点所代表的聚类簇中，然后再根据划分到每个聚类簇中的特征向量重新确定该聚类簇的中心点，再迭代的进行特征向量划分和更新聚类簇中心点的步骤，直至聚类簇中心点不发生变化，或者达到指定的迭代次数，以将特征向量聚类为不同的聚类簇。

进一步地，计算机设备可以从每个聚类簇中选取代表相应聚类簇的特征向量。根据选取的特征向量对目标号码进行恶意号码识别。

在一个实施例中，计算机设备可以从聚类簇中随机选取一个特征向量作为代表相应聚类簇的特征向量。在另一个实施例中，计算机设备也可以选取距离聚类簇中心点在预设范围以内的特征向量，作为代表相应聚类簇的特征向量。

可以理解，聚类簇是所表征的特征较为接近的特征向量的集合，所以从聚类簇中选取用于代表该聚类簇的特征向量来对目标号码进行恶意识别，可以在保持特征不缺失的前提下，减少参与恶意号码识别处理的特征向量维度，从而节省计算资源以及减少计算压力。

在一个实施例中，步骤S110包括：对选取的特征向量进行重要性评分；筛选出评分值高于预设评分阈值或评分值位于前预设位数的特征向量；根据筛选出的特征向量对目标号码进行恶意号码识别。

在一个实施例中，计算机设备可以根据选取的特征向量进行机器学习训练，在机器学习训练过程中确定各特征向量相应的数据划分能力，根据所确定的数据划分能力对相应各特征向量进行重要性评分。

具体地，计算机设备可以通过决策树算法，根据选取的特征向量进行决策树训练，在决策树训练过程中确定各特征向量相应的数据划分能力，根据所确定的数据划分能力对相应各特征向量进行重要性评分。

在另一个实施例中，计算机设备也可以根据选取的各特征向量进行逻辑回归模型训练，将选取的各特征向量的未知的重要性评分分别对应的作为逻辑回归模型的各模型参数，在逻辑回归模型训练过程中通过迭代计算确定各模型参数，将确定的模型参数作为相应的特征向量的重要性评分值。可以理解，逻辑回归模型的模型参数的大小，体现了对逻辑回归结果的影响力强弱，而影响力的强弱能够体现重要性程度，所以，模型参数的大小能够体现重要性程度。

进一步地，计算机设备可以将进行重要性评分得到的评分值与预设评分阈值进行比对，筛选出评分值高于预设评分阈值。计算机设备也可以将筛选出评分值位于前预设位数的特征向量。比如，筛选出评分值位于前10位的特征向量。计算机设备可以根据筛选出的特征向量对目标号码进行恶意号码识别。

上述实施例中，通过对特征向量进行重要性评分，根据评分选取重要性的特征向量进行恶意号码识别。因保持了重要特征不缺失而不影响识别结果，同时，减少参与恶意号码识别处理的特征向量维度，从而节省计算资源以及减少计算压力。

在一个实施例中，步骤S110包括：确定特征向量所对应的通话行为模式；当确定的通话行为模式属于恶意号码的通话行为模式时，则识别目标号码为恶意号码。

其中，通话行为模式，是预先针对大量的通话行为数据进行分析，概括出的作为行为的理论抽象与基本框架。

具体地，计算机设备预先设置了特征向量与通话行为模式之间的对应关系，根据该对应关系，计算机设备可以确定要进行恶意号码识别的特征向量所对应的通话行为模式。计算机设备可以判断所确定出的通话行为模式是否属于恶意号码的通话行为模式，当确定的通话行为模式属于恶意号码的通话行为模式时，则识别目标号码为恶意号码。当确定的通话行为模式不属于恶意号码的通话行为模式时，则识别目标号码为非恶意号码。

在一个实施例中，计算机设备可以在判断出各特征向量所对应的通话行为模式中存在至少一个的属于恶意号码的通话行为模式时，识别目标号码为恶意号码。

上述实施例中，通过确定特征向量所对应的通话行为模式；当确定的通话行为模式属于恶意号码的通话行为模式时，则识别目标号码为恶意号码。相当于通过确定通话行为模式的反推方式来识别目标号码是否为恶意号码，而不需要通过比较复杂的模型计算，提高了恶意号码识别效率。

图4为一个实施例中恶意号码识别方法的流程总览示意图。参照图4，计算机设备可以依次对包括目标号码的多个通话记录转化为通话向量，根据通话向量间的组合，生成多个特征向量，将多个特征向量进行聚类，通过机器学习训练模块对聚类后的特征向量进行筛选，筛选出重要的特征向量，根据筛选出的重要的特征向量进行恶意号码识别。

如图5所示，在一个实施例中，提供了另一种恶意号码识别方法，该方法具体包括以下步骤：

S502，获取包括目标号码的多个通话记录，提取通话记录所包括的相应各项记录信息。

S504，根据各项记录信息确定对应于预设特征项的特征信息。

S506，将特征信息映射为向量元素，组合向量元素以生成与通话记录相应的通话向量。

S508，按照多个通话记录的生成时序确定相应多个通话向量的顺序；从多个通话向量中，分别取预设数量且按顺序相邻的通话向量的组合。

S510，将每个组合的通话向量按所对应的通话记录的生成时序合并。

S512，在参与合并的各通话向量中确定与预设统计项对应的向量元素。

S514，按照预设统计项对应的统计方式将对应的向量元素进行统计。

S516，将统计得到的向量元素添加至相应合并后的向量中，得到特征向量。

S518，将特征向量聚类为不同的聚类簇；从聚类簇中选取代表相应聚类簇的特征向量。

S520，对选取的特征向量进行重要性评分；筛选出评分值高于预设评分阈值或评分值位于前预设位数的特征向量。

S522，确定筛选出的特征向量所对应的通话行为模式。

S524，当确定的通话行为模式属于恶意号码的通话行为模式时，则识别目标号码为恶意号码。

其次，根据各项记录信息确定对应于预设特征项的特征信息；将特征信息映射为向量元素，使得所生成的通话向量能够更加准确地表征通话行为的特征。从而提高了恶意号码识别的准确性。

然后，从多个通话向量中，分别取预设数量且按顺序相邻的通话向量的组合，保证了组合的多样性，从而使得根据组合生成的特征向量更多，进而更多方面地、更加准确地体现目标号码的通话行为的特征。此外，取预设数量且按顺序相邻的通话向量作为组合，既避免了组合元素过多导致处理压力的问题，又由于按序相邻的通话向量进行组合，相当于使得相应的通话行为具有连续性，能够更加准确地体现目标号码的通话行为的特征。

接着，针对参与合并的通话向量的向量元素按照预设统计项进行统计，将统计得到的向量元素添加至合并后的向量中，使得得到的特征向量所具有的特征信息更加的丰富，进而能够更加准确地体现目标号码的通话行为的特征。

再者，从聚类簇中选取用于代表该聚类簇的特征向量来对目标号码进行恶意识别，可以在保持特征不缺失的前提下，减少参与恶意号码识别处理的特征向量维度，从而节省计算资源以及减少计算压力。

而且，通过对特征向量进行重要性评分，根据评分选取重要性的特征向量进行恶意号码识别。因保持了重要特征不缺失而不影响识别结果，同时，减少参与恶意号码识别处理的特征向量维度，从而节省计算资源以及减少计算压力。

最后，通过确定通话行为模式的反推方式来识别目标号码是否为恶意号码，而不需要通过比较复杂的模型计算，提高了恶意号码识别效率。

如图6所示，在一个实施例中，提供了一种恶意号码识别装置600，该装置600包括：获取模块602、记录信息提取模块604、通话向量生成模块606、特征向量生成模块608以及恶意号码识别模块610，其中：

获取模块602，用于获取包括目标号码的多个通话记录。

记录信息提取模块604，用于提取通话记录所包括的相应各项记录信息。

通话向量生成模块606，用于根据各项记录信息生成相应的通话记录所对应的通话向量。

特征向量生成模块608，用于将通话向量按照所对应通话记录的生成时序合并，得到特征向量。

恶意号码识别模块610，用于根据特征向量对目标号码进行恶意号码识别。

如图7所示，在一个实施例中，通话向量生成模块606包括：

特征信息确定模块606a，用于根据各项记录信息确定对应于预设特征项的特征信息。

映射模块606b，用于将特征信息映射为向量元素。

生成模块606c，用于组合向量元素以生成与通话记录相应的通话向量。

在一个实施例中，特征向量生成模块608还用于在多个通话记录所对应的通话向量中取不同的组合；将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量。

在一个实施例中，特征向量生成模块608还用于按照多个通话记录的生成时序确定相应多个通话向量的顺序；从多个通话向量中，分别取预设数量且按顺序相邻的通话向量的组合。

在一个实施例中，特征向量生成模块608还用于将每个组合的通话向量按所对应的通话记录的生成时序合并；在参与合并的各通话向量中确定与预设统计项对应的向量元素；按照预设统计项对应的统计方式将对应的向量元素进行统计；将统计得到的向量元素添加至相应合并后的向量中，得到特征向量。

在一个实施例中，恶意号码识别模块610还用于将特征向量聚类为不同的聚类簇；从聚类簇中选取代表相应聚类簇的特征向量；根据选取的特征向量对目标号码进行恶意号码识别。

在一个实施例中，恶意号码识别模块610还用于对选取的特征向量进行重要性评分；筛选出评分值高于预设评分阈值或评分值位于前预设位数的特征向量；根据筛选出的特征向量对目标号码进行恶意号码识别。

在一个实施例中，恶意号码识别模块610还用于确定特征向量所对应的通话行为模式；当确定的通话行为模式属于恶意号码的通话行为模式时，则识别目标号码为恶意号码。

图8为一个实施例中计算机设备的内部结构示意图。参照图8，该计算机设备包括通过***总线连接的处理器、存储器、和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质可存储操作***和计算机程序，该计算机程序被执行时，可使得处理器执行一种恶意号码识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该内存储器中可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行一种恶意号码识别方法。计算机设备的网络接口用于进行网络通信。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的恶意号码识别装置可以实现为一种计算机程序的形式，所述计算机程序可在如图8所示的计算机设备上运行，所述计算机设备的非易失性存储介质可存储组成该恶意号码识别装置的各个程序模块，比如，图6所示的获取模块602、记录信息提取模块604、通话向量生成模块606、特征向量生成模块608以及恶意号码识别模块610。各个程序模块所组成的计算机程序用于使该计算机设备执行本说明书中描述的本申请各个实施例的恶意号码识别方法中的步骤，例如，计算机设备可以通过如图6所示的恶意号码识别装置600中的获取模块602获取包括目标号码的多个通话记录，并通过记录信息提取模块604提取通话记录所包括的相应各项记录信息。计算机设备可以通话向量生成模块606根据各项记录信息生成相应的通话记录所对应的通话向量，并通过特征向量生成模块608将通话向量按照所对应通话记录的生成时序合并，得到特征向量。计算机设备可以通过恶意号码识别模块610根据特征向量对目标号码进行恶意号码识别。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取包括目标号码的多个通话记录；

提取所述通话记录所包括的相应各项记录信息；

根据所述特征向量对所述目标号码进行恶意号码识别。

在一个实施例中，所述根据所述各项记录信息生成相应的所述通话记录所对应的通话向量包括：

根据所述各项记录信息确定对应于预设特征项的特征信息；

将所述特征信息映射为向量元素；

组合所述向量元素以生成与所述通话记录相应的通话向量。

在一个实施例中，所述将所述通话向量按照所对应通话记录的生成时序合并，得到特征向量包括：

在所述多个通话记录所对应的通话向量中取不同的组合；

将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量。

在一个实施例中，所述在所述多个通话记录所对应的通话向量中取不同的组合包括：

按照多个通话记录的生成时序确定相应多个通话向量的顺序；

从所述多个通话向量中，分别取预设数量且按所述顺序相邻的通话向量的组合。

在一个实施例中，所述将每个组合的通话向量按所对应通话记录的生成时序合并，得到特征向量包括：

将每个组合的通话向量按所对应的通话记录的生成时序合并；

在参与合并的各所述通话向量中确定与预设统计项对应的向量元素；

按照所述预设统计项对应的统计方式将对应的所述向量元素进行统计；

将统计得到的向量元素添加至相应合并后的向量中，得到特征向量。

在一个实施例中，所述根据所述特征向量对所述目标号码进行恶意号码识别包括：

将所述特征向量聚类为不同的聚类簇；

从所述聚类簇中选取代表相应聚类簇的特征向量；

根据选取的所述特征向量对所述目标号码进行恶意号码识别。

在一个实施例中，所述根据选取的所述特征向量对所述目标号码进行恶意号码识别包括：

对选取的所述特征向量进行重要性评分；

筛选出评分值高于预设评分阈值或评分值位于前预设位数的特征向量；

根据筛选出的特征向量对所述目标号码进行恶意号码识别。

确定所述特征向量所对应的通话行为模式；

当确定的所述通话行为模式属于恶意号码的通话行为模式时，则

识别所述目标号码为恶意号码。

在一个实施例中，提供了一种存储有计算机程序的存储介质，所述计算机程序被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取包括目标号码的多个通话记录；

提取所述通话记录所包括的相应各项记录信息；

根据所述特征向量对所述目标号码进行恶意号码识别。

根据所述各项记录信息确定对应于预设特征项的特征信息；

将所述特征信息映射为向量元素；

组合所述向量元素以生成与所述通话记录相应的通话向量。

在所述多个通话记录所对应的通话向量中取不同的组合；

将所述特征向量聚类为不同的聚类簇；

从所述聚类簇中选取代表相应聚类簇的特征向量；

对选取的所述特征向量进行重要性评分；

根据筛选出的特征向量对所述目标号码进行恶意号码识别。

确定所述特征向量所对应的通话行为模式；

识别所述目标号码为恶意号码。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种恶意号码识别方法，所述方法包括：

获取包括目标号码的多个通话记录；

提取所述通话记录所包括的相应各项记录信息；

在所述多个通话记录所对应的通话向量中取不同的组合；

在参与合并的各所述通话向量中确定与预设统计项对应的向量元素；所述预设统计项，是用于统计向量元素信息的预设项；

将统计得到的向量元素添加至相应合并后的向量中，得到每个组合所对应的特征向量；所述特征向量，是表示目标号码的通话行为的特征的向量；

根据所述特征向量对所述目标号码进行恶意号码识别。

2.根据权利要求1所述的方法，其特征在于，所述根据所述各项记录信息生成相应的所述通话记录所对应的通话向量包括：

根据所述各项记录信息确定对应于预设特征项的特征信息；

将所述特征信息映射为向量元素；

组合所述向量元素以生成与所述通话记录相应的通话向量。

3.根据权利要求1所述的方法，所述在所述多个通话记录所对应的通话向量中取不同的组合包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述特征向量对所述目标号码进行恶意号码识别包括：

将所述特征向量聚类为不同的聚类簇；

从所述聚类簇中选取代表相应聚类簇的特征向量；

5.根据权利要求4所述的方法，其特征在于，所述根据选取的所述特征向量对所述目标号码进行恶意号码识别包括：

对选取的所述特征向量进行重要性评分；

根据筛选出的特征向量对所述目标号码进行恶意号码识别。

6.根据权利要求1至3中任一项所述的方法，其特征在于，所述根据所述特征向量对所述目标号码进行恶意号码识别包括：

确定所述特征向量所对应的通话行为模式；

识别所述目标号码为恶意号码。

7.根据权利要求1所述的方法，其特征在于，所述记录信息，包括主叫号码、被叫号码、主被叫关系、通话接入时间点、通话时长和通话结束时间点中的至少一项记录信息。

8.一种恶意号码识别装置，其特征在于，所述装置包括：

获取模块，用于获取包括目标号码的多个通话记录；

特征向量生成模块，用于在所述多个通话记录所对应的通话向量中取不同的组合；将每个组合的通话向量按所对应的通话记录的生成时序合并；在参与合并的各所述通话向量中确定与预设统计项对应的向量元素；所述预设统计项，是用于统计向量元素信息的预设项；按照所述预设统计项对应的统计方式将对应的所述向量元素进行统计；将统计得到的向量元素添加至相应合并后的向量中，得到每个组合所对应的特征向量；

9.根据权利要求8所述的装置，其特征在于，所述通话向量生成模块还用于根据所述各项记录信息确定对应于预设特征项的特征信息；将所述特征信息映射为向量元素；组合所述向量元素以生成与所述通话记录相应的通话向量。

10.根据权利要求8所述的装置，所述特征向量生成模块还用于按照多个通话记录的生成时序确定相应多个通话向量的顺序；从所述多个通话向量中，分别取预设数量且按所述顺序相邻的通话向量的组合。

11.根据权利要求8所述的装置，其特征在于，所述恶意号码识别模块还用于将所述特征向量聚类为不同的聚类簇；从所述聚类簇中选取代表相应聚类簇的特征向量；根据选取的所述特征向量对所述目标号码进行恶意号码识别。

12.根据权利要求11所述的装置，其特征在于，所述恶意号码识别模块还用于对选取的所述特征向量进行重要性评分；筛选出评分值高于预设评分阈值或评分值位于前预设位数的特征向量；根据筛选出的特征向量对所述目标号码进行恶意号码识别。

13.根据权利要求8至10中任一项所述的装置，其特征在于，所述恶意号码识别模块还用于确定所述特征向量所对应的通话行为模式；当确定的所述通话行为模式属于恶意号码的通话行为模式时，则识别所述目标号码为恶意号码。

14.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

15.一种存储有计算机程序的计算机可读存储介质，所述计算机程序被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项所述方法的步骤。