CN109587357B

CN109587357B - 一种骚扰电话的识别方法

Info

Publication number: CN109587357B
Application number: CN201811357638.5A
Authority: CN
Inventors: 李鑫
Original assignee: Shanghai Mt Networks Co ltd
Current assignee: Shanghai Mt Networks Co ltd
Priority date: 2018-11-14
Filing date: 2018-11-14
Publication date: 2021-04-06
Anticipated expiration: 2038-11-14
Also published as: CN109587357A

Abstract

本发明涉及电子通讯技术领域，尤其涉及一种骚扰电话的识别方法，包括：读取通话数据，并按照设定时间的间隔将该通话数据进行归类，形成多个记录条目，该多个记录条目组成数据集合A；对归类后的通话数据进行清洗，将数据集合A中设定要素为空的记录条目删除，得到数据集合B；通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算，生成主叫号在数据集合B中的特征，记为集合C；根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话。本发明通过制定判断规则进行多级多层规则判断，其中判断的阈值界定是通过聚类分析以及信息熵来确定的，最后得到对电话判断的结果。本发明可适用性高，较为灵活。

Description

一种骚扰电话的识别方法

技术领域

本发明涉及电子通讯技术领域，尤其涉及一种骚扰电话的识别方法。

背景技术

随着通信技术的不断发展，移动通信业务的不断丰富，移动通信网络建设成本和手机终端成本不断下降，人们对移动通信的依赖越来越大，使用的频度也越来越高。但是，移动通信的飞速发展在给人们带来方便的同时，也使得有些人出于商业目的利用移动通信宣传和传播一些骚扰信息，导致了骚扰电话的泛滥，给人们的生活带来很大的困扰，骚扰电话不仅影响人们的生活也影响社会的正常发展。骚扰电话主要表现为：不法用户对移动客户大范围拨打，振铃一次后挂机，等客户回拨时呼转到录音电话，形成骚扰和欺诈，在主观上违背手机用户意志并且在客观上对用户通信自由、生活安宁造成侵害或者蒙蔽用户的呼叫。

申请号为201410249964.X的中国专利申请，公开了一种骚扰电话的识别方法和装置，通过采集主叫的历史通话信息和注册信息，并对以上信息进行判断，如果通过预设条件则判断为骚扰电话，否则认为是非骚扰电话。申请号为201710552232.1的中国专利申请，公开了一种骚扰电话识别和拦截方法，通过采集通信网信令信息对原始数据进行处理，然后根据特征选择识别因子，利用加权朴素贝叶斯分类算法对所有通话进行分类从而识别出骚扰电话，最后进行电话拦截。申请号为201610312825.6的中国专利申请，公开了骚扰电话的识别方法、装置及终端，利用声纹信息进行判断，通过获取呼入来电接通后主叫方通话声音的声音样本的声纹信息，把此声纹信息与预先存储的声纹信息进行匹配，如果匹配成功且该预先存储的声纹信息具有骚扰电话标记则标记为骚扰电话。

然而，现有骚扰电话识别方法利用加权朴素贝叶斯分类算法、声纹信息识别技术和条件判断来达到识别骚扰电话的目的，存在以下缺陷：规则制定的阈值通过人工设置可靠性低，通过分类算法对电话进行分类是基于特征选择识别因子，但是目前骚扰电话的形式以及主叫号码等每天都在发生改变，骚扰电话的特征也在不断变换，因此可调整性能较差。另外，根据预先标记声纹信息库，结合声纹信息来识别骚扰电话的可适用范围也很有限，骚扰电话每天拨打人员的声音会改变或者利用声波转换***转换声纹信息。所以，现有骚扰电话识别的方法虽然能识别出骚扰电话但是应用范围比较局限，可调整性较差。

发明内容

针对现有技术的缺点，本发明目的是提供一种可适用性高，较为灵活的骚扰电话的识别方法。

本发明实施例提供的一种骚扰电话的识别方法，包括：

读取通话数据，并按照设定时间的间隔将该通话数据进行归类，形成多个记录条目，该多个记录条目组成数据集合A；

对归类后的通话数据进行清洗，将数据集合A中设定要素为空的记录条目删除，得到数据集合B；

通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算，生成主叫号在数据集合B中的特征，记为集合C；

根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话。

进一步地，上述方法中，所述每个记录条目包括但不限于以下一种或多种：被叫号码、主叫号码、开始时间、时长、呼叫类型、发端或终端、企业编号、振铃时长、结束码以及被叫地市。

进一步地，上述方法中，所述生成的主叫号在数据集合B中的特征包括：拨打次数、拨打对象不重复率、拨打未接通率、通话时长、是否连号拨打、被叫地市数以及内线被叫率。

进一步地，上述方法中，所述根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话的方式如下：

若连号拨打行为＝1，则为骚扰主叫号，未判断的主叫号进入下一步判断；

若内线被叫率>阈值a，则为正常主叫号，未判断主叫号进入下一步判断；

若通话时长>阈值b，则为正常主叫号，未判断主叫号进入下一步判断；

若拨打次数>阈值c，且拨打对象不重复率>＝阈值d，则为骚扰主叫号，未判断主叫号进入下一步判断；

若拨打次数>阈值c，且拨打未接通率>＝阈值e，则为骚扰主叫号，未判断主叫号进入下一步判断；

若被叫地市数>＝阈值f，则为骚扰主叫号，未判断主叫号为正常主叫号。

进一步地，上述方法中，通过以下方式确定各阈值：

将主叫号和时间标记组合形成数据集合D，作为记录的标签，并通过K‐means算法对数据集合D进行聚类分析；

聚类分析后，将所有的主叫号自动分为十类，并用该主叫号平均值表示主叫号各个类别的特点；

将分类结果添加于数据集合D上，用来描述记录条目所属分类，并将更新后的数据集合记为E；

通过区分类别是否为骚扰类别，判断记录条目是否为骚扰条目，集合E将增加参数骚扰条目值或正常条目值，形成集合F；

针对是否为骚扰进行信息熵计算：Ent(X)＝P0log2(P0)+P1log2(P1)，其中P0表示正常条目所占比例，P1表示骚扰条目所占比例，进而计算各阈值。

进一步地，上述方法中，计算各阈值的方法如下：

设定阈值的最小值、最大值以及每次计算的步长；

将阈值设置为最小值，将集合E中所有条目大于该阈值的划分为第一组，小于该阈值的划分为第二组；

分别计算上述两组的是否为骚扰的信息熵，并将结果合并记录；

将阈值的最小值逐次增加步长，直到最大值为止；

选择信息熵和最小值所对应的阈值为最终计算结果。

进一步地，上述方法中，所述内线被叫率的阈值a，其最小值为0，最大值为1，每次计算的步长为0.01。

进一步地，上述方法中，所述通话时长的阈值b，其最小值为0，最大值为200，每次增加步长为1。

进一步地，上述方法中，所述拨打次数的阈值c，其最小值为0，最大值为100，每次增加步长为1。

进一步地，上述方法中，所述拨打对象不重复率的阈值d，其最小值为0，最大值为1，每次增加步长为0.01。

进一步地，上述方法中，所述拨打未接通率的阈值e，其最小值为0，最大值为1，每次增加步长为0.01。

进一步地，上述方法中，所述被叫地市数的阈值f，其最小值为0，最大值为50，每次增加步长为1。

与现有技术相比，本发明实施例提供的骚扰电话的识别方法，包括：读取通话数据，并按照设定时间的间隔将该通话数据进行归类，形成多个记录条目，该多个记录条目组成数据集合A；对归类后的通话数据进行清洗，将数据集合A中设定要素为空的记录条目删除，得到数据集合B；通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算，生成主叫号在数据集合B中的特征，记为集合C；根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话。本发明通过制定判断规则进行多级多层规则判断，其中判断的阈值界定是通过聚类分析以及信息熵来确定的，最后得到对电话判断的结果。本发明的阈值由于不是人工制定，而是可以根据信息熵判断调整，因此，本发明可适用性高，较为灵活。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明提供的一种骚扰电话的识别方法流程示意图；

图2为本发明提供的确定阈值方法流程图；

图3为本发明提供的计算阈值方法流程图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合说明书附图对本发明实施例作进一步详细描述。

如图1所示，本发明实施例公开了一种骚扰电话的识别方法，包括：

S101，读取通话数据，并按照设定时间的间隔将该通话数据进行归类，形成多个记录条目，该多个记录条目组成数据集合A；

S102，对归类后的通话数据进行清洗，将数据集合A中设定要素为空的记录条目删除，得到数据集合B；

S103，通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算，生成主叫号在数据集合B中的特征，记为集合C；

S104，根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话。

本发明实施例步骤S101中，具体将通话数据以五分钟时间片进行分割整理。

进一步地，上述方法中，所述每个记录条目包括但不限于以下一种或多种：被叫号码、主叫号码、开始时间、时长、呼叫类型、呼叫类型(发端或终端)、企业编号、振铃时长、结束码以及被叫地市。例如：某个记录条目为[15802811404，02095056015，20171227090031，27，0，1，2004902310，5，0，1，成都/四川])。

具体的，上述记录条目中的各个项目表示为：

本发明实施例，在读取全部通话数据之后，依据开始时间按照五分钟的间隔将数据进行归类。起始时间按照最早的通话开始时间设置，直到所有通话数据被划分完为止。比如，如果最早的通话开始时间为2017年12月30日00：00：00按“00：00：00‐00：04：59，00：05：00‐0：09：59…”进行划分。可以记为A(A1，A2…)，其中An表示每组数据，A表示各组数据的集合。将上述分组好的数据进行步骤S102的操作。

本发明实施例在步骤S102中，对每一个五分钟时间片的数据进行清洗。具体的，首先将An数据中除被叫企业编号有缺失值的条目删除掉，比如主叫号或者被叫号为空的记录条目需要删除掉(如果仅有被叫企业编号为空，则无需删除)。然后提取主叫话单的电话，即“呼叫类型(发端或终端)”＝1的记录条目。对于每一个An进行上述处理，最后得到的数据Bn，全部Bn记为B(B1，B2…)。B(B1，B2…)的组数应当与A(A1，A2…)的组数相同。由此得到的数据集合B进入下一步骤S103继续操作。

本发明实施例步骤S103对于每一个五分钟的时间片的每一个主叫号数据进行特征计算，生成用来后续判断的特征。优选地，其中生成的特征包括：拨打次数，拨打对象不重复率，拨打未接通率，通话时长，是否连号拨打，被叫地市数，内线被叫率。

具体地，拨打次数即为同一主叫号在Bn中拨打电话的总次数。拨打对象不重复率则为首先统计同一主叫号拨打的所有被叫电话，取出其中重复的被叫电话，然后计算这些不重复的被叫电话的数量。拨打对象不重复率即为不重复的被叫电话的数量/该主叫号的拨打次数。拨打未接通率为统计同一主叫号的呼叫类型＝1的记录条目的数量，即拨打后未打通的电话数量，该值与拨打次数的比值即为拨打未接通率。通话时长为某一主叫号在Bn中的(时长‐振铃时长)的平均值，单位为秒。被叫地市数则为统计某一主叫号在Bn中所有被叫地市，然后取出其中重复的地市，得到的不重复的地市数即为该主叫号的被叫地市数。连号拨打行为是指对于同一主叫号，如果连续两个记录的被叫号只有最后三位不同且不是同一个号码，则记为一次疑似连号拨打；如果一个Bn内，一个主叫号出现5次疑似连号拨打，则记为存在连号拨打行为，该值为1，否则为0。内线被叫率是指统计同一主叫号播出的电话中主叫企业编号和被叫企业编号相同的记录数量，将该数量与该主叫号的拨打次数相除即为内线被叫率。

本发明实施例通过对Bn中所有主叫号进行统计，可以得到主叫号在Bn中的特征。如下表所示：

上表中，其中所属时间201712291710表示2017年12月29日17点10：00～14：59的时间片。

本发明实施例将所有Bn通过计算，形成如上表的信息，记为Cn，其集合记为C。

本发明实施例经过上述判断后，某一个时间片段Cn中的主叫号将会被分为两类：一类是正常主叫号；另一类是骚扰主叫号。至此，本发明得到了骚扰主叫号列表，完成了骚扰电话识别目标。

需注意的是，本发明实施例上述各阈值并不是人为确定的，而是通过计算得到的。也就是说，通过对于不同环境的记录进行计算，可以得到不同的判断参数。因此，本发明具有更强的适应性。

进一步地，如图2所示，通过以下方式确定各阈值：

S201，将主叫号和时间标记组合形成数据集合D，作为记录的标签，并通过K‐means算法对数据集合D进行聚类分析；

S202，聚类分析后，将所有的主叫号自动分为十类，并用该主叫号平均值表示主叫号各个类别的特点；

S203，将分类结果添加于数据集合D上，用来描述记录条目所属分类，并将更新后的数据集合记为E；

S204，通过区分类别是否为骚扰类别，判断记录条目是否为骚扰条目，集合E将增加参数骚扰条目值或正常条目值，形成集合F；

S205，针对是否为骚扰进行信息熵计算：Ent(X)＝P0log2(P0)+P1log2(P1)，其中P0表示正常条目所占比例，P1表示骚扰条目所占比例，进而计算各阈值。

本发明实施中，将C1…Cn和并到一起，并将主叫号和时间标记合为一个参数(主叫号‐时间标记)，例如(0111615274‐201712291710)。该数据集合记为D。其中(主叫号‐时间标记)为记录的标签，其他值作为记录的特征进行后续的聚类分析。

本发明实施例通过K‐means算法对数据集合D进行聚类分析。为了充分挖掘可能存在的类别，本发明将聚类类别数量设定为10个。经过聚类算法后，可以将所有的主叫号自动分为十类，用其平均值表示其各个类别的特点。如下下表所示：

本发明实施例任意一个(主叫号‐时间片段)记录属于十类中的一类。该分类结果将被添加于D上，D会多一列参数(所属分类类别)来描述该记录条目所属分类，其值为0到9中的一个。更新后的数据集记为E。

本发明实施例步骤S204中，标注类别是否为骚扰类别，并进一步标注记录条目是否为骚扰条目。在类别表中，根据常识区分类别是否为骚扰电话。特别的，本发明将拨打次数高于20次的类别划为疑似骚扰类别，存在连号拨打的类别划为疑似骚扰类别，内线被叫率等于1的类别划为正常类别。其他未划分类别划分为正常类别。即，上表中[2，3，4，5，7]为骚扰类别，[0，1，6，8，9]为正常类别。

实施中，E数据集将根据上述类别判断将所有记录条目归为两类，若条目的所属类别为骚扰类别，则该条目为骚扰条目，若所属类别为正常类别，则分类为正常条目。E数据集将追加一个参数“是否为骚扰”，骚扰条目该值＝1，正常条目该值＝0。更新后的数据集记为F。

本发明实施例由于只针对是否为骚扰进行信息熵计算，因此类别只有0和1两种，公式为：Ent(X)＝P0log2(P0)+P1log2(P1)；其中P0表示正常条目所占比例，其值等于正常条目的数量/总条目数量。P1表示骚扰条目所占比例，其值等于骚扰条目的数量/总条目数量。信息熵越小，表示条目中0或者1的数目相差越多；信息熵越大，则表示条目中0或者1两者的数目相差越小。

进一步地，如图3所示，计算各阈值的方法如下：

S301，设定阈值的最小值、最大值以及每次计算的步长；

S302，将阈值设置为最小值，将集合E中所有条目大于该阈值的划分为第一组，小于该阈值的划分为第二组；

S303，分别计算上述两组的是否为骚扰的信息熵，并将结果合并记录；

S304，将阈值的最小值逐次增加步长，直到最大值为止；

S305，选择信息熵和最小值所对应的阈值为最终计算结果。

实施中，以内线被叫率的阈值计算为例：

步骤1、确定阈值的可能最小值0，和最大值1，以及每次计算的步长0.01。

步骤2、将内线被叫率的阈值设置为最小值0,将E中所有条目大于该阈值的划分为第一组，所有条目内线被叫率小于该阈值的划分为第二组。

步骤3、分别计算两组的是否为骚扰的信息熵，并将结果做和并记录。

步骤4、阈值逐次增加步长，直到最大值为止，即0.01，0.02…0.99，1。每次重复2、3步骤。

步骤5、计算完成后，因为信息熵和最小意味着对应的阈值越能区分正常电话条目和骚扰电话条目。所以，挑选信息熵和最小值所对应的阈值为最终计算结果。比如阈值设置为0.3时，其所分两组的信息熵和最小，则规则中所使用内线被叫率的阈值a应为0.3。

本发明实施例通过上述计算得到的阈值将作为骚扰电话识别过程中的阈值使用。一旦确定该阈值之后便可以在较长的时间内使用，也可以根据需要定期重新计算设置阈值，或者根据地区的不同重新计算设置阈值。

综上，本发明通过制定判断规则进行多级多层规则判断，其中判断的阈值界定是通过聚类分析以及信息熵来确定的，最后得到对电话判断的结果。由于本发明的阈值不是人工制定，而是可以根据信息熵判断调整，因此，本发明可适用性高，较为灵活。

本领域内的技术人员应明白，本申请的实施例可提供为方法、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‐ROM、光学存储器等)上实施的计算机程序产品的形式。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种骚扰电话的识别方法，其特征在于，包括：

根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话；

所述根据生成的主叫号在数据集合B中的特征，判断主叫号在设定时间间隔中是否为骚扰电话的方式如下：

若连号拨打行为=1，则为骚扰主叫号，未判断的主叫号进入下一步判断；

若拨打次数>阈值c，且拨打对象不重复率>=阈值d，则为骚扰主叫号，未判断主叫号进入下一步判断；

若拨打次数>阈值c，且拨打未接通率>=阈值e，则为骚扰主叫号，未判断主叫号进入下一步判断；

若被叫地市数>=阈值f，则为骚扰主叫号，未判断主叫号为正常主叫号；

通过以下方式确定各阈值：

将主叫号和时间标记组合形成数据集合D，作为记录的标签，并通过K-means算法对数据集合D进行聚类分析；

针对是否为骚扰进行信息熵计算：Ent(X)=P0log2(P0)+ P1log2(P1)，其中P0表示正常条目所占比例，P1表示骚扰条目所占比例，进而计算各阈值；

计算各阈值的方法如下：

设定阈值的最小值、最大值以及每次计算的步长；

分别计算上述第一组和第二组是否为骚扰的信息熵，并将结果合并记录；

将阈值的最小值逐次增加步长，直到最大值为止；

选择信息熵和最小值所对应的阈值为最终计算结果。

2.根据权利要求1所述的方法，其特征在于，所述记录条目包括但不限于以下一种或多种：被叫号码、主叫号码、开始时间、时长、呼叫类型、发端或终端、企业编号、振铃时长、结束码以及被叫地市。

3.根据权利要求1所述的方法，其特征在于，所述生成的主叫号在数据集合B中的特征包括：拨打次数、拨打对象不重复率、拨打未接通率、通话时长、是否连号拨打、被叫地市数以及内线被叫率。

4.根据权利要求1所述的方法，其特征在于，所述内线被叫率的阈值a，其最小值为0，最大值为1，每次计算的步长为0.01。

5.根据权利要求1所述的方法，其特征在于，所述通话时长的阈值b，其最小值为0，最大值为200，每次增加步长为1。

6.根据权利要求1所述的方法，其特征在于，所述拨打次数的阈值c，其最小值为0，最大值为100，每次增加步长为1。

7.根据权利要求1所述的方法，其特征在于，所述拨打对象不重复率的阈值d，其最小值为0，最大值为1，每次增加步长为0.01。

8.根据权利要求1所述的方法，其特征在于，所述拨打未接通率的阈值e，其最小值为0，最大值为1，每次增加步长为0.01。

9.根据权利要求1所述的方法，其特征在于，所述被叫地市数的阈值f，其最小值为0，最大值为50，每次增加步长为1。