CN109587357B - 一种骚扰电话的识别方法 - Google Patents

一种骚扰电话的识别方法 Download PDF

Info

Publication number
CN109587357B
CN109587357B CN201811357638.5A CN201811357638A CN109587357B CN 109587357 B CN109587357 B CN 109587357B CN 201811357638 A CN201811357638 A CN 201811357638A CN 109587357 B CN109587357 B CN 109587357B
Authority
CN
China
Prior art keywords
threshold
calling number
call
data set
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811357638.5A
Other languages
English (en)
Other versions
CN109587357A (zh
Inventor
李鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Mt Networks Co ltd
Original Assignee
Shanghai Mt Networks Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Mt Networks Co ltd filed Critical Shanghai Mt Networks Co ltd
Priority to CN201811357638.5A priority Critical patent/CN109587357B/zh
Publication of CN109587357A publication Critical patent/CN109587357A/zh
Application granted granted Critical
Publication of CN109587357B publication Critical patent/CN109587357B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/42025Calling or Called party identification service
    • H04M3/42034Calling party identification service
    • H04M3/42059Making use of the calling party identifier

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及电子通讯技术领域,尤其涉及一种骚扰电话的识别方法,包括:读取通话数据,并按照设定时间的间隔将该通话数据进行归类,形成多个记录条目,该多个记录条目组成数据集合A;对归类后的通话数据进行清洗,将数据集合A中设定要素为空的记录条目删除,得到数据集合B;通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算,生成主叫号在数据集合B中的特征,记为集合C;根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话。本发明通过制定判断规则进行多级多层规则判断,其中判断的阈值界定是通过聚类分析以及信息熵来确定的,最后得到对电话判断的结果。本发明可适用性高,较为灵活。

Description

一种骚扰电话的识别方法
技术领域
本发明涉及电子通讯技术领域,尤其涉及一种骚扰电话的识别方法。
背景技术
随着通信技术的不断发展,移动通信业务的不断丰富,移动通信网络建设成本和手机终端成本不断下降,人们对移动通信的依赖越来越大,使用的频度也越来越高。但是,移动通信的飞速发展在给人们带来方便的同时,也使得有些人出于商业目的利用移动通信宣传和传播一些骚扰信息,导致了骚扰电话的泛滥,给人们的生活带来很大的困扰,骚扰电话不仅影响人们的生活也影响社会的正常发展。骚扰电话主要表现为:不法用户对移动客户大范围拨打,振铃一次后挂机,等客户回拨时呼转到录音电话,形成骚扰和欺诈,在主观上违背手机用户意志并且在客观上对用户通信自由、生活安宁造成侵害或者蒙蔽用户的呼叫。
申请号为201410249964.X的中国专利申请,公开了一种骚扰电话的识别方法和装置,通过采集主叫的历史通话信息和注册信息,并对以上信息进行判断,如果通过预设条件则判断为骚扰电话,否则认为是非骚扰电话。申请号为201710552232.1的中国专利申请,公开了一种骚扰电话识别和拦截方法,通过采集通信网信令信息对原始数据进行处理,然后根据特征选择识别因子,利用加权朴素贝叶斯分类算法对所有通话进行分类从而识别出骚扰电话,最后进行电话拦截。申请号为201610312825.6的中国专利申请,公开了骚扰电话的识别方法、装置及终端,利用声纹信息进行判断,通过获取呼入来电接通后主叫方通话声音的声音样本的声纹信息,把此声纹信息与预先存储的声纹信息进行匹配,如果匹配成功且该预先存储的声纹信息具有骚扰电话标记则标记为骚扰电话。
然而,现有骚扰电话识别方法利用加权朴素贝叶斯分类算法、声纹信息识别技术和条件判断来达到识别骚扰电话的目的,存在以下缺陷:规则制定的阈值通过人工设置可靠性低,通过分类算法对电话进行分类是基于特征选择识别因子,但是目前骚扰电话的形式以及主叫号码等每天都在发生改变,骚扰电话的特征也在不断变换,因此可调整性能较差。另外,根据预先标记声纹信息库,结合声纹信息来识别骚扰电话的可适用范围也很有限,骚扰电话每天拨打人员的声音会改变或者利用声波转换***转换声纹信息。所以,现有骚扰电话识别的方法虽然能识别出骚扰电话但是应用范围比较局限,可调整性较差。
发明内容
针对现有技术的缺点,本发明目的是提供一种可适用性高,较为灵活的骚扰电话的识别方法。
本发明实施例提供的一种骚扰电话的识别方法,包括:
读取通话数据,并按照设定时间的间隔将该通话数据进行归类,形成多个记录条目,该多个记录条目组成数据集合A;
对归类后的通话数据进行清洗,将数据集合A中设定要素为空的记录条目删除,得到数据集合B;
通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算,生成主叫号在数据集合B中的特征,记为集合C;
根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话。
进一步地,上述方法中,所述每个记录条目包括但不限于以下一种或多种:被叫号码、主叫号码、开始时间、时长、呼叫类型、发端或终端、企业编号、振铃时长、结束码以及被叫地市。
进一步地,上述方法中,所述生成的主叫号在数据集合B中的特征包括:拨打次数、拨打对象不重复率、拨打未接通率、通话时长、是否连号拨打、被叫地市数以及内线被叫率。
进一步地,上述方法中,所述根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话的方式如下:
若连号拨打行为=1,则为骚扰主叫号,未判断的主叫号进入下一步判断;
若内线被叫率>阈值a,则为正常主叫号,未判断主叫号进入下一步判断;
若通话时长>阈值b,则为正常主叫号,未判断主叫号进入下一步判断;
若拨打次数>阈值c,且拨打对象不重复率>=阈值d,则为骚扰主叫号,未判断主叫号进入下一步判断;
若拨打次数>阈值c,且拨打未接通率>=阈值e,则为骚扰主叫号,未判断主叫号进入下一步判断;
若被叫地市数>=阈值f,则为骚扰主叫号,未判断主叫号为正常主叫号。
进一步地,上述方法中,通过以下方式确定各阈值:
将主叫号和时间标记组合形成数据集合D,作为记录的标签,并通过K‐means算法对数据集合D进行聚类分析;
聚类分析后,将所有的主叫号自动分为十类,并用该主叫号平均值表示主叫号各个类别的特点;
将分类结果添加于数据集合D上,用来描述记录条目所属分类,并将更新后的数据集合记为E;
通过区分类别是否为骚扰类别,判断记录条目是否为骚扰条目,集合E将增加参数骚扰条目值或正常条目值,形成集合F;
针对是否为骚扰进行信息熵计算:Ent(X)=P0log2(P0)+P1log2(P1),其中P0表示正常条目所占比例,P1表示骚扰条目所占比例,进而计算各阈值。
进一步地,上述方法中,计算各阈值的方法如下:
设定阈值的最小值、最大值以及每次计算的步长;
将阈值设置为最小值,将集合E中所有条目大于该阈值的划分为第一组,小于该阈值的划分为第二组;
分别计算上述两组的是否为骚扰的信息熵,并将结果合并记录;
将阈值的最小值逐次增加步长,直到最大值为止;
选择信息熵和最小值所对应的阈值为最终计算结果。
进一步地,上述方法中,所述内线被叫率的阈值a,其最小值为0,最大值为1,每次计算的步长为0.01。
进一步地,上述方法中,所述通话时长的阈值b,其最小值为0,最大值为200,每次增加步长为1。
进一步地,上述方法中,所述拨打次数的阈值c,其最小值为0,最大值为100,每次增加步长为1。
进一步地,上述方法中,所述拨打对象不重复率的阈值d,其最小值为0,最大值为1,每次增加步长为0.01。
进一步地,上述方法中,所述拨打未接通率的阈值e,其最小值为0,最大值为1,每次增加步长为0.01。
进一步地,上述方法中,所述被叫地市数的阈值f,其最小值为0,最大值为50,每次增加步长为1。
与现有技术相比,本发明实施例提供的骚扰电话的识别方法,包括:读取通话数据,并按照设定时间的间隔将该通话数据进行归类,形成多个记录条目,该多个记录条目组成数据集合A;对归类后的通话数据进行清洗,将数据集合A中设定要素为空的记录条目删除,得到数据集合B;通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算,生成主叫号在数据集合B中的特征,记为集合C;根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话。本发明通过制定判断规则进行多级多层规则判断,其中判断的阈值界定是通过聚类分析以及信息熵来确定的,最后得到对电话判断的结果。本发明的阈值由于不是人工制定,而是可以根据信息熵判断调整,因此,本发明可适用性高,较为灵活。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的一种骚扰电话的识别方法流程示意图;
图2为本发明提供的确定阈值方法流程图;
图3为本发明提供的计算阈值方法流程图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合说明书附图对本发明实施例作进一步详细描述。
如图1所示,本发明实施例公开了一种骚扰电话的识别方法,包括:
S101,读取通话数据,并按照设定时间的间隔将该通话数据进行归类,形成多个记录条目,该多个记录条目组成数据集合A;
S102,对归类后的通话数据进行清洗,将数据集合A中设定要素为空的记录条目删除,得到数据集合B;
S103,通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算,生成主叫号在数据集合B中的特征,记为集合C;
S104,根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话。
本发明实施例步骤S101中,具体将通话数据以五分钟时间片进行分割整理。
进一步地,上述方法中,所述每个记录条目包括但不限于以下一种或多种:被叫号码、主叫号码、开始时间、时长、呼叫类型、呼叫类型(发端或终端)、企业编号、振铃时长、结束码以及被叫地市。例如:某个记录条目为[15802811404,02095056015,20171227090031,27,0,1,2004902310,5,0,1,成都/四川])。
具体的,上述记录条目中的各个项目表示为:
Figure BDA0001865855500000061
本发明实施例,在读取全部通话数据之后,依据开始时间按照五分钟的间隔将数据进行归类。起始时间按照最早的通话开始时间设置,直到所有通话数据被划分完为止。比如,如果最早的通话开始时间为2017年12月30日00:00:00按“00:00:00‐00:04:59,00:05:00‐0:09:59…”进行划分。可以记为A(A1,A2…),其中An表示每组数据,A表示各组数据的集合。将上述分组好的数据进行步骤S102的操作。
本发明实施例在步骤S102中,对每一个五分钟时间片的数据进行清洗。具体的,首先将An数据中除被叫企业编号有缺失值的条目删除掉,比如主叫号或者被叫号为空的记录条目需要删除掉(如果仅有被叫企业编号为空,则无需删除)。然后提取主叫话单的电话,即“呼叫类型(发端或终端)”=1的记录条目。对于每一个An进行上述处理,最后得到的数据Bn,全部Bn记为B(B1,B2…)。B(B1,B2…)的组数应当与A(A1,A2…)的组数相同。由此得到的数据集合B进入下一步骤S103继续操作。
本发明实施例步骤S103对于每一个五分钟的时间片的每一个主叫号数据进行特征计算,生成用来后续判断的特征。优选地,其中生成的特征包括:拨打次数,拨打对象不重复率,拨打未接通率,通话时长,是否连号拨打,被叫地市数,内线被叫率。
具体地,拨打次数即为同一主叫号在Bn中拨打电话的总次数。拨打对象不重复率则为首先统计同一主叫号拨打的所有被叫电话,取出其中重复的被叫电话,然后计算这些不重复的被叫电话的数量。拨打对象不重复率即为不重复的被叫电话的数量/该主叫号的拨打次数。拨打未接通率为统计同一主叫号的呼叫类型=1的记录条目的数量,即拨打后未打通的电话数量,该值与拨打次数的比值即为拨打未接通率。通话时长为某一主叫号在Bn中的(时长‐振铃时长)的平均值,单位为秒。被叫地市数则为统计某一主叫号在Bn中所有被叫地市,然后取出其中重复的地市,得到的不重复的地市数即为该主叫号的被叫地市数。连号拨打行为是指对于同一主叫号,如果连续两个记录的被叫号只有最后三位不同且不是同一个号码,则记为一次疑似连号拨打;如果一个Bn内,一个主叫号出现5次疑似连号拨打,则记为存在连号拨打行为,该值为1,否则为0。内线被叫率是指统计同一主叫号播出的电话中主叫企业编号和被叫企业编号相同的记录数量,将该数量与该主叫号的拨打次数相除即为内线被叫率。
本发明实施例通过对Bn中所有主叫号进行统计,可以得到主叫号在Bn中的特征。如下表所示:
Figure BDA0001865855500000081
上表中,其中所属时间201712291710表示2017年12月29日17点10:00~14:59的时间片。
本发明实施例将所有Bn通过计算,形成如上表的信息,记为Cn,其集合记为C。
进一步地,上述方法中,所述根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话的方式如下:
若连号拨打行为=1,则为骚扰主叫号,未判断的主叫号进入下一步判断;
若内线被叫率>阈值a,则为正常主叫号,未判断主叫号进入下一步判断;
若通话时长>阈值b,则为正常主叫号,未判断主叫号进入下一步判断;
若拨打次数>阈值c,且拨打对象不重复率>=阈值d,则为骚扰主叫号,未判断主叫号进入下一步判断;
若拨打次数>阈值c,且拨打未接通率>=阈值e,则为骚扰主叫号,未判断主叫号进入下一步判断;
若被叫地市数>=阈值f,则为骚扰主叫号,未判断主叫号为正常主叫号。
本发明实施例经过上述判断后,某一个时间片段Cn中的主叫号将会被分为两类:一类是正常主叫号;另一类是骚扰主叫号。至此,本发明得到了骚扰主叫号列表,完成了骚扰电话识别目标。
需注意的是,本发明实施例上述各阈值并不是人为确定的,而是通过计算得到的。也就是说,通过对于不同环境的记录进行计算,可以得到不同的判断参数。因此,本发明具有更强的适应性。
进一步地,如图2所示,通过以下方式确定各阈值:
S201,将主叫号和时间标记组合形成数据集合D,作为记录的标签,并通过K‐means算法对数据集合D进行聚类分析;
S202,聚类分析后,将所有的主叫号自动分为十类,并用该主叫号平均值表示主叫号各个类别的特点;
S203,将分类结果添加于数据集合D上,用来描述记录条目所属分类,并将更新后的数据集合记为E;
S204,通过区分类别是否为骚扰类别,判断记录条目是否为骚扰条目,集合E将增加参数骚扰条目值或正常条目值,形成集合F;
S205,针对是否为骚扰进行信息熵计算:Ent(X)=P0log2(P0)+P1log2(P1),其中P0表示正常条目所占比例,P1表示骚扰条目所占比例,进而计算各阈值。
本发明实施中,将C1…Cn和并到一起,并将主叫号和时间标记合为一个参数(主叫号‐时间标记),例如(0111615274‐201712291710)。该数据集合记为D。其中(主叫号‐时间标记)为记录的标签,其他值作为记录的特征进行后续的聚类分析。
本发明实施例通过K‐means算法对数据集合D进行聚类分析。为了充分挖掘可能存在的类别,本发明将聚类类别数量设定为10个。经过聚类算法后,可以将所有的主叫号自动分为十类,用其平均值表示其各个类别的特点。如下下表所示:
Figure BDA0001865855500000101
本发明实施例任意一个(主叫号‐时间片段)记录属于十类中的一类。该分类结果将被添加于D上,D会多一列参数(所属分类类别)来描述该记录条目所属分类,其值为0到9中的一个。更新后的数据集记为E。
本发明实施例步骤S204中,标注类别是否为骚扰类别,并进一步标注记录条目是否为骚扰条目。在类别表中,根据常识区分类别是否为骚扰电话。特别的,本发明将拨打次数高于20次的类别划为疑似骚扰类别,存在连号拨打的类别划为疑似骚扰类别,内线被叫率等于1的类别划为正常类别。其他未划分类别划分为正常类别。即,上表中[2,3,4,5,7]为骚扰类别,[0,1,6,8,9]为正常类别。
实施中,E数据集将根据上述类别判断将所有记录条目归为两类,若条目的所属类别为骚扰类别,则该条目为骚扰条目,若所属类别为正常类别,则分类为正常条目。E数据集将追加一个参数“是否为骚扰”,骚扰条目该值=1,正常条目该值=0。更新后的数据集记为F。
本发明实施例由于只针对是否为骚扰进行信息熵计算,因此类别只有0和1两种,公式为:Ent(X)=P0log2(P0)+P1log2(P1);其中P0表示正常条目所占比例,其值等于正常条目的数量/总条目数量。P1表示骚扰条目所占比例,其值等于骚扰条目的数量/总条目数量。信息熵越小,表示条目中0或者1的数目相差越多;信息熵越大,则表示条目中0或者1两者的数目相差越小。
进一步地,如图3所示,计算各阈值的方法如下:
S301,设定阈值的最小值、最大值以及每次计算的步长;
S302,将阈值设置为最小值,将集合E中所有条目大于该阈值的划分为第一组,小于该阈值的划分为第二组;
S303,分别计算上述两组的是否为骚扰的信息熵,并将结果合并记录;
S304,将阈值的最小值逐次增加步长,直到最大值为止;
S305,选择信息熵和最小值所对应的阈值为最终计算结果。
实施中,以内线被叫率的阈值计算为例:
步骤1、确定阈值的可能最小值0,和最大值1,以及每次计算的步长0.01。
步骤2、将内线被叫率的阈值设置为最小值0,将E中所有条目大于该阈值的划分为第一组,所有条目内线被叫率小于该阈值的划分为第二组。
步骤3、分别计算两组的是否为骚扰的信息熵,并将结果做和并记录。
步骤4、阈值逐次增加步长,直到最大值为止,即0.01,0.02…0.99,1。每次重复2、3步骤。
步骤5、计算完成后,因为信息熵和最小意味着对应的阈值越能区分正常电话条目和骚扰电话条目。所以,挑选信息熵和最小值所对应的阈值为最终计算结果。比如阈值设置为0.3时,其所分两组的信息熵和最小,则规则中所使用内线被叫率的阈值a应为0.3。
进一步地,上述方法中,所述通话时长的阈值b,其最小值为0,最大值为200,每次增加步长为1。
进一步地,上述方法中,所述拨打次数的阈值c,其最小值为0,最大值为100,每次增加步长为1。
进一步地,上述方法中,所述拨打对象不重复率的阈值d,其最小值为0,最大值为1,每次增加步长为0.01。
进一步地,上述方法中,所述拨打未接通率的阈值e,其最小值为0,最大值为1,每次增加步长为0.01。
进一步地,上述方法中,所述被叫地市数的阈值f,其最小值为0,最大值为50,每次增加步长为1。
本发明实施例通过上述计算得到的阈值将作为骚扰电话识别过程中的阈值使用。一旦确定该阈值之后便可以在较长的时间内使用,也可以根据需要定期重新计算设置阈值,或者根据地区的不同重新计算设置阈值。
综上,本发明通过制定判断规则进行多级多层规则判断,其中判断的阈值界定是通过聚类分析以及信息熵来确定的,最后得到对电话判断的结果。由于本发明的阈值不是人工制定,而是可以根据信息熵判断调整,因此,本发明可适用性高,较为灵活。
本领域内的技术人员应明白,本申请的实施例可提供为方法、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‐ROM、光学存储器等)上实施的计算机程序产品的形式。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种骚扰电话的识别方法,其特征在于,包括:
读取通话数据,并按照设定时间的间隔将该通话数据进行归类,形成多个记录条目,该多个记录条目组成数据集合A;
对归类后的通话数据进行清洗,将数据集合A中设定要素为空的记录条目删除,得到数据集合B;
通过对数据集合B中设定时间间隔内的每一个主叫号数据进行统计计算,生成主叫号在数据集合B中的特征,记为集合C;
根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话;
所述根据生成的主叫号在数据集合B中的特征,判断主叫号在设定时间间隔中是否为骚扰电话的方式如下:
若连号拨打行为=1,则为骚扰主叫号,未判断的主叫号进入下一步判断;
若内线被叫率>阈值a,则为正常主叫号,未判断主叫号进入下一步判断;
若通话时长>阈值b,则为正常主叫号,未判断主叫号进入下一步判断;
若拨打次数>阈值c,且拨打对象不重复率>=阈值d,则为骚扰主叫号,未判断主叫号进入下一步判断;
若拨打次数>阈值c,且拨打未接通率>=阈值e,则为骚扰主叫号,未判断主叫号进入下一步判断;
若被叫地市数>=阈值f,则为骚扰主叫号,未判断主叫号为正常主叫号;
通过以下方式确定各阈值:
将主叫号和时间标记组合形成数据集合D,作为记录的标签,并通过K-means算法对数据集合D进行聚类分析;
聚类分析后,将所有的主叫号自动分为十类,并用该主叫号平均值表示主叫号各个类别的特点;
将分类结果添加于数据集合D上,用来描述记录条目所属分类,并将更新后的数据集合记为E;
通过区分类别是否为骚扰类别,判断记录条目是否为骚扰条目,集合E将增加参数骚扰条目值或正常条目值,形成集合F;
针对是否为骚扰进行信息熵计算:Ent(X)=P0log2(P0)+ P1log2(P1),其中P0表示正常条目所占比例,P1表示骚扰条目所占比例,进而计算各阈值;
计算各阈值的方法如下:
设定阈值的最小值、最大值以及每次计算的步长;
将阈值设置为最小值,将集合E中所有条目大于该阈值的划分为第一组,小于该阈值的划分为第二组;
分别计算上述第一组和第二组是否为骚扰的信息熵,并将结果合并记录;
将阈值的最小值逐次增加步长,直到最大值为止;
选择信息熵和最小值所对应的阈值为最终计算结果。
2.根据权利要求1所述的方法,其特征在于,所述记录条目包括但不限于以下一种或多种:被叫号码、主叫号码、开始时间、时长、呼叫类型、发端或终端、企业编号、振铃时长、结束码以及被叫地市。
3.根据权利要求1所述的方法,其特征在于,所述生成的主叫号在数据集合B中的特征包括:拨打次数、拨打对象不重复率、拨打未接通率、通话时长、是否连号拨打、被叫地市数以及内线被叫率。
4.根据权利要求1所述的方法,其特征在于,所述内线被叫率的阈值a,其最小值为0,最大值为1,每次计算的步长为0.01。
5.根据权利要求1所述的方法,其特征在于,所述通话时长的阈值b,其最小值为0,最大值为200,每次增加步长为1。
6.根据权利要求1所述的方法,其特征在于,所述拨打次数的阈值c,其最小值为0,最大值为100,每次增加步长为1。
7.根据权利要求1所述的方法,其特征在于,所述拨打对象不重复率的阈值d,其最小值为0,最大值为1,每次增加步长为0.01。
8.根据权利要求1所述的方法,其特征在于,所述拨打未接通率的阈值e,其最小值为0,最大值为1,每次增加步长为0.01。
9.根据权利要求1所述的方法,其特征在于,所述被叫地市数的阈值f,其最小值为0,最大值为50,每次增加步长为1。
CN201811357638.5A 2018-11-14 2018-11-14 一种骚扰电话的识别方法 Active CN109587357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811357638.5A CN109587357B (zh) 2018-11-14 2018-11-14 一种骚扰电话的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811357638.5A CN109587357B (zh) 2018-11-14 2018-11-14 一种骚扰电话的识别方法

Publications (2)

Publication Number Publication Date
CN109587357A CN109587357A (zh) 2019-04-05
CN109587357B true CN109587357B (zh) 2021-04-06

Family

ID=65922470

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811357638.5A Active CN109587357B (zh) 2018-11-14 2018-11-14 一种骚扰电话的识别方法

Country Status (1)

Country Link
CN (1) CN109587357B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110312047A (zh) * 2019-06-24 2019-10-08 深圳市趣创科技有限公司 自动屏蔽骚扰电话的方法及装置
CN111884821B (zh) * 2020-03-27 2022-04-29 马洪涛 话单数据处理展示方法、装置及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104244216A (zh) * 2014-09-29 2014-12-24 ***通信集团浙江有限公司 一种通话过程中实时拦截诈骗电话的方法和***
CN104469025A (zh) * 2014-11-26 2015-03-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和***
CN104714947A (zh) * 2013-12-11 2015-06-17 深圳市腾讯计算机***有限公司 预定类型号码识别方法及装置
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106255113A (zh) * 2015-06-10 2016-12-21 中兴通讯股份有限公司 骚扰电话的识别方法及装置
CN106506769A (zh) * 2016-10-08 2017-03-15 浙江鹏信信息科技股份有限公司 一种利用实时算法实现恶意电话过滤的方法和***
CN106954218A (zh) * 2017-03-15 2017-07-14 中国联合网络通信集团有限公司 一种骚扰号码分类方法、装置和***
CN107273531A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 电话号码分类识别方法、装置、设备及存储介质
CN108462785A (zh) * 2017-02-21 2018-08-28 ***通信集团浙江有限公司 一种恶意呼叫电话的处理方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9553997B2 (en) * 2014-11-01 2017-01-24 Somos, Inc. Toll-free telecommunications management platform

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104714947A (zh) * 2013-12-11 2015-06-17 深圳市腾讯计算机***有限公司 预定类型号码识别方法及装置
CN104244216A (zh) * 2014-09-29 2014-12-24 ***通信集团浙江有限公司 一种通话过程中实时拦截诈骗电话的方法和***
CN104469025A (zh) * 2014-11-26 2015-03-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和***
CN106255113A (zh) * 2015-06-10 2016-12-21 中兴通讯股份有限公司 骚扰电话的识别方法及装置
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106506769A (zh) * 2016-10-08 2017-03-15 浙江鹏信信息科技股份有限公司 一种利用实时算法实现恶意电话过滤的方法和***
CN108462785A (zh) * 2017-02-21 2018-08-28 ***通信集团浙江有限公司 一种恶意呼叫电话的处理方法及装置
CN106954218A (zh) * 2017-03-15 2017-07-14 中国联合网络通信集团有限公司 一种骚扰号码分类方法、装置和***
CN107273531A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 电话号码分类识别方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN109587357A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109600752B (zh) 一种深度聚类诈骗检测的方法和装置
CN108924333B (zh) 诈骗电话识别方法、装置和***
CN107331385A (zh) 一种骚扰电话的识别与拦截方法
US8670527B2 (en) Method and system for detecting voice mail spam
CN101350957B (zh) 屏蔽垃圾短信的方法和设备
US20090043573A1 (en) Method and apparatus for recognizing a speaker in lawful interception systems
CN101686444B (zh) 垃圾短信发送号码实时检测***及方法
CN109658939A (zh) 一种电话录音未接通原因识别方法
CN106534463B (zh) 一种陌生来电处理方法、装置、终端及服务器
CN111131593B (zh) 骚扰电话识别方法及其装置
CN109587357B (zh) 一种骚扰电话的识别方法
CN104410973A (zh) 一种播放录音的诈骗电话识别方法和***
CN111917574A (zh) 社交网络拓扑模型及构建方法、用户置信度和亲密度计算方法及电信诈骗智能拦截***
CN109905524B (zh) 电话号码识别方法、装置、计算机设备及计算机存储介质
CN101389085A (zh) 基于发送行为的垃圾短消息识别***及方法
CN108198086B (zh) 用于依据通信行为特征来识别骚扰源的方法和装置
CN110167030B (zh) 识别骚扰电话的方法、装置、电子设备和存储介质
CN101677432A (zh) 提示联络方式的方法、通话装置以及计算机程序产品
CN110233938B (zh) 一种基于可疑性度量的团伙诈骗电话识别方法
CN110011905B (zh) 一种通信信息处理方法、装置及设备
CN104754583A (zh) 具有防欺诈来电显示功能的电子装置及其方法
CN115563082A (zh) 一种基于实时话单大数据的诈骗号码识别方法和装置
CN111930808B (zh) 一种利用键值匹配模型提高黑名单准确率的方法及***
CN113596260A (zh) 异常电话号码检测方法和电子设备
CN114025041B (zh) 一种基于信令的非频率特征快速识别骚扰电话***和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant