CN109688275A - 骚扰电话识别方法、装置及存储介质 - Google Patents

骚扰电话识别方法、装置及存储介质 Download PDF

Info

Publication number
CN109688275A
CN109688275A CN201811613610.3A CN201811613610A CN109688275A CN 109688275 A CN109688275 A CN 109688275A CN 201811613610 A CN201811613610 A CN 201811613610A CN 109688275 A CN109688275 A CN 109688275A
Authority
CN
China
Prior art keywords
harassing call
identification model
training
harassing
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811613610.3A
Other languages
English (en)
Inventor
赵越
王瑜
葛阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201811613610.3A priority Critical patent/CN109688275A/zh
Publication of CN109688275A publication Critical patent/CN109688275A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/22Arrangements for supervision, monitoring or testing
    • H04M3/2281Call monitoring, e.g. for law enforcement purposes; Call tracing; Detection or prevention of malicious calls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • H04M3/4365Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it based on information specified by the calling party, e.g. priority or subject

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Technology Law (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种骚扰电话识别方法、装置及存储介质,其中,该方法包括:获取训练数据集;根据模糊聚类算法,对训练数据集中训练样本进行分类,获取分类结果,分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集;根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集和正常电话集,获取第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集对应的多个第二训练子集;根据多个第一训练子集、多个第二训练子集、骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,根据呼叫请求中的主叫号码的特征参数以及上述骚扰电话识别模型,获取识别结果。采用本发明所提供的方法有效提高了骚扰电话识别的准确度。

Description

骚扰电话识别方法、装置及存储介质
技术领域
本发明涉及通信技术领域,尤其涉及一种骚扰电话识别方法、装置及存储介质。
背景技术
移动通信技术飞速发展,给人们的生活和工作、生活、学习也代来极大的便利。与此同时,各种推销、广告、诈骗等骚扰电话也越来越多,给人们的生活造成极大的困扰,同时,骚扰电话也扰乱了通信网络的运营秩序,因此,需要有效的识别和拦截骚扰电话,构建绿色安全通信网络。
现有技术中通过在用户所使用的终端上安装安全软件,当有陌生来电时,安全软件提示相应的号码标记,以使用户根据该号码标记决定接听还是拒接,实现骚扰电话的人工主动拦截。
但是,安全软件上的号码标记通常依赖于用户的上报的数据,号码标记的准确性较低,另外,采用上述方法拦截骚扰电话时,用户需要先查看号码标记,再根据号码标记手动选择接听或是拒接,拦截效率较低。
发明内容
本发明提供一种骚扰电话识别方法、装置及存储介质,以提高骚扰电话识别的准确性,以及提高拦截效率。
第一方面,本发明提供一种骚扰电话识别方法,包括:
获取训练数据集,所述训练数据集包括多个训练样本,所述训练样本携带分类标签;
根据模糊聚类算法,对所述训练数据集中的所有训练样本进行分类,获取分类结果,所述分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集,所述第一骚扰电话集中的训练样本均为第一类型骚扰电话,所述第二骚扰电话集中的训练样本均为第二类型骚扰电话;
根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取所述第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集;
根据所述多个第一训练子集、所述多个第二训练子集、所述第一类型骚扰电话的特征参数、所述第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,所述骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型;
根据呼叫请求中的主叫号码的特征参数、所述骚扰电话识别模型,获取识别结果。
可选地,所述根据所述多个第一训练子集、所述多个第二训练子集、所述第一类型骚扰电话的特征参数、所述第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型之后,还包括:
根据验证数据集,获取所述骚扰电话识别模型的准确率和召回率,其中,所述验证数据集包括多个验证样本,所述验证样本携带分类标签;
根据所述准确率和所述召回率,获取所述骚扰电话识别模型的验证评分值;
根据所述验证评分值以及预设标准阈值,判断所述骚扰电话识别模型是否满足预设精度要求。
可选地,所述根据所述准确率和所述召回率,获取所述骚扰电话识别模型的验证评分值,包括:
通过以下公式,获取所述骚扰电话识别模型的验证评分值:
其中,F1表示所述骚扰电话识别模型的验证评分值,precision表示所述骚扰电话识别模型的准确率,recall表示所述骚扰电话识别模型的召回率。
可选地,所述方法还包括:
若所述骚扰电话识别模型不满足预设精度要求,对所述骚扰电话识别模型进行优化,直至满足预设精度要求为止。
可选地,所述根据呼叫请求中的主叫号码的特征参数、所述骚扰电话识别模型,获取识别结果之后,还包括:
将所述识别结果发送至运营商,以使运营商在网络通信侧对主叫号码对应的呼叫请求进行实时拦截。
可选地,所述第一类型骚扰电话的特征参数包括以下一项或多项:
通话次数、通话时长、试呼次数、试呼次数/被叫个数、主叫所用基站个数;
所述第二类型骚扰电话的特征参数包括以下一项或多项:
通话时长、试呼次数、被叫个数/被叫号段个数、以及被叫挂断次数/接通电话次数。
第二方面,本发明提供一种骚扰电话识别装置,该装置包括:
第一获取模块,用于获取训练数据集,所述训练数据集包括多个训练样本,所述训练样本携带分类标签;
聚类模块,用于根据模糊聚类算法,对所述训练数据集中的所有训练样本进行分类,获取分类结果,所述分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集,所述第一骚扰电话集中的训练样本均为第一类型骚扰电话,第二骚扰电话集中的训练样本均为第二类型骚扰电话;
第二获取模块,用于根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取所述第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集;
训练模块,用于根据所述多个第一训练子集、所述多个第二训练子集、所述第一类型骚扰电话的特征参数、所述第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,所述骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型;
识别模块,用于根据呼叫请求中的主叫号码的特征参数、所述骚扰电话识别模型,获取识别结果。
可选地,所述装置还包括:第三获取模块、计算模块以及判断模块;
所述第三获取模块,用于根据验证数据集,获取所述骚扰电话识别模型的准确率和召回率,其中,所述验证数据集包括多个验证样本,所述验证样本携带分类标签;
计算模块,用于根据所述准确率和所述召回率,获取所述骚扰电话识别模型的验证评分值;
所述判断模块,用于根据所述验证评分值以及预设标准阈值,判断所述骚扰电话识别模型是否满足预设精度要求。
第三方面,本发明还提供一种骚扰电话识别装置,其特征在于,包括:存储器和处理器;
所述存储器存储程序指令;
所述处理器执行所述程序指令,以执行第一方面所述的方法。
第四方面,本发明还提供一种存储介质,包括:程序;
所述程序在被处理器执行时,以执行第一方面所述的方法。
本发明提供一种骚扰电话识别方法、装置及存储介质,其中,该方法包括:获取训练数据集,训练数据集包括多个训练样本,训练样本携带分类标签;根据模糊聚类算法,对训练数据集中的所有训练样本进行分类,获取分类结果,分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集,第一骚扰电话集中的训练样本均为第一类型骚扰电话,第二骚扰电话集中的训练样本均为第二类型骚扰电话;根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集;根据多个第一训练子集、多个第二训练子集、第一类型骚扰电话的特征参数、第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型;根据呼叫请求中的主叫号码的特征参数以及骚扰电话识别模型,获取识别结果。本发明所提供的方法通过采用模糊聚类算法能够预先无法确定骚扰电话类型的情况下,对训练数据集中的训练样本进行准确的分类,得到准确度更高的分类结果;通过采用基于权重的欠抽样算法能够消除类别不平衡对骚扰电话识别模型的影响,提高了骚扰电话识别模型的准确度;通过采用随机森林机器算法,通过大量的训练得到准确度较高的骚扰电话识别模型;采用上述骚扰电话识别模型进行识别,能够有效提高识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的骚扰电话识别方法实施例一的流程示意图;
图2为本发明提供的骚扰电话识别方法实施例二的流程示意图;
图3为本发明提供的骚扰电话识别方法实施例三的流程示意图;
图4为本发明提供的骚扰电话识别装置实施例一的结构示意图;
图5为本发明提供的骚扰电话识别装置实施例二的结构示意图;
图6为本发明提供的骚扰电话识别装置实施例三的结构示意图;
图7为本发明提供的骚扰电话识别装置实施例四的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明提供的骚扰电话识别方法实施例一的流程示意图。如图1所示,本实施例的骚扰电话识别方法的执行主体可以为本发明所提供的骚扰电话识别装置,该装置可以通过任意的软件和/或硬件的方式实现,例如:该装置可以为计算机。
本实施例所示的方法包括以下步骤:
S101、获取训练数据集。
其中,上述训练数据集包括多个训练样本,每个训练样本都携带分类标签,分类标签用于说明训练样本是否为骚扰电话。本步骤中的训练数据集可通过对预设时间段内的通信网信令信息进行采集、分析得到。
S102、根据模糊聚类算法,对训练数据集中的所有训练样本进行分类,获取分类结果。
模糊聚类算法是一种采用模糊数学语言对事物按照一定的要求进行描述和分类的数学方法,其能够根据研究对象本身的属性来构造模糊矩阵,并且根据样本到类中心的隶属度来确定聚类关系,从而客观且准确地进行聚类,由于模糊聚类得到了样本属于各个类别的不确定性程度,表达了样本类属性的中介性。
本步骤中,为了构建更为准确的骚扰电话识别模型,因此,采用模糊聚类算法对训练数据集中的训练样本进行分类,从而得到分类结果,分类结果包括:第一骚扰电话集、第二骚扰电话集以及正常电话集,其中,第一骚扰电话集中的训练样本均为第一类型骚扰电话,第二骚扰电话集中的训练样本均为第二类型骚扰电话。具体地,第一类型骚扰电话是“一声响”类型的骚扰电话,该类电话的特征具体表现为一定时间段内试呼次数较高、通话次数较少、通话时长较短,且不会重复拨打同一个号码,旨在诱导被叫用户回拨,当被叫用户发现有未接来电进行回拨,即中各类声讯广告或电信诈骗等。第二类型骚扰电话是“超频超短”类型的骚扰电话,该类电话的特征具体表现为一定时间段内试呼次数较高、通话时长较短、并选取一个号段内的号码依次拨打、且接通电话次数中被挂断比例较高,通常该类电话为诈骗、骚扰或过度营销电话。
相应地,当第一类型骚扰电话为“一声响”类型骚扰电话时,第一类型骚扰电话的特征参数包括:通话次数、通话时长、试呼次数、试呼次数/被叫个数、主叫所用基站个数等。当第二类型骚扰电话为“超频超短”类型骚扰电话时,第二类型骚扰电话的特征参数包括:通话时长、试呼次数、被叫个数/被叫号段个数、以及被叫挂断次数/接通电话次数等。
需要说明的是,本实施例中第一类型骚扰电话和第二类型骚扰电话是相对的,并不限于第一类型骚扰电话为“一声响”类型骚扰电话、第二类型骚扰电话为“超频超短”类型骚扰电话的情况,也就是说,在一些实施例中,第一类型骚扰电话可为“超频超短”类型骚扰电话、第二类型骚扰电话为“一声响”类型骚扰电话。
S103、根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集。
欠抽样是一种有效处理不平衡数据的方法,但是由于在抽样的过程中可能会丢失一些具有较强判别性的样本,为了弥补这一缺陷,通过引入基于样本权重来反映样本所处区域,增大强判别性样本被选中的概率。
考虑到在实际生产中,骚扰电话在整体用户群体中占比不高的特点,为了消除类别不平衡对骚扰电话识别所造成的不利影响,多次从反例用户(即正常电话集)中又放回随机抽样,生成大量的反例样本,分别与正例样本(即第一骚扰电话集、第二骚扰电话集)进行组合,从而得到第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集。
S104、根据多个第一训练子集、多个第二训练子集、第一类型骚扰电话的特征参数、第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型。
本步骤中,采用随机森林分类的机器学习算法构建骚扰电话识别模型,骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型。具体地,根据多个第一训练子集以及第一类型骚扰电话的特征参数,采用随机森林算法构建第一骚扰电话识别模型,其中,若第一类型骚扰电话为“一声响”类型的骚扰电话,相应地,第一骚扰电话识别模型用于识别“一声响”类型的骚扰电话;根据多个第二训练子集以及第二类型骚扰电话的特征参数,采用随机森林算法构建第二骚扰电话识别模型,其中,若第二类型骚扰电话为“超频超短”类型的骚扰电话,相应地,第二骚扰电话识别模型用于识别“超频超短”类型的骚扰电话。
本步骤中所采用的随机森林是一个利用多棵决策树对训练样本进行训练并预测的一种分类器,随机森林是由多棵分类回归树(Classification And Regression Tree,简称:CART)构成的,对于每棵分类回归树,它们使用的训练集是从总的训练集中有放回采样出来的。进一步,在训练每棵树的节点时,使用的特征参数也可以是从所有特征参数中按照一定比例随机地无放回的抽取的,假设特征参数的总数为M,M为大于0的整数,这个比例可以是sqrt(M)、0.5*sqrt(M)或者2*sqrt(M),当然,也可以根据实际需求设置其他比例,本发明对此不做限定。
S105、根据呼叫请求中的主叫号码的特征参数、骚扰电话识别模型,获取识别结果。
本步骤中,呼叫请求中的主叫号码即为待识别号码,骚扰电话识别模型根据该待识别号码的特征参数,获取识别结果。具体地,采用第一骚扰电话识别模型和第二骚扰电话识别模型根据呼叫请求中主叫号码的特征参数,分别获取第一骚扰电话识别模型输出的评分值和第二骚扰电话识别模型输出的评分值。进一步,第一骚扰电话识别模型根据输出的评分值以及第一骚扰电话识别模型对应的预设阈值,确定该主叫号码是否为第一类型骚扰电话,同时,第二骚扰电话识别模型根据输出的评分值以及第二骚扰电话识别模型对应的预设阈值,确定该主叫号码是否为第二类型骚扰电话。本实施例中,该方法包括:获取训练数据集,训练数据集包括多个训练样本,训练样本携带分类标签;根据模糊聚类算法,对训练数据集中的所有训练样本进行分类,获取分类结果,分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集;根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集;根据多个第一训练子集、多个第二训练子集、第一类型骚扰电话的特征参数、第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型。本发明所提供的方法通过采用模糊聚类算法能够预先无法确定骚扰电话类型的情况下,对训练数据集中的训练样本进行准确的分类,得到准确度更高的分类结果;通过采用基于权重的欠抽样算法能够消除类别不平衡对骚扰电话识别模型的影响,提高了骚扰电话识别模型的准确度;通过采用随机森林机器算法,通过大量的训练得到准确度较高的骚扰电话识别模型。
图2为本发明提供的骚扰电话识别方法实施例二的流程示意图。如图2所示,本实施例所示的方法,在图1所示实施例的基础上,步骤S105之后,还包括:
S106、将识别结果发送至运营商,以使运营商在网络通信侧对主叫号码对应的呼叫请求进行实时拦截。
当该主叫号码为第一类型骚扰电话或第二类型骚扰电话时,可在运营商的网络通信侧对主叫号码对应的呼叫请求进行实时拦截。
本实施例中,在根据呼叫请求中的主叫号码的特征参数以及骚扰电话识别模型,获取识别结果;将识别结果发送至运营商,以使运营商在网络通信侧对主叫号码对应的呼叫请求进行实时拦截。本实施例所采用的骚扰电话识别模型不仅能够准确判断呼叫请求中的主叫号码是否为骚扰电话,还能够准确识别骚扰电话的类型,且将骚扰电话识别模型应用于运营商的网络通信侧能够实现在网络通信侧对骚扰电话进行实时拦截,提高了拦截处理效率,同时还提高了用户体验。
图3为本发明提供的骚扰电话识别方法实施例二的流程示意图。在图1所示实施例的基础上,步骤S104、根据多个第一训练子集、多个第二训练子集、第一类型骚扰电话的特征参数、第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,之后,还可以包括本实施例所示的方法。
如图3所示,本实施例所示的方法:
S301、根据验证数据集,获取骚扰电话识别模型的准确率和召回率,其中,验证数据集包括多个验证样本,验证样本携带分类标签。
其中,获取验证数据集的方式可与获取训练数据集的方式类似,此处不再赘述。
具体地,通过骚扰电话识别模型对验证数据集中的验证样本进行识别,获取识别结果,进一步,根据骚扰电话输出的识别结果以及验证样本的分类标签获取骚扰电话识别模型的准确率和召回率。
S302、根据准确率和召回率,获取骚扰电话识别模型的验证评分值。
本实施例中,验证评分值是统计学中个用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的准确率和召回率,验证评分值可以看作是分类模型的准确率和召回率的一种加权平均值。
一种可能的实现方式,根据以下公式获取骚扰电话识别模型的验证评分值:
其中,F1表示骚扰电话识别模型的验证评分值,precision表示骚扰电话识别模型的准确率,recall表示骚扰电话识别模型的召回率。
在具体实现过程中,分别获取第一骚扰电话识别模型的准确率和召回率、第二骚扰电话识别模型的准确率和召回率,进一步,将第一骚扰电话识别模型的准确率和召回率代入上述公式(1)中,获取第一骚扰电话识别模型的验证评分值,将第二骚扰电话识别模型的准确率和召回率代入上述公式(1)中,获取第二骚扰电话识别模型的验证评分值。
S303、根据验证评分值以及预设标准阈值,判断骚扰电话识别模型是否满足预设精度要求。
本步骤的目的在于,通过将骚扰电话识别模型对应的验证评分值与具体数值化的判断条件进行比较,准确判断骚扰电话识别模型是否满足预设精度要求。
一种可能的实现方式,若验证评分值小于预设标准阈值,则确定骚扰电话识别模型不满足预设精度要求;若验证评分值大于或等于预设标准阈值,则确定第一骚扰电话识别模型满足预设精度要求,能够用于实际生产环境中。
由于骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型,那么,可针对第一骚扰电话识别模型和第二骚扰电话识别模型分别设置合适的预设标准阈值,第一骚扰电话识别模型和第二骚扰电话识别模型分别对应的预设标准阈值的数值大小可以相同,也可以不同。也就是说,若第一骚扰电话识别模型的验证评分值小于预设标准阈值,则确定骚扰电话识别模型不满足预设精度要求;若第一骚扰电话识别模型的验证评分值验证评分值大于或等于预设标准阈值,则确定第一骚扰电话识别模型满足预设精度要求,能够用于实际生产环境中。若第二骚扰电话识别模型的验证评分值小于预设标准阈值,则确定第二骚扰电话识别模型不满足预设精度要求;若第二骚扰电话识别模型的验证评分值验证评分值大于或等于预设标准阈值,则确定第二骚扰电话识别模型满足预设精度要求,能够用于实际生产环境中。
本实施例中,通过根据验证数据集,获取骚扰电话识别模型的准确率和召回率,其中,验证数据集包括多个验证样本,验证样本携带分类标签;根据准确率和召回率,获取骚扰电话识别模型的验证评分值;根据验证评分值以及预设标准阈值,判断骚扰电话识别模型是否满足预设精度要求。通过引入F1评价方式,对骚扰电话识别模型进行验证评分,提高了骚扰电话识别模型的准确度。
在图2所示实施例的基础上,可选地,还可以包括图2中未示出的S204、若骚扰电话识别模型不满足预设精度要求,对骚扰电话识别模型进行优化,直至满足预设精度要求为止。
图4为本发明提供的骚扰电话识别装置实施例一的结构示意图。如图4所示,本实施例的装置40包括:第一获取模块41、聚类模块42、第二获取模块43、训练模块44以及识别模块45。
第一获取模块41,用于获取训练数据集,训练数据集包括多个训练样本,训练样本携带分类标签。
聚类模块42,用于根据模糊聚类算法,对训练数据集中的所有训练样本进行分类,获取分类结果,分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集,其中,第一骚扰电话集中的训练样本均为第一类型骚扰电话,第二骚扰电话集中的训练样本均为第二类型骚扰电话。
第二获取模块43,用于根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集。
训练模块44,用于根据多个第一训练子集、多个第二训练子集、第一类型骚扰电话的特征参数、第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型。
识别模块45,用于根据呼叫请求中的主叫号码的特征参数、以及骚扰电话识别模型,获取识别结果。
可选地,当第一类型骚扰电话为“一声响”类型骚扰电话时,第一类型骚扰电话的特征参数包括:通话次数、通话时长、试呼次数、试呼次数/被叫个数、主叫所用基站个数等。当第二类型骚扰电话为“超频超短”类型骚扰电话时,第二类型骚扰电话的特征参数包括:通话时长、试呼次数、被叫个数/被叫号段个数、以及被叫挂断次数/接通电话次数等。
需要说明的是,本实施例中第一类型骚扰电话和第二类型骚扰电话是相对的,并不限于第一类型骚扰电话为“一声响”类型骚扰电话、第二类型骚扰电话为“超频超短”类型骚扰电话的情况,也就是说,在一些实施例中,第一类型骚扰电话可为“超频超短”类型骚扰电话、第二类型骚扰电话为“一声响”类型骚扰电话。
本实施例的装置,可以用于执行图1所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图5为本发明提供的骚扰电话识别装置实施例二的结构示意图。如图5所示,本实施例的装置50在图4所示实施例的基础上,还包括:发送模块46。
发送模块46,用于将识别结果发送至运营商,以使运营商在网络通信侧对主叫号码对应的呼叫请求进行实时拦截。
本实施例的装置,可以用于执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图6为本发明提供的骚扰电话识别装置实施例二的结构示意图。如图5所示,本实施例的装置60在图5所示实施例的基础上,还包括:第三获取模块47、计算模块48和判断模块49;
其中,第三获取模块47,用于根据验证数据集,获取骚扰电话识别模型的准确率和召回率,其中,验证数据集包括多个验证样本,验证样本携带分类标签。
计算模块48,用于根据准确率和召回率,获取骚扰电话识别模型的验证评分值。
判断模块46,用于根据验证评分值和预设标准阈值,判断骚扰电话识别模型是否满足预设精度要求。
在一些实施例中,计算模块48,通过以下公式,获取骚扰电话识别模型的验证评分值:
其中,F1表示骚扰电话识别模型的验证评分值,precision表示骚扰电话识别模型的准确率,recall表示骚扰电话识别模型的召回率。
本实施例的装置,可以用于执行图3所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
可选地,若骚扰电话识别模型不满足预设精度要求,那么,训练模块44对骚扰电话识别模型进行优化,直至满足预设精度要求为止。
图7为本发明提供的骚扰电话识别装置实施例四的结构示意图。如图7所示,本实施例的装置70包括:存储器71、处理器72。
存储器71可以是独立的物理单元,与处理器72可以通过总线73连接。存储器71、处理器72也可以集成在一起,通过硬件实现等。
存储器71用于存储实现以上方法实施例,处理器72调用该程序,执行以上方法实施例的操作。
可选地,当上述实施例的方法中的部分或全部通过软件实现时,上述装置70也可以只包括处理器72。用于存储程序的存储器71位于装置70之外,处理器72通过电路/电线与存储器连接,用于读取并执行存储器中存储的程序。
处理器72可以是中央处理器(Central Processing Unit,CPU),网络处理器(Network Processor,NP)或者CPU和NP的组合。
处理器72还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(Application-Specific Integrated Circuit,ASIC),可编程逻辑器件(ProgrammableLogic Device,PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(ComplexProgrammable Logic Device,CPLD),现场可编程逻辑门阵列(Field-Programmable GateArray,FPGA),通用阵列逻辑(Generic Array Logic,GAL)或其任意组合。
存储器71可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random-Access Memory,RAM);存储器也可以包括非易失性存储器(Non-volatileMemory),例如快闪存储器(Flash Memory),硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-state Drive,SSD);存储器还可以包括上述种类的存储器的组合。
本发明还提供一种程序产品,例如,计算机存储介质,包括:程序,程序在被处理器执行时用于执行以上方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种骚扰电话识别方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括多个训练样本,所述训练样本携带分类标签;
根据模糊聚类算法,对所述训练数据集中的所有训练样本进行分类,获取分类结果,所述分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集,所述第一骚扰电话集中的训练样本均为第一类型骚扰电话,所述第二骚扰电话集中的训练样本均为第二类型骚扰电话;
根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取所述第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集;
根据所述多个第一训练子集、所述多个第二训练子集、所述第一类型骚扰电话的特征参数、所述第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,所述骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型;
根据呼叫请求中的主叫号码的特征参数、所述骚扰电话识别模型,获取识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多个第一训练子集、所述多个第二训练子集、所述第一类型骚扰电话的特征参数、所述第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型之后,还包括:
根据验证数据集,获取所述骚扰电话识别模型的准确率和召回率,其中,所述验证数据集包括多个验证样本,所述验证样本携带分类标签;
根据所述准确率和所述召回率,获取所述骚扰电话识别模型的验证评分值;
根据所述验证评分值以及预设标准阈值,判断所述骚扰电话识别模型是否满足预设精度要求。
3.根据权利要求2所述的方法,其特征在于,所述根据所述准确率和所述召回率,获取所述骚扰电话识别模型的验证评分值,包括:
通过以下公式,获取所述骚扰电话识别模型的验证评分值:
其中,F1表示所述骚扰电话识别模型的验证评分值,precision表示所述骚扰电话识别模型的准确率,recall表示所述骚扰电话识别模型的召回率。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述骚扰电话识别模型不满足预设精度要求,对所述骚扰电话识别模型进行优化,直至满足预设精度要求为止。
5.根据权利要求1所述的方法,其特征在于,所述根据呼叫请求中的主叫号码的特征参数、所述骚扰电话识别模型,获取识别结果之后,还包括:
将所述识别结果发送至运营商,以使运营商在网络通信侧对主叫号码对应的呼叫请求进行实时拦截。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述第一类型骚扰电话的特征参数包括以下一项或多项:
通话次数、通话时长、试呼次数、试呼次数/被叫个数、主叫所用基站个数;
所述第二类型骚扰电话的特征参数包括以下一项或多项:
通话时长、试呼次数、被叫个数/被叫号段个数、以及被叫挂断次数/接通电话次数。
7.一种骚扰电话识别装置,其特征在于,包括:
第一获取模块,用于获取训练数据集,所述训练数据集包括多个训练样本,所述训练样本携带分类标签;
聚类模块,用于根据模糊聚类算法,对所述训练数据集中的所有训练样本进行分类,获取分类结果,所述分类结果包括第一骚扰电话集、第二骚扰电话集和正常电话集,所述第一骚扰电话集中的训练样本均为第一类型骚扰电话,所述第二骚扰电话集中的训练样本均为第二类型骚扰电话;
第二获取模块,用于根据基于权重的欠抽样算法、第一骚扰电话集、第二骚扰电话集以及正常电话集,获取所述第一骚扰电话集对应的多个第一训练子集、第二骚扰电话集合对应的多个第二训练子集;
训练模块,用于根据所述多个第一训练子集、所述多个第二训练子集、所述第一类型骚扰电话的特征参数、所述第二类型骚扰电话的特征参数以及随机森林算法,获取骚扰电话识别模型,其中,所述骚扰电话识别模型包括第一骚扰电话识别模型和第二骚扰电话识别模型;
识别模块,用于根据呼叫请求中的主叫号码的特征参数、所述骚扰电话识别模型,获取识别结果。
8.根据权利要求7所述的装置,其特征在于,还包括:第三获取模块、计算模块以及判断模块;
所述第三获取模块,用于根据验证数据集,获取所述骚扰电话识别模型的准确率和召回率,其中,所述验证数据集包括多个验证样本,所述验证样本携带分类标签;
计算模块,用于根据所述准确率和所述召回率,获取所述骚扰电话识别模型的验证评分值;
所述判断模块,用于根据所述验证评分值以及预设标准阈值,判断所述骚扰电话识别模型是否满足预设精度要求。
9.一种骚扰电话识别装置,其特征在于,包括:存储器和处理器;
所述存储器存储程序指令;
所述处理器执行所述程序指令,以执行权利要求1~6任一项所述的方法。
10.一种存储介质,其特征在于,包括:程序;
所述程序在被处理器执行时,以执行权利要求1~6任一项所述的方法。
CN201811613610.3A 2018-12-27 2018-12-27 骚扰电话识别方法、装置及存储介质 Pending CN109688275A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811613610.3A CN109688275A (zh) 2018-12-27 2018-12-27 骚扰电话识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811613610.3A CN109688275A (zh) 2018-12-27 2018-12-27 骚扰电话识别方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN109688275A true CN109688275A (zh) 2019-04-26

Family

ID=66190664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811613610.3A Pending CN109688275A (zh) 2018-12-27 2018-12-27 骚扰电话识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN109688275A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110086943A (zh) * 2019-04-29 2019-08-02 北京羽乐创新科技有限公司 号码监测方法及装置
CN110263157A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据风险预测方法、装置及设备
CN110348998A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 基于黄页数据的用户欺诈风险预测的方法及装置
CN110913081A (zh) * 2019-11-28 2020-03-24 上海观安信息技术股份有限公司 一种识别呼叫中心骚扰电话的方法及***
CN111654866A (zh) * 2020-05-29 2020-09-11 北京合力思腾科技股份有限公司 移动通讯防诈骗的方法、装置及计算机存储介质
CN111970400A (zh) * 2019-05-20 2020-11-20 ***通信集团陕西有限公司 骚扰电话识别方法及装置
CN112199388A (zh) * 2020-09-02 2021-01-08 卓望数码技术(深圳)有限公司 陌电识别方法、装置、电子设备及存储介质
CN113163048A (zh) * 2021-04-02 2021-07-23 维沃移动通信有限公司 骚扰电话的识别方法和装置
CN113452845A (zh) * 2020-03-26 2021-09-28 ***通信集团福建有限公司 识别异常电话号码的方法和电子设备
CN114449106A (zh) * 2022-02-10 2022-05-06 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469025A (zh) * 2014-11-26 2015-03-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和***
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106331390A (zh) * 2016-11-23 2017-01-11 杭州东信北邮信息技术有限公司 一种基于通话数据来识别诈骗号码的方法和***
CN106385693A (zh) * 2016-09-22 2017-02-08 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法
US20170064076A1 (en) * 2015-08-31 2017-03-02 Fujitsu Limited Nuisance call detection device and method
CN106686261A (zh) * 2017-01-19 2017-05-17 腾讯科技(深圳)有限公司 一种信息处理方法及***
CN106791220A (zh) * 2016-11-04 2017-05-31 国家计算机网络与信息安全管理中心 防止电话诈骗的方法及***
US20170163803A1 (en) * 2015-12-04 2017-06-08 Oracle International Corporation Methods, systems, and computer readable media for nuisance call management
CN107105108A (zh) * 2017-04-21 2017-08-29 天维尔信息科技股份有限公司 一种防报警骚扰电话的处理方法及其***
CN107343077A (zh) * 2016-04-28 2017-11-10 腾讯科技(深圳)有限公司 识别恶意电话及建立识别模型的方法、装置、设备
CN108124065A (zh) * 2017-12-05 2018-06-05 浙江鹏信信息科技股份有限公司 一种对垃圾电话内容进行识别与处置的方法
CN108449482A (zh) * 2018-02-09 2018-08-24 北京泰迪熊移动科技有限公司 号码识别的方法和***
CN108810290A (zh) * 2018-07-17 2018-11-13 中国联合网络通信集团有限公司 一种诈骗电话的识别的方法及***

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104469025A (zh) * 2014-11-26 2015-03-25 杭州东信北邮信息技术有限公司 一种基于聚类算法的实时拦截诈骗电话的方法和***
US20170064076A1 (en) * 2015-08-31 2017-03-02 Fujitsu Limited Nuisance call detection device and method
US20170163803A1 (en) * 2015-12-04 2017-06-08 Oracle International Corporation Methods, systems, and computer readable media for nuisance call management
CN107343077A (zh) * 2016-04-28 2017-11-10 腾讯科技(深圳)有限公司 识别恶意电话及建立识别模型的方法、装置、设备
CN106255116A (zh) * 2016-08-24 2016-12-21 王瀚辰 一种骚扰号码的识别方法
CN106385693A (zh) * 2016-09-22 2017-02-08 长沙创客软件有限公司 针对虚拟号段的电信诈骗判断方法
CN106791220A (zh) * 2016-11-04 2017-05-31 国家计算机网络与信息安全管理中心 防止电话诈骗的方法及***
CN106331390A (zh) * 2016-11-23 2017-01-11 杭州东信北邮信息技术有限公司 一种基于通话数据来识别诈骗号码的方法和***
CN106686261A (zh) * 2017-01-19 2017-05-17 腾讯科技(深圳)有限公司 一种信息处理方法及***
CN107105108A (zh) * 2017-04-21 2017-08-29 天维尔信息科技股份有限公司 一种防报警骚扰电话的处理方法及其***
CN108124065A (zh) * 2017-12-05 2018-06-05 浙江鹏信信息科技股份有限公司 一种对垃圾电话内容进行识别与处置的方法
CN108449482A (zh) * 2018-02-09 2018-08-24 北京泰迪熊移动科技有限公司 号码识别的方法和***
CN108810290A (zh) * 2018-07-17 2018-11-13 中国联合网络通信集团有限公司 一种诈骗电话的识别的方法及***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110086943A (zh) * 2019-04-29 2019-08-02 北京羽乐创新科技有限公司 号码监测方法及装置
CN111970400A (zh) * 2019-05-20 2020-11-20 ***通信集团陕西有限公司 骚扰电话识别方法及装置
CN111970400B (zh) * 2019-05-20 2021-11-30 ***通信集团陕西有限公司 骚扰电话识别方法及装置
CN110263157A (zh) * 2019-05-24 2019-09-20 阿里巴巴集团控股有限公司 一种数据风险预测方法、装置及设备
CN110348998A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 基于黄页数据的用户欺诈风险预测的方法及装置
CN110913081A (zh) * 2019-11-28 2020-03-24 上海观安信息技术股份有限公司 一种识别呼叫中心骚扰电话的方法及***
CN113452845A (zh) * 2020-03-26 2021-09-28 ***通信集团福建有限公司 识别异常电话号码的方法和电子设备
CN113452845B (zh) * 2020-03-26 2024-03-19 ***通信集团福建有限公司 识别异常电话号码的方法和电子设备
CN111654866A (zh) * 2020-05-29 2020-09-11 北京合力思腾科技股份有限公司 移动通讯防诈骗的方法、装置及计算机存储介质
CN112199388A (zh) * 2020-09-02 2021-01-08 卓望数码技术(深圳)有限公司 陌电识别方法、装置、电子设备及存储介质
CN113163048A (zh) * 2021-04-02 2021-07-23 维沃移动通信有限公司 骚扰电话的识别方法和装置
CN114449106A (zh) * 2022-02-10 2022-05-06 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质
CN114449106B (zh) * 2022-02-10 2024-04-30 恒安嘉新(北京)科技股份公司 一种异常电话号码的识别方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN109688275A (zh) 骚扰电话识别方法、装置及存储介质
CN110401779B (zh) 一种识别电话号码的方法、装置和计算机可读存储介质
CN107248082B (zh) 养卡识别方法及装置
CN109451182B (zh) 一种诈骗电话的检测方法和装置
Umayaparvathi et al. A survey on customer churn prediction in telecom industry: Datasets, methods and metrics
CN107093431A (zh) 一种对服务质量进行质检的方法及装置
CN107566358A (zh) 一种风险预警提示方法、装置、介质及设备
CN103927483B (zh) 用于检测恶意程序的判定模型及恶意程序的检测方法
CN109063966A (zh) 风险账户的识别方法和装置
CN105184315A (zh) 一种质检处理方法及***
CN108717663A (zh) 基于微表情的面签欺诈判断方法、装置、设备及介质
CN108667854A (zh) 网络漏洞检测方法及装置、网络漏洞自动发布***
CN109819126A (zh) 一种异常号码识别方法及装置
CN106843941B (zh) 信息处理方法、装置和计算机设备
CN103796183B (zh) 一种垃圾短信识别方法及装置
CN107256428A (zh) 数据处理方法、数据处理装置、存储设备及网络设备
CN105719045A (zh) 留任风险确定器
CN107644098A (zh) 一种欺诈行为识别方法、装置、设备及存储介质
CN108449482A (zh) 号码识别的方法和***
CN107820252B (zh) 养卡识别方法及***
CN106570014A (zh) 用于确定用户的家庭属性信息的方法与设备
CN109840778A (zh) 欺诈用户的识别方法及装置、可读存储介质
CN109739985A (zh) 文本自动分类方法、设备及存储介质
CN108038208A (zh) 上下文信息识别模型的训练方法、装置和存储介质
CN109063433A (zh) 虚假用户的识别方法、装置及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190426

RJ01 Rejection of invention patent application after publication