CN112199388A - 陌电识别方法、装置、电子设备及存储介质 - Google Patents
陌电识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112199388A CN112199388A CN202010909198.0A CN202010909198A CN112199388A CN 112199388 A CN112199388 A CN 112199388A CN 202010909198 A CN202010909198 A CN 202010909198A CN 112199388 A CN112199388 A CN 112199388A
- Authority
- CN
- China
- Prior art keywords
- data
- strange
- data set
- training
- electricity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种陌电识别方法、装置、电子设备及存储介质,其中陌电识别方法,包括:获取信令数据话单,对信令数据话单的数据进行处理,得到第一数据集;提取第一数据集并建立高频通话数据库;对高频通话数据库的数据进行数据处理,得到训练数据集;对训练数据集进行训练,得到陌电识别模型;将获取的陌电识别模型用于陌电识别,得到识别结果。通过获取信令数据话单,能够较为全面的获取到用户的通话数据,对数据进行准确的标记分类,对训练数据集进行训练得到的陌电识别模型,性能稳定,具有较好的抗噪能力,利用陌电识别模型能够很好地提高陌生电话识别的准确度。
Description
技术领域
本发明涉及通信技术领域,尤其是涉及一种陌电识别方法、装置、电子设备及存储介质。
背景技术
随着移动通信技术的发展,骚扰电话也给人们的生活造成极大的困扰,目前,对陌生电话的识别常常是根据用户对号码的标记分类,以及将用户在各门户网站的行为特征作为依据对号码分类来实现的,这种方式获得的数据具有局限性,会使得对陌生电话的识别准确性较低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种陌电识别方法,能够较为全面的获取到用户的通话数据,提高对陌生电话识别的准确性。
本发明还提出一种具有上述陌电识别方法的陌电识别装置。
本发明还提出一种具有上述陌电识别方法的电子设备。
本发明还提出一种具有上述陌电识别方法的计算机可读存储介质。
根据本发明的第一方面实施例的陌电识别方法,包括:
获取信令数据话单,对所述信令数据话单的数据进行处理,得到第一数据集;
提取所述第一数据集并建立高频通话数据库;
对所述高频通话数据库的数据进行数据处理,得到训练数据集;
对所述训练数据集进行训练,得到陌电识别模型;
将获取的所述陌电识别模型用于陌电识别,得到识别结果。
根据本发明实施例的陌电识别方法,至少具有如下有益效果:这种陌电识别方法通过获取信令数据话单,能够较为全面的获取到用户的通话数据,对数据进行准确的标记分类,对训练数据集进行训练得到的陌电识别模型,性能稳定,具有较好的抗噪能力,利用陌电识别模型能够很好地提高陌生电话识别的准确度。
根据本发明的一些实施例,所述获取信令数据话单,对所述信令数据话单的数据进行处理,得到第一数据集,包括:
获取核心网从各个网元数据收集到的所述信令数据话单;
对所述信令数据话单中的数据进行数据处理,得到所述第一数据集。
根据本发明的一些实施例,所述提取所述第一数据集并建立高频通话数据,包括:
提取所述第一数据集中的高频通话数据;
查询并标记所述高频通话数据的类型;
将标记分类的所述高频通话数据存储在标签库中,所述标签库包括有第一类型陌电、第二类型陌电、正常陌电。
根据本发明的一些实施例,所述对所述高频通话数据库的数据进行数据处理,得到训练数据集,包括:
对所述高频通话数据库的数据进行数据清洗,得到第二数据集;
对所述第二数据集进行数据预处理,得到第三数据集;
提取所述第三数据集数据的特征量,建立训练数据集。
根据本发明的一些实施例,所述数据预处理包括:
对所述第一类型陌电的样本数据进行过采样处理,得到第一样本数据集,对所述第二类型陌电的样本数据进行欠采样处理,得到第二样本数据集;
对所述第一样本数据集和所述第二样本数据集的样本数据进行标准化处理。根据本发明的一些实施例,所述提取所述第三数据集数据的特征量,建立训练数据集,包括:
采用过滤法、包装法、嵌入法其的至少一种来提取所述第三数据集数据的特征量,建立所述训练数据集。
根据本发明的一些实施例,所述对所述训练数据集进行训练,得到陌电识别模型,包括:
采用随机森林算法对所述训练数据集进行训练。
根据本发明的第二方面实施例的陌电识别装置,包括:
第一获取模块,用于获取信令数据话单,对所述信令数据话单的数据进行处理,得到第一数据集;
第一处理模块,用于提取所述第一数据集并建立高频通话数据库;
第二处理模块,用于对所述高频通话数据库的数据进行数据处理,得到训练数据集;
训练模块,用于对所述训练数据集进行训练,得到陌电识别模型;
识别模块,用于将获取的所述陌电识别模型用于陌电识别,得到识别结果。
根据本发明实施例的陌电识别装置,至少具有如下有益效果:这种陌电识别装置通过第一获取模块获取到信令数据话单,能够较为全面的获取到用户的通话数据,从而能够对数据进行准确的标记分类,训练模块根据训练数据集和随机森林算法获取的陌电识别模型,性能稳定,具有较好的抗噪能力,利用陌电识别模型能够很好地提高陌生电话识别的准确度。
根据本发明的一些实施例,所述训练模块包括有:
参数设置模块,用于设置随机森林参数;
第三处理模块,用于构建随机森林,利用随机森林算法训练多颗决策树生成陌电识别模型;
调整模块,用于对陌电识别模型的预测性能进行评估和优化,得到最终的陌电识别模型。
根据本发明的第三方面实施例的电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面实施例的陌电识别方法。
根据本发明的第四方面实施例的计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述第一方面实施例的陌电识别方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的陌电识别方法的流程图;
图2为本发明另一实施例的陌电识别方法的流程图;
图3为本发明另一实施例的陌电识别方法的流程图;
图4为本发明另一实施例的陌电识别方法的流程图;
图5为本发明另一实施例的陌电识别方法的流程图;
图6为本发明另一实施例的陌电识别方法的流程图;
图7为本发明另一实施例的陌电识别方法的流程图;
图8为本发明另一实施例的陌电识别方法的流程图;
图9为本发明一个实施例提供的陌电识别装置的结构示意图;
图10为图9中的训练模块的其中一种结构示意图。
附图标记:901、第一获取模块;902、第一处理模块;903、第二处理模块;904、训练模块;905、识别模块;111、参数设置模块;112、第三处理模块;113、调整模块。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
第一方面,参照图1,在本发明实施例的陌电识别方法步骤包括:
S101,获取信令数据话单,对信令数据话单的数据进行处理,得到第一数据集;
S102,提取第一数据集并建立高频通话数据库;
S103,对高频通话数据库的数据进行数据处理,得到训练数据集;
S104,对训练数据集进行训练,得到陌电识别模型;
S105,将获取的陌电识别模型用于陌电识别,得到识别结果。
在本发明的一些实施例中,从分省核心网络中获取信令数据话单,对信令数据话单的数据进行处理,生成话单数据中间表,将话单数据中间表中的数据作为第一数据集,提取第一数据集中的数据,需要说明的是,提取的数据包括高频通话数据等,根据提取到的数据建立高频通话数据库,在高频通话数据库中对这些数据进行标记并分类,进而对高频数据库的数据进行数据处理,得到初步的样本数据,其中,对数据的预处理包括有数据采样以及数据标准化处理,根据样本数据的特征参数对样本数据进行筛选,利用筛选的样本数据建立训练数据集,对训练数据集中的数据进行训练,得到陌电识别模型,将陌电识别模型运用到高频数据库中去识别呼叫号码的特征参数,从而有效地识别出骚扰电话,提高识别的准确性与效率。
在一些实施例中,呼叫号码的特征参数包括有通话次数、通话时长、起始时间、结束时间等,不限于此。
在一些实施例中,在利用陌电识别模型识别出骚扰电话之后,会将识别结果发送给运营商,使运营商在网络通信侧对主叫号码对应的呼叫请求进行实时拦截,提高对骚扰电话的拦截效率。
在一些实施例中,步骤S101获取信令数据话单,对信令数据话单的数据进行处理,得到第一数据集,包括:
S201,获取核心网从各个网元数据收集到的信令数据话单;
S202,对信令数据话单中的数据进行数据处理,得到第一数据集。
核心网通过各个网元数据收集到话单数据,并对话单数据进行处理生成信令数据话单,首先从核心网获取到信令数据话单,将获取到的信令数据话单进行数据脱敏,再将经过数据脱敏处理之后的信令数据话单传输至大数据平台,这样可以有效地避免重要的信令数据信息泄露,在大数据平台中,对接收到的信令数据话单的数据进行数据清洗,筛除掉与话单无关的信令数据,将最终得到的信令数据保存在话单数据中间表中,将话单数据中间表中的数据作为第一数据集。通过核心网获取到的话单数据来自各个网元,能够较为全面的获取到用户的通话数据,同时对数据进行数据脱敏与数据清洗,能够确保第一数据集中数据的有效性,从而使得建立的陌电识别模型性能更加稳定,提高陌电识别模型对陌生电话识别的准确性。
参考图3,在本发明的一些实施例中,步骤S102提提取所述第一数据集并建立高频通话数据库,包括:
S301,提取第一数据集中的高频通话数据;
S302,查询并标记高频通话数据的类型;
S303,将标记分类的高频通话数据存储在标签库中,标签库包括有第一类型陌电、第二类型陌电、正常陌电。
在一些实施例中,从信令数据话单或者话单数据中间表中提取高频通话数据,其中,高频通话数据的提取规则可以是参考业内对高频骚扰电话识别的标准确定,也可以是根据用户或者***的实际需求进行制定,不限于此。
在一些实施例中,通过在陌电平台进行数据查询,确定出高频通话数据的类型并对高频通话数据进行标记。
在一些实施例中,标记类型可以包括保险理财、骚扰、诈骗、房产中介、广告推销、出租、快递送餐、黄页,其中,“黄页”类型是不属于其他类型的数据,这种标记分类较为全面,基本上可以包括大多数常见的陌生电话,标记类型也可以根据实际需求进行调整,不限于此。
在一些实施例中,将标记分类的高频通话数据存储在标签库中,按照标签库中的划分规则将标记后的高频通话数据分类汇总,其中,标签库包括有第一类型陌电,包括标记为出租、快递送餐等的高频通话数据,第二类型陌电,包括标记为保险理财、骚扰、诈骗、房产中介、广告推销的高频通话数据,正常陌电,包括标记为黄页的高频通话数据,可以理解的是,需要准确识别并拦截的是第二类型陌电,这种对高频通话数据的分类标记能够很好地区分出骚扰电话和普通电话,从而建立陌电识别模型去准确识别出骚扰电话。
参考图4,在本发明的一些实施例中,S103,对高频通话数据库的数据进行数据处理,得到训练数据集,包括:
S401,对高频通话数据库的数据进行数据清洗,得到第二数据集;
S402,对第二数据集进行数据预处理,得到第三数据集;
S403,提取第三数据集数据的特征量,建立训练数据集。
在一些具体实施例中,为了保证训练数据集中样本数据的准确性,在进行数据处理时会对样本数据进行数据清洗,即步骤S401,对高频通话数据库的数据进行数据清洗,得到第二数据集。首先批量读取到联系人数据,将各个数据库的联系人数据进行解密,获取到主叫号码和被叫号码,将主叫号码和被叫号码的数据集与用户联系人好友表中的数据进行对比筛选,去除正常陌话的数据,同时也将重复记录的数据、不完整的数据都一并筛除掉,从而让得到的第二数据集中的数据更加的准确、有价值,符合模型训练的要求。
参考图5,在本发明的一些实施例中,步骤S402,对第二数据集进行数据预处理,得到第三数据集,包括:
S501,对第一类型陌电的样本数据进行过采样处理,得到第一样本数据集,对第二类型陌电的样本数据进行欠采样处理,得到第二样本数据集;
S502,对第一样本数据集和第二样本数据集的样本数据进行标准化处理。过采样和欠采样都是一种有效的处理不平衡数据的方法,但都存在着过拟合的问题。由于第一类型陌电的样本数据与第二类型陌电的样本数据相比,第一类型陌电的样本数据数目较少,因此对第一类型陌电的样本数据进行过采样,即将第一类型陌电的样本数据进行重复处理,增加其样本数据的数目,然后进行数据采样,得到第一样本数据集。在一些具体实施例中,也可以利用SMOTE算法对第一类型陌电的样本数据进行过采样处理得到第一样本数据集,不限于此。对第二类型陌电的样本数据进行欠采样,即将第二类型陌电的样本数据舍弃一部分之后,对保留下的样本数据进行采样处理得到第二样本数据集,这种根据样本数据的不同将过采样和欠采样相结合的采样处理方法能够很好的解决数据类别不均衡的问题,保证采样数据的平衡性。
在一些其他实施例中,为了节约采样时间,简化采样过程,也可以直接对第一类型陌电和第二类型陌电的样本数据进行过采样处理或者欠采样处理来获取新的样本数据集。
在一些实施例中,由于样本数据中存在着较多的连续变化的数据,为了建立模型,需要将第一样本数据集和第二样本数据集的样本数据进行标准化处理,使样本数据离散化,方便在陌电识别模型中训练样本数据。
在一些具体实施例中,采用离差标准化算法对样本数据进行标准化处理,对样本数据进行线性变换,将其映射到[0,1]之间,离差标准化算法的公式为其中,x为样本数据,MinValue是样本的最小值,MaxValue是样本的最大值。由于最大值与最小值可能是动态变化的,同时也非常容易受噪声影响,具有不稳定性,这样会使得后续的使用效果不稳定,因此在实际使用时可以用经验参数或者常量参数进行替代最大值与最小值,以此来保证数据的准确性。在一些其他实施例中,还可以采用0-均值标准化方法或者其他方法来进行数据标准化处理,不限于此。
参考图6,在本发明的一些实施例中,S403,提取第三数据集数据的特征量,建立训练数据集,包括:
S601,采用过滤法、包装法、嵌入法中的至少一种来提取第三数据集数据的特征量,建立训练数据集
S602,将训练数据集划分为训练集和测试集。
其中,采用过滤法、包装法、嵌入法其中至少一种来筛选经过数据清洗和数据预处理之后的第三数据集的数据,提取出能够进行训练的样本数据作为训练数据集,这样可以筛除无意义的样本数据,提高样本数据的可靠性和模型训练的精度。
需要说明的是,过滤法是按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征,过滤法包括有方差选择法、相关系数法、卡方检验等。包装法是根据目标函数(通常是预测效果评分),每次选择若干特征,或者排除若干特征,包括有递归特征消除法。嵌入法则是先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于过滤法,但它是通过训练来确定特征的优劣,嵌入法包括有基于惩罚项的特征选择和基于树模型的特征选择。可以理解的是,在进行样本数据的特征量提取时,可以是上述方法的单独使用也可以是多种方法的结合使用,可以根据实际需求进行自由选择,使得提取方式具有较好的灵活性。
在一些具体实施例中,采用过滤法和嵌入法相结合的方式来提取样本数据的特征量。由于样本特征量的方差接近于0时,说明样本在此特征上没有差异,即特征不发散,对于样本训练而言是无意义的,因此,先采用方差选择法,将特征的方差阈值设为0,计算出各个特征的方差,选择方差大于0的特征,去除方差为0的特征,可以理解的是,方差阈值可以是其他接近于0的任一数值,不限于此。
进一步地,再采用卡方检验,来检验样本和变量之间的独立性,去除样本与变量相关性低的特征,具体地,对样本进行一次卡方检验来选择排前k名的所对应的特征,进行无关性假设,即假设样本特征与变量是独立的,然后构建统计量,统计量公式为其中,X2为统计量(即卡方值),用于衡量样本特征与变量的相关性,A为实际值(即样本实际数据),E为理论值(即目标变量),若卡方值X越大,说明实际值与理论值相差越大,样本特征与变量是独立的,若卡方值越小,则说明二者相差越小,即样本特征与变量相关联。例如,对样本进行一次卡方检验,选择前6名所对应的特征,假设特征与变量是独立的,利用统计量公式计算这6个特征的卡方值X2,得到X2小于0.05,说明样本特征与变量相关性较高,则原假设是不成立的,拒绝原假设。结合方差选择和卡方检验,能够将不发散的特征以及相关性较差的特征都过滤出去,保留更为有意义的样本数据。
为了减小特征数量、降维,进一步地采用带惩罚的逻辑回归的模型对上述样本数据进行选择提取,其中,逻辑回归函数为f(x)为能将与目标相关性更大的特征的值挑选出来的Sigmoid函数,采用这一逻辑回归函数归一化f(x)的值,使f(x)的取值在区间[0,1]内。参考图7,具体的构建逻辑回归模型处理的过程如下:
S701,将带L1惩罚项的逻辑回归作为基模型的特征选择,设定权值相近的阈值;
S702,使用同样的参数创建L2逻辑回归;
S703,训练L1逻辑回归;
S704,训练L2逻辑回归;
S705,使权值系数矩阵的行数对应目标值的种类数目;
S706,获取在L1逻辑回归的权值不为0的特征对应在L2逻辑回归中的权值系数;
S707,获取在L2逻辑回归中权值系数之差小于设定的阈值,且在L1中对应的权值为0的特征;
S708,计算这一类特征的权值系数均值。
通过这一方法提取选择出符合预期的多个样本数据,将其作为训练数据集,这样能够增强模型的泛化能力,减少过拟合,从而保证陌电识别模型对陌生电话的识别准确性。
在一些实施例中,为了更好地对陌电识别模型学习的泛化误差进行评估,减少过拟合,S403,提取第三数据集数据的特征量,建立训练数据集还包括:
在一些具体实施例中,步骤S602,将训练数据集划分为训练集和测试集,具体为采用留出法、K折交叉验证法、留一法等方法的至少一种来进行陌电识别模型评估,从而测试陌电识别模型对新样本的判别能力。例如,采用留出法将训练数据集划分为训练集和测试集,其中,将测试集上的测试误差作为泛化误差的近似。具体的处理过程为:训练数据集D划分为两个互斥的部分,一部分作为训练集S,另一部分用作测试集T,其中,训练集S中的数据数量占样本总量的 2/3,可以理解的是,需要说明的是,训练集S中的数据数量占样本总量的2/3 到4/5之间的任一比例,不限于此。在进行数据划分时对保留数据类型的比例进行分层采样,从而保证数据分布的一致性。为了保证使用留出法的稳定性,将数据集D进行多次随机划分为训练集S和测试集T,然后对多次划分的结果取平均,得到最终的测试集T与训练集S。
参考图8,在一些实施例中,步骤104,对训练数据集进行训练,得到陌电识别模型,具体为采用随机森林算法对训练数据集进行训练,得到陌电识别模型,包括:
S801,设置随机森林参数,其中随机森林参数包括决策树的个数、树的最大深度、最小叶子节点个数、基尼指数、最好属性时划分的特征等;
其中基尼指数在决策树模型中是用来进行特征选择的指标,某个特征的基尼指数越接近于0,决策树节点的不纯度越低;
S802,对决策树的属性进行选择并建立决策树;
S803,利用随机森林算法训练多颗决策树生成陌话识别模型。
在一些具体实施例中,设置随机森林参数及参数解释如下:
n_estimators=100:决策树的个数;
max_depth=100:树的最大深度;
min_samples_leaf=90;叶子节点最少的样本数;
在一些实施例中,分类树的建立可以是采用信息增益、熵以及基尼系数等作为衡量评估标准,不限于此。例如,采用基尼系数作为特征选择的评估标准,基尼算法公式为:
其中,其中的|y|表示数据集D中类别C的个数,P表示数据集D中任意一个记录属于Ci的概率,计算时P=(D中属于Ci类的集合的记录个数/|D|)。如果所有的记录都属于同一个类中,则P1=1,Gini(D)=0,此时不纯度最低。
根据随机森林参数和基尼系数构建随机森林,利用随机森林训练多颗决策树生成陌话识别模型。
随机森林是由多棵决策树构建而成,随机森林在构建的过程中只需要两个参数,决策树的个数a,在决策树的每个节点***时需要考虑的输入特征的个数m,单棵决策树的构建过程如下:
(1)令N为训练样本的个数,则单棵决策树的输入样本的个数为N个从训练集中有放回的随机抽取N个训练样本;
(2)令训练样本的输入特征的个数为M(M=4),且m小于M,则在每颗决策树的每个节点上进行***时,从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择基尼系数最小的进行***,其中,m在构建决策树的过程中不会改变;
(3)每棵决策树都一直这样***下去,直到该节点的所有训练样本都属于同一类,不需要剪枝。
决策树是一种利用树形结构进行决策的算法,对于样本数据根据已知条件或特征进行分叉,最终建立一棵树,树的叶子结节标识最终决策,新来的数据便可以根据这棵树进行判断。随机森林是一种通过多棵决策树进行优化决策的算法,随机有放回的选择训练数据然后形成陌电识别模型。随机森林算法的样本和特征的选择较为随机,有很好的抗噪能力,并且实现方式简单,降低了模型建立的时间成本,需要说明的是,对于陌电识别模型的训练也可以选择其他算法,并不限于此。
在一些实施例中,步骤S104,对训练数据集进行训练,得到陌电识别模型之后还包括:对陌电识别模型的预测性能进行评估。在一些实施例中,可以采用 K折交叉验证法、留一法等来评价陌电识别模型在新的数据集上的准确率,但不限于此。
在一些实施例中,步骤S104,对训练数据集进行训练,得到陌电识别模型之后还包括:对陌电识别模型进行优化,得到最终的陌电识别模型。
在一些具体实施例中,对陌电识别模型优化处理可以通过交叉验证和网格搜索的方式来实现。首先,不重复抽样的将样本数据随机分为k份,每次挑选其中 1份作为测试集,剩下的k-1份作为训练集用于模型训练,重复第二步k次,这样每个子集都有一次机会作为测试集,其余机会作为训练集。在每个训练集上训练后得到一个陌电识别模型,用这个陌电识别模型在相应的测试集上测试,求取测试误差,将k次的测试误差进行比较,选择误差最小的一组作为陌电识别模型。需要说明的是,各组训练集与测试集中数据类别的比例均保持一致,这样能够保证数据分布的一致性。
进一步地,确定出估计器参数并指定是几折交叉验证(k折交叉验证的k取任一值,即k为3、4、5、10等等都可以,不限于此),再输入训练数据进行测试,得到交叉验证中验证的最好结果及最好的参数模型,将其作为最终的陌电识别模型用于高频数据库中来识别呼叫号码的特征参数,从而有效地识别出骚扰电话,并对骚扰电话实施拦截,提高识别准确性与拦截效率。
可以理解的是,对陌电识别模型的优化还可以是采用其他方式,不限于此。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
第二方面,参考图9,是本发明实施例的陌电识别装置,包括:
第一获取模块901,用于获取信令数据话单,对信令数据话单的数据进行处理,得到第一数据集;
第一处理模块902,用于提取第一数据集并建立高频通话数据库;
第二处理模块903,用于对高频通话数据库的数据进行数据处理,得到训练数据集;
训练模块904,用于对训练数据集进行训练,得到陌电识别模型;
识别模块905,用于将获取的陌电识别模型用于陌电识别,得到识别结果。
在本发明的一些实施例中,第一获取模块901从分省核心网络中获取信令数据话单,对信令数据话单的数据进行处理,生成话单数据中间表,将话单数据中间表中的数据作为第一数据集,第一处理模块902提取第一数据集中的数据,需要说明的是,提取的数据包括高频通话数据等,根据提取到的数据建立高频通话数据库,在高频通话数据库中对这些数据进行标记并分类,第二处理模块903 对高频数据库的数据进行数据清洗和数据预处理,得到初步的样本数据,其中,对数据的预处理包括有数据采样以及数据标准化处理,根据样本数据的特征参数对样本数据进行筛选,并利用筛选的样本数据建立训练数据集,训练模块904 对训练数据集中的数据进行训练,得到陌电识别模型,识别模块905将陌电识别模型运用到高频数据库中去识别呼叫号码的特征参数,得到识别结果,从而有效地识别出骚扰电话,提高识别的准确性与效率。
参考图10,在本发明的一些实施例中,训练模块904包括有:
参数设置模块111,用于设置随机森林参数;
第三处理模块112,用于构建随机森林,利用随机森林算法训练多颗决策树生成陌电识别模型;
调整模块113,用于对陌电识别模型的预测性能进行评估和优化,得到最终的陌电识别模型。
在一些实施例中,训练模块904通过其中的参数设置模块111对决策树的个数、树的最大深度、最小叶子节点个数、基尼指数、最好属性时划分的特征等随机森林参数进行设置;其中基尼指数在决策树模型中是用来进行特征选择的指标,某个特征的基尼指数越接近于0,决策树节点的不纯度越低。然后通过第三处理模块112利用随机森林训练多颗决策树生成陌话识别模型。随机森林是由多棵决策树构建而成,随机森林在构建的过程中只需要两个参数,决策树的个数a,在决策树的每个节点***时需要考虑的输入特征的个数m,单棵决策树的构建过程如下:
(1)令N为训练样本的个数,则单棵决策树的输入样本的个数为N个从训练集中有放回的随机抽取N个训练样本;
(2)令训练样本的输入特征的个数为M(M=4),且m小于M,则在每颗决策树的每个节点上进行***时,从M个输入特征里随机选择m个输入特征,然后从这m个输入特征里选择基尼系数最小的进行***,其中,m在构建决策树的过程中不会改变;
(3)每棵决策树都一直这样***下去,直到该节点的所有训练样本都属于同一类,不需要剪枝。
随机森林算法的样本和特征的选择较为随机,有很好的抗噪能力,并且实现方式简单,降低了模型建立的时间成本,需要说明的是,对于陌电识别模型的训练也可以选择其他算法,并不限于此。
然后调整模块113对陌电识别模型的预测性能进行评估,可以采用K折交叉验证法、留一法等来评价陌电识别模型在新的数据集上的准确率,但不限于此。对陌电识别模型的预测性能进行评估之后再对陌电识别模型进行优化,得到最终的陌电识别模型。
这种陌电识别装置通过第一获取模块901获取到信令数据话单,能够较为全面的获取到用户的通话数据,从而能够对数据进行准确的标记分类,训练模块 804根据训练数据集和随机森林算法获取的陌电识别模型,性能稳定,具有较好的抗噪能力,利用陌电识别模型能够很好地提高陌生电话识别的准确度。
第三方面,本发明实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行所述计算机程序时实现第一方面的陌电识别方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令用于使计算机执行第一方面的陌电识别方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、***可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (11)
1.陌电识别方法,其特征在于,包括:
获取信令数据话单,对所述信令数据话单的数据进行处理,得到第一数据集;
提取所述第一数据集并建立高频通话数据库;
对所述高频通话数据库的数据进行数据处理,得到训练数据集;
对所述训练数据集进行训练,得到陌电识别模型;
将获取的所述陌电识别模型用于陌电识别,得到识别结果。
2.根据权利要求1所述的陌电识别方法,其特征在于,所述获取信令数据话单,对所述信令数据话单的数据进行处理,得到第一数据集,包括:
获取核心网从各个网元数据收集到的所述信令数据话单;
对所述信令数据话单中的数据进行数据处理,得到所述第一数据集。
3.根据权利要求1所述的陌电识别方法,其特征在于,所述提取所述第一数据集并建立高频通话数据库,包括:
提取所述第一数据集中的高频通话数据;
查询并标记所述高频通话数据的类型;
将标记分类的所述高频通话数据存储在标签库中,所述标签库包括有第一类型陌电、第二类型陌电、正常陌电。
4.根据权利要求3所述的陌电识别方法,其特征在于,所述对所述高频通话数据库的数据进行数据处理,得到训练数据集,包括:
对所述高频通话数据库的数据进行数据清洗,得到第二数据集;
对所述第二数据集进行数据预处理,得到第三数据集;
提取所述第三数据集数据的特征量,建立训练数据集。
5.根据权利要求4所述的陌电识别方法,其特征在于,所述数据预处理包括:
对所述第一类型陌电的样本数据进行过采样处理,得到第一样本数据集,对所述第二类型陌电的样本数据进行欠采样处理,得到第二样本数据集;
对所述第一样本数据集和所述第二样本数据集的样本数据进行标准化处理。
6.根据权利要求4所述的陌电识别方法,其特征在于,所述提取所述第三数据集数据的特征量,建立训练数据集,包括:
采用过滤法、包装法、嵌入法中的至少一种来提取所述第三数据集数据的特征量,建立所述训练数据集。
7.根据权利要求1所述的陌电识别方法,其特征在于,所述对所述训练数据集进行训练,得到陌电识别模型,包括:
采用随机森林算法对所述训练数据集进行训练。
8.陌电识别装置,其特征在于,包括:
第一获取模块,用于获取信令数据话单,对所述信令数据话单的数据进行处理,得到第一数据集;
第一处理模块,用于提取所述第一数据集并建立高频通话数据库;
第二处理模块,用于对所述高频通话数据库的数据进行数据处理,得到训练数据集;
训练模块,用于对所述训练数据集进行训练,得到陌电识别模型;
识别模块,用于将获取的所述陌电识别模型用于陌电识别,得到识别结果。
9.根据权利要求8所述的陌电识别装置,其特征在于,所述训练模块包括有:
参数设置模块,用于设置随机森林参数;
第三处理模块,用于构建随机森林,利用随机森林算法训练多颗决策树生成所述陌电识别模型;
调整模块,用于对所述陌电识别模型的预测性能进行评估和优化,得到最终的所述陌电识别模型。
10.电子设备,其特征在于,包括:
存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述的陌电识别方法。
11.计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的陌电识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010909198.0A CN112199388A (zh) | 2020-09-02 | 2020-09-02 | 陌电识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010909198.0A CN112199388A (zh) | 2020-09-02 | 2020-09-02 | 陌电识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112199388A true CN112199388A (zh) | 2021-01-08 |
Family
ID=74005258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010909198.0A Pending CN112199388A (zh) | 2020-09-02 | 2020-09-02 | 陌电识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112199388A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112866486A (zh) * | 2021-02-01 | 2021-05-28 | 西安交通大学 | 一种基于多源特征的诈骗电话识别方法、***及设备 |
CN113992798A (zh) * | 2021-10-26 | 2022-01-28 | 中国联合网络通信集团有限公司 | 电话识别方法、装置、设备及可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109525739A (zh) * | 2018-12-25 | 2019-03-26 | 亚信科技(中国)有限公司 | 一种电话号码识别方法、装置及服务器 |
CN109688275A (zh) * | 2018-12-27 | 2019-04-26 | 中国联合网络通信集团有限公司 | 骚扰电话识别方法、装置及存储介质 |
CN111131593A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 骚扰电话识别方法及其装置 |
-
2020
- 2020-09-02 CN CN202010909198.0A patent/CN112199388A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111131593A (zh) * | 2018-11-01 | 2020-05-08 | 百度在线网络技术(北京)有限公司 | 骚扰电话识别方法及其装置 |
CN109525739A (zh) * | 2018-12-25 | 2019-03-26 | 亚信科技(中国)有限公司 | 一种电话号码识别方法、装置及服务器 |
CN109688275A (zh) * | 2018-12-27 | 2019-04-26 | 中国联合网络通信集团有限公司 | 骚扰电话识别方法、装置及存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112866486A (zh) * | 2021-02-01 | 2021-05-28 | 西安交通大学 | 一种基于多源特征的诈骗电话识别方法、***及设备 |
CN112866486B (zh) * | 2021-02-01 | 2022-06-07 | 西安交通大学 | 一种基于多源特征的诈骗电话识别方法、***及设备 |
CN113992798A (zh) * | 2021-10-26 | 2022-01-28 | 中国联合网络通信集团有限公司 | 电话识别方法、装置、设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110401779B (zh) | 一种识别电话号码的方法、装置和计算机可读存储介质 | |
CN109033200B (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
CN111798312A (zh) | 一种基于孤立森林算法的金融交易***异常识别方法 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN112839014A (zh) | 建立识别异常访问者模型的方法、***、设备及介质 | |
CN107679075A (zh) | 网络监控方法和设备 | |
CN115879017A (zh) | 一种电力敏感数据自动化分类分级方法、装置及存储介质 | |
CN110674413B (zh) | 用户关系挖掘方法、装置、设备和存储介质 | |
CN114124484B (zh) | 网络攻击识别方法、***、装置、终端设备以及存储介质 | |
CN110147493B (zh) | 活跃因子的确定方法、装置、计算机设备及存储介质 | |
CN116032741A (zh) | 一种设备识别方法、装置、电子设备和计算机存储介质 | |
CN112307133A (zh) | 安全防护方法、装置、计算机设备及存储介质 | |
CN109194622B (zh) | 一种基于特征效率的加密流量分析特征选择方法 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN109614420B (zh) | 一种基于大数据挖掘的虚拟身份关联分析方法 | |
CN114691505A (zh) | 程序问题的定位方法、电子设备及存储介质 | |
CN112488140A (zh) | 一种数据关联方法及装置 | |
CN112597498A (zh) | 一种webshell的检测方法、***、装置及可读存储介质 | |
CN112417007A (zh) | 一种数据分析方法、装置、电子设备及存储介质 | |
CN110929111B (zh) | 用于匹配私有数据的匹配模式自动生成方法、装置及设备 | |
CN117272123B (zh) | 一种基于大模型的敏感数据处理方法、装置及存储介质 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
CN116823069B (zh) | 基于文本分析的智能客服服务质检方法及相关设备 | |
CN116719942B (zh) | 数据资产分类方法、装置、计算机设备和计算机存储介质 | |
CN113987309B (zh) | 个人隐私数据识别方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210108 |