CN110019791B - 分类模型训练、伪基站短信识别方法和装置 - Google Patents

分类模型训练、伪基站短信识别方法和装置 Download PDF

Info

Publication number
CN110019791B
CN110019791B CN201710951809.6A CN201710951809A CN110019791B CN 110019791 B CN110019791 B CN 110019791B CN 201710951809 A CN201710951809 A CN 201710951809A CN 110019791 B CN110019791 B CN 110019791B
Authority
CN
China
Prior art keywords
base station
content
short message
sample
identification result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710951809.6A
Other languages
English (en)
Other versions
CN110019791A (zh
Inventor
吴文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710951809.6A priority Critical patent/CN110019791B/zh
Publication of CN110019791A publication Critical patent/CN110019791A/zh
Application granted granted Critical
Publication of CN110019791B publication Critical patent/CN110019791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明涉及一种分类模型训练、伪基站短信识别方法和装置,该分类模型训练方法包括:获取第一样本特征数据集;根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;获取不同于所述第一样本特征数据集的第二样本特征数据集;通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。本申请提供的方案提高了伪基站短信识别效率。

Description

分类模型训练、伪基站短信识别方法和装置
技术领域
本发明涉及计算机技术领域,特别是涉及一种分类模型训练、伪基站短信识别方法和装置。
背景技术
“伪基站”即假基站,主要通过***器、短信发信机等相关设备,搜取以其为中心、一定半径范围内的手机卡信息,通过伪装成运营商的基站,冒用他人手机号码或短信端口号强行向用户手机发送诈骗短信。诈骗短信比如利用欺骗性文字诱导用户点击钓鱼网站网址、拨打特定的电话号码或者进行银行转账的短信等。
传统技术中,主要是通过短信接收方在接收到短信时向运营商发送查询短信,再根据运营商返回的查询结果来识别接收到的短信是否为伪基站短信。然而传统的这种方式,受限于信号强弱和运营商的查询效率,导致伪基站短信识别效率较低。
发明内容
基于此,有必要针对目前伪基站短信识别效率比较低的问题,提供一种分类模型训练方法、装置、存储介质和计算机设备,以及一种伪基站短信识别方法、装置、存储介质和计算机设备。
一种分类模型训练方法,包括:
获取第一样本特征数据集;
根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;
获取不同于所述第一样本特征数据集的第二样本特征数据集;
通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;
根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
一种分类模型训练装置,包括:
第一获取模块,用于获取第一样本特征数据集;
第一训练模块,用于根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;
第二获取模块,用于获取不同于所述第一样本特征数据集的第二样本特征数据集;
分类模块,用于通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;
第二训练模块,用于根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取第一样本特征数据集;
根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;
获取不同于所述第一样本特征数据集的第二样本特征数据集;
通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;
根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取第一样本特征数据集;
根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;
获取不同于所述第一样本特征数据集的第二样本特征数据集;
通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;
根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
上述分类模型训练方法、装置、存储介质和计算机设备,包括第一分类模型和第二分类模型两个模型的训练。其中,训练第一分类模型的过程在于学习分类出疑似伪基站短信,训练第二分类模型的过程在于学习从疑似伪基站短信中精确分类出伪基站短信。这样两个模型相辅相成,在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,从而使得在使用训练得到的这两模型分类伪基站短信时,能够极大程度上提高识别出伪基站短信的效率和准确性。
一种伪基站短信识别方法,包括:
读取短信;
获取根据所述短信的内容特征和相应的基站信号特征得到的特征数据;
将所述特征数据输入第一分类模型;
当所述第一分类模型输出的分类结果为疑似伪基站短信类时,将所述特征数据输入第二分类模型;
通过所述第二分类模型输出所述短信是否为伪基站短信的分类结果。
一种伪基站短信识别装置,包括:
读取模块,用于读取短信;
获取模块,用于获取根据所述短信的内容特征和相应的基站信号特征得到的特征数据;
输入模块,用于将所述特征数据输入第一分类模型;当所述第一分类模型输出的分类结果为疑似伪基站短信类时,将所述特征数据输入第二分类模型;
输出模块,用于通过所述第二分类模型输出所述短信是否为伪基站短信的分类结果。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
读取短信;
获取根据所述短信的内容特征和相应的基站信号特征得到的特征数据;
将所述特征数据输入第一分类模型;
当所述第一分类模型输出的分类结果为疑似伪基站短信类时,将所述特征数据输入第二分类模型;
通过所述第二分类模型输出所述短信是否为伪基站短信的分类结果。
一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
读取短信;
获取根据所述短信的内容特征和相应的基站信号特征得到的特征数据;
将所述特征数据输入第一分类模型;
当所述第一分类模型输出的分类结果为疑似伪基站短信类时,将所述特征数据输入第二分类模型;
通过所述第二分类模型输出所述短信是否为伪基站短信的分类结果。
上述伪基站短信识别方法、装置、存储介质和计算机设备,通过对读取的短信进行内容特征和基站信号特征提取,即可得到反映短信特征的特征数据,进而将反映短信特征的特征数据输入第一分类模型,并在第一分类模型输出的分类结果表示该短信为疑似伪基站短信时,再将反映短信特征的特征数据输入第二分类模型,从而得到该短信是否为伪基站短信的分类结果。这样在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,不需要向运营商发送查询短信等待查询结果,即可进行识别,提高了识别出伪基站短信的效率和准确性。
附图说明
图1为一个实施例中分类模型训练方法的应用环境图;
图2为一个实施例中分类模型训练方法的流程示意图;
图3为一个实施例中将信号位置特征按照所属的特征区间映射为向量元素的原理图;
图4为一个实施例中样本特征向量的示意图;
图5为另一个实施例中分类模型训练方法的流程示意图;
图6为一个实施例中伪基站短信识别方法的流程示意图;
图7为一个实施例中伪基站短信识别的原理示意图;
图8为另一个实施例中伪基站短信识别方法的流程示意图;
图9为一个实施例中分类模型训练装置的模块结构图;
图10为另一个实施例中分类模型训练装置的模块结构图;
图11为一个实施例中伪基站短信识别装置的模块结构图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1为一个实施例中分类模型训练方法的应用环境图。参照图1,该分类模型训练方法应用于分类模型训练***。该分类模型训练***包括终端110和服务器120。其中,终端110和服务器120通过网络连接。终端110具体可以是移动终端,移动终端具体可以手机、平板电脑或者穿戴式电子设备等中的至少一种。服务器120具体可以是独立的服务器,也可以是多个独立的服务器组成的服务器集群。终端110可用于执行该分类模型训练方法,从本地或者服务器120获取第一样本特征数据集以及不同于第一样本特征数据集的第二样本特征数据集,根据第一样本特征数据集中的样本特征数据训练第一分类模型。终端110可再在第一分类模型训练完成后,通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据,再根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。服务器120也可用于执行该分类模型训练方法,在训练得到第一分类模型和第二分类模型后可将这两个模型下发至终端110使用。
在一个实施例中,伪基站短信识别方法也可以用于图1所示的应用环境。终端110用于执行该伪基站短信识别方法,读取短信,获取根据短信的内容特征和相应的基站信号特征得到的特征数据,再将该特征数据输入第一分类模型。终端110可再在第一分类模型输出的分类结果为疑似伪基站短信类时,将该特征数据再输入第二分类模型,通过第二分类模型输出读取的短信是否为伪基站短信的分类结果。其中,终端110分类短信所使用的第一分类模型和第二分类模型可以是在本地训练得到的模型,也可以是从服务器120获取的模型。终端110获取的根据短信的内容特征和相应的基站信号特征得到的特征数据,可以是本地根据短信的内容特征和相应的基站信号特征得到的特征数据,也可以是服务器根据短信的内容特征和相应的基站信号特征得到的特征数据,还可以是两者组合得到的特征数据。
图2为一个实施例中分类模型训练方法的流程示意图。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图2,该分类模型训练方法具体包括如下步骤:
S202,获取第一样本特征数据集。
其中,样本特征数据集中包括若干样本特征数据。样本特征数据是反映样本固有特征的数据。可以理解的是,这里的第一样本特征数据集与后文中提到的第二样本特征数据集都是样本特征数据集,但是不同的样本特征数据集。
样本特征数据是用于训练模型的样本的特征数据。不同的模型由于学习的能力或者用途不同,训练所需要的样本以及样本的特征数据也不同。比如,用于识别人脸图像的模型训练所需的样本为人脸图像,样本的特征数据为人脸特征数据。再比如,用于识别声音的模型所需的样本为音频数据,样本的特征数据为声学特征数据。
在本实施例中,终端意图训练分类短信的模型,故本实施例中样本为短信。具体地,样本特征数据可以是短信的内容特征数据,也可以是短信相应的基站信号特征数据,还可以是根据短信样本的内容特征和相应的基站信号特征生成的特征数据。
在一个实施例中,终端上可存储有短信样本集,该短信样本集中的短信样本可由终端从互联网或者服务器上收集得到。终端可从该短信样本集中选取部分短信样本,提取这部分短信样本的内容特征和相应的基站信号特征,再根据提取内容特征和相应的基站信号特征生成相应短信样本的样本特征数据,从而得到第一样本特征数据集。
在一个实施例中,终端也可先提取该短信样本集中各短信样本的内容特征和相应的基站信号特征,再根据提取内容特征和相应的基站信号特征生成相应短信样本的样本特征数据,得到样本特征数据集,再从样本特征数据集中选取部分样本特征数据,从而得到第一样本特征数据集。
其中,短信也可以称为短消息或者短信息,是一种限定了可容纳字符数量并通过特定的传输通道传输的消息结构,一般通过移动通信网络进行传输。
短信的内容特征是能够反映出短信的内容特性的特征。其中,内容特征可以是网址、文字构成的关键词或者主要是数字构成的数字串,其中关键词包括单字、词语和词组等各种类型,数字串可以是电话号码、银行账号、身份证号码或者登录账号等。
短信相应的基站信号特征是能够反映出短信相应的基站信号特性的特征。其中,基站信号特征可以是MCC(Mobile Country Code移动国家码)、MNC(Mobile Network Code移动电话网号码)、LAC(Location Area Code位置区域号码)、Cell ID基站编号(小区识别码)以及SBSS(Signal of Base Station Subsystem基站信号)中的至少一种。
S204,根据第一样本特征数据集中的样本特征数据训练第一分类模型。
其中,第一分类模型是经过训练后具有分类能力的机器学习模型。机器学习英文全称为Machine Learning,简称ML。机器学习模型可通过样本学习具备分类能力。机器学习模型可采用神经网络模型、支持向量机或者逻辑回归模型等。神经网络模型比如卷积神经网络、反向传播神经网络、反馈神经网络、径向基神经网络或者自组织神经网络等。在本实施例中,第一分类模型用于将待分类的短信分类为正常短信类和疑似伪基站短信类。
具体地,终端在获取到第一样本特征数据集时,对于第一样本特征数据集中的每个样本特征数据,可判断该样本特征数据相应的短信样本属于疑似伪基站短信类,还是不属于疑似伪基站短信类,以给该样本特征数据添加分类标签。终端再根据第一样本特征数据集中的各样本数据和相应添加的分类标签训练第一分类模型。其中,疑似伪基站短信类是大概率为伪基站短信,但未明确分类为伪基站短信的短信分类。
S206,获取不同于第一样本特征数据集的第二样本特征数据集。
可以理解的是,第一样本特征数据集中的样本特征数据和第二样本特征数据集中的样本特征数据,均是相同特征的特征数据,但是不同样本的特征数据。比如,第一样本特征数据集中的样本特征数据,是人脸图像样本中人脸眼睛特征的特征数据,那么第二样本特征数据集中的样本特征数据,同样也是人脸图像样本中人脸眼睛特征的特征数据,但是不同的人脸图像样本中人脸眼睛特征的特征数据。
在本实施例中,终端意图训练分类短信的模型,故本实施例中样本为短信。具体地,样本特征数据可以是短信的内容特征数据,也可以是短信相应的基站信号特征数据,还可以是根据短信样本的内容特征和相应的基站信号特征生成的特征数据。
在一个实施例中,终端可在从短信样本集中选取部分短信样本得到第一样本特征数据集后,获取在短信样本集中选取剩余的短信样本,提取这部分短信样本的内容特征和相应的基站信号特征,再根据提取内容特征和相应的基站信号特征生成相应短信样本的样本特征数据,从而得到第二样本特征数据集。
在一个实施例中,终端也可在从根据短信样本集得到的样本特征数据集中选取部分样本特征数据作为第一样本特征数据集后,将剩余的样本特征数据作为第二样本特征数据集。
S208,通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据。
具体地,终端可在完成对第一分类模型的训练后,将第二样本特征数据集中的样本特征数据依次输入第一分类模型,进行第二样本特征数据集中的样本特征数据分类。终端具体可在该第一分类模型输出的分类结果为正常短信类时,判定当前输入的样本特征数据相应的短信样本为正常短信,从而过滤掉当前输入的样本特征数据。终端可在该第一分类模型输出的分类结果为疑似伪基站短信类时,判定当前输入的样本特征数据相应的短信样本为疑似伪基站短信,从而保留当前输入的样本特征数据。
S210,根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
其中,第二分类模型也是经过训练后具有分类能力的机器学习模型。在本实施例中,第二分类模型用于将待分类的疑似伪基站短信分类为正常短信类和伪基站短信类。
具体地,终端在获得分类为疑似伪基站短信类的样本特征数据时,对于每个分类为疑似伪基站短信类的样本特征数据,可判断该样本特征数据相应的短信样本属于伪基站短信类,还是不属于伪基站短信类,以给该样本特征数据添加分类标签。终端再根据分类为疑似伪基站短信类的样本特征数据和相应添加的分类标签训练第二分类模型。
上述分类模型训练方法,包括第一分类模型和第二分类模型两个模型的训练。其中,训练第一分类模型的过程在于学习分类出疑似伪基站短信,训练第二分类模型的过程在于学习从疑似伪基站短信中精确分类出伪基站短信。这样两个模型相辅相成,在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,从而使得在使用训练得到的这两个模型识别伪基站短信时,能够极大程度上提高识别出伪基站短信的效率和准确性。
在一个实施例中,该分类模型训练方法还包括:获取短信样本集;提取短信样本集中各短信样本的样本特征数据得到样本特征数据集;将样本特征数据集分为第一样本特征数据集和第二样本特征数据集。
具体地,终端可从互联网或者服务器上收集短信形成短信样本集,或者直接从服务器上获取短信样本集,再对短信样本集中的各短信样本进行特征提取,得到各短信样本相应的样本特征数据,形成样本特征数据集。进一步地,终端形成样本特征数据集后,可随机将样本特征数据集中的样本特征数据划分为两部分,得到第一样本特征数据集和第二样本特征数据集,分别用于训练第一分类模型和第二分类模型。
在本实施例中,由于伪基站短信的识别是通过第一分类模型和第二分类模型配合使用完成的,先由第一分类模型识别是否为疑似伪基站短信,再由第二分类模型识别是否为伪基站短信。这样在采用不同的训练数据分别训练这两个分类模型时,可以训练得到具备不同分类能力且相互独立的分类模型,避免了使用相同训练数据训练两个分类模型是导致的两个分类模型相互影响的问题,提高了分类模型训练的准确性,从而提高了分类模型分类准确性。
在一个实施例中,终端上可存储有多个短信样本集,终端可从这多个短信样本集中任选一个或多个短信样本集,提取该短信样本集中各短信样本的样本特征数据来训练第一分类模型。在第一分类模型训练完成后,再从这多个短信样本集中任选一个或多个短信样本集,提取该短信样本集中各短信样本的样本特征数据来测试并优化第一分类模型。在第一分类模型优化完成后,再从这多个短信样本集中任选一个或多个短信样本集,提取该短信样本集中各短信样本的样本特征数据,用优化完成的第一分类模型识别出对应疑似伪基站短信样本的样本特征数据。这样在模型训练完成时在进行优化,保证了模型的有效性。
在一个实施例中,提取短信样本集中各短信样本的样本特征数据得到样本特征数据集,包括:提取短信样本集中各短信样本的内容特征和相应的基站信号特征;根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集。
具体地,终端可分析短信样本的内容的结构,从而根据短信样本的内容的结构从短信样本的内容中提取出相应的内容特征。
在一个实施例中,提取短信的内容特征具体包括:按照预定义的各种内容特征类型对应的内容特征组成形式,从短信的内容中提取符合内容特征组成形式的内容特征。具体地,终端可获取到预定义的各种类型的内容特征对应的内容特征组成形式,从而将短信的内容与每种类型的内容特征组成形式分别进行匹配,若匹配到则提取相应类型的内容特征。其中内容特征组成形式可以用正则表达式来表示。
其中,内容特征的类型比如电话号码、银行账号或者网址等,具体电话号码的内容特征组成形式可以是连续7位或者8位或者11位的数字,银行账号的内容特征组成形式一般是连续16到19位的数字,网址的内容特征组成形式一般是用“.”和“/”分隔开的字符串。连续的数字和网址都可以使用相应的正则表达式进行匹配来识别。
举例说明,若短信的内容为:“在校大学生***服务,有需要的加微信13100000000”,则可用电话号码的正则表达式识别出电话号码类型的内容特征:“13100000000”。再比如,若短信的内容为“代开***http://t.cn/Ra8n”,则可用网址的正则表达式识别出网址类型的内容特征:“http://t.cn/Ra8n”。
通过正常基站或者伪基站发送的短信均相应有基站数据。终端可分析短信样本相应的基站数据,从而从基站数据中提取出基站信号特征。基站信号特征比如,MCC、MNC、LAC、Cell ID以及SBSS等。
进一步地,终端在提取短信样本的内容特征和相应的基站信号特征后,可将提取的内容特征和基站信号特征组合得到样本特征数据,以通过内容特征和基站信号特征共同反映短信样本的特征。
上述实施例中,将短信样本的内容特征和相应的基站信号特征公共作为反映短信样本的特征数据,这样的特征数据更能完整全面地覆盖短信样本的特性,从而在使用该特征数据作为训练数据训练分类模型时,可使得分类模型的分类更准确。
在一个实施例中,样本特征数据集中的样本特征数据为样本特征向量。根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集,包括:对应每个短信样本,获取根据相应的内容特征得到的内容识别结果,及根据相应的基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量;将生成的各样本特征向量构成样本特征数据集。
其中,样本特征向量是表示样本的特征的向量,即以向量形式表示样本的特征。具体地,对应每个短信样本,终端可获取根据相应的内容特征得到的内容识别结果,及根据相应的基站信号特征得到的基站识别结果。
在一个实施例中,终端可对短信样本的内容特征进行语义分析,以判断短信样本的内容特征所属的内容特征类型,再根据内容特征类型与内容识别结果的映射关系,得到短信样本的内容特征所属内容特征类型所映射至的内容识别结果,从而得到短信样本的内容特征对应的内容识别结果。其中,内容特征类型是对短信按照内容特征进行分类得到的类别。内容特征类型比如广告类型、色情类型或者违法类型等。内容特征类型可用来识别短信的恶意属性。根据内容特征类型是否对应恶意属性可将内容识别结果分为两类,恶意类型和正常类型。
举例说明,终端可事先根据不同内容特征将短信分为广告类型、色情类型或者诈骗类型等多个内容特征类型(比如112类),再分别对每个内容特征类型配置返回值,不同的返回值对应不同的内容识别结果,从而建立内容特征类型与内容识别结果的映射关系。比如,短信的内容为“春风十里,不如5折好礼,送您一张优惠券”,终端可提取内容特征分析判断该短信属于广告类型。再比如,终端可对诈骗类型相应设置第一返回值,第一返回值对应恶意内容的内容识别结果,那么在判断当前短信的内容特征属于诈骗类型时,即可得到该当前短信的内容特征为恶意类型的内容识别结果。
在一个实施例中,终端可将短信样本相应的基站信号特征与预设基站信号特征比较,以判断短信样本相应的基站信号特征是否正常,从而得到短信样本的基站信号特征的基站识别结果。举例说明,终端可将基站信号特征中的Cell ID变化频率与预设的Cell ID变化频率比较,当两者不一致时,可判定当前短信样本的Cell ID变化频率异常,短信样本相应的基站信号特征为疑似伪基站信号特征,基站识别结果为疑似伪基站类。再比如,终端可将基站信号特征中的LAC变化频率与预设的LAC变化频率比较,当两者不一致时,可判定当前短信样本的LAC变化频率异常,短信样本相应的基站信号特征为疑似伪基站信号特征,基站识别结果为疑似伪基站类。否则,基站识别结果为非疑似伪基站类。
具体地,终端在获取每个短信样本的内容识别结果和基站识别结果后,可将该短信样本的内容识别结果和基站识别结果映射为向量元素,组合每个短信样本相应的各向量元素,以生成相应的样本特征向量。
在一个实施例中,内容识别结果可包括内容本地识别结果和内容云端识别结果,基站识别结果可包括基站本地识别结果和基站云端识别结果。内容本地识别结果是终端本地对短信样本的内容特征识别得到的识别结果。基站本地识别结果是终端本地对短信样本相应的基站信号特征识别得到的识别结果。内容云端识别结果是终端本地将短信样本的内容特征发送至服务器,服务器在识别后返回的识别结果。基站云端识别结果是终端本地将短信样本相应的基站信号特征发送至服务器,服务器在识别后返回的识别结果。
上述实施例中,通过向量的形式表示短信样本的特征,再以特征向量为训练数据训练分类模型,极大地减少了训练数据的数据量,提高了分类模型的训练效率。
在一个实施例中,根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量,包括:对应每个短信样本,从相应的基站信号特征中提取信号强度特征和信号位置特征;分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合每个短信样本相应的各向量元素,以生成相应的样本特征向量。
其中,信号强度特征是反映基站信号强度的数据,也就是上文中提到的SBSS。SBSS基站信号强度值比如-45db(分贝)。信号位置特征是反映基站信号位置的数据,也就是上文中提到的Cell ID。Cell ID具体可以是整数数值。
在一个实施例中,分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素,包括:对应每个短信样本,将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素;对应每个短信样本,将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
具体地,终端可预先设置内容识别结果、基站识别结果、信号强度特征和信号位置特征各自对应的向量元素项,并相应设置各向量元素项的取值策略。
对于基站识别结果,终端可事先为不同的基站识别结果分别设置映射值,再将当前短信样本相应的基站识别结果对应的向量元素项,取值为所属识别结果类型的映射值。举例说明,终端可事先将基站识别结果为疑似伪基站类的映射值设置为第一预设值,将基站识别结果不为疑似伪基站类的映射值设置为第二预设值。这样在当前短信样本相应的基站识别结果为疑似伪基站类时,则将基站识别结果对应的向量元素项取值为第一预设值,在当前短信样本相应的基站识别结果为非疑似伪基站类时,则将基站识别结果对应的向量元素项取值为第二预设值。
对于内容识别结果,终端可事先为不同的内容识别结果分别设置映射值,再将当前短信样本的内容识别结果对应的向量元素项,取值为所属识别结果类型的映射值。举例说明,终端可事先将内容识别结果为恶意类型的映射值设置为第一预设值,将内容识别结果为正常类型的映射值设置为第二预设值。这样在当前短信样本相应的内容识别结果为恶意类型时,则将内容识别结果对应的向量元素项取值为第一预设值,在当前短信样本相应的内容识别结果为正常类型时,则将内容识别结果对应的向量元素项取值为第二预设值。
在一个实施例中,终端对短信内容分类得到的内容特征类型可包括伪基站短信类型。此时,短信样本相应的内容识别结果和内容特征所属的内容特征类型可另外共同对应向量元素项。举例说明,终端可事先将内容识别结果为恶意类型的映射值设置为第一预设值,将内容识别结果为正常类型的映射值设置为第二预设值。这样在当前短信样本相应的内容识别结果为恶意类型、且内容特征所属类型为伪基站短信类型时,则将内容识别结果和内容特征所属的内容特征类型共同对应的向量元素项取值为第一预设值,否则取值为第二预设值。
在一个实施例中,终端对短信内容分类得到的内容特征类型还可各自对应向量元素项,在这些向量元素项取值时,将当前短信样本的内容特征所属内容特征类型对应的向量元素项取值为第一预设值,剩余的内容特征类型对应的向量元素项取值为第二预设值。
可以理解的是,由于内容识别结果可包括内容本地识别结果和内容云端识别结果,基站识别结果可包括基站本地识别结果和基站云端识别结果。那么,内容本地识别结果和内容云端识别结果可分别对应不同的向量元素项,也可对应相同的向量元素项。对应相同的向量元素项时,向量元素项的取值可以是单独的取值求交集,也可以是单独的取值求并集。基站识别结果亦如此。
对于信号强度特征,终端可实现将基站信号强度值的取值范围划分为预设数量的特征区间,每个特征区间对应一个向量元素项,在这些向量元素项取值时,将当前短信样本的信号强度特征所属特征区间对应的向量元素项取值为第一预设值,剩余特征区间对应的向量元素项取值为第二预设值。
举例说明,假设特征基站信号强度值的取值范围为{-∞,+∞},将其划分为10个特征区间,特征区间1:>-30db,特征区间2:-30~-40db,特征区间3:-40~-50db,特征区间4:-50~-60db,特征区间5:-60~-70db,特征区间6:-70~-80db,特征区间7:-80~-90db,特征区间8:-90~-100db,特征区间9:-100~-110db,特征区间10:≤110db。假设bsss的信号强度为-45db,则信号强度落在-40~-50db之间,则特征区间4对应的向量元素项被设置为1,其余特征为0,于是信号强度的特征为:0 0 1 0 0 0 0 0 0 0。
对于信号位置特征,终端可预先设置预设特征区间,每个预设区间各自对应向量元素项,在这些向量元素项取值时,将当前短信样本的信号位置特征所属特征区间对应的向量元素项取值为第一预设值,剩余特征区间对应的向量元素项取值为第二预设值。
举例说明,假设预设特征区间为:特征区间1:cid(Cell ID)=-1,特征区间2:cid=0,特征区间2:cid=10,特征区间4:cid<9999,特征区间5:9999<=cid<65535,特征区间6:cid>=65535。参考图3,将信号位置特征按照所属的特征区间映射为向量元素的过程为,先判断cid是不是等于-1,是的话,特征区间1置为1,此时其他均为0,若cid不为-1,特征区间1置为0,再判断cid是否为0,若cid=0,则特征区间2置为1,其余置为0,否则,特征区间2置为0,继续判断cid是否为10,以此类推。
上述实施例中,提供了具体地将短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素的方式,极大地减少了数据量,从而提高了分类模型的训练效率。
上述实施例中,第一预设值的取值具体可为1,第二预设值的取值具体可为0。
进一步地,终端在分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素后,可组合每个短信样本相应的各向量元素生成相应的样本特征向量。这里对各向量元素的组合顺序不作限定。
举例说明,假设向量元素项1对应基站识别结果,向量元素项2对应内容本地识别结果和是否内容特征是否为伪基站短信类型,向量元素项3对应内容云端识别结果和是否内容特征是否为伪基站短信类型,向量元素项4对应内容本地识别结果,向量元素项5对应内容云端识别结果,向量元素项6-117对应本地内容特征类型,向量元素项118-229对应云端内容特征类型,向量元素项230-239对应信号强度特征,向量元素项240-245对应信号位置特征。
假设,假设信号识别结果和短信识别结果均为1,短信本地识别的内容特征类型(非伪基站短信类型)对应向量元素项6-117中的第1位,所以第十位数为1,其它位置特征值为0,向量元素项6-117取值如下:1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0。短信云端识别的内容特征类型(非伪基站短信类型)对应向量元素项118-229中的第2位数,所以第25位数值为1,其它位置特征值为0,向量元素项118-229取值如下:0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0。信号强度特征为-45db,向量元素项230-239取值如下:0 0 1 0 0 0 0 0 0 0,cid值为100,向量元素项240-245的取值如下:0 0 0 1 0 0。那么样本特征向量为:1 0 0 1 1 1 0 0 0 00 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 00。参考图4,该图示出了样本特征向量的示意图。
上述实施例中,将内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素,使得得到的样本特征向量所具有的特征信息更加的丰富,进而能够更加准确地体现短信的特征。
在一个实施例中,S208包括将第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型;在第一分类模型输出的分类结果为疑似伪基站短信类时,则保留当前输入的样本特征数据。S210包括:根据当前保留的样本特征数据训练第二分类模型。
具体地,终端可在完成对第一分类模型的训练后,将第二样本特征数据集中的样本特征数据依次输入第一分类模型,进行第二样本特征数据集中的样本特征数据分类。终端具体可在该第一分类模型输出的分类结果为正常短信类时,判定当前输入的样本特征数据相应的短信样本为正常短信,从而过滤掉当前输入的样本特征数据。终端可在该第一分类模型输出的分类结果为疑似伪基站短信类时,判定当前输入的样本特征数据相应的短信样本为疑似伪基站短信,从而保留当前输入的样本特征数据。
进一步地,终端在获得分类为疑似伪基站短信类的样本特征数据时,对于每个分类为疑似伪基站短信类的样本特征数据,可判断该样本特征数据相应的短信样本属于伪基站短信类,还是不属于伪基站短信类,以给该样本特征数据添加分类标签。终端再根据分类为疑似伪基站短信类的样本特征数据和相应添加的分类标签训练第二分类模型。
在本实施例中,采用不同的训练数据分别训练这两个分类模型时,可以训练得到具备不同分类能力且相互独立的分类模型,避免了使用相同训练数据训练两个分类模型是导致的两个分类模型相互影响的问题,提高了分类模型训练的准确性,从而提高了分类模型分类准确性。
可以理解的是,通过不同的短信样本集分别得到第一样本特征数据集和第二样本特征数据集的过程,与根据短信样本集得到样本特征数据集的数据处理过程是相同的。
如图5所示,在一个具体的实施例中,该分类模型训练方法具体包括以下步骤:
S502,获取短信样本集。
S504,提取短信样本集中各短信样本的内容特征和相应的基站信号特征。
S506,对应每个短信样本,获取根据相应的内容特征得到的内容识别结果,及根据相应的基站信号特征得到的基站识别结果。
S508,对应每个短信样本,将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素。
S510,对应每个短信样本,从相应的基站信号特征中提取信号强度特征和信号位置特征。
S512,对应每个短信样本,将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
S514,组合每个短信样本相应的各向量元素,以生成相应的样本特征向量。
S516,将生成的各样本特征向量构成样本特征数据集。
S518,将样本特征数据集分为第一样本特征数据集和第二样本特征数据集。
S520,获取第一样本特征数据集,根据第一样本特征数据集中的样本特征数据训练第一分类模型。
S522,获取不同于第一样本特征数据集的第二样本特征数据集,将第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型。
S524,判断第一分类模型输出的分类结果为疑似伪基站短信类还是正常短信类;若为正常短信类,则跳转至步骤S526;若为疑似伪基站短信类,则跳转至S526。
S526,过滤掉当前输入的样本特征数据。
S528,保留当前输入的样本特征数据。
S530,根据当前保留的样本特征数据训练第二分类模型。
在本实施例中,包括第一分类模型和第二分类模型两个模型的训练。其中,训练第一分类模型的过程在于学习分类出疑似伪基站短信,训练第二分类模型的过程在于学习从疑似伪基站短信中精确分类出伪基站短信。这样两个模型相辅相成,在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,从而使得在使用训练得到的这两模型分类伪基站短信时,能够极大程度上提高识别出伪基站短信的效率和准确性。
图6为一个实施例中伪基站短信识别方法的流程示意图。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图6,该伪基站短信识别方法具体包括如下步骤:
S602,读取短信。
具体地,终端可通过短信接收应用程序来接收短信,并通过安全防护应用程序读取由短信接收应用程序接收的短信。终端也可以通过安全防护应用程序直接接收并读取短信。终端还可以通过安全防护应用程序扫描读取终端事先接收到并存储在本地的短信。
其中,短信接收应用程序通常以“短信”、“短消息”或者“SMS”(Short MessageService,短消息服务)命名。安全防护应用程序是对终端进行安全防护的应用程序,安全防护应用程序在本实施例中用来识别出伪基站短信,还可以对识别为伪基站短信的短信进行进一步处理。
S604,获取根据短信的内容特征和相应的基站信号特征得到的特征数据。
具体地,终端可分析短信的内容的结构,从而根据短信的内容的结构从短信的内容中提取出相应的内容特征。
在一个实施例中,提取短信的内容特征具体包括:按照预定义的各种内容特征类型对应的内容特征组成形式,从短信的内容中提取符合内容特征组成形式的内容特征。具体地,终端可获取到预定义的各种类型的内容特征对应的内容特征组成形式,从而将短信的内容与每种类型的内容特征组成形式分别进行匹配,若匹配到则提取相应类型的内容特征。其中内容特征组成形式可以用正则表达式来表示。
其中,内容特征的类型比如电话号码、银行账号或者网址等,具体电话号码的内容特征组成形式可以是连续7位或者8位或者11位的数字,银行账号的内容特征组成形式一般是连续16到19位的数字,网址的内容特征组成形式一般是用“.”和“/”分隔开的字符串。连续的数字和网址都可以使用相应的正则表达式进行匹配来识别。
举例说明,若短信的内容为:“在校大学生***服务,有需要的加微信13100000000”,则可用电话号码的正则表达式识别出电话号码类型的内容特征:“13100000000”。再比如,若短信的内容为“代开***http://t.cn/Ra8n”,则可用网址的正则表达式识别出网址类型的内容特征:“http://t.cn/Ra8n”。
通过正常基站或者伪基站发送的短信均相应有基站数据。终端可分析短信相应的基站数据,从而从基站数据中提取出基站信号特征。基站信号特征比如,MCC、MNC、LAC、CellID以及SBSS等。
进一步地,终端在提取短信的内容特征和相应的基站信号特征后,可将提取的内容特征和基站信号特征组合得到特征数据,以通过内容特征和基站信号特征共同反映短信的特征。
S606,将特征数据输入第一分类模型。
具体地,终端将特征数据输入第一分类模型,进行特征数据分类。在本实施例中,第一分类模型用于将待分类的短信分类为正常短信类和疑似伪基站短信类。
S608,当第一分类模型输出的分类结果为疑似伪基站短信类时,将特征数据输入第二分类模型。
具体地,终端可在该第一分类模型输出的分类结果为正常短信类时,判定输入的特征数据相应的短信为正常短信,正常短信是与伪基站短信相区别的一种短信分类,终端可针对不同的短信分类分别进行不同的处理。终端可在该第一分类模型输出的分类结果为疑似伪基站短信类时,判定输入的特征数据相应的短信为疑似伪基站短信,从而将该特征数据输入第二分类模型。
S610,通过第二分类模型输出短信是否为伪基站短信的分类结果。
具体地,终端将特征数据输入第二分类模型,进行特征数据分类。在本实施例中,第二分类模型用于将待分类的短信分类为正常短信类和伪基站短信类。
上述伪基站短信识别方法,通过对读取的短信进行内容特征和基站信号特征提取,即可得到反映短信特征的特征数据,进而将反映短信特征的特征数据输入第一分类模型,并在第一分类模型输出的分类结果表示该短信为疑似伪基站短信时,再将反映短信特征的特征数据输入第二分类模型,从而得到该短信是否为伪基站短信的分类结果。这样在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,不需要向运营商发送查询短信等待查询结果,即可进行识别,提高了识别出伪基站短信的效率和准确性。
在一个实施例中,特征数据为特征向量。获取根据短信的内容特征和基站信号特征得到的特征数据,包括:提取短信的内容特征和相应的基站信号特征;获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果生成特征向量。
其中,特征向量是表示短信的特征的向量,即以向量形式表示短信的特征。具体地,终端可获取根据短信的内容特征得到的内容识别结果,及根据短信相应的基站信号特征得到的基站识别结果。
在一个实施例中,内容识别结果包括内容本地识别结果和内容云端识别结果;基站识别结果包括基站本地识别结果和基站云端识别结果。获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果,包括:在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果;获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果。
在一个实施例中,在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果,包括:确定内容特征所属的内容特征类型;查询内容特征类型所映射至的内容本地识别结果;将基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
具体地,终端可在本地对短信的内容特征进行语义分析,以判断短信的内容特征所属的内容特征类型,再根据内容特征类型与内容识别结果的映射关系,得到短信的内容特征所属内容特征类型所映射至的内容识别结果,从而得到短信的内容特征对应的内容识别结果。其中,内容特征类型是对短信按照内容特征进行分类得到的类别。内容特征类型比如广告类型、色情类型或者违法类型等。内容特征类型可用来识别短信的恶意属性。根据内容特征类型是否对应恶意属性可将内容识别结果分为两类,恶意类型和正常类型。
举例说明,终端可事先根据不同内容特征将短信分为广告类型、色情类型或者诈骗类型等多个内容特征类型(比如112类),再分别对每个内容特征类型配置返回值,不同的返回值对应不同的内容识别结果,从而建立内容特征类型与内容识别结果的映射关系。比如,短信的内容为“春风十里,不如5折好礼,送您一张优惠券”,终端可提取内容特征分析判断该短信属于广告类型。再比如,终端可对诈骗类型相应设置第一返回值,第一返回值对应恶意内容的内容识别结果,那么在判断当前短信的内容特征属于诈骗类型时,即可得到该当前短信的内容特征为恶意类型的内容识别结果。
终端还可在本地将短信相应的基站信号特征与预设基站信号特征比较,以判断短信相应的基站信号特征是否正常,从而得到短信的基站信号特征的基站识别结果。举例说明,终端可将基站信号特征中的Cell ID变化频率与预设的Cell ID变化频率比较,当两者不一致时,可判定当前短信的Cell ID变化频率异常,短信相应的基站信号特征为疑似伪基站信号特征,基站识别结果为疑似伪基站类。再比如,终端可将基站信号特征中的LAC变化频率与预设的LAC变化频率比较,当两者不一致时,可判定当前短信的LAC变化频率异常,短信相应的基站信号特征为疑似伪基站信号特征,基站识别结果为疑似伪基站类。否则,基站识别结果为非疑似伪基站类。
在本实施例中,提供了在本地对短信的内容特征和相应的基站信号特征进行识别的方式,使得在无网络的环境下也可以进行识别,进而进行后续的分类操作。
在一个实施例中,获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果,包括:根据内容特征和基站信号特征生成识别请求;将生成的识别请求发送至服务器;接收服务器响应于识别请求返回的、识别内容特征得到的内容云端识别结果和识别基站信号特征得到的基站云端识别结果。
具体地,终端在提取短信的内容特征和基站信号特征生成识别请求后,将生成的识别请求发送至服务器。服务器在接收到该识别请求后,获取该识别请求中携带的内容特征和基站信号特征,识别内容特征得到内容云端识别结果,并识别基站信号特征得到基站云端识别结果,在将内容云端识别结果和基站云端识别结果返回至终端。
其中,服务器上还可存储有短信发送方标识库,短信发送方标识库包括被仿冒的短信发送方标识。服务器可通过将当前短信的短信发送方标识和短信发送方标识库中的短信发送方标识进行比较。在两者一致,则判定当前短信的短信发送方标识属于短信发送方标识库,可得到基站识别结果为疑似伪基站类。
在本实施例中,通过将短信的内容特征和基站信号特征发送至服务器进行识别,由于服务器的存储容量大,使得服务器所识别所采用的识别方式精度高于本地,从而提高了短信的识别准确率。
上述实施例中,将本地的识别结果与云端的识别结果相结合,在网络状态良好的情况下保证了短信识别的准确性,同时在网络状态较差时,又能保证能够进行短信识别,从而保证了短信识别的正常进行。
具体地,终端在获取短信的内容识别结果和基站识别结果后,可将该短信的内容识别结果和基站识别结果映射为向量元素,组合每个短信相应的各向量元素,以生成相应的特征向量。
上述实施例中,通过向量的形式表示短信的特征,再以特征向量作为分类模型的输入,极大地减少了输入数据的数据量,提高了分类模型的分类效率。
图7示出了一个实施例中伪基站短信识别的原理示意图。参考图7,终端可提取短信的内容特征和相应的基站信号特征,然后获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果,再根据内容识别结果和基站识别结果生成特征向量。终端在得到读取的短信对应的特征向量后,将该特征向量输入第一分类模型,当第一分类模型输出的分类结果是疑似伪基站短信类时,则将该特征向量输入第二分类模型,否则为正常短信。当第二分类模型输出的分类结果是伪基站短信类时,则将该特征向量对应的短信为伪基站短信,否则为正常短信。
在一个实施例中,根据内容识别结果和基站识别结果生成特征向量,包括:从基站信号特征中提取信号强度特征和信号位置特征;分别将内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合各向量元素以生成与短信相应的特征向量。
其中,信号强度特征是反映基站信号强度的数据,也就是上文中提到的SBSS。SBSS基站信号强度值比如-45db(分贝)。信号位置特征是反映基站信号位置的数据,也就是上文中提到的Cell ID。Cell ID具体可以是整数数值。
在一个实施例中,分别将内容识别结果、基站识别结果、信号强度特征和信号位置特性映射为向量元素,包括:将内容识别结果和基站识别结果分别按照各自所属果类型映射为向量元素;将信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
具体地,终端可预先设置内容识别结果、基站识别结果、信号强度特征和信号位置特征各自对应的向量元素项,并相应设置各向量元素项的取值策略。
对于基站识别结果,终端可事先为不同的基站识别结果分别设置映射值,再将当前短信相应的基站识别结果对应的向量元素项,取值为所属识别结果类型的映射值。
对于内容识别结果,终端可事先为不同的内容识别结果分别设置映射值,再将当前短信的内容识别结果对应的向量元素项,取值为所属识别结果类型的映射值。
在一个实施例中,终端对短信内容分类得到的内容特征类型可包括伪基站短信类型。此时,短信相应的内容识别结果和内容特征所属的内容特征类型可另外共同对应向量元素项。
在一个实施例中,终端对短信内容分类得到的内容特征类型还可各自对应向量元素项,在这些向量元素项取值时,将当前短信的内容特征所属内容特征类型对应的向量元素项取值为第一预设值,剩余的内容特征类型对应的向量元素项取值为第二预设值。
可以理解的是,由于内容识别结果可包括内容本地识别结果和内容云端识别结果,基站识别结果可包括基站本地识别结果和基站云端识别结果。那么,内容本地识别结果和内容云端识别结果可分别对应不同的向量元素项,也可对应相同的向量元素项。对应相同的向量元素项时,向量元素项的取值可以是单独的取值求交集,也可以是单独的取值求并集。基站识别结果亦如此。
对于信号强度特征,终端可实现将基站信号强度值的取值范围划分为预设数量的特征区间,每个特征区间对应一个向量元素项,在这些向量元素项取值时,将当前短信的信号强度特征所属特征区间对应的向量元素项取值为第一预设值,剩余特征区间对应的向量元素项取值为第二预设值。
对于信号位置特征,终端可预先设置预设特征区间,每个预设区间各自对应向量元素项,在这些向量元素项取值时,将当前短信的信号位置特征所属特征区间对应的向量元素项取值为第一预设值,剩余特征区间对应的向量元素项取值为第二预设值。
上述实施例中,提供了具体地将短信相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素的方式,极大地减少了数据量,从而提高了分类模型的分类效率。
进一步地,终端在分别将每个短信相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素后,可组合每个短信相应的各向量元素生成相应的特征向量。这里对各向量元素的组合顺序不作限定。
上述实施例中,将内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素,使得得到的特征向量所具有的特征信息更加的丰富,进而能够更加准确地体现短信的特征。
如图8所示,在一个具体的实施例中,该伪基站短信识别方法具体包括以下步骤:
S802,读取短信。
S804,提取短信的内容特征和相应的基站信号特征。
S806,确定内容特征所属的内容特征类型;查询内容特征类型所映射至的内容本地识别结果;将基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
S808,根据内容特征和基站信号特征生成识别请求;将生成的识别请求发送至服务器;接收服务器响应于识别请求返回的、识别内容特征得到的内容云端识别结果和识别基站信号特征得到的基站云端识别结果。
S810,将内容识别结果和基站识别结果分别按照各自所属果类型映射为向量元素;内容识别结果包括内容本地识别结果和内容云端识别结果;基站识别结果包括基站本地识别结果和基站云端识别结果。
S812,从基站信号特征中提取信号强度特征和信号位置特征,将信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
S814,组合各向量元素以生成与短信相应的特征向量。
S816,将特征向量输入第一分类模型。
S818,判断第一分类模型输出的分类结果为疑似伪基站短信类还是正常短信类;若为正常短信类,则跳转至步骤S820;若为疑似伪基站短信类,则跳转至S822。
S820,将读取的短信识别为正常短信。
S822,将特征向量输入第二分类模型。
S824,判断第二分类模型输出的分类结果为伪基站短信类还是正常短信类;若为正常短信类,则跳转至步骤S820;若为伪基站短信类,则跳转至S826。
S826,将读取的短信识别为伪基站短信。
在本实施例中,通过对读取的短信进行内容特征和基站信号特征提取,即可得到反映短信特征的特征数据,进而将反映短信特征的特征数据输入第一分类模型,并在第一分类模型输出的分类结果表示该短信为疑似伪基站短信时,再将反映短信特征的特征数据输入第二分类模型,从而得到该短信是否为伪基站短信的分类结果。这样在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,不需要向运营商发送查询短信等待查询结果,即可进行识别,提高了识别出伪基站短信的效率和准确性。
应该理解的是,虽然上述各实施例的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图9所示,在一个实施例中,提供了一种分类模型训练装置900。参照图9,该分类模型训练装置900包括:第一获取模块901、第一训练模块902、第二获取模块903、分类模块904和第二训练模块905。
第一获取模块901,用于获取第一样本特征数据集。
第一训练模块902,用于根据第一样本特征数据集中的样本特征数据训练第一分类模型。
第二获取模块903,用于获取不同于第一样本特征数据集的第二样本特征数据集。
分类模块904,用于通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据。
第二训练模块905,用于根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
上述分类模型训练装置900,包括第一分类模型和第二分类模型两个模型的训练。其中,训练第一分类模型的过程在于学习分类出疑似伪基站短信,训练第二分类模型的过程在于学习从疑似伪基站短信中精确分类出伪基站短信。这样两个模型相辅相成,在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,从而使得在使用训练得到的这两模型分类伪基站短信时,能够极大程度上提高识别出伪基站短信的效率和准确性。
在一个实施例中,第一样本特征数据集中的样本特征数据根据相应短信样本的内容特征和相应的基站信号特征生成;第二样本特征数据集中的样本特征数据根据相应短信样本的内容特征和相应的基站信号特征生成。
如图10所示,在一个实施例中,分类模型训练装置900还包括:样本分组模块906。
样本分组模块906,用于获取短信样本集;提取短信样本集中各短信样本的样本特征数据得到样本特征数据集;将样本特征数据集分为第一样本特征数据集和第二样本特征数据集。
在一个实施例中,样本分组模块906还用于提取短信样本集中各短信样本的内容特征和相应的基站信号特征;根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集。
在一个实施例中,样本特征数据集中的样本特征数据为样本特征向量。样本分组模块906还用于对应每个短信样本,获取根据相应的内容特征得到的内容识别结果,及根据相应的基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量;将生成的各样本特征向量构成样本特征数据集。
在一个实施例中,样本分组模块906还用于对应每个短信样本,从相应的基站信号特征中提取信号强度特征和信号位置特征;分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合每个短信样本相应的各向量元素,以生成相应的样本特征向量。
在一个实施例中,样本分组模块906还用于对应每个短信样本,将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素;对应每个短信样本,将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
在一个实施例中,分类模型904还用于将第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型;在第一分类模型输出的分类结果为疑似伪基站短信类时,则保留当前输入的样本特征数据。第二训练模块905还用于根据当前保留的样本特征数据训练第二分类模型。
如图11所示,在一个实施例中,提供了一种伪基站短信识别装置1100。参照图11,该伪基站短信识别装置1100包括:读取模块1101、获取模块1102、输入模块1103和输出模块1104。
读取模块1101,用于读取短信。
获取模块1102,用于获取根据短信的内容特征和相应的基站信号特征得到的特征数据。
输入模块1103,用于将特征数据输入第一分类模型;当第一分类模型输出的分类结果为疑似伪基站短信类时,将特征数据输入第二分类模型。
输出模块1104,用于通过第二分类模型输出短信是否为伪基站短信的分类结果。
上述伪基站短信识别装置1100,通过对读取的短信进行内容特征和基站信号特征提取,即可得到反映短信特征的特征数据,进而将反映短信特征的特征数据输入第一分类模型,并在第一分类模型输出的分类结果表示该短信为疑似伪基站短信时,再将反映短信特征的特征数据输入第二分类模型,从而得到该短信是否为伪基站短信的分类结果。这样在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,不需要向运营商发送查询短信等待查询结果,即可进行识别,提高了识别出伪基站短信的效率和准确性。
在一个实施例中,特征数据为特征向量。获取模块1102还用于提取短信的内容特征和相应的基站信号特征;获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果生成特征向量。
在一个实施例中,内容识别结果包括内容本地识别结果和内容云端识别结果;基站识别结果包括基站本地识别结果和基站云端识别结果。获取模块1102还用于在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果;获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果。
在一个实施例中,获取模块1102还用于确定内容特征所属的内容特征类型;查询内容特征类型所映射至的内容本地识别结果;将基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
在一个实施例中,获取模块1102还用于根据内容特征和基站信号特征生成识别请求;将生成的识别请求发送至服务器;接收服务器响应于识别请求返回的、识别内容特征得到的内容云端识别结果和识别基站信号特征得到的基站云端识别结果。
在一个实施例中,获取模块1102还用于从基站信号特征中提取信号强度特征和信号位置特征;分别将内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合各向量元素以生成与短信相应的特征向量。
在一个实施例中,获取模块1102还用于将内容识别结果和基站识别结果分别按照各自所属果类型映射为向量元素;将信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110或服务器120。如图12所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现分类模型训练方法和/或伪基站短信识别方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行分类模型训练方法和/或伪基站短信识别方法。本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的分类模型训练装置和伪基站短信识别装置可以实现为一种计算机程序的形式,计算机程序可在如图12所示的计算机设备上运行,计算机设备的非易失性存储介质可存储组成该分类模型训练装置或者伪基站短信识别装置的各个程序模块,比如,图9所示的第一获取模块901、第一训练模块902、第二获取模块903、分类模块904和第二训练模块905等。再比如,图11所示的读取模块1101、获取模块1102、输入模块1103和输出模块1104等。各个程序模块组成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的分类模型训练方法和/或伪基站短信识别方法中的步骤。
例如,图12所示的计算机设备可以通过如图9所示的分类模型训练装置900通过第一获取模块901获取第一样本特征数据集。通过第一训练模块902根据第一样本特征数据集中的样本特征数据训练第一分类模型。通过第二获取模块903获取不同于第一样本特征数据集的第二样本特征数据集。通过分类模块904通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据。通过第二训练模块905于根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
再例如,图12所示的计算机设备可以通过如图11所示的伪基站短信识别装置1100通过读取模块1101读取短信。通过获取模块1102获取根据短信的内容特征和相应的基站信号特征得到的特征数据。通过输入模块1103将特征数据输入第一分类模型;当第一分类模型输出的分类结果为疑似伪基站短信类时,将特征数据输入第二分类模型。通过输出模块1104通过第二分类模型输出短信是否为伪基站短信的分类结果。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一样本特征数据集;根据第一样本特征数据集中的样本特征数据训练第一分类模型;获取不同于第一样本特征数据集的第二样本特征数据集;通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
在一个实施例中,第一样本特征数据集中的样本特征数据根据相应短信样本的内容特征和相应的基站信号特征生成;第二样本特征数据集中的样本特征数据根据相应短信样本的内容特征和相应的基站信号特征生成。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:获取短信样本集;提取短信样本集中各短信样本的样本特征数据得到样本特征数据集;将样本特征数据集分为第一样本特征数据集和第二样本特征数据集。
在一个实施例中,提取短信样本集中各短信样本的样本特征数据得到样本特征数据集,包括:提取短信样本集中各短信样本的内容特征和相应的基站信号特征;根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集。
在一个实施例中,样本特征数据集中的样本特征数据为样本特征向量。根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集,包括:对应每个短信样本,获取根据相应的内容特征得到的内容识别结果,及根据相应的基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量;将生成的各样本特征向量构成样本特征数据集。
在一个实施例中,根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量,包括:对应每个短信样本,从相应的基站信号特征中提取信号强度特征和信号位置特征;分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合每个短信样本相应的各向量元素,以生成相应的样本特征向量。
在一个实施例中,分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素,包括:对应每个短信样本,将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素;对应每个短信样本,将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
在一个实施例中,通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据,包括:将第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型;在第一分类模型输出的分类结果为疑似伪基站短信类时,则保留当前输入的样本特征数据。根据分类为疑似伪基站短信类的样本特征数据训练第二分类模型,包括:根据当前保留的样本特征数据训练第二分类模型。
上述存储介质,包括第一分类模型和第二分类模型两个模型的训练。其中,训练第一分类模型的过程在于学习分类出疑似伪基站短信,训练第二分类模型的过程在于学习从疑似伪基站短信中精确分类出伪基站短信。这样两个模型相辅相成,在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,从而使得在使用训练得到的这两模型分类伪基站短信时,能够极大程度上提高识别出伪基站短信的效率和准确性。
在一个实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时,使得处理器执行以下步骤:读取短信;获取根据短信的内容特征和相应的基站信号特征得到的特征数据;将特征数据输入第一分类模型;当第一分类模型输出的分类结果为疑似伪基站短信类时,将特征数据输入第二分类模型;通过第二分类模型输出短信是否为伪基站短信的分类结果。
在一个实施例中,特征数据为特征向量。获取根据短信的内容特征和基站信号特征得到的特征数据,包括:提取短信的内容特征和相应的基站信号特征;获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果生成特征向量。
在一个实施例中,内容识别结果包括内容本地识别结果和内容云端识别结果;基站识别结果包括基站本地识别结果和基站云端识别结果。获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果,包括:在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果;获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果。
在一个实施例中,在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果,包括:确定内容特征所属的内容特征类型;查询内容特征类型所映射至的内容本地识别结果;将基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
在一个实施例中,获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果,包括:根据内容特征和基站信号特征生成识别请求;将生成的识别请求发送至服务器;接收服务器响应于识别请求返回的、识别内容特征得到的内容云端识别结果和识别基站信号特征得到的基站云端识别结果。
在一个实施例中,根据内容识别结果和基站识别结果生成特征向量,包括:从基站信号特征中提取信号强度特征和信号位置特征;分别将内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合各向量元素以生成与短信相应的特征向量。
在一个实施例中,分别将内容识别结果、基站识别结果、信号强度特征和信号位置特性映射为向量元素,包括:将内容识别结果和基站识别结果分别按照各自所属果类型映射为向量元素;将信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
上述存储介质,通过对读取的短信进行内容特征和基站信号特征提取,即可得到反映短信特征的特征数据,进而将反映短信特征的特征数据输入第一分类模型,并在第一分类模型输出的分类结果表示该短信为疑似伪基站短信时,再将反映短信特征的特征数据输入第二分类模型,从而得到该短信是否为伪基站短信的分类结果。这样在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,不需要向运营商发送查询短信等待查询结果,即可进行识别,提高了识别出伪基站短信的效率和准确性。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取第一样本特征数据集;根据第一样本特征数据集中的样本特征数据训练第一分类模型;获取不同于第一样本特征数据集的第二样本特征数据集;通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
在一个实施例中,第一样本特征数据集中的样本特征数据根据相应短信样本的内容特征和相应的基站信号特征生成;第二样本特征数据集中的样本特征数据根据相应短信样本的内容特征和相应的基站信号特征生成。
在一个实施例中,该计算机程序还使得处理器执行以下步骤:获取短信样本集;提取短信样本集中各短信样本的样本特征数据得到样本特征数据集;将样本特征数据集分为第一样本特征数据集和第二样本特征数据集。
在一个实施例中,提取短信样本集中各短信样本的样本特征数据得到样本特征数据集,包括:提取短信样本集中各短信样本的内容特征和相应的基站信号特征;根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集。
在一个实施例中,样本特征数据集中的样本特征数据为样本特征向量。根据内容特征和相应的基站信号特征生成相应的样本特征数据,得到样本特征数据集,包括:对应每个短信样本,获取根据相应的内容特征得到的内容识别结果,及根据相应的基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量;将生成的各样本特征向量构成样本特征数据集。
在一个实施例中,根据内容识别结果和基站识别结果,生成对应每个短信样本的样本特征向量,包括:对应每个短信样本,从相应的基站信号特征中提取信号强度特征和信号位置特征;分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合每个短信样本相应的各向量元素,以生成相应的样本特征向量。
在一个实施例中,分别将每个短信样本相应的内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素,包括:对应每个短信样本,将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素;对应每个短信样本,将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
在一个实施例中,通过训练完成的第一分类模型,对第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据,包括:将第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型;在第一分类模型输出的分类结果为疑似伪基站短信类时,则保留当前输入的样本特征数据。根据分类为疑似伪基站短信类的样本特征数据训练第二分类模型,包括:根据当前保留的样本特征数据训练第二分类模型。
上述计算机设备,包括第一分类模型和第二分类模型两个模型的训练。其中,训练第一分类模型的过程在于学习分类出疑似伪基站短信,训练第二分类模型的过程在于学习从疑似伪基站短信中精确分类出伪基站短信。这样两个模型相辅相成,在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,从而使得在使用训练得到的这两模型分类伪基站短信时,能够极大程度上提高识别出伪基站短信的效率和准确性。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中储存有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:读取短信;获取根据短信的内容特征和相应的基站信号特征得到的特征数据;将特征数据输入第一分类模型;当第一分类模型输出的分类结果为疑似伪基站短信类时,将特征数据输入第二分类模型;通过第二分类模型输出短信是否为伪基站短信的分类结果。
在一个实施例中,特征数据为特征向量。获取根据短信的内容特征和基站信号特征得到的特征数据,包括:提取短信的内容特征和相应的基站信号特征;获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果;根据内容识别结果和基站识别结果生成特征向量。
在一个实施例中,内容识别结果包括内容本地识别结果和内容云端识别结果;基站识别结果包括基站本地识别结果和基站云端识别结果。获取根据内容特征得到的内容识别结果和根据基站信号特征得到的基站识别结果,包括:在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果;获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果。
在一个实施例中,在本地查询内容特征对应的内容本地识别结果,及基站信号特征对应的基站本地识别结果,包括:确定内容特征所属的内容特征类型;查询内容特征类型所映射至的内容本地识别结果;将基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
在一个实施例中,获取从服务器请求得到的内容特征对应的内容云端识别结果,及基站信号特征对应的基站云端识别结果,包括:根据内容特征和基站信号特征生成识别请求;将生成的识别请求发送至服务器;接收服务器响应于识别请求返回的、识别内容特征得到的内容云端识别结果和识别基站信号特征得到的基站云端识别结果。
在一个实施例中,根据内容识别结果和基站识别结果生成特征向量,包括:从基站信号特征中提取信号强度特征和信号位置特征;分别将内容识别结果、基站识别结果、信号强度特征和信号位置特征映射为向量元素;组合各向量元素以生成与短信相应的特征向量。
在一个实施例中,分别将内容识别结果、基站识别结果、信号强度特征和信号位置特性映射为向量元素,包括:将内容识别结果和基站识别结果分别按照各自所属果类型映射为向量元素;将信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
上述计算机设备,通过对读取的短信进行内容特征和基站信号特征提取,即可得到反映短信特征的特征数据,进而将反映短信特征的特征数据输入第一分类模型,并在第一分类模型输出的分类结果表示该短信为疑似伪基站短信时,再将反映短信特征的特征数据输入第二分类模型,从而得到该短信是否为伪基站短信的分类结果。这样在经过第一分类模型的是否为疑似伪基站短信的分类后,再经过第二分类模型的是否为伪基站短信的分类,以通过双重分类过程分类出伪基站短信,不需要向运营商发送查询短信等待查询结果,即可进行识别,提高了识别出伪基站短信的效率和准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (18)

1.一种分类模型训练方法,其特征在于,所述方法包括:
提取短信样本集中各短信样本的内容特征和相应的基站信号特征;
对应每个短信样本,从所述基站信号特征中提取信号强度特征和信号位置特征,将根据相应的内容特征得到的内容识别结果、根据相应的基站信号特征得到的基站识别结果、所述信号强度特征和所述信号位置特征分别映射为向量元素,组合映射得到的各所述向量元素,以生成相应的样本特征向量;
将生成的各所述短信样本相应的样本特征向量构成样本特征数据集,将所述样本特征数据集分为第一样本特征数据集和第二样本特征数据集,所述第一样本特征数据集不同于所述第二样本特征数据集;
根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;
通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;
根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
2.根据权利要求1所述的方法,其特征在于,所述将根据相应的内容特征得到的内容识别结果、根据相应的基站信号特征得到的基站识别结果、所述信号强度特征和所述信号位置特征分别映射为向量元素,组合映射得到的各所述向量元素,包括:
将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素;
将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
3.根据权利要求1至2中任一项所述的方法,其特征在于,所述通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据,包括:
将所述第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型;
在所述第一分类模型输出的分类结果为疑似伪基站短信类时,则保留当前输入的样本特征数据;
所述根据分类为疑似伪基站短信类的样本特征数据训练第二分类模型,包括:
根据当前保留的样本特征数据训练第二分类模型。
4.一种伪基站短信识别方法,其特征在于,所述方法包括:
读取短信;
提取所述短信的内容特征和相应的基站信号特征,从所述基站信号特征中提取信号强度特征和信号位置特征,将根据所述内容特征得到的内容识别结果、根据所述基站信号特征得到的基站识别结果、所述信号强度特征和所述信号位置特征分别映射为向量元素,组合映射得到的各所述向量元素,以生成与所述短信相应的特征向量;
将所述特征向量输入第一分类模型;
当所述第一分类模型输出的分类结果为疑似伪基站短信类时,将所述特征向量输入第二分类模型;
通过所述第二分类模型输出所述短信是否为伪基站短信的分类结果。
5.根据权利要求4所述的方法,其特征在于,所述内容识别结果包括内容本地识别结果和内容云端识别结果;所述基站识别结果包括基站本地识别结果和基站云端识别结果;
所述方法还包括:
在本地查询所述内容特征对应的内容本地识别结果,及所述基站信号特征对应的基站本地识别结果;
获取从服务器请求得到的所述内容特征对应的内容云端识别结果,及所述基站信号特征对应的基站云端识别结果。
6.根据权利要求5所述的方法,其特征在于,所述在本地查询所述内容特征对应的内容本地识别结果,及所述基站信号特征对应的基站本地识别结果,包括:
确定所述内容特征所属的内容特征类型;
查询所述内容特征类型所映射至的内容本地识别结果;
将所述基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
7.根据权利要求5所述的方法,其特征在于,所述获取从服务器请求得到的所述内容特征对应的内容云端识别结果,及所述基站信号特征对应的基站云端识别结果,包括:
根据所述内容特征和所述基站信号特征生成识别请求;
将生成的所述识别请求发送至服务器;
接收所述服务器响应于所述识别请求返回的、识别所述内容特征得到的内容云端识别结果和识别所述基站信号特征得到的基站云端识别结果。
8.根据权利要求4所述的方法,其特征在于,所述将根据所述内容特征得到的内容识别结果、根据所述基站信号特征得到的基站识别结果、所述信号强度特征和所述信号位置特征分别映射为向量元素,包括:
将所述内容识别结果和所述基站识别结果分别按照各自所属果类型映射为向量元素;
将所述信号强度特征和所述信号位置特征分别按照各自所属的特征区间映射为向量元素。
9.一种分类模型训练装置,其特征在于,所述装置包括:
获取模块,用于提取短信样本集中各短信样本的内容特征和相应的基站信号特征;对应每个短信样本,从所述基站信号特征中提取信号强度特征和信号位置特征,将根据相应的内容特征得到的内容识别结果、根据相应的基站信号特征得到的基站识别结果、所述信号强度特征和所述信号位置特征分别映射为向量元素,组合映射得到的各所述向量元素,以生成相应的样本特征向量;将生成的各所述短信样本相应的样本特征向量构成样本特征数据集,将所述样本特征数据集分为第一样本特征数据集和第二样本特征数据集,所述第一样本特征数据集不同于所述第二样本特征数据集;
第一训练模块,用于根据所述第一样本特征数据集中的样本特征数据训练第一分类模型;
分类模块,用于通过训练完成的第一分类模型,对所述第二样本特征数据集中的样本特征数据进行分类,得到分类为疑似伪基站短信类的样本特征数据;
第二训练模块,用于根据分类为疑似伪基站短信类的样本特征数据训练用于伪基站短信分类的第二分类模型。
10.根据权利要求9所述的装置,其特征在于,所述获取模块,还用于将相应的内容识别结果和基站识别结果分别按照各自所属的识别结果类型映射为向量元素;将相应的信号强度特征和信号位置特征分别按照各自所属的特征区间映射为向量元素。
11.根据权利要求9或10所述的装置,其特征在于,所述分类模块,还用于将所述第二样本特征数据集中的样本特征数据依次输入训练完成的第一分类模型;在所述第一分类模型输出的分类结果为疑似伪基站短信类时,则保留当前输入的样本特征数据;所述第二训练模块,还用于根据当前保留的样本特征数据训练第二分类模型。
12.一种伪基站短信识别装置,其特征在于,所述装置包括:
读取模块,用于读取短信;
获取模块,用于提取所述短信的内容特征和相应的基站信号特征,从所述基站信号特征中提取信号强度特征和信号位置特征,将根据所述内容特征得到的内容识别结果、根据所述基站信号特征得到的基站识别结果、所述信号强度特征和所述信号位置特征分别映射为向量元素,组合映射得到的各所述向量元素,以生成与所述短信相应的特征向量;
输入模块,用于将所述特征向量输入第一分类模型;当所述第一分类模型输出的分类结果为疑似伪基站短信类时,将所述特征向量输入第二分类模型;
输出模块,用于通过所述第二分类模型输出所述短信是否为伪基站短信的分类结果。
13.根据权利要求12所述的装置,其特征在于,所述内容识别结果包括内容本地识别结果和内容云端识别结果;所述基站识别结果包括基站本地识别结果和基站云端识别结果;
所述获取模块,还用于在本地查询所述内容特征对应的内容本地识别结果,及所述基站信号特征对应的基站本地识别结果;获取从服务器请求得到的所述内容特征对应的内容云端识别结果,及所述基站信号特征对应的基站云端识别结果。
14.根据权利要求13所述的装置,其特征在于,所述获取模块,还用于确定所述内容特征所属的内容特征类型;查询所述内容特征类型所映射至的内容本地识别结果;将所述基站信号特征与预设基站信号特征比较,得到基站本地识别结果。
15.根据权利要求13所述的装置,其特征在于,所述获取模块还用于根据所述内容特征和所述基站信号特征生成识别请求;将生成的所述识别请求发送至服务器;接收所述服务器响应于所述识别请求返回的、识别所述内容特征得到的内容云端识别结果和识别所述基站信号特征得到的基站云端识别结果。
16.根据权利要求12所述的装置,其特征在于,所述获取模块,还用于将所述内容识别结果和所述基站识别结果分别按照各自所属果类型映射为向量元素;将所述信号强度特征和所述信号位置特征分别按照各自所属的特征区间映射为向量元素。
17.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的方法的步骤。
18.一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述的方法的步骤。
CN201710951809.6A 2017-10-13 2017-10-13 分类模型训练、伪基站短信识别方法和装置 Active CN110019791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710951809.6A CN110019791B (zh) 2017-10-13 2017-10-13 分类模型训练、伪基站短信识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710951809.6A CN110019791B (zh) 2017-10-13 2017-10-13 分类模型训练、伪基站短信识别方法和装置

Publications (2)

Publication Number Publication Date
CN110019791A CN110019791A (zh) 2019-07-16
CN110019791B true CN110019791B (zh) 2022-09-20

Family

ID=67186543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710951809.6A Active CN110019791B (zh) 2017-10-13 2017-10-13 分类模型训练、伪基站短信识别方法和装置

Country Status (1)

Country Link
CN (1) CN110019791B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522942B (zh) * 2020-03-18 2023-09-22 大箴(杭州)科技有限公司 文本分类模型的训练方法、装置、存储介质及计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991899B (zh) * 2015-06-02 2018-06-19 广州酷狗计算机科技有限公司 用户属性的识别方法及装置
US10409913B2 (en) * 2015-10-01 2019-09-10 Conduent Business Services, Llc Methods and systems to train classification models to classify conversations
US10582275B2 (en) * 2015-11-11 2020-03-03 The Syg Institute Co., Ltd. Real-time digit string-based information distribution system using smart terminal and method thereof
CN105654131A (zh) * 2015-12-30 2016-06-08 小米科技有限责任公司 分类模型训练方法及装置

Also Published As

Publication number Publication date
CN110019791A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
CN110245165B (zh) 风险传导关联图谱优化方法、装置和计算机设备
US20230224232A1 (en) System and method for extracting identifiers from traffic of an unknown protocol
CN105989144B (zh) 通知消息管理方法、装置、***及终端设备
US11537751B2 (en) Using machine learning algorithm to ascertain network devices used with anonymous identifiers
US20130066814A1 (en) System and Method for Automated Classification of Web pages and Domains
CN108140297A (zh) 可疑人员检测***和可疑人员检测方法
CN111148018B (zh) 基于通信数据识别定位区域价值的方法和装置
CN105306495A (zh) 用户识别方法和装置
CN105392178A (zh) 一种用于获取无线接入点的接入信息的方法与设备
CN107844409A (zh) 测试用例执行方法和装置
Chernyshev et al. On 802.11 access point locatability and named entity recognition in service set identifiers
CN112241489A (zh) 信息推送方法、装置、可读存储介质和计算机设备
CN112579931A (zh) 网络访问分析方法、装置、计算机设备和存储介质
CN110288468B (zh) 数据特征挖掘方法、装置、电子设备及存储介质
CN111294361A (zh) 一种工作流数据加密方法及***
CN110019791B (zh) 分类模型训练、伪基站短信识别方法和装置
US20130159435A1 (en) Method and System for Processing User Contact Information
CN105740453B (zh) 信息推送方法和装置
CN112685618A (zh) 用户特征识别方法、装置、计算设备及计算机存储介质
CN116471582A (zh) 一种基于人工智能的一人多卡用户识别方法及装置
CN108268545B (zh) 一种分级的用户标签库的创建的方法和装置
CN111107552B (zh) 一种识别伪基站的方法及***
CN112017634A (zh) 数据的处理方法、装置、设备以及存储介质
US20210049624A1 (en) System and Method for Identifying Prospective Entities to Interact With
CN108777878B (zh) 用于确定无线接入点的类别的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant