CN113190646B - 一种用户名样本的标注方法、装置、电子设备及存储介质 - Google Patents
一种用户名样本的标注方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113190646B CN113190646B CN202010038362.5A CN202010038362A CN113190646B CN 113190646 B CN113190646 B CN 113190646B CN 202010038362 A CN202010038362 A CN 202010038362A CN 113190646 B CN113190646 B CN 113190646B
- Authority
- CN
- China
- Prior art keywords
- sample
- user name
- samples
- clusters
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 66
- 230000002159 abnormal effect Effects 0.000 claims abstract description 43
- 238000012216 screening Methods 0.000 claims abstract description 37
- 238000012549 training Methods 0.000 claims description 127
- 238000000034 method Methods 0.000 claims description 86
- 239000013598 vector Substances 0.000 claims description 64
- 238000013528 artificial neural network Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 23
- 238000013145 classification model Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 description 13
- 238000013515 script Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000005406 washing Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000010897 surface acoustic wave method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开关于一种用户名样本的标注方法,所述标注方法包括:基于获取的各用户名样本的语义特征,对用户名样本进行聚类,以获得多个样本簇;根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,其中,所述指定特征用于表征样本簇中用户名样本是否为负样本类型,所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;将筛选出的样本簇中的用户名样本标注为负用户名样本。
Description
技术领域
本公开涉及网络安全技术领域,尤其涉及一种用户名样本的标注方法、装置、电子设备及存储介质。
背景技术
用户名(英文名:Username),也称账户名,可以使用汉字、字母、字码等,如珠穆朗玛峰、zmlmf、12345,等,都可以作为用户名。异常用户名,比如,比较典型的是恶意用户利用脚本大批量生成并注册的用户名,这样的用户名要么是自身包含色情反动信息,要么就是在网络平台散布色情信息、钓鱼网站链接、广告等,会对合法用户造成不良影响,也容易引发网络安全问题。
为防止网络平台出现异常用户名,有必要对注册的用户名进行识别,进而限制异常用户名的成功注册或使用。
相关技术中,通常可以采用人工标注的方式对用户名样本进行正负样本类型标注,然后将进行正负样本类型标注后的用户名样本作为训练样本,训练用于对用户名进行分类识别的用户名识别模型,最后通过训练好的模型识别目标用户名是否异常。
由于上述现有技术在进行用户名样本标注时,采用的是单纯由人工进行标注的方法,导致标注人员个人的主观判断能力对标注结果的准确性影响过大,一旦标注人员主观判断能力较低,则容易出现标注结果不准确的情况,导致训练得到的模型的识别结果准确度受到影响。
发明内容
本公开提供一种用户名样本的标注方法、装置及电子设备、一种用户名识别模型的训练方法、装置、电子设备及存储介质和一种基于用户名识别模型的用户名识别方法、装置、电子设备及存储介质,以至少解决相关技术中由于单纯由人工进行用户名样本标注,而导致训练得到的模型的识别结果不准确的问题。
本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种用户名样本的标注方法,包括:
基于获取的各用户名样本的语义特征,对所述用户名样本进行聚类,以获得多个样本簇;
根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇;样本簇的所述指定特征表征样本簇中用户名样本是否为负样本类型;所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
将筛选出的样本簇中的用户名样本标注为负用户名样本。
在一种可选的实施方式中,所述指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的语义特征平均相似度;
从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
在一种可选的实施方式中,所述计算各样本簇中用户名样本之间的语义特征平均相似度包括:
确定所述各样本簇的聚类中心点对应的用户名样本的语义中心向量;
计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
在一种可选的实施方式中,所述指定特征包括:样本簇中所述用户名样本被标注的正负样本类型相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中所述用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
在一种可选的实施方式中,计算各样本簇中用户名样本的正负样本类型相似度,包括:
确定所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
分别计算所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
根据本公开实施例的第二方面,提供一种用户名识别模型的训练方法,包括:
基于所述负用户名样本以及所述多个样本簇中的其余用户名样本,构建训练样本集,其中,所述训练样本集用于训练对用户名进行分类识别的用户名识别模型;
将所述训练样本集输入神经网络文本分类模型,从所述神经网络文本分类模型的隐藏层获取第一特征向量;
将所述训练样本集输入神经网络结构模型,从所述神经网络结构模型的隐藏层获取第二特征向量;
以所述第一特征向量和所述第二特征向量作为训练样本,训练用于对用户名进行分类识别的用户名识别模型。
在一种可选的实施方式中,若所述训练样本集中用户名样本的数量增加,和/或,所述训练样本集中用户名样本的正负样本类型信息发生变更,则移除所述用户名识别模型的输出层;
在移除输出层后的用户名识别模型中增加预设数量的全连接层;
基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对所述预设数量的全连接层进行训练,以得到更新后的所述用户名识别模型。
根据本公开实施例的第三方面,提供一种用户名识别方法,包括:
获取待识别的用户名;
将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
根据本公开实施例的第四方面,提供一种用户名样本的标注装置,包括:
聚类模块,被配置为执行基于获取的各用户名样本的语义特征,对所述用户名样本进行聚类,以获得多个样本簇;
筛选模块,被配置为执行根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇;其中,所述指定特征用于表征样本簇中用户名样本是否为负样本类型,所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
标注模块,被配置为执行将筛选出的样本簇中的用户名样本标注为负用户名样本。
在一种可选的实施方式中,所述指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,所述筛选模块,包括:
语义相似度计算单元,被配置为执行计算各样本簇中用户名样本之间的语义特征平均相似度;
第一筛选单元,被配置为执行从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
在一种可选的实施方式中,所述语义相似度计算单元,包括:
第一确定子单元,被配置为执行确定所述各样本簇的聚类中心点对应的用户名样本的语义中心向量;
第一计算子单元,被配置为执行计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
在一种可选的实施方式中,所述指定特征包括:样本簇中所述用户名样本被标注的正负样本类型相似度,其中,所述筛选模块,包括:
类型相似度计算单元,被配置为执行计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
第二筛选单元,被配置为执行从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中所述用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
在一种实施方式中,所述类型相似度计算单元,包括:
第二确定子单元,被配置为执行确定所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
第二计算子单元,被配置为执行分别计算所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
根据本公开实施例的第五方面,提供一种用户名识别模型的训练装置,包括:
构建模块,被配置为执行基于所述负用户名样本以及所述多个样本簇中的其余用户名样本,构建训练样本集,其中,所述训练样本集用于训练对用户名进行分类识别的用户名识别模型;
第一输入模块,被配置为执行将所述训练样本集输入神经网络文本分类模型,从所述神经网络文本分类模型的隐藏层获取第一样本特征向量;
第二输入模块,被配置为执行将所述训练样本集输入神经网络结构模型,从所述神经网络结构模型的隐藏层获取第二样本特征向量;
训练模块,被配置为执行将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
在一种可选的实施方式中,所述用户名识别模型的训练装置,还包括:
移除模块,被配置为执行若所述训练样本集中用户名样本的数量增加,和/或,所述训练样本集中用户名样本的正负样本类型信息发生变更,则移除所述用户名识别模型的输出层;
添加模块,被配置为执行在移除输出层后的用户名识别模型中增加预设数量的全连接层;
处理模块,被配置为执行基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对所述预设数量的全连接层进行训练,以得到更新后的所述用户名识别模型。
根据本公开实施例的第六方面,提供一种基于用户名识别模型的用户名识别装置,包括:
用户名获取模块,被配置为执行获取待识别的用户名;
输出模块,被配置为执行将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果
根据本公开实施例的第七方面,提供一种电子设备,包括:
处理器:用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述第一方面中任一项用户名样本的标注方法步骤或第二方面中任一项用户名识别模型的训练方法步骤或第三方面中任一项用户名识别方法的方法步骤。
根据本公开实施例的第八方面,提供一种存储介质,当所述存储介质中的指令由用户名识别模型的训练电子设备的处理器执行时,使得用户名识别模型的训练电子设备能够执行上述第一方面中任一项用户名样本的标注方法步骤或第二方面中任一项用户名识别模型的训练方法步骤或第三方面中任一项用户名识别方法的方法步骤。
根据本公开实施例的第九方面,提供一种计算机程序产品,当其在电子设备上运行时,使得用户名识别模型的训练电子设备执行:上述第一方面中任一项用户名样本的标注方法步骤或第二方面中任一项用户名识别模型的训练方法步骤或第三方面中任一项用户名识别方法的方法步骤。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开基于典型的异常用户名语义上往往比较近似的特点(比如利用脚本大批量生成的异常用户名,一般就具备这样的特点),通过根据各用户名样本的语义特征向量对用户名样本聚类,使得用户名样本类型信息相同的用户名样本可以聚集到一起,进而可以根据多个样本簇各自包含的用户名样本的指定特征,从多个样本簇中筛选出满足预定样本簇选取条件的样本簇(即疑似异常用户名聚集的簇),这样,可以方便对集中在一起的疑似异常用户名进行重点标注,避免了由于疑似异常用户名零散分布而导致无法集中对疑似异常用户名进行重点标注或者标注错误的问题,较好地控制了标注所带来的误差,从而提高用户名识别模型的识别结果的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种用户名样本的标注方法的流程图。
图2是根据一示例性实施例示出的一种用户名样本的标注方法的流程图。
图3是根据一示例性实施例示出的一种用户名样本的标注方法的流程图。
图4是根据一示例性实施例示出的一种用户名识别方法的流程图。
图5是根据一示例性实施例示出的一种用户名样本的标注装置的框图。
图6是根据一示例性实施例示出的一种用户名识别装置的框图。
图7是根据一示例性实施例示出的一种电子设备的硬件结构框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
实施例1
图1是根据一示例性实施例示出的一种用户名识样本的标注方法的流程图,如图1所示,通过该方法可以提高用户名识别模型识别结果的准确性。
该方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备。其中,所述服务器可以是单个服务器或者多个服务器。该方法可以包括以下步骤:
在步骤S101中,基于获取的各用户名样本的语义特征,对用户名样本进行聚类,以获得多个样本簇。
在一种实现方式中,执行步骤S101之前,还可以包括获取用户名样本。
用户名样本,是指获取能够作为模型训练样本的用户名。比如,如背景技术所述的用户名“珠穆朗玛峰、zmlmf、12345等”,都可以获取作为用户名样本。用户名样本比如可以是实际注册完成的用户名进行采集得到的。一般地,获取的用户名样本可以有若干个。
其中,用户名(英文名:Username),也称账户名,是可以用于唯一标识用户身份的信息。例如,用户名可以是网银账号、游戏账号、微信账号、论坛账号或者邮箱地址等等。其中,上述网银账号、游戏账号、微信账号、论坛账号或者邮箱地址等比如可以是用户的手机号或者身份证号,或者,为了便于记忆和输入,也可以利用或长或短的字符串(字符串,例如可以包括小写字母、大写字母、数字和特殊字符等)作为用户名,比如:AABBx-123,cc1234567等。
可选地,获取用户名样本时,例如可以是通过java服务器页面标准标签库(JavaServer Pages Standard Tag Library,JSPL)的方式进行获取。
需要说明的是,为了使得用户名识别模型的训练样本,能够尽可能全面覆盖各种类型的可能存在的用户名——包括异常用户名和合法用户名,通过步骤S101获取的用户名样本,除可以包含合法用户名外,还可以包含恶意用户利用脚本大批量生成并注册的异常用户名——比如“某某地区服装销售小能手cc-1”、“某某地区服装销售小能手cc-2”以及“某某地区服装销售小能手ss-2”,以及,比如带有色情暴力等元素的异常用户名,等。
以下在介绍步骤S101的具体实现方式前,先对本公开中采用“基于获取的各用户名样本的语义特征,对用户名样本进行聚类”这一技术手段的原因进行如下说明:
通常,用户名识别模型的训练方法过程中,包括预先对各用户名样本进行正负类型信息标注,以便可以根据用户名样本被标注的正样本类型信息,确定被标注了正样本类型信息的用户样本(即用户名正样本)的共有特征,以及被标注了正样本类型信息的用户样本(即用户名负样本)的共有特征,进而可以在后续过程中基于用户名正样本的共有特征以及用户名负样本的共有特征识别用户名进行用户名识别。
本公开实施例中,基于用户名样本的语义特征对用户名样本进行聚类,一方面是考虑到典型的异常用户名(比如利用脚本大批量生成的异常用户名,或语义均为色情暴力的用户名)语义上往往比较近似的特点,因此,可以基于用户名样本的语义特征对用户名样本进行聚类,从而有针对性地划分出异常用户名所在的样本簇。
另一方面,本公开实施例考虑对已经标注的正负样本类型信息,若用户名样本正负类型信息标注正确,那么对用户名样本进行聚类后,通常同一样本簇中仅可以包含用户名正样本或用户名负样本,因此,可以基于用户名样本的语义特征对用户名样本的聚类结果对标注的正负样本类型信息进行验证。
可选地,为了避免用户名样本中的重复词语或者错误的标点符号等的存在,导致针对用户名样本所确定的语义特征不准确,本公开实施例中,中,在获取各用户名样本的语义特征之前可以包括:对获取的各用户名样本进行预处理/清洗。
所述预处理/清洗可以包括但不限于如下操作:
去除用户名样本中的预设停用词——所述停用词比如包括“的”、“了”以及其他与用户名关联度较小的词;
去除用户名样本中的标点符号。
上述对用户名样本进行预处理/清洗的方法仅是一种实例性说明,并不对本公开造成任何限定。
可选地,对各用户名样本进行预处理后,可以采用Word2vec工具或连续空间词向量技术(Continuous Bag of Words,简称CBOW)等技术手段,来获取各用户名样本的语义特征向量。
例如,采用Word2vec方法时,可以将各用户名样本载入gensim库中的Word2vec模块,进而获取该Word2vec模块基于各用户名样本所输出的相应语义特征。
或者,本公开还可以通过循环神经网络和注意力机制获取各用户名样本的语义特征。本公开对于获取各用户名样本的语义特征的方式不作限定。
通过上述任意方式获取各用户名样本的语义特征后,则可以基于获取的各用户名样本的语义特征,对用户名样本进行聚类,以获得各样本簇。
例如,本公开可以利用聚类分析算法,例如均值漂移聚类算法等,基于获取的各用户名样本的语义特征对用户名样本进行聚类,以获得各样本簇。
或者,本公开可以随机选择k个语义特征向量作为初始均值向量,计算其余语义特征向量到各初始均值向量的距离,将距离相近的语义特征向量对应的用户名样本划分为同一类簇;然后计算新的均值向量,进行迭代,直至均值向量未更新或到达最大次数,以得到各样本簇。
在步骤S102中,根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇。
其中,样本簇的指定特征,可以表征样本簇中用户名样本是否为负样本类型。
在一种实现方式中,指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度。
样本簇选取条件,包括:样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
通过上述方法,可以根据典型的异常用户名语义上往往比较近似的特点(比如利用脚本大批量生成的异常用户名,一般就具备这样的特点),选取满足预定样本簇选取条件的样本簇。
在一种实现方式中,指定特征包括:样本簇中用户名样本被标注的正负样本类型相似度。
样本簇选取条件,包括:样本簇中用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
通过上述方法筛选出样本簇,可以将需要标注的样本限制在筛选出的样本簇的范围内,进而可以对筛选出的样本簇进行重点标注,这也就较好地控制了标注所带来的误差仅存在于一定范围内,从而提高标注的准确率。
可选地,本公开实施例中,将筛选出的样本簇作为输出结果输出之前,可以对筛选出的样本簇进行标识,以便可以识别该样本簇。或者,可以将筛选出的样本簇以及除筛选出的样本簇外的其余各样本簇输出到不同存储区域,以便区分。
在步骤S103中,将筛选出的样本簇中的用户名样本标注为负用户名样本。
如前所述,在实际场景中,获取的用户名样本可能存在“未标注有正负样本类型信息”和“标注有正负样本类型信息”的情况。
采用本公开实施例提供的方法,针对前一种情况而言,可以快速、准确地标注各用户名样本的正负样本类型信息,以确保构建的训练样本集中各用户名样本的正负样本类型信息的准确性;对于后一种情况,可以对正负样本类型信息的准确性进行校验与修正,以确保构建的训练样本集中各用户名样本的正负样本类型信息的准确性。
本公开针对上述两种情况,分别给出了步骤103具体的实施方式。以下进行具体介绍。
第一种实施方式:
本公开实施例中,接收筛选出的样本簇后,可以将筛选出的样本簇中的用户名样本标注为负用户名样本。
可选地,例如可以将筛选出的样本簇中的各用户名样本标注为负用户名样本,将除筛选出的样本簇以外的各样本簇中的用户名样本进行正样本类型信息标注。
其中,对各用户名样本标注时,例如可以通过编写脚本对筛选出的样本簇中的用户名样本进行负样本类型信息标注。或者,为了可以对筛选出的样本簇中的各用户名样本进行重点标注,还可以将接收到的筛选出的样本簇输出,以便标注人员可以进行重点标注。其中,上述两种标注方式仅是本公开实施例的一种示例性说明,并不对本公开造成任何限定。
本公开通过上述方式,可以保证训练样本集中各用户名样本的正负样本类型信息的准确性,避免了相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的情况,从而提高用户名识别模型的识别结果的准确性。
第二种实施方式:
本公开实施例中,接收筛选出的样本簇后,可以根据筛选出的样本簇各自包含的用户名样本的正负样本类型相似度,确定各用户名样本预先标注的正负样本类型信息是否正确;并且可以对预先标注的正负样本类型信息不正确的情况,进行修正,即更新标注。
通过上述方法,对于标注有正负样本类型信息的用户名样本而言,可以根据各样本簇各自包含的用户名样本的正负样本类型相似度对标注的正负样本类型信息作进一步校对,从而在用户名样本的正负样本类型信息标注不正确时,可以通过本公开的标注方式进行修正,这样,可以保证用户名样本标注结果的准确性,进而提高用户名识别模型的识别结果的准确度。
其中,第一种解决方案既适用于标注有正负样本类型信息的用户名样本,也适用于未标注有正负样本类型信息的用户名样本。第二种解决方案可以适用于标注有正负样本类型信息的用户名样本。
本公开基于典型的异常用户名语义上往往比较近似的特点(比如利用脚本大批量生成的异常用户名,一般就具备这样的特点),通过根据各用户名样本的语义特征向量对用户名样本聚类,使得用户名样本类型信息相同的用户名样本可以聚集到一起,进而可以根据多个样本簇各自包含的用户名样本的指定特征,从多个样本簇中筛选出满足预定样本簇选取条件的样本簇(即疑似异常用户名聚集的簇),这样,可以方便对集中在一起的疑似异常用户名进行重点标注,避免了由于疑似异常用户名零散分布而导致无法集中对疑似异常用户名进行重点标注或者标注错误的问题,较好地控制了标注所带来的误差,从而提高用户名识别模型的识别结果的准确性。
基于上述实施例的发明构思,本公开实施例还提供一种基于用户名样本的标注方法的用户名识别模型的训练方法,该方法包括:
基于负用户名样本以及多个样本簇中的其余用户名样本,构建训练样本集,其中,训练样本集用于训练对用户名进行分类识别的用户名识别模型;
在一种实现方式中,例如,可以基于标注有正样本类型信息的用户名样本以及标注有负样本类型信息的用户名样本,构建训练样本集。
或者,在一种实现方式中,可以基于修正后的样本簇以及其余用户名样本类型信息标注正确的样本簇,构建训练样本集。
可选地,本公开实施例中训练用于对用户名进行分类识别的用户名识别模型时,可以将训练样本集输入预先训练好的卷积神经网络文本分类模型的卷积层,通过卷积层对训练样本集进行卷积运算,获得训练样本集中各用户名样本的特征信息(为区分描述,称为第一特征信息)。
其中,预先训练好的卷积神经网络文本分类模型用于获取训练样本集的特征信息,该模型的参数在训练过程中不进行更新。
例如,可先将训练样本集输入预先训练好的卷积神经网络文本分类模型的卷积层,在卷积层中可先建立尺度为1、3、5的一维卷积核,分别对训练样本集进行卷积运算以提取训练样本集中各用户名样本的第一特征信息,其中,不同尺寸的卷积核得到的第一特征信息维度不同。
需要说明的是,将训练样本集输入卷积神经网络文本分类模型的卷积层之前,可以移除卷积神经网络文本分类模型的输出层,以便对训练样本集进行卷积运算后,可以从卷积神经网络文本分类模型的隐藏层中获取各用户名样本全面的特征信息。
可选地,为了使得各尺寸的卷积核对应的第一特征信息的维度相同,本公开可以依次对不同尺寸的卷积核下的第一特征信息进行池化操作,其中,池化操作例如可以是最大池化操作(Max Pooling)或均值池化操作(Average Pooling),进而提取不同尺寸的卷积核下的第一特征信息的最大值。
提取不同尺寸的卷积核下的第一特征信息的最大值后,还可以包括对最大值结果进行拼接,得到第一特征向量。
可选地,得到第一特征向量后,还可以包括将训练样本集输入神经网络结构模型,从神经网络结构模型的隐藏层获取第二特征向量。其中,神经网络结构模型的参数可以是随机初始化,未经过训练的。
将得到的第一特征向量以及第二特征向量进行拼接,然后,基于第一特征向量和第二特征向量拼接后的结果添加一个或多个全连接层,以构建用于对用户名进行分类识别的用户名识别模型。
构建用于对用户名进行分类识别的用户名识别模型后,还包括将训练样本集输入用户名识别模型,进行模型训练。
可选地,从用户名识别模型获取输出结果后,还可以利用softmax函数将该输出结果映射到(0,1)之间,用于表示用户名样本为正样本和/或用户名为负样本的概率。
需要说明的是,由于模型训练过程中,可能出现新增用户名样本或者训练样本集中的用户名样本的正负样本类型信息发生变更的情况,从而可能出现用户名识别模型的识别性能与训练样本集不匹配的问题。
为了避免上述问题,本公开还包括对用户名识别模型进行更新,进行更新时可以但不限于采用如下方式:
若检测到训练样本集中用户名样本的数量增加和/或训练样本集中用户名样本的正负样本类型信息发生变更,则移除用户名识别模型的输出层;
在移除输出层后的用户名识别模型中增加预设数量的全连接层;
基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对预设数量的全连接层进行训练,以得到更新后的用户名识别模型。
通过上述方法更新用户名识别模型时,无需每次都进行用户名识别模型的全量参数拷贝,可以仅基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对预设数量的全连接层进行训练即可,这样,可以提高用户名识别模型的更新效率,减少工作量。
以下通过介绍实施例2,对本公开实施例1提供的用户名样本的标注方法中的一种可选方式进行详细说明。
实施例2
图2是根据一示例性实施例示出的一种用户名样本的标注方法的流程图,如图2所示,步骤S102中根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括如下步骤S201~步骤S202:
样本簇的指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度;
样本簇选取条件,包括:样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
在步骤S201中,计算各样本簇中用户名样本之间的语义特征平均相似度;
在一种可选的实施方式中,计算各样本簇中用户名样本之间的语义特征平均相似度包括:
确定各样本簇的聚类中心点对应的用户名样本的语义中心向量。
可选地,假设通过上述步骤S102,将样本的语义特征向量聚类为N个簇,则每个簇具有对应的聚类中心,即样本簇的中心点。可以理解,每个聚类中心可以用一个与语义特征向量同样维度的向量来表示,此处称为语义中心向量。
计算各样本簇中各用户名样本的语义特征向量与各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
在步骤S202中,从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇。
本公开通过对异常用户名的特点进行分析,发现异常用户名由于通常是通过脚本批量注册的,因此异常用户名样本彼此之间在语义上往往比较相似(即用户名语义特征向量之间距离接近),因此本公开考虑采用选取平均距离小于指定距离阈值的样本簇的技术手段,来选取满足预定选取条件的样本簇。
或者,本公开得到各样本簇对应的平均距离后,可以基于平均距离两两比较,然后从较小平均距离中选取出若干平均距离较小的样本簇,作为满足预定选取条件的样本簇。
例如,假设用户名样本通过聚类后划分为10个样本簇并分别计算得到10个样本簇的平均距离,则可以基于该10个样本簇的平均距离进行两两比较,然后选取平均距离较小的3个样本簇,作为满足预定选取条件的样本簇。
本公开通过上述方式,可以保证训练样本集中各用户名样本的正负样本类型信息的准确性,避免了相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的情况,从而提高用户名识别模型的识别结果的准确性。
出于与上述实施例1相同的发明构思,本公开还提供一种用户名样本的标注方法的流程图,用以解决相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的问题。
以下通过介绍实施例3,对本公开实施例1提供的用户名样本的标注方法中的一种可选方式进行详细说明。
实施例3
图3是根据一示例性实施例示出的一种用户名样本的标注方法的流程图,如图3所示,步骤S102中根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括如下步骤S301和步骤S302:
其中,样本簇的指定特征,包括:样本簇中用户名样本被标注的正负样本类型相似度;
预定样本簇选取条件,包括:样本簇中用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
在步骤S301中,计算各样本簇中用户名样本之间的被标注的正负样本类型相似度。
在一种可选的实施方式中,例如可以采用如下方式计算各样本簇中用户名样本之间的被标注的正负样本类型相似度:
确定各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
分别计算各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
通常情况下,若用户名样本正负类型信息标注正确,则得到的各样本簇中,针对同一个簇而言,其中所有用户名样本的正负样本类型信息一般说来均相同。相反,若用户名样本正负类型信息标注错误,则得到的各样本簇中,针对同一个簇而言,其中各用户名样本的正负样本类型信息不完全相同。
基于该思想,本公开可以通过各样本簇各自包含的用户名样本的正负样本类型相似度进而确定各样本簇各自包含的用户名样本的正负样本类型信息是否标注正确,且对于正负样本类型信息标注错误的用户名样本可以进行修正。
可选地,针对各样本簇中各用户名样本标注有正负样本类型信息的情况,本公开确定各样本簇各自包含的用户名样本的正负样本类型相似度时,可以通过分别计算各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值的方式,确定各样本簇各自包含的用户名样本的正负样本类型相似度。
在步骤S302中,从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,预定样本簇选取条件包括样本簇中用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
由于样本簇中各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值越接近1,其簇中各用户名样本的正负类型信息标注错误的可能性越大,因此,本公开考虑通过选取与1的差值小于预设差值阈值的比值对应的样本簇,作为用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,以便后续可以对筛选出的样本簇中的用户名正负样本类型信息进行修正。
所述的预设差值阈值可以预先根据需要进行设置,比如可以设置为0.1。
在一种实现方式中,执行完步骤S302后,还可以包括对选取的样本簇中的用户名样本的正负样本类型信息进行修正,以获得修正后的样本簇构建训练样本集。
例如,假设选取出与1的差值小于预设差值阈值的比值对应的样本簇A,则可以将该样本簇A中的用户名样本输出到服务器的存储空间,以便标注人员可以从服务器的存储空间获取该样本簇并对样本簇中的用户名样本的正负样本类型信息进行修正。
或者,为了提高用户名样本正负样本类型性信息的标注效率,本公开可以考虑将选取与1的差值小于预设差值阈值的比值对应的样本簇丢弃,以对样本簇进行修正。
对选取的样本簇中的用户名样本的正负样本类型信息进行修正后,可以基于修正后的样本簇以及步骤S302中与1的差值大于等于预设差值阈值的比值对应的样本簇,构建训练样本集。
采用本公开实施例提供的方法,可以保证训练样本集中各用户名样本的正负样本类型信息的准确性,避免了相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的情况,从而提高用户名识别模型的识别结果的准确性。
出于与上述实施例1相同的发明构思,本公开还提供一种基于用户名识别模型的训练方法的用户名识别方法的流程图,用以对用户名样本进行识别。
以下通过介绍实施例4,对本公开提供的用户名识别方法进行详细说明。
实施例4
图4是根据一示例性实施例示出的一种基于用户名识别模型的用户名识别方法的流程图,如图4所示,基于用户名识别模型的用户名识别方法用于网络服务器,通过该方法可以解决相关技术中用户名识别结果不准确的问题,该方法的执行主体包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备。其中,所述服务器可以是单个网络服务器或者多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云。该方法可以包括以下步骤:
在步骤S401中,获取待识别的用户名;
在步骤S402中,将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
其中,识别结果可以为待识别的用户名的正常概率值和/或异常概率值。
可选地,用户名识别模型可以但不限于采用上述图1示出的用户名识别模型的训练方法训练得到。其中,针对用户名识别模型的训练方法的相关描述可参照图1示出的内容,为避免赘述,此处不再说明。
预先训练好用户名识别模型后,当获取到待识别的用户名时,可以将待识别的用户名输入预先训练好的用户名识别模型,以便用户名识别模型可以输出该用户名为正样本和/或负样本的概率。
例如,本公开可以根据实际要求设置[0,1]之间的正常临界阈值p和异常临界阈值q,(其中,p>q)当用户名识别模型输出的正类概率大于p时,则认为用户名正常;当用户名识别模型输出的正类概率小于q时,则认为该用户名违规,需进行进一步处理,例如交由人工审核。
采用本公开提供的实施例,可以保证训练样本集中各用户名样本的正负样本类型信息的准确性,避免了相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的情况,从而提高用户名识别结果的准确性。
出于与上述实施例1相同的发明构思,本公开还提供一种用户名识别模型的训练装置框图,用以解决相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的问题。
以下通过介绍实施例5,对本公开提供的用户名识别模型的训练装置进行详细说明。
实施例5
图5是根据一示例性实施例示出的一种用户名识别模型的训练装置框图。参照图5,该装置包括样本聚类模块501、筛选模块502、标注模块503。
聚类模块501,被配置为执行基于获取的各用户名样本的语义特征,对用户名样本进行聚类,以获得多个样本簇;
筛选模块502,被配置为执行根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇;其中,指定特征表征样本簇中用户名样本是否为负样本类型;样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
标注模块503,被配置为执行将筛选出的样本簇中的用户名样本标注为负用户名样本。
在一种可选的实施方式中,指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,筛选模块,包括:
语义相似度计算单元,被配置为执行计算各样本簇中用户名样本之间的语义特征平均相似度;
第一筛选单元,被配置为执行从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
在一种可选的实施方式中,语义相似度计算单元,包括:
第一确定子单元,被配置为执行确定各样本簇的聚类中心点对应的用户名样本的语义中心向量;
第一计算子单元,被配置为执行计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
在一种可选的实施方式中,指定特征包括:样本簇中用户名样本被标注的正负样本类型相似度,其中,筛选模块,包括:
类型相似度计算单元,被配置为执行计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
第二筛选单元,被配置为执行从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,预定样本簇选取条件包括样本簇中用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
在一种实施方式中,类型相似度计算单元,包括:
第二确定子单元,被配置为执行确定所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
第二计算子单元,被配置为执行分别计算各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
本公开提供的装置,基于典型的异常用户名语义上往往比较近似的特点(比如利用脚本大批量生成的异常用户名,一般就具备这样的特点),通过根据各用户名样本的语义特征向量对用户名样本聚类,使得用户名样本类型信息相同的用户名样本可以聚集到一起,进而可以根据多个样本簇各自包含的用户名样本的指定特征,从多个样本簇中筛选出满足预定样本簇选取条件的样本簇(即疑似异常用户名聚集的簇),这样,可以方便对集中在一起的疑似异常用户名进行重点标注,避免了由于疑似异常用户名零散分布而导致无法集中对疑似异常用户名进行重点标注或者标注错误的问题,较好地控制了标注所带来的误差,从而提高用户名识别模型的识别结果的准确性。
出于与上述实施例4相同的发明构思,本公开还提供一种用户名识别装置的框图,用以对用户名样本进行识别。
以下通过介绍实施例6,对本公开提供的用户名识别装置进行详细说明。
图6是根据一示例性实施例示出的一种基于用户名识别模型的用户名识别装置框图。参照图6,该装置包括样用户名获取模块和输出模块。
用户名获取模块601,被配置为执行获取待识别的用户名;
输出模块602,被配置为执行将所述待识别的用户名输入预先训练好的用户名识别模型,输出识别结果;其中,所述识别结果为所述待识别的用户名的正常概率值和/或异常概率值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
采用本公开提供的装置,可以保证训练样本集中各用户名样本的正负样本类型信息的准确性,避免了相关技术中单纯由人工对用户名样本进行正负样本类型信息标注时导致的标注结果不准确的情况,从而提高用户名识别结果的准确性。
实施例7
图7是根据一示例性实施例示出的一种电子设备的硬件结构示意图。如图7所示,电子设备700包括但不限于:射频单元701、网络模块702、音频输出单元703、输入单元704、传感器705、显示单元706、用户输入单元707、接口单元708、存储器709、处理器710、以及电源711等部件。
本领域技术人员可以理解,图7中示出的电子设备结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。在本公开实施例中,电子设备包括但不限于手机、平板电脑、笔记本电脑、掌上电脑、车载终端、可穿戴设备、以及计步器等。
其中,处理器710,耦合到所述存储器,用于:
基于获取的各用户名样本的语义特征向量,对用户名样本进行聚类,以获得多个样本簇;
根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇;其中,指定特征表征样本簇中用户名样本是否为负样本类型;样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
将筛选出的样本簇中的用户名样本标注为负用户名样本。
在一种可选的实施方式中,指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度;样本簇选取条件,包括:样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
可选地,若指定特征包括样本簇中不同用户名样本之间的语义特征平均相似度,则根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的语义特征平均相似度;
从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
可选地,计算各样本簇中用户名样本之间的语义特征平均相似度,包括:
确定各样本簇的聚类中心点对应的用户名样本的语义中心向量;
计算各样本簇中各用户名样本的语义特征向量与各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
在一种可选的实施方式中,指定特征,包括:样本簇中用户名样本被标注的正负样本类型相似度;
样本簇选取条件,包括:样本簇中用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
可选地,若指定特征包括样本簇中用户名样本被标注的正负样本类型相似度,则根据多个样本簇各自的指定特征,从多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,样本簇选取条件包括样本簇中所述用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
在一种可选的实施方式中,计算各样本簇中用户名样本的正负样本类型相似度,可以包括:
确定各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
分别计算各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
可选地,基于训练样本集,训练用于对用户名进行分类识别的用户名识别模型,包括:
基于负用户名样本以及多个样本簇中的其余用户名样本,构建训练样本集,其中,训练样本集用于训练对用户名进行分类识别的用户名识别模型;
将训练样本集输入神经网络文本分类模型,从神经网络文本分类模型的隐藏层获取第一特征向量;
将训练样本集输入神经网络结构模型,从神经网络结构模型的隐藏层获取第二特征向量;
以所述第一特征向量和所述第二特征向量作为训练样本,训练用于对用户名进行分类识别的用户名识别模型。
在一种实现方式中,处理器还可以用于:
若训练样本集中用户名样本的数量增加,和/或,训练样本集中用户名样本的正负样本类型信息发生变更,则移除用户名识别模型的输出层;
在移除输出层后的用户名识别模型中增加预设数量的全连接层;
基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对预设数量的全连接层进行训练,以得到更新后的用户名识别模型。
或者,处理器还可以用于:
获取待识别的用户名;
将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
存储器709,用于存储可在处理器710上运行的计算机程序,该计算机程序被处理器710执行时,实现处理器710所实现的上述功能。
应理解的是,本公开实施例中,射频单元701可用于收发信息或通话过程中,信号的接收和发送,具体的,将来自基站的下行数据接收后,给处理器710处理;另外,将上行的数据发送给基站。通常,射频单元701包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器、双工器等。此外,射频单元701还可以通过无线通信***与网络和其他设备通信。
电子设备通过网络模块702为用户提供了无线的宽带互联网访问,如帮助用户收发电子邮件、浏览网页和访问流式媒体等。
音频输出单元703可以将射频单元701或网络模块702接收的或者在存储器709中存储的音频数据转换成音频信号并且输出为声音。而且,音频输出单元703还可以提供与电子设备700执行的特定功能相关的音频输出(例如,呼叫信号接收声音、消息接收声音等等)。音频输出单元703包括扬声器、蜂鸣器以及受话器等。
输入单元704用于接收音频或视频信号。输入单元704可以包括图形处理器(Graphics Processing Unit,GPU)7041和麦克风7042,图形处理器7041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。处理后的图像帧可以显示在显示单元706上。经图形处理器7041处理后的图像帧可以存储在存储器709(或其它存储介质)中或者经由射频单元701或网络模块702进行发送。麦克7042可以接收声音,并且能够将这样的声音处理为音频数据。处理后的音频数据可以在电话通话模式的情况下转换为可经由射频单元701发送到移动通信基站的格式输出。
电子设备700还包括至少一种传感器705,比如光传感器、运动传感器以及其他传感器。具体地,光传感器包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板7061的亮度,接近传感器可在电子设备700移动到耳边时,关闭显示面板7061和/或背光。作为运动传感器的一种,加速计传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别电子设备姿态(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;传感器705还可以包括指纹传感器、压力传感器、虹膜传感器、分子传感器、陀螺仪、气压计、湿度计、温度计、红外线传感器等,在此不再赘述。
显示单元706用于显示由用户输入的信息或提供给用户的信息。显示单元706可包括显示面板7061,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板7061。
用户输入单元707可用于接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。具体地,用户输入单元707包括触控面板7071以及其他输入设备7072。触控面板7071,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板7071上或在触控面板7071附近的操作)。触控面板7071可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器710,接收处理器710发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板7071。除了触控面板7071,用户输入单元707还可以包括其他输入设备7072。具体地,其他输入设备7072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆,在此不再赘述。
进一步的,触控面板7071可覆盖在显示面板7061上,当触控面板7071检测到在其上或附近的触摸操作后,传送给处理器710以确定触摸事件的类型,随后处理器710根据触摸事件的类型在显示面板7061上提供相应的视觉输出。虽然在图7中,触控面板7071与显示面板7061是作为两个独立的部件来实现电子设备的输入和输出功能,但是在某些实施例中,可以将触控面板7071与显示面板7061集成而实现电子设备的输入和输出功能,具体此处不做限定。
接口单元708为外部装置与电子设备700连接的接口。例如,外部装置可以包括有线或无线头戴式耳机端口、外部电源(或电池充电器)端口、有线或无线数据端口、存储卡端口、用于连接具有识别模块的装置的端口、音频输入/输出(I/O)端口、视频I/O端口、耳机端口等等。接口单元708可以用于接收来自外部装置的输入(例如,数据信息、电力等等)并且将接收到的输入传输到电子设备700内的一个或多个元件或者可以用于在电子设备700和外部装置之间传输数据。
存储器709可用于存储软件程序以及各种数据。存储器709可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器709可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器710是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器709内的软件程序和/或模块,以及调用存储在存储器709内的数据,执行电子设备的各种功能和处理数据,从而对电子设备进行整体监控。处理器710可包括一个或多个处理单元;优选的,处理器710可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作***、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器710中。
电子设备700还可以包括给各个部件供电的电源711(比如电池),优选的,电源711可以通过电源管理***与处理器710逻辑相连,从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。
另外,电子设备700包括一些未示出的功能模块,在此不再赘述。
在示例性实施例中,还提供了一种包括指令的存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中所述任意一种方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (18)
1.一种用户名样本的标注方法,其特征在于,包括:
基于获取的各用户名样本的语义特征,对所述用户名样本进行聚类,以获得多个样本簇;
根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,其中,所述指定特征用于表征样本簇中用户名样本是否为负样本类型,所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
将筛选出的样本簇中的用户名样本标注为负用户名样本。
2.根据权利要求1所述的标注方法,其特征在于,所述指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的语义特征平均相似度;
从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
3.根据权利要求2所述的标注方法,其特征在于,计算各样本簇中用户名样本之间的语义特征平均相似度包括:
确定所述各样本簇的聚类中心点对应的用户名样本的语义中心向量;
计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
4.根据权利要求1所述的标注方法,其特征在于,所述指定特征包括:样本簇中所述用户名样本被标注的正负样本类型相似度,其中,所述根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,包括:
计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中所述用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
5.根据权利要求4所述的标注方法,其特征在于,计算各样本簇中用户名样本的正负样本类型相似度,包括:
确定所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
分别计算所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
6.一种基于如权利要求1所述的用户名样本的标注方法的用户名识别模型的训练方法,其特征在于,所述训练方法包括:
基于所述负用户名样本以及所述多个样本簇中的其余用户名样本,构建训练样本集,其中,所述训练样本集用于训练对用户名进行分类识别的用户名识别模型;
将所述训练样本集输入神经网络文本分类模型,从所述神经网络文本分类模型的隐藏层获取第一特征向量;
将所述训练样本集输入神经网络结构模型,从所述神经网络结构模型的隐藏层获取第二特征向量;
以所述第一特征向量和所述第二特征向量作为训练样本,训练用于对用户名进行分类识别的用户名识别模型。
7.根据权利要求6所述的训练方法,其特征在于,所述训练方法还包括:
若所述训练样本集中用户名样本的数量增加,和/或,所述训练样本集中用户名样本的正负样本类型信息发生变更,则移除所述用户名识别模型的输出层;
在移除输出层后的用户名识别模型中增加预设数量的全连接层;
基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对所述预设数量的全连接层进行训练,以得到更新后的所述用户名识别模型。
8.一种基于如权利要求6所述的用户名识别模型的训练方法的用户名识别方法,其特征在于,所述识别方法包括:
获取待识别的用户名;
将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
9.一种用户名样本的标注装置,其特征在于,包括:
聚类模块,被配置为执行基于获取的各用户名样本的语义特征,对所述用户名样本进行聚类,以获得多个样本簇;
筛选模块,被配置为执行根据所述多个样本簇各自的指定特征,从所述多个样本簇中筛选满足预定样本簇选取条件的样本簇,其中,所述指定特征用于表征样本簇中用户名样本是否为负样本类型,所述样本簇选取条件,基于预先被识别为异常用户名所构成的样本簇的指定特征统计结果确定;
标注模块,被配置为执行将筛选出的样本簇中的用户名样本标注为负用户名样本。
10.根据权利要求9所述的标注装置,其特征在于,所述指定特征包括:样本簇中不同用户名样本之间的语义特征平均相似度,其中,所述筛选模块,包括:
语义相似度计算单元,被配置为执行计算各样本簇中用户名样本之间的语义特征平均相似度;
第一筛选单元,被配置为执行从样本簇中筛选,语义特征平均相似度大于语义相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中不同用户名样本之间的语义特征平均相似度大于语义相似度阈值。
11.根据权利要求10所述的标注装置,其特征在于,所述语义相似度计算单元,包括:
第一确定子单元,被配置为执行确定所述各样本簇的聚类中心点对应的用户名样本的语义中心向量;
第一计算子单元,被配置为执行计算所述各样本簇中各用户名样本的语义特征向量与所述各样本簇各自的聚类中心点对应的用户名样本的语义中心向量的平均距离,得到样本簇中用户名样本之间的语义特征平均相似度。
12.根据权利要求9所述的标注装置,其特征在于,所述指定特征包括:样本簇中所述用户名样本被标注的正负样本类型相似度,其中,所述筛选模块,包括:
类型相似度计算单元,被配置为执行计算各样本簇中用户名样本之间的被标注的正负样本类型相似度;
第二筛选单元,被配置为执行从样本簇中筛选,用户名样本被标注的正负样本类型相似度小于类型相似度阈值的样本簇,其中,所述预定样本簇选取条件包括样本簇中所述用户名样本被标注的正负样本类型相似度小于类型相似度阈值。
13.根据权利要求12所述的标注装置,其特征在于,所述类型相似度计算单元,包括:
第二确定子单元,被配置为执行确定所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量;
第二计算子单元,被配置为执行分别计算所述各样本簇中正样本类型的用户名样本的数量与负样本类型的用户名样本的数量的比值,作为各样本簇各自包含的用户名样本的正负样本类型相似度。
14.一种基于如权利要求9所述的用户名样本的标注装置的用户名识别模型的训练装置,其特征在于,所述训练装置包括:
构建模块,被配置为执行基于所述负用户名样本以及所述多个样本簇中的其余用户名样本,构建训练样本集,其中,所述训练样本集用于训练对用户名进行分类识别的用户名识别模型;
第一输入模块,被配置为执行将所述训练样本集输入神经网络文本分类模型,从所述神经网络文本分类模型的隐藏层获取第一特征向量;
第二输入模块,被配置为执行将所述训练样本集输入神经网络结构模型,从所述神经网络结构模型的隐藏层获取第二特征向量;
训练模块,被配置为执行以所述第一特征向量和所述第二特征向量作为训练样本,训练用于对用户名进行分类识别的用户名识别模型。
15.根据权利要求14所述的训练装置,其特征在于,所述训练装置还包括:
移除模块,被配置为执行若所述训练样本集中用户名样本的数量增加,和/或,所述训练样本集中用户名样本的正负样本类型信息发生变更,则移除所述用户名识别模型的输出层;
添加模块,被配置为执行在移除输出层后的用户名识别模型中增加预设数量的全连接层;
处理模块,被配置为执行基于增加的训练样本和/或正负样本类型信息发生变更的用户名样本对所述预设数量的全连接层进行训练,以得到更新后的所述用户名识别模型。
16.一种基于如权利要求14所述的用户名识别模型的训练装置的用户名识别装置,其特征在于,所述识别装置包括:
用户名获取模块,被配置为执行获取待识别的用户名;
输出模块,被配置为执行将所述待识别的用户名输入训练好的用户名识别模型进行识别,以获得所述训练好的用户名识别模型输出的识别结果。
17.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的用户名样本的标注方法或如权利要求6-7所述的用户名识别模型的训练方法或如权利要求8所述的用户名识别方法。
18.一种存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至5中任一项所述的用户名样本的标注方法或如权利要求6-7所述的用户名识别模型的训练方法或如权利要求8所述的用户名识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038362.5A CN113190646B (zh) | 2020-01-14 | 2020-01-14 | 一种用户名样本的标注方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010038362.5A CN113190646B (zh) | 2020-01-14 | 2020-01-14 | 一种用户名样本的标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113190646A CN113190646A (zh) | 2021-07-30 |
CN113190646B true CN113190646B (zh) | 2024-05-07 |
Family
ID=76972683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010038362.5A Active CN113190646B (zh) | 2020-01-14 | 2020-01-14 | 一种用户名样本的标注方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113190646B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113447928B (zh) * | 2021-08-30 | 2022-01-21 | 广东电网有限责任公司湛江供电局 | 一种基于合成孔径雷达的降虚警率目标识别方法和*** |
CN113988176A (zh) * | 2021-10-27 | 2022-01-28 | 支付宝(杭州)信息技术有限公司 | 样本标注方法和装置 |
CN114418752B (zh) * | 2022-03-28 | 2022-07-12 | 北京芯盾时代科技有限公司 | 无类型标签用户数据的处理方法、装置、电子设备和介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107194430A (zh) * | 2017-05-27 | 2017-09-22 | 北京三快在线科技有限公司 | 一种样本筛选方法及装置,电子设备 |
CN108616491A (zh) * | 2016-12-13 | 2018-10-02 | 北京酷智科技有限公司 | 一种恶意用户的识别方法和*** |
CN109284380A (zh) * | 2018-09-25 | 2019-01-29 | 平安科技(深圳)有限公司 | 基于大数据分析的非法用户识别方法及装置、电子设备 |
CN110309297A (zh) * | 2018-03-16 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 垃圾文本检测方法、可读存储介质和计算机设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107346448B (zh) * | 2016-05-06 | 2021-12-21 | 富士通株式会社 | 基于深度神经网络的识别装置、训练装置及方法 |
-
2020
- 2020-01-14 CN CN202010038362.5A patent/CN113190646B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108616491A (zh) * | 2016-12-13 | 2018-10-02 | 北京酷智科技有限公司 | 一种恶意用户的识别方法和*** |
CN107194430A (zh) * | 2017-05-27 | 2017-09-22 | 北京三快在线科技有限公司 | 一种样本筛选方法及装置,电子设备 |
CN110309297A (zh) * | 2018-03-16 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 垃圾文本检测方法、可读存储介质和计算机设备 |
CN109284380A (zh) * | 2018-09-25 | 2019-01-29 | 平安科技(深圳)有限公司 | 基于大数据分析的非法用户识别方法及装置、电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113190646A (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11449857B2 (en) | Code scanning method, code scanning device and mobile terminal | |
US10169639B2 (en) | Method for fingerprint template update and terminal device | |
CN113190646B (zh) | 一种用户名样本的标注方法、装置、电子设备及存储介质 | |
CN109947650B (zh) | 脚本步骤处理方法、装置和*** | |
CN111368290A (zh) | 一种数据异常检测方法、装置及终端设备 | |
CN108427873B (zh) | 一种生物特征识别方法及移动终端 | |
CN110162653B (zh) | 一种图文排序推荐方法及终端设备 | |
CN111177180A (zh) | 一种数据查询方法、装置以及电子设备 | |
CN112820299B (zh) | 声纹识别模型训练方法、装置及相关设备 | |
CN109951889B (zh) | 一种物联网配网方法及移动终端 | |
CN111159338A (zh) | 一种恶意文本的检测方法、装置、电子设备及存储介质 | |
WO2017088434A1 (zh) | 人脸模型矩阵训练方法、装置及存储介质 | |
CN109726121B (zh) | 一种验证码获取方法和终端设备 | |
CN116070114A (zh) | 数据集的构建方法、装置、电子设备及存储介质 | |
CN109815349B (zh) | 一种信息获取方法及终端设备 | |
CN106055958B (zh) | 一种解锁方法及装置 | |
CN108304369B (zh) | 一种文件类型的识别方法和装置 | |
CN109670105B (zh) | 搜索方法及移动终端 | |
CN116958715A (zh) | 一种手部关键点的检测方法、装置以及存储介质 | |
CN116307394A (zh) | 产品用户体验评分方法、装置、介质及设备 | |
CN114399028B (zh) | 信息处理方法、图卷积神经网络训练方法及电子设备 | |
CN111353422B (zh) | 信息提取方法、装置及电子设备 | |
CN111753047B (zh) | 一种文本处理方法及装置 | |
CN111610913B (zh) | 一种消息鉴别方法、装置及电子设备 | |
CN109739998B (zh) | 一种信息分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |