CN112989810B - 文本信息的识别方法、装置及服务器、存储介质 - Google Patents

文本信息的识别方法、装置及服务器、存储介质 Download PDF

Info

Publication number
CN112989810B
CN112989810B CN201911304665.0A CN201911304665A CN112989810B CN 112989810 B CN112989810 B CN 112989810B CN 201911304665 A CN201911304665 A CN 201911304665A CN 112989810 B CN112989810 B CN 112989810B
Authority
CN
China
Prior art keywords
text
recognition
recognized
pinyin
abnormal content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911304665.0A
Other languages
English (en)
Other versions
CN112989810A (zh
Inventor
周侃
郭庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN201911304665.0A priority Critical patent/CN112989810B/zh
Publication of CN112989810A publication Critical patent/CN112989810A/zh
Application granted granted Critical
Publication of CN112989810B publication Critical patent/CN112989810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本公开关于一种文本信息的识别方法、装置及服务器、存储介质,涉及文本处理领域。首先通过对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果;基于各第一识别结果,确定待识别文本中是否存在异常内容,丰富了被识别文本的内容,从而对存在异常内容的待识别文本的识别的精确度更高,即便是在社交应用中对存在异常内容的待识别文本进行转换变化,文本识别模型也能识别出转换变化后的待识别文本中存在异常内容,以便对存在异常内容的待识别样本进行精准屏蔽。

Description

文本信息的识别方法、装置及服务器、存储介质
技术领域
本公开涉及文本处理领域,尤其涉及一种文本信息的识别方法、装置及服务器、存储介质。
背景技术
随着移动互联网的发展,安装于用户终端的一些社交应用的发展有着长足的进步和发展,多数社交应用包括了编辑个人简介、发表个人动态和发表评论的等功能,以便让用户从不同的角度向他人展示自己。但是,有的用户为了增长关注度或获取不法利益等目的,其个人简介、发表个人动态和发表评论等描述违反道德法律,给网络环境造成了不良影响,因此,需要对社交应用中的违规的描述进行屏蔽。
相关技术中,通常建立有建立违规词库,通过将社交应用中的描述与违规词库中的内容进行匹配,确定并屏蔽违规文本。但是如果违规词库中的内容不够丰富,或者如果用户掌握违规词库中的具体内容,对社交应用中的描述进行转换变化,导致绕过与违规词库中的内容匹配,因而,上述对社交应用中的违规描述屏蔽不够精确。
发明内容
本公开提供一种文本信息的识别方法、装置及服务器、存储介质,以至少解决相关技术的对社交应用中的违规描述屏蔽不够精确的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种文本信息的识别方法,包括:
获取待识别文本;
对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,所述第一识别结果用于表示各对应文本中是否存在异常内容;
基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容。
可选地,所述基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容包括:
如果各第一识别结果中至少有一个第一识别结果表征对应的文本中存在异常内容,则确定出所述待识别文本中存在异常内容。
可选地,所述对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本,包括:
若所述文本的类型包括文字类型,则将文字类型的所述文本转换为拼音;
若所述文本的类型包括拼音类型,则将拼音类型的所述文本转换为文字。
可选地,所述将对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果包括:经文字识别模型对文字类型的文本进行识别得到其中一个第一识别结果,将经拼音识别模型对拼音类型的文本进行识别得到另一个第一识别结果,
其中,所述文字识别模型为预先根据携带类别标识的历史文字样本、携带类别标识的历史文字样本的对抗文本构成的训练样本集训练而成,且每个历史文字样本的类别标识与其对抗文本的类别标识相同,所述拼音识别模型为预先根据携带类别标识的历史拼音样本、携带类别标识的历史拼音样本的对抗文本构成的训练样本集训练而成,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
可选地,所述方法还包括:
如果确定所述待识别文本中不存在异常内容,则经文字嵌入模型将文字类型的文本处理为文本向量以及经拼音嵌入模型将拼音类型的文本处理为文本向量;
确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度,其中,所述历史负类文本向量为预先被进行内容识别确定不存在异常内容而实际存在异常内容的文本向量;
根据得到的多个相似度,确定针对所述待识别文本的第二识别结果,其中,所述第二识别结果用于表示所述待识别文本中是否存在异常内容。
可选地,如果所述第二识别结果表征所述待识别文本中不存在异常内容而所述待识别文本的实际存在异常内容时,将所述待识别文本的文本向量添加入预设的历史负类文本向量库中。
根据本公开实施例的第二方面,提供一种文本信息的识别装置,包括:
信息获取单元,被配置成执行获取待识别文本;
文本转换单元,被配置成执行对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
文本识别单元,被配置成执行对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,所述第一识别结果用于表示各对应文本中是否存在异常内容;
结果确定单元,被配置成执行基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容。
可选地,所述结果确定单元,被具体配置成执行如果各第一识别结果中至少有一个第一识别结果表征待识别文本或转换后的文本存在异常内容,则确定所述待识别文本中存在异常内容。
可选地,所述文本转换单元被具体配置成执行
若所述文本的类型包括文字类型,则将文字类型的所述文本转换为拼音;若所述文本的类型包括拼音类型,则将拼音类型的所述文本转换为文字。
可选地,所述文本识别单元,被具体配置成执行经文字识别模型对文字类型的文本进行识别得到其中一个第一识别结果,将经拼音识别模型对拼音类型的文本进行识别得到另一个第一识别结果,
其中,所述文字识别模型为预先根据携带类别标识的历史文字样本、携带类别标识的历史文字样本的对抗文本构成的训练样本集训练而成,且每个历史文字样本的类别标识与其对抗文本的类别标识相同,所述拼音识别模型为预先根据携带类别标识的历史拼音样本、携带类别标识的历史拼音样本的对抗文本构成的训练样本集训练而成,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
可选地,所述装置还包括:
文本向量生成单元,被配置为执行如果确定所述待识别文本中不存在异常内容,则经文字嵌入模型将文字类型的文本处理为文本向量以及经拼音嵌入模型将拼音类型的文本处理为文本向量;
相似度确定单元,被配置为执行确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度,其中,所述历史负类文本向量为预先被进行内容识别确定不存在异常内容而实际存在异常内容的文本向量;
所述结果确定单元,被配置为执行根据得到的多个相似度,确定针对所述待识别文本的第二识别结果,所述第二识别结果用于表示所述待识别文本中是否存在异常内容。
可选地,所述装置还包括:文本向量添加单元,被配置为执行如果所述第二识别结果表征所述待识别文本中不存在异常内容而所述待识别文本的实际存在异常内容时,将所述待识别文本的文本向量添加入预设的历史负类文本向量库中。
根据本公开实施例的第三方面,提供了一种服务器,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如本公开实施例第一方面所述的文本信息的识别方法。
第四方面,本公开实施例还提供了一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如本公开实施例第一方面的所述的文本信息的识别方法。
第五方面,本公开实施例还提供了一种计算机程序产品,其包含指令,当计算机程序被计算机所执行时,该指令使得计算机执行如本公开实施例第三方面的服务器所执行的功能。
本公开的实施例提供的技术方案至少带来以下有益效果:首先对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果;基于各第一识别结果,确定待识别文本中是否存在异常内容,丰富了被识别文本的内容,从而对存在异常内容的待识别文本的识别的精确度更高,即便是在社交应用中对存在异常内容的待识别文本进行转换变化,文本识别模型也能识别出转换变化后的待识别文本中存在异常内容,以便对存在异常内容的待识别样本进行精准屏蔽。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的用户终端与服务器的交互示意图;
图2是根据一示例性实施例示出的一种文本信息的识别方法的流程图;
图3是根据一示例性实施例示出的一种文本信息的识别方法的流程图;
图4为根据一示例性实施例示出的文本嵌入模型的框图;
图5是图3中的S21的具体流程图;
图6是根据一示例性实施例示出的一种文本信息的识别方法的流程图;
图7是根据一示例性实施例示出的一种文本信息的识别方法的流程图;
图8为根据一示例性实施例示出的文本识别模型的框图;
图9是图7中的S82的具体流程图;
图10是根据一示例性实施例示出的一种文本识别装置的框图;
图11是根据一示例性实施例示出的一种文本识别装置的框图;
图12是根据一示例性实施例示出的一种文本识别装置的框图;
图13是根据一示例性实施例示出的一种文本识别装置的框图;
图14是根据一示例性实施例示出的一种文本识别装置的框图;
图15是根据一示例性实施例示出的一种服务器的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种文本信息的识别方法的流程图,该文本信息的识别方法应用于服务器102,如图2所示,服务器102与安装有目标应用程序的用户终端101通过网络300通信连接,以便进行交互。其中,目标应用程序可以包括编辑个人简介、发表个人动态以及发表评论的等发布文本的功能。例如,目标应用程序可以为微信、QQ、淘宝、唱吧等应用程序。具体地,如图1所示,该文本信息的识别方法包括以下步骤:
S11:获取待识别文本。
当用户在目标应用程序的文本发布界面发布文本后,目标应用程序将发布的文本作为待识别文本上传至服务器102。例如,用户在微信的朋友圈界面发表评论后,微信将发表的评论上传至服务器102,再例如,用户在淘宝的商品展示界面发表商品简介后,淘宝将发表的商品简介上传至服务器102。
S12:对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本。其中,转换后的文本的语义与待识别文本的语义相似度高于一定阈值,且至少一种转换后的文本中的各文本的表现形式不同。例如,转换处理的方式可以为:例如,将文字类型的待识别文本转换为拼音文本,或,将待识别文本中的关键词汇进行同义词替换,以转换为与文本具备相似语义的文本;或,将待识别文本中的关键字进行相似字形替换,以转换为与文本具备相似字形的文本,或,将拼音类型的待识别文本转换为文字文本等等。
S13:对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,第一识别结果用于表示各对应文本中是否存在异常内容。
例如,将文字类型的文本、文字类型的文本转换后的拼音类型的文本分别进行内容识别,以获得文字类型的文本对应的第一识别结果、拼音类型的文本对应的第一识别结果。其中,文字类型的文本对应的第一识别结果、拼音类型的文本对应的第一识别结果可以相同,也可以不同。
其中,第一识别结果表征文字类型的文本、拼音类型的文本是否不存在异常内容。其中,第一识别结果包括两种情况,第一种:第一识别结果表征待识别文本中存在异常内容,第一识别结果表征待识别文本中不存在异常内容。其中,存在异常内容的待识别文本可以是低俗、有伤道德风化、色情、暴力等负面的文本;不存在异常内容的待识别文本可以为符合道德法律的公民言论自由等正面的文本。
本公开实施例中,识别待识别文本中是否存在异常内容的方式可以通过预先训练的文本识别模型进行识别,也可以根据预先创建的文本库进行识别,或者文本分类模型、文本库二者的结合进行识别等等,在此不做限定。
S14:基于各第一识别结果,确定待识别文本中是否存在异常内容。
例如,若各第一识别结果中有一个第一识别结果表征被识别的文本存在异常内容时,则确定待识别文本中存在异常内容。
可选地,S14可以包括如果各第一识别结果中至少有一个第一识别结果表征待识别文本或转换后的文本中存在异常内容,则确定出待识别文本中存在异常内容。
例如,文字类型的文本对应的第一识别结果为:文字类型的文本中不存在异常内容;拼音类型的文本对应的第一识别结果存在异常内容;那么确定待识别文本中存在异常内容。
该文本信息的识别方法首先对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果;基于各第一识别结果,确定待识别文本中是否存在异常内容,丰富了被识别文本的内容,从而对存在异常内容的待识别文本的识别的精确度更高,即便是在社交应用中对存在异常内容的待识别文本进行转换变化,文本识别模型也能识别出转换变化后的待识别文本中存在异常内容,以便对存在异常内容的待识别样本进行精准屏蔽。
作为其中一种实施方式,S12可以为:若所述文本的类型包括文字类型,则将文字类型的所述文本转换为拼音,若所述文本的类型包括拼音类型,则将拼音类型的文本转换为文字。
例如,待识别文本的内容为“我爱看直播”的文字文本,则转换生成“wo ai kanzhi bo”的拼音文本;再例如,如果待识别文本的内容为“wo ai kan zhi bo”的拼音文本,则转换生成“我爱看直播”的文字文本。
另外,还可以将待识别文本转换为与文本具备相似语义的文本;或,转换为与文本具备相似字形的文本。例如,待识别文本的内容为“我爱看直播”的文字文本,则转换生成“我喜欢看直播”的具备相似语义的文本;例如,待识别文本的内容为“我爱看直播”的文字文本,则转换生成“我愛看直播”的具备相似字形的文本等等。
具体地,S13可以包括:经文字识别模型对文字类型的文本进行识别得到其中一个第一识别结果,将经拼音识别模型对拼音类型的文本进行识别得到另一个第一识别结果。
其中,文字识别模型为预先根据携带类别标识的历史文字样本、携带类别标识的历史文字样本的对抗文本构成的训练样本集训练而成,且每个历史文字样本的类别标识与其对抗文本的类别标识相同,所述拼音识别模型为预先根据携带类别标识的历史拼音样本、携带类别标识的历史拼音样本的对抗文本构成的训练样本集训练而成,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
其中,对抗样本可以由历史文字样本或历史拼音样本预先通过但不限于以下方式生成:
1、去除不可见字符(如空格、制表符等)
2、如果历史文本样本为文字样本,则历史文本样本中的将单字替换成拼音
3、如果历史文本样本为文字样本,则历史文本样本中的将单字替换成同音或谐音字
4、将全角转换成半角,或将半角转换成全角
5、将词替换为同义词或近义词
6、交换词中相邻单字
7、如果历史文本样本为文字样本,则历史文本样本中的将***数字转换成汉字,如果历史文本样本为拼音样本,则将历史文本样本中的将***数字转换成拼音
8、删除语气词等虚词
9、删除特定词(例如名词)中的某个字符
上面方式1-9均可设置不同的概率执行,以对历史文本样本进行改变,例如,方式1执行的概率为70%,方式2执行的概率为80%,方式3执行的概率为85%等等,并且每种方式对同一历史文本样本可以执行多次。具体地,例如,对于每个历史文本样本,可以先分别以不同的概率对历史文本样本逐次进行方式1-方式4中的操作,并且每次操作可以选择多个单字;之后,对于历史文本样本中的每个词,分别以不同概率对每个词逐次进行方式5-方式9中的操作。当然地,生成对抗样本不仅仅限于上述的方式,在此仅仅是举例说明。
可选地,为了保证得到的对抗样本的完整性和可读性,需要设置每个历史文本样本的最大修改次数,以及历史文本样本中每个词的最大修改次数,当达到设定的最大修改次数时,停止对历史文本样本的修改。
可选地,当确定待识别文本中不存在异常内容时,并不代表待识别文本中不存在异常内容,也有可能是文字识别模型和拼音识别模型出现的误差导致确定待识别文本中不存在异常内容,因而,需要进一步对待识别文本的实际进行进一步甄别。因而,如图3所示,所述方法还包括:
S21:确定待识别文本中是否存在异常内容,如果否,则执行S22,如果是,则执行S25。
S22:经文字嵌入模型将文字类型的文本处理为文本向量以及经拼音嵌入模型将拼音类型的文本处理为文本向量。
其中,如图4所示,文字嵌入模型和拼音嵌入模型均包括依次连接的特征向量提取层、至少一个编码层(图4中为3个编码层)、全连接层,如图5所示,经文字嵌入模型将文字类型的文本处理为文本向量或经拼音嵌入模型将拼音类型的文本处理为文本向量的过程包括:
S211:将携带类别标识的待训练文本样本、携带类别标识的待训练对抗样本构成的训练样本集输入到特征向量提取层中。
其中,待训练文本样本可以为文字样本,也可以为拼音样本,在此不做限定。
S212:经特征向量提取层将训练样本集中的训练样本转化为携带位置信息的文本特征向量。
S213:经至少一个编码层对文本特征向量进行特征交互。
S214:经全连接层对特征交互后的文本特征向量进行全连接。
经过S211-S214可以生成文字嵌入模型或拼音嵌入模型。当待训练文本样本为文字样本时,则生成文字嵌入模型,当待训练文本为拼音样本时,则生成拼音嵌入模型。
S23:确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度。
其中,历史负类文本向量为预先被文字嵌入模型或拼音嵌入模型确定不存在异常内容而实际上存在异常内容的文本向量。具体地,可以通过计算余弦相似度的方式来确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度。
S24:根据得到的多个相似度,确定待识别文本的第二识别结果,所述第二识别结果用于表示所述待识别文本中是否存在异常内容。
具体地,确定待识别文本的第二识别结果的方式可以为:可以设定相似度阈值,当多个相似度中的其中一个相似度大于设定的相似度阈值时,确定的第二识别结果为待识别文本中存在异常内容;反之,则确定的第二识别结果为待识别文本中不存在异常内容。
通过对第一识别结果对初步识别出的不存在异常内容的待识别文本的再次甄别,提高了对待识别文本识别的精确度,也更进一步地净化了网络环境。
S25:对待识别文本进行屏蔽。
可选地,如图6所示,所述方法还包括:
S61:确定第二识别结果表征待识别文本中不存在异常内容而待识别文本的实际存在异常内容时,将待识别文本的文本向量添加入预设的历史负类文本向量库中。
可以理解地,由于预设的负类文本向量库中的负类文本向量的有穷性,当第二识别结果表征待识别文本中不存在异常内容时,并不代表待识别文本一定不存在异常内容,因而,需要进一步对待识别文本进行进一步人工甄别,如果待识别文本实际存在异常内容时,则对该待识别文本进行标识,并将标识的待识别文本的文本向量添加入预设的历史负类文本向量库中,以丰富历史负类文本向量库,为了以后更精确的识别出存在异常内容的待识别文本打下基础。
可选地,在S11之前,如图7所示,所述方法还包括:
S81:获取携带类别标识的待训练文字样本,并根据携带类别标识的待训练文字样本生成携带类别标识的待训练对抗样本,且每个历史文字样本的类别标识与其对抗文本的类别标识相同;以及获取携带类别标识的待训练拼音样本,并根据携带类别标识的待训练拼音样本生成携带类别标识的待训练对抗样本,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
其中,对抗样本可以由历史文字样本或历史拼音样本生成,具体的生成方式与上述对抗样本的生成方式相同,在此不再多做赘述。
可选地,为了保证得到的对抗样本的完整性和可读性,需要设置每个历史文本样本的最大修改次数,以及历史文本样本中每个词的最大修改次数,当达到设定的最大修改次数时,停止对历史文本样本的修改。
S82:将携带类别标识的待训练文字样本、携带类别标识的待训练对抗样本构成的训练样本集输入到训练网络模型中,训练生成文字识别模型;将携带类别标识的待训练拼音样本、携带类别标识的待训练对抗样本构成的训练样本集输入到训练网络模型中,训练生成拼音识别模型。
其中,训练网络模型可以为但不限于Transformer网络模型、逻辑回归(LogisticRegression)网络模型、支持向量机(Support Vector Machine,SVM)网络模型。
以下以训练网络模型采用Transformer网络模型为例,说明文字识别模型或拼音识别模型训练的过程。
具体地,如图8所示,训练网络模型包括依次连接的特征向量提取层、至少一个编码层(图8中包含3个)、至少一个全连接层(图8中为2个)以及softmax层。如图9所示,S82包括:
S101:将携带类别标识的待训练文本样本、携带类别标识的待训练对抗样本构成的训练样本集输入到特征向量提取层中。
S102:经特征向量提取层将输入的训练样本转化为携带位置信息的文本特征向量。
其中,特征向量提取层包括embedding层、positional encoding层,embedding层将输入的训练样本转换为文本向量,positional encoding对训练样本中的每个字进行位置编码,然后将文本向量与位置编码的结果相加并拼接得到文本特征向量。
具体地,Transformer网络模型的输入训练样本是一个句子,句子中的每个字之后经embedding层后得到字的向量,与位置编码层对字的位置编码结果相加,得到每个字的向量,假设该向量是512维的,即该向量有512个元素。如果句子长度是10,那么可以得到10个的向量,可以将10个拼接成一个10行512列的矩阵。
S103:经至少一个编码层对文本特征向量进行特征交互。
具体地,编码层的输入为上述拼接的10行512列的矩阵。由于每个句子的长度不同,需要规定一个句子的最大长度N,假设N=15,那么最终输入到编码层中的矩阵为15行512列的矩阵,并且对矩阵做补0的操作,即最后5行的元素都是0。矩阵中的全0行在后面进行矩阵相乘计算的时和任何列相乘的结果都是0,即是说,矩阵的最后5行虽然参与计算,但是不会得出有用的结果(因为句子长度是10,前10行的计算中可以得到有用的结果)。如果句子长度大于N,需要先对句子做截断,使句子长度为N。
第一个编码层的输入是一个矩阵(本实施例中,为15*512的矩阵),经特征交互后,第一个编码层的输出也是一个矩阵(矩阵的大小也是15*512);输出的矩阵作为第二个编码层的输入,经特征交互后第二个编码层也输出一个矩阵(矩阵的大小也是15*512),作为第三个编码层的输入,经特征交互后第三个编码层也会输出一个矩阵,然后将矩阵中的15行的元素进行拼接,形成一个向量,长度为15*512=7680。
S104:经至少一个全连接层对特征交互后的文本特征向量进行处理,得到初步识别结果,经softmax输出层对初步识别结果进行归一化生成网络识别结果。
本公开实施例中,为经过2个全连接层对特征交互后的文本特征向量进行处理。具体地,对拼接后的向量,长度为15*512=7680的向量作为第一个全连接层的输入进行全连接,然后再经过第二个全连接层进行全连接得到初步识别结果,是一个得到二维文本,每一维分别代表不存在异常内容和存在异常内容的概率,经softmax层对初步识别结果进行归一化后得到识别的输出,即网络识别结果。
S106:根据每个训练样本的类别标识、网络识别结果确定一个交叉熵损失函数。
交叉熵是衡量训练网络模型输出的网络结果与真实结果之间的函数,在本申请实施例中,训练网络模型是一个二识别模型。因此,训练网络模型最后输出一个二维向量[p,q],其中p+q=1,其中,p和q分别是训练样本不存在异常内容和存在异常内容的概率。对于每个训练样本,均被预先标记有类别标识(即真实的类别),该类别标识也可以用一个二维向量来表示,如果该训练样本的真实的类别是正类,可以用向量[1,0]来表示,表示正类的概率是1,负类的概率是0;如果该训练样本的真实的类别是负样本,则可以用向量是[0,1]来表示。如果将真实的类别用[x,y]来表示,则x和y中必然有一个是1。那么交叉熵的计算公式可以表示为:L=-xlogp-ylogq,如果该训练样本的真实类别不存在异常内容,则x=1,y=0,交叉熵就是-logp,如果p十分接近1,那么-log1=0,则认为没有损失。反之,如果p=0.1,那么-log0.1=1,则说明损失为1(此处的对数以10为底作举例,通常用自然常数e,即loge=ln)。
另外,需要说明的是,当该训练样本的真实类别存在异常内容时的分析过程,与训练样本的真实类别不存在异常内容的分析过程相似,在此不再多做赘述。
如果训练网络模型不是二识别模型,是多识别模型,则交叉熵损失可以写成
其中,i代表第i类,yi代表第i类的真实结果(只有一个yi=1,其他yi都是0,例如,识别模型需要将训练样本分为3类,那么y1,y2,y3里只有一个为1),ai代表训练网络模型的第i类的概率。
S107:根据小批量梯度下降算法确定多个训练样本的交叉熵损失函数的梯度。
其中,梯度是函数上升(或增大)最快的方向,如果想要让损失函数减小,沿着梯度方向更新网络参数会使损失函数增大,沿着梯度的反方向更新网络参数可以使得损失函数减小。
S108:根据梯度更新训练网络模型的网络参数。
在训练过程中,将历史文本样本分为训练样本集和验证样本集,例如,根据训练样本集每训练完一轮计算训练样本集和验证样本集的准确率。然后再重复将训练样本集训练一轮,再次计算训练样本集和验证样本集的准确率。在初始时,训练样本集和验证样本集的准确率都上升,到后期利用训练样本集进行训练时可能出现过拟合的情况,即训练样本集的准确率继续增大,但是验证样本集的准确率降低,如果在后续的几轮的训练中,验证样本集的准确率持续下降,则说明过拟合,不再继续训练。
图10是根据一示例性实施例示出的一种文本信息的识别装置1100的框图。需要说明的是,本申请实施例所提供的文本信息的识别装置1100,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本申请实施例部分未提及之处,可参考上述的实施例中相应内容。所述装置1100包括信息获取单元1101、文本转换单元1102、文本识别单元1103以及结果确定单元1104,其中,
信息获取单元1101,被配置成执行获取待识别文本。
文本转换单元1102,被配置成执行对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本。
文本识别单元1103,被配置成执行对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,第一识别结果用于表示各对应文本中是否存在异常内容。
结果确定单元1104,被配置成执行基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容。
可选地,结果确定单元1104,被具体配置成执行如果各第一识别结果中至少有一个第一识别结果表征待识别文本或转换后的文本存在异常内容,则确定所述待识别文本中存在异常内容。
该文本信息的识别装置1100在执行时,可以实现如下功能:对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果;基于各第一识别结果,确定待识别文本中是否存在异常内容,丰富了被识别文本的内容,从而对存在异常内容的待识别文本的识别的精确度更高,即便是在社交应用中对存在异常内容的待识别文本进行转换变化,文本识别模型也能识别出转换变化后的待识别文本中存在异常内容,以便对存在异常内容的待识别样本进行精准屏蔽。
可选地,作为其中一种实施方式,文本转换单元1102被具体配置成执行若所述文本的类型包括文字类型,则将文字类型的所述文本转换为拼音。
可选地,文本识别单元1103,被具体配置成执行经文字识别模型对文字类型的文本进行识别得到其中一个第一识别结果,将经拼音识别模型对拼音类型的文本进行识别得到另一个第一识别结果。
其中,所述文字识别模型为预先根据携带类别标识的历史文字样本、携带类别标识的历史文字样本的对抗文本构成的训练样本集训练而成,且每个历史文字样本的类别标识与其对抗文本的类别标识相同,所述拼音识别模型为预先根据携带类别标识的历史拼音样本、携带类别标识的历史拼音样本的对抗文本构成的训练样本集训练而成,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
可选地,如图11所示,所述装置1100还包括:
文本向量生成单元1201,被配置为执行如果确定待识别文本中不存在异常内容,则经文字嵌入模型将文字类型的文本处理为文本向量以及经拼音嵌入模型将拼音类型的文本处理为文本向量。
相似度确定单元1202,被配置为执行确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度,其中,历史负类文本向量为预先被文字识别模型或拼音识别模型确定不存在异常内容而实际存在异常内容的文本向量。
结果确定单元1104,被配置为执行根据得到的多个相似度,确定待识别文本的第二识别结果,第二识别结果用于表示待识别文本中是否存在异常内容。
可选地,如图12所示,所述装置1100还包括:文本向量添加单元1301,被配置为执行如果第二识别结果表征待识别文本中不存在异常内容而待识别文本实际存在异常内容时,将待识别文本的文本向量添加入预设的历史负类文本向量库中。
进一步地,信息获取单元1101还被配置为执行获取携带类别标识的待训练文字样本,并根据携带类别标识的待训练文字样本生成携带类别标识的待训练对抗样本,且每个历史文字样本的类别标识与其对抗文本的类别标识相同;以及获取携带类别标识的待训练拼音样本,并根据携带类别标识的待训练拼音样本生成携带类别标识的待训练对抗样本,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
如图13所示,所述装置1100还包括:模型训练单元1501,被配置为执行将携带类别标识的待训练文字样本、携带类别标识的待训练对抗样本构成的训练样本集输入到训练网络模型中,训练生成文字识别模型;将携带类别标识的待训练拼音样本、携带类别标识的待训练对抗样本构成的训练样本集输入到训练网络模型中,训练生成拼音识别模型。
具体地,训练网络模型包括依次连接的特征向量提取层、至少一个编码层、至少一个全连接层以及softmax层。如图14所示,模型训练单元1501包括文本输入模块1601、特征向量生成模块1602、特征交互模块1603、二维特征生成模块1604、文本识别模块1605、损失函数确定模块1606、梯度确定模块1607以及参数更新模块1608,其中,
文本输入模块1601,被配置为执行将携带类别标识的待训练文字样本或待训练拼音样本、携带类别标识的待训练对抗样本构成的训练样本集输入到特征向量提取层中。
特征向量生成模块1602,被配置为执行经特征向量提取层将训练样本转化为携带位置信息的文本特征向量。
特征交互模块1603,被配置为执行经至少一个编码层对文本特征向量进行特征交互。
文本识别模块1605,被配置为执行经至少一个全连接层对特征交互后的文本特征向量进行处理,得到初步识别结果,经softmax层对初步识别结果进行归一化生成网络识别结果。
损失函数确定模块1606,被配置为执行根据每个训练样本的类别标识、网络识别结果确定一个交叉熵损失函数。
梯度确定模块1607,被配置为执行根据小批量梯度下降算法确定多个训练样本的交叉熵损失函数的梯度。
参数更新模块1608,被配置为执行根据梯度更新训练网络模型的网络参数。
关于上述实施例中的装置1100,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图15是根据一示例性实施例示出的一种用于文本信息的识别方法的服务器102的框图。参照图15,服务器102包括处理组件1701,其进一步包括一个或多个处理器,以及由存储器1702所代表的存储器资源,用于存储可由处理组件1701的执行的指令,例如应用程序。存储器1702中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1701被配置为执行指令,以执行上述的文本信息的识别方法。
例如,可以执行以下步骤:
获取待识别文本;
对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,所述第一识别结果用于表示各对应文本中是否存在异常内容;
基于各第一识别结果,确定待识别文本中是否存在异常内容。
服务器102还可以包括一个电源组件1703被配置为执行服务器102的电源管理,一个有线或无线的网络接口1704被配置为将服务器102连接到网络300,和一个输入输出(I/O)接口1705。服务器102可以操作基于存储在存储器1702的操作***,例如WindowsServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器804,上述指令可由服务器102的处理器执行以完成上述的文本信息的识别方法。例如,可以执行以下步骤:
获取待识别文本;
对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
对待识别文本、至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,第一识别结果用于表示各对应文本中是否存在异常内容;
基于各第一识别结果,确定待识别文本中是否存在异常内容。
可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,包括指令,当计算机程序产品被计算机所执行时,该指令使得计算机执行以下步骤:
获取待识别文本;
对待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
对待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,第一识别结果用于表示各对应文本中是否存在异常内容;
基于各所述第一识别结果,确定待识别文本中是否存在异常内容。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (13)

1.一种文本信息的识别方法,其特征在于,所述方法包括:
获取待识别文本;
对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,所述第一识别结果用于表示各对应文本中是否存在异常内容;
基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容;
其中,所述方法还包括:
如果确定所述待识别文本中不存在异常内容,则经文字嵌入模型将文字类型的文本处理为文本向量以及经拼音嵌入模型将拼音类型的文本处理为文本向量;
确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度,其中,所述历史负类文本向量为预先被进行内容识别确定不存在异常内容而实际存在异常内容的文本向量;
根据得到的多个相似度,确定针对所述待识别文本的第二识别结果,其中,所述第二识别结果用于表示所述待识别文本中是否存在异常内容。
2.根据权利要求1所述的方法,其特征在于,所述基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容包括:
如果各第一识别结果中至少有一个第一识别结果表征对应的文本中存在异常内容,则确定出所述待识别文本中存在异常内容。
3.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本,包括:
若所述文本的类型包括文字类型,则将文字类型的所述文本转换为拼音;
若所述文本的类型包括拼音类型,则将拼音类型的所述文本转换为文字。
4.根据权利要求3所述的方法,其特征在于,所述对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果包括:经文字识别模型对文字类型的文本进行识别得到其中一个第一识别结果,将经拼音识别模型对拼音类型的文本进行识别得到另一个第一识别结果,
其中,所述文字识别模型为预先根据携带类别标识的历史文字样本、携带类别标识的历史文字样本的对抗文本构成的训练样本集训练而成,且每个历史文字样本的类别标识与其对抗文本的类别标识相同,所述拼音识别模型为预先根据携带类别标识的历史拼音样本、携带类别标识的历史拼音样本的对抗文本构成的训练样本集训练而成,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
5.根据权利要求1所述的方法,其特征在于,如果所述第二识别结果表征所述待识别文本中不存在异常内容而所述待识别文本的实际存在异常内容时,将所述待识别文本的文本向量添加入预设的历史负类文本向量库中。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
如果确定出所述待识别文本中存在异常内容,则对所述待识别文本进行屏蔽。
7.一种文本信息的识别装置,其特征在于,所述装置包括:
信息获取单元,被配置成执行获取待识别文本;
文本转换单元,被配置成执行对所述待识别文本执行文本类型的转换处理,以得到相应的至少一种转换后的文本;
文本识别单元,被配置成执行对所述待识别文本、所述至少一种转换后的文本分别进行内容识别,以获得相应的各第一识别结果,其中,所述第一识别结果用于表示各对应文本中是否存在异常内容;
结果确定单元,被配置成执行基于各所述第一识别结果,确定所述待识别文本中是否存在异常内容;
其中,所述装置还包括:
文本向量生成单元,被配置为执行如果确定所述待识别文本中不存在异常内容,则经文字嵌入模型将文字类型的文本处理为文本向量以及经拼音嵌入模型将拼音类型的文本处理为文本向量;
相似度确定单元,被配置为执行确定处理得到的文本向量分别与预设的负类文本向量库中的多个历史负类文本向量的相似度,其中,所述历史负类文本向量为预先被进行内容识别确定不存在异常内容而实际存在异常内容的文本向量;
所述结果确定单元,被配置为执行根据得到的多个相似度,确定针对所述待识别文本的第二识别结果,所述第二识别结果用于表示所述待识别文本中是否存在异常内容。
8.根据权利要求7所述的装置,其特征在于,所述结果确定单元,被具体配置成执行如果各第一识别结果中至少有一个第一识别结果表征待识别文本或转换后的文本存在异常内容,则确定所述待识别文本中存在异常内容。
9.根据权利要求7所述的装置,其特征在于,所述文本转换单元被具体配置成执行若所述文本的类型包括文字类型,则将文字类型的所述文本转换为拼音;若所述文本的类型包括拼音类型,则将拼音类型的所述文本转换为文字。
10.根据权利要求9所述的装置,其特征在于,所述文本识别单元,被具体配置成执行经文字识别模型对文字类型的文本进行识别得到其中一个第一识别结果,将经拼音识别模型对拼音类型的文本进行识别得到另一个第一识别结果,
其中,所述文字识别模型为预先根据携带类别标识的历史文字样本、携带类别标识的历史文字样本的对抗文本构成的训练样本集训练而成,且每个历史文字样本的类别标识与其对抗文本的类别标识相同,所述拼音识别模型为预先根据携带类别标识的历史拼音样本、携带类别标识的历史拼音样本的对抗文本构成的训练样本集训练而成,且每个历史拼音样本的类别标识与其对抗文本的类别标识相同。
11.根据权利要求7所述的装置,其特征在于,所述装置还包括:文本向量添加单元,被配置为执行如果所述第二识别结果表征所述待识别文本中不存在异常内容而所述待识别文本的实际存在异常内容时,将所述待识别文本的文本向量添加入预设的历史负类文本向量库中。
12.一种服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的文本信息的识别方法。
13.一种存储介质,当所述存储介质中的指令由服务器的处理器执行时,使得服务器能够执行如权利要求1至6中任一项所述的文本信息的识别方法。
CN201911304665.0A 2019-12-17 2019-12-17 文本信息的识别方法、装置及服务器、存储介质 Active CN112989810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911304665.0A CN112989810B (zh) 2019-12-17 2019-12-17 文本信息的识别方法、装置及服务器、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911304665.0A CN112989810B (zh) 2019-12-17 2019-12-17 文本信息的识别方法、装置及服务器、存储介质

Publications (2)

Publication Number Publication Date
CN112989810A CN112989810A (zh) 2021-06-18
CN112989810B true CN112989810B (zh) 2024-03-12

Family

ID=76343629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911304665.0A Active CN112989810B (zh) 2019-12-17 2019-12-17 文本信息的识别方法、装置及服务器、存储介质

Country Status (1)

Country Link
CN (1) CN112989810B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070269A (ja) * 2009-09-24 2011-04-07 Hitachi Information Systems Ltd 文字変換装置と方法およびダイヤ情報表示システムと方法ならびにプログラム
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及***
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN109766475A (zh) * 2018-12-13 2019-05-17 北京爱奇艺科技有限公司 一种垃圾文本的识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011070269A (ja) * 2009-09-24 2011-04-07 Hitachi Information Systems Ltd 文字変換装置と方法およびダイヤ情報表示システムと方法ならびにプログラム
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及***
CN107291780A (zh) * 2016-04-12 2017-10-24 腾讯科技(深圳)有限公司 一种用户评论信息展示方法和装置
CN109766475A (zh) * 2018-12-13 2019-05-17 北京爱奇艺科技有限公司 一种垃圾文本的识别方法及装置

Also Published As

Publication number Publication date
CN112989810A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
US20190065506A1 (en) Search method and apparatus based on artificial intelligence
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和***
CN110321553B (zh) 短文本主题识别方法、装置及计算机可读存储介质
CN111814466A (zh) 基于机器阅读理解的信息抽取方法、及其相关设备
CN112926327B (zh) 一种实体识别方法、装置、设备及存储介质
CN112417885A (zh) 基于人工智能的答案生成方法、装置、计算机设备及介质
CN110414004B (zh) 一种核心信息提取的方法和***
CN111291195A (zh) 一种数据处理方法、装置、终端及可读存储介质
CN112396049A (zh) 文本纠错方法、装置、计算机设备及存储介质
CN110532381A (zh) 一种文本向量获取方法、装置、计算机设备及存储介质
CN111984792A (zh) 网站分类方法、装置、计算机设备及存储介质
CN111931935A (zh) 基于One-shot学习的网络安全知识抽取方法和装置
CN111881398B (zh) 页面类型确定方法、装置和设备及计算机存储介质
CN112085091A (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN115292520B (zh) 一种面向多源移动应用知识图谱构建方法
CN112613293A (zh) 摘要生成方法、装置、电子设备及存储介质
CN115759071A (zh) 基于大数据的政务敏感信息识别***和方法
JP2023002690A (ja) セマンティックス認識方法、装置、電子機器及び記憶媒体
CN115840808A (zh) 科技项目咨询方法、装置、服务器及计算机可读存储介质
CN112989829B (zh) 一种命名实体识别方法、装置、设备及存储介质
CN115858776B (zh) 一种变体文本分类识别方法、***、存储介质和电子设备
CN112989810B (zh) 文本信息的识别方法、装置及服务器、存储介质
CN114792092B (zh) 一种基于语义增强的文本主题抽取方法及装置
CN114842982A (zh) 一种面向医疗信息***的知识表达方法、装置及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant