CN112686049A - 文本审核方法、装置、设备及存储介质 - Google Patents

文本审核方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112686049A
CN112686049A CN202011548444.0A CN202011548444A CN112686049A CN 112686049 A CN112686049 A CN 112686049A CN 202011548444 A CN202011548444 A CN 202011548444A CN 112686049 A CN112686049 A CN 112686049A
Authority
CN
China
Prior art keywords
word
text
information
vector information
audited
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011548444.0A
Other languages
English (en)
Inventor
刘建立
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202011548444.0A priority Critical patent/CN112686049A/zh
Publication of CN112686049A publication Critical patent/CN112686049A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种文本审核方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过将获取到的待审核文本,输入到文本审核模型中;基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;基于所述长短期记忆网络,得到各个所述字词的的上下文语义特征向量信息;通过预置全连接层,得到各个所述字词的多个标签信息;基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;基于各个所述字词的审核标签信息,确定所述待审核文本是否违规,实现对于文本不同语义结合上下文语境判断文本,提高文本审核的准确率。

Description

文本审核方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本审核方法、装置、计算机设备及计算机可读存储介质。
背景技术
文本审核就是审核文本中的违规信息,包括政治敏感、色情、辱骂等。目前常见的做法是通过深度学习网络模型对文本进行审核,但通过深度学习网络模型无法审核出不同文本中相同的字词在不同上下文语境中不同语义的问题,且审核的准确率较低。
发明内容
本申请的主要目的在于提供一种文本审核方法、装置、计算机设备及计算机可读存储介质,旨在解决现有深度学习网络模型无法审核出不同文本中相同的字词在不同上下文语境中不同语义的问题,且审核的准确率较低的技术问题。
第一方面,本申请提供一种文本审核方法,所述文本审核方法包括以下步骤:
获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
第二方面,本申请还提供一种文本审核装置,所述文本审核装置包括:
第一获取模块,用于获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
第二获取模块,用于基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
第三获取模块,用于基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
第四获取模块,用于通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
第五获取模块,用于基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
确定模块,用于基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如上述的文本审核方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如上述的文本审核方法的步骤。
本申请提供一种文本审核方法、装置、计算机设备及计算机可读存储介质,通过获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;基于各个所述字词的审核标签信息,确定所述待审核文本是否违规,实现对于文本不同语义结合上下文语境判断文本,提高文本审核的准确率。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种文本审核方法的流程示意图;
图2为图1中的文本审核方法的子步骤流程示意图;
图3为图1中的文本审核方法的子步骤流程示意图;
图4为本申请实施例提供的另一种文本审核方法的流程示意图;
图5为本申请实施例提供的一种文本审核装置的示意性框图;
图6为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种文本审核方法、装置、计算机设备及计算机可读存储介质。其中,该文本审核方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种文本审核方法的流程示意图。
如图1所示,该文本审核方法包括步骤S101至步骤S106。
步骤S101、获取待审核文本,并将所述待审核文本输入到文本审核模型中。
示范性的,获取待审核文本,该待审核文本包括短句或短文本等。在获取到该待审核文本时,将该待审核文本输入到预置文本审核模型中,该文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场。
步骤S102、基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息。
示范性的,在得到待审核文本时,将待审核文本中每个字词用预训练的字词特征向量信息转换,得到对应各个字词的第一字词向量信息,其中第一字词向量信息包括待审核文本中每个字词的语义向量信息、位置向量信息、分段表示的加和向量信息。示范性的,该预训练的单词特征向量信息转换为将待审核文本表示成一系列能够表达字词语义的向量。例如,待审核文本为“你帮我”或“我帮你”,“你帮我”的二元语法依次为:“你,你帮,帮,帮我,我”;“我帮你”的二元语法依次为:“我,我帮,帮,帮你,你”,从而可以构造一个字典{“你”:1,“你帮”:2,“帮”:3,“帮我”:4,“我”:5,“我帮”:6,“帮你”:7},通过字典将“你帮我”向量化结果表示为[1,1,1,1,1,0,0];将“我帮你”向量化结果表示为[1,0,1,0,1,1,1]。
在一实施例中,具体地,参照图2,步骤S102包括:子步骤S1021至子步骤S1024。
子步骤S1021、通过所述字典对所述待审核文本对进行字词切分,得到所述待审核文本中各个字词。
示范性的,在获取到待审核文本时,通过该预训练语言模型中的字典文件对该待审核文本进行切分,得到待审核文本中的各个字词。例如,待审核文本为“天气转娘#了”,通过字典文本将“天气转娘#了”切分为“天气”、“转”、“娘”、“#”、“了”。
子步骤S1022、将各个所述字词进行特征向量转换,得到各个所述字词对应的字词向量信息。
示范性的,在获取到各个字词时,通过对该各个字词进行特征向量转换得到各个字词的字词向量信息。
子步骤S1023、将各个所述字词向量信息输入所述自注意力网络机制,得到各个所述字词向量信息的各个语义空间的字词语义向量信息。
示范性的,该预训练语言模型包括自注意力网络机制,将获取到的文本向量信息输入到自注意力网络机制中,该自注意力网络机制获取输入文本向量中融合上下文信息的每个字词词所对应的向量表示,获取自注意力网络机制输出的各个字词的字词语义向量信息。
将获取到的字词向量信息输入到自注意力网络机制中,该自注意力网络机制包括第一线性映射层,通该第一线性映射层将该字词向量信息映射到不同语义空间的语义向量,捕捉不同维度的语义信息。例如,第一线性映射层中的线性项公式为Qi'=QWi Q,Ki'=KWi k,Vi'=VWi V,其中Q为查询值、K为键值、V为值向量,i为映射到i个语义空间的线性项,Qi′、Ki′,Vi′为第i个语义空间的语义向量。
子步骤S1024、通过所述各个语义空间的字词语义向量信息,获取所述自注意力网络模型输出的各个所述字词的字词语义特征向量信息。
示范性的,通过在不同语义空间语义向量上进行self-attention操作,输出不同语义空间的文本语义向量。例如,self-attention操作公式为
Figure BDA0002856315950000051
其中,softmax为归一化函数,T为向量转置操作,dk为键向量的维度,hendi为第i个语义空间的输入待审核文本中各个字词的字词语义向量。在得到不同语义空间的字词语义向量时,将不同语义空间的字词语义向量进行拼接,例如c=Concat(hend1,......,hendi)W,其中,Concat为向量拼接操作,W为不同语义空间映射回初始语义空间的线性项,C为自注意力网络机制输出的字词语义向量。将拼接后的向量信息通过第一线性映射层映射回原语义空间,得到输出的字词语义特征向量信息。
步骤S103、基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息。
示范性的,在获取到各个字词的字词语义特征向量信息时,将获取到的各个字词的字词语义特征向量信息输入到该长短期记忆网络中,通过该长短期记忆网络中的上下文学习机制,获取各个字词的字词语义特征向量信息的上下文信息,通过各个各个字词的字词语义特征向量信息的上下文信息,得到各个字词的上下文字词语义特征向量信息。
在一实施例中,具体地,参照图3,步骤S103包括:子步骤S1031至子步骤S1034。
子步骤S1031、基于所述输入门和各个所述字词的字词语义特征向量信息,得到对应的第一向量信息和第一单元状态信息。
示范性的,通过输入门和各个字词的上下文语义特征向量信息,得到对应的第一向量信息和第一单元状态信息。例如,获取上一个时刻的输出向量和当前的字词的上下文语义特征向量信息,通过输入门得到第一向量信息,以及通过预置单元状态得到当前时刻第一单元状态信息。
子步骤S1032、基于所述遗忘门和各个所述字词的字词语义特征向量信息,得到对应的第二向量信息。
示范性的,通过遗忘门和各个字词的字词语义特征向量信息,得到对应的第二向量信息。例如,应用上一个时刻的输出向量和当前的字词的上下文语义特征向量信息,通过遗忘门得到第二向量信息。
子步骤S1033、通过第一预置单元状态信息、所述第一向量信息、第一单元状态信息和所述第二向量信息,得到第二单元状态信息。
示范性的,通过第一预置单元状态信息、第一向量信息、第一单元状态信息和第二向量信息,得到第二单元状态信息。例如,应用上一个细胞结构的单元状态、遗忘门输出的第二向量信息、输入门输出第一向量信息以及当前时刻第一单元状态信息,得到第二单元状态信息。
子步骤S1034、基于所述输出门、各个所述字词的字词语义特征向量信息以及所述第二单元状态信息,得到各个所述字词的上下文语义特征向量信息。
示范性的,基于输出门、各个字词的字词语义特征向量信息以及第二单元状态信息,得到各个字词的上下文语义特征向量信息。例如,应用上一个时刻的输出向量和当前的字词的上下文语义特征向量信息,通过输出门得到第一向量信息,以及第二单元状态信息和第一向量信息得到最终的输出各个字词的上下文语义特征向量信息。
步骤S104、通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息。
示范性的,在获取到各个字词的上下文语义特征向量信息时,通过预置全连接层对各个字词的的上下文语义特征向量信进行线性变换,得到各个字词的多个标签信息。例如,该预置全连接层包括线性层,通过该线性层对各个字词的的上下文语义特征向量信进行线性变换,得到各个字词的多个标签信息,其中,该标签信息包括n正常字符、a加塞字符,g违规字符。
步骤S105、基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息。
示范性的,条件随机场(conditional random field,简称CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。通过该条件随机场对各个字词的多个标签信息进行关联学习,获取待审核文本中各个字词的审核标签信息。
在一实施例中,所述基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息,包括:通过所述条件随机场中的关联学习机制,获取各个所述字词的各个标签信息的概率;基于各个所述标签信息的概率,确定各个所述字词的审核标签信息。
示范性的,通过条件随机场中的关联学习机制,获取各个字词的各个标签信息的概率;基于各个标签信息的概率,确定各个字词的审核标签信息。例如,在得到各个字词的各个标签信息的概率时,比对各个字词的各个标签信息的概率,选择概率最大的标签信息作为该字词的审核标签信息。
步骤S106、基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
示范性的,在获取到待审核模型中各个字词的审核标签信息时,若该多个字词的审核标签信息中有一个字词的标签信息为正常字符时,确定该待审核文本不是违规文本。
在一实施例中,所述基于各个所述字词的审核标签信息,确定所述待审核文本是否违规,包括:统计各个所述字词的审核标签信息中的正常标签,得到对应所述正常标签的正常值;将获取到的所述正常值与预置标签值进行比对;若各个所述字词的正常值大于或等于所述预置标签值,则确定所述待审核文本不是违规文本;若各个所述字词的正常值小于所述预置标签值,则确定所述待审核文本为违规文本。
示范性的,统计各个字词的审核标签信息中的正常标签,得到对应正常标签的正常值;将获取到的正常值与预置标签值进行比对;若各个字词的正常值大于或等于所述预置标签值,则确定待审核文本不是违规文本;若各个字词的正常值小于所述预置标签值,则确定待审核文本为违规文本。例如,该审核标签信息包括正常标签、加塞标签和违规标签,通过统计该审核标签信息中正常标签的数量,将该正常标签的数量作为正常标签的正常值。
在本发明实施例中,将获取到的待审核文本输入到文额不能审核模型中,通过预训练语言模型,获取待审核文本中各个字词的字词语义特征向量信息,通过长短期记忆网络,得到各个字词的的上下文语义特征向量信息,通过预置全连接层得到各个字词的多个标签信息,通过条件随机场获取待审核文本中各个字词的审核标签信息,基于各个字词的审核标签信息,确定待审核文本是否违规,实现对于文本不同语义结合上下文语境判断文本,提高文本审核的准确率,且从该审核标签信息中确定加塞字符,快速区分违规文本的类型。
请参照图4,图4为本申请的实施例提供的另一种文本审核方法的流程示意图。
如图4所示,该文本审核方法包括步骤S201至步骤S208。
步骤S201、对获取到的文本中的字词进行字词粒度标注,并将标注后的所述文本作为待训练文本。
示范性的,获取到文本,对获取到文本中的字词进行字词粒度标注。例如,获取到的文本为“今天#天气正好,适合出门爬山!”对该文本进行字词粒度标注后得到“nnanngnnnnnnnnn”,其中,n正常字符、a加塞字符,g违规字符,并将标注后的文本作为待训练文本。
步骤S202、根据所述待训练文本训练预置文本模型,生成对应的文本审核模型。
示范性的,在获取到该待训练文本时,通过该待训练文本训练预置文本模型,该待训练文本包括各个字词以及各个字词对应的标签信息,生成对应的文本审核模型,该文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场。
在一实施例中,所述生成对应的文本审核模型之前,包括:确定所述预置文本模型是否处于收敛状态;若确定所述预置文本模型处于收敛状态,则将所述预置文本模型作为文本审核模型;若所述预置文本模型未处于收敛状态,则根据所述待训练文本继续训练所述预置文本模型,以使所述预置文本模型处于收敛状态。
示范性的,在通过该待训练文本对预置文本模型进行训练后,确定该预置文本模型是否处于收敛状态,若确定预置文本模型处于收敛状态,则将预置文本模型作为文本审核模型;若预置文本模型未处于收敛状态,则根据待训练文本继续训练预置文本模型,以使预置文本模型处于收敛状态。
步骤S203、获取待审核文本,并将所述待审核文本输入到文本审核模型中。
示范性的,获取待审核文本,该待审核文本包括短句或短文本等。在获取到该待审核文本时,将该待审核文本输入到预置文本审核模型中,该文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场。
步骤S204、基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息。
示范性的,在得到待审核文本时,将待审核文本中每个字词用预训练的字词特征向量信息转换,得到对应各个字词的第一字词向量信息,其中第一字词向量信息包括待审核文本中每个字词的语义向量信息、位置向量信息、分段表示的加和向量信息。示范性的,该预训练的单词特征向量信息转换为将待审核文本表示成一系列能够表达字词语义的向量。例如,待审核文本为“你帮我”或“我帮你”,“你帮我”的二元语法依次为:“你,你帮,帮,帮我,我”;“我帮你”的二元语法依次为:“我,我帮,帮,帮你,你”,从而可以构造一个字典{“你”:1,“你帮”:2,“帮”:3,“帮我”:4,“我”:5,“我帮”:6,“帮你”:7},通过字典将“你帮我”向量化结果表示为[1,1,1,1,1,0,0];将“我帮你”向量化结果表示为[1,0,1,0,1,1,1]。
步骤S205、基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息。
示范性的,在获取到各个字词的字词语义特征向量信息时,将获取到的各个字词的字词语义特征向量信息输入到该长短期记忆网络中,通过该长短期记忆网络中的上下文学习机制,获取各个字词的字词语义特征向量信息的上下文信息,通过各个各个字词的字词语义特征向量信息的上下文信息,得到各个字词的上下文字词语义特征向量信息。
步骤S206、通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息。
示范性的,在获取到各个字词的上下文语义特征向量信息时,通过预置全连接层对各个字词的的上下文语义特征向量信进行线性变换,得到各个字词的多个标签信息。例如,该预置全连接层包括线性层,通过该线性层对各个字词的的上下文语义特征向量信进行线性变换,得到各个字词的多个标签信息,其中,该标签信息包括n正常字符、a加塞字符,g违规字符。
步骤S207、基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息。
示范性的,条件随机场(conditional random field,简称CRF),是一种鉴别式机率模型,是随机场的一种,常用于标注或分析序列资料,如自然语言文字或是生物序列。通过该条件随机场对各个字词的多个标签信息进行关联学习,获取待审核文本中各个字词的审核标签信息。
步骤S208、基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
示范性的,在获取到待审核模型中各个字词的审核标签信息时,若该多个字词的审核标签信息中有一个字词的标签信息为正常字符时,确定该待审核文本不是违规文本。
在本发明实施例中,通过对获取到的文本进行字词粒度标注得到对应的待训练文本,通过待训练文本对预置文本模型进行训练,生成对应的文额不能审核模型,通过文本审核模型对待审核文本进行审核,确定该待审核文本是否为违规文本,实现对于文本不同语义结合上下文语境判断文本,提高文本审核的准确率,且从该审核标签信息中确定加塞字符,快速区分违规文本的类型。
请参照图5,图5为本申请实施例提供的一种文本审核装置的示意性框图。
如图5所示,该文本审核装置400,包括:第一获取模块401、第二获取模块402、第三获取模块403、第四获取模块404、第五获取模块405、确定模块406。
第一获取模块401,用于获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
第二获取模块402,用于基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
第三获取模块403,用于基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
第四获取模块404,用于通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
第五获取模块405,用于基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
确定模块406,用于基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
其中,第二获取模块402具体还用于:
通过所述字典对所述待审核文本对进行字词切分,得到所述待审核文本中各个字词;
将各个所述字词进行特征向量转换,得到各个所述字词对应的字词向量信息;
将各个所述字词向量信息输入所述自注意力网络机制,得到各个所述字词向量信息的各个语义空间的字词语义向量信息;
通过所述各个语义空间的字词语义向量信息,获取所述自注意力网络模型输出的各个所述字词的字词语义特征向量信息。
其中,第三获取模块403具体还用于:
基于所述输入门和各个所述字词的字词语义特征向量信息,得到对应的第一向量信息和第一单元状态信息;
基于所述遗忘门和各个所述字词的字词语义特征向量信息,得到对应的第二向量信息;
通过第一预置单元状态信息、所述第一向量信息、第一单元状态信息和所述第二向量信息,得到第二单元状态信息;
基于所述输出门、各个所述字词的字词语义特征向量信息以及所述第二单元状态信息,得到各个所述字词的上下文语义特征向量信息。
其中,第五获取模块405具体还用于:
通过所述条件随机场中的关联学习机制,获取各个所述字词的各个标签信息的概率;
基于各个所述标签信息的概率,确定各个所述字词的审核标签信息。
其中,确定模块406具体还用于:
统计各个所述字词的审核标签信息中的正常标签,得到对应所述正常标签的正常值;
将获取到的所述正常值与预置标签值进行比对;
若各个所述字词的正常值大于或等于所述预置标签值,则确定所述待审核文本不是违规文本;
若各个所述字词的正常值小于所述预置标签值,则确定所述待审核文本为违规文本。
其中,文本审核装置具体还用于:
对获取到的文本中的字词进行字词粒度标注,并将标注后的所述文本作为待训练文本;
根据所述待训练文本训练预置文本模型,生成对应的文本审核模型。
其中,文本审核装置还用于:
确定所述预置文本模型是否处于收敛状态;
若确定所述预置文本模型处于收敛状态,则将所述预置文本模型作为文本审核模型;
若所述预置文本模型未处于收敛状态,则根据所述待训练文本继续训练所述预置文本模型,以使所述预置文本模型处于收敛状态。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述文本审核方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图6所示的计算机设备上运行。
请参阅图6,图6为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图6所示,该计算机设备包括通过***总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作***和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种文本审核方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种文本审核方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
在一个实施例中,所述处理器所述预训练语言模型包括字典文件和自注意力网络机制;所述基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息法实现时,用于实现:
通过所述字典对所述待审核文本对进行字词切分,得到所述待审核文本中各个字词;
将各个所述字词进行特征向量转换,得到各个所述字词对应的字词向量信息;
将各个所述字词向量信息输入所述自注意力网络机制,得到各个所述字词向量信息的各个语义空间的字词语义向量信息;
通过所述各个语义空间的字词语义向量信息,获取所述自注意力网络模型输出的各个所述字词的字词语义特征向量信息。
在一个实施例中,所述处理器所述长短期记忆网络包括输入门、遗忘门和输出门;所述基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息实现时,用于实现:
基于所述输入门和各个所述字词的字词语义特征向量信息,得到对应的第一向量信息和第一单元状态信息;
基于所述遗忘门和各个所述字词的字词语义特征向量信息,得到对应的第二向量信息;
通过第一预置单元状态信息、所述第一向量信息、第一单元状态信息和所述第二向量信息,得到第二单元状态信息;
基于所述输出门、各个所述字词的字词语义特征向量信息以及所述第二单元状态信息,得到各个所述字词的上下文语义特征向量信息。
在一个实施例中,所述处理器所述基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息实现时,用于实现:
通过所述条件随机场中的关联学习机制,获取各个所述字词的各个标签信息的概率;
基于各个所述标签信息的概率,确定各个所述字词的审核标签信息。
在一个实施例中,所述处理器所述基于各个所述字词的审核标签信息,确定所述待审核文本是否违规实现时,用于实现:
统计各个所述字词的审核标签信息中的正常标签,得到对应所述正常标签的正常值;
将获取到的所述正常值与预置标签值进行比对;
若各个所述字词的正常值大于或等于所述预置标签值,则确定所述待审核文本不是违规文本;
若各个所述字词的正常值小于所述预置标签值,则确定所述待审核文本为违规文本。
在一个实施例中,所述处理器所述获取待审核文本之前实现时,用于实现:
对获取到的文本中的字词进行字词粒度标注,并将标注后的所述文本作为待训练文本;
根据所述待训练文本训练预置文本模型,生成对应的文本审核模型。
在一个实施例中,所述处理器所述生成对应的文本审核模型之前实现时,用于实现:
确定所述预置文本模型是否处于收敛状态;
若确定所述预置文本模型处于收敛状态,则将所述预置文本模型作为文本审核模型;
若所述预置文本模型未处于收敛状态,则根据所述待训练文本继续训练所述预置文本模型,以使所述预置文本模型处于收敛状态。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请文本审核方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作***、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是预置文本模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本审核方法,其特征在于,包括:
获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
2.如权利要求1所述的文本审核方法,其特征在于,所述预训练语言模型包括字典文件和自注意力网络机制;
所述基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息,还包括:
通过所述字典对所述待审核文本对进行字词切分,得到所述待审核文本中各个字词;
将各个所述字词进行特征向量转换,得到各个所述字词对应的字词向量信息;
将各个所述字词向量信息输入所述自注意力网络机制,得到各个所述字词向量信息的各个语义空间的字词语义向量信息;
通过所述各个语义空间的字词语义向量信息,获取所述自注意力网络模型输出的各个所述字词的字词语义特征向量信息。
3.如权利要求1所述的文本审核方法,其特征在于,所述长短期记忆网络包括输入门、遗忘门和输出门;
所述基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息,包括:
基于所述输入门和各个所述字词的字词语义特征向量信息,得到对应的第一向量信息和第一单元状态信息;
基于所述遗忘门和各个所述字词的字词语义特征向量信息,得到对应的第二向量信息;
通过第一预置单元状态信息、所述第一向量信息、第一单元状态信息和所述第二向量信息,得到第二单元状态信息;
基于所述输出门、各个所述字词的字词语义特征向量信息以及所述第二单元状态信息,得到各个所述字词的上下文语义特征向量信息。
4.如权利要求1所述的文本审核方法,其特征在于,所述基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息,包括:
通过所述条件随机场中的关联学习机制,获取各个所述字词的各个标签信息的概率;
基于各个所述标签信息的概率,确定各个所述字词的审核标签信息。
5.如权利要求1所述的文本审核方法,其特征在于,所述基于各个所述字词的审核标签信息,确定所述待审核文本是否违规,包括:
统计各个所述字词的审核标签信息中的正常标签,得到对应所述正常标签的正常值;
将获取到的所述正常值与预置标签值进行比对;
若各个所述字词的正常值大于或等于所述预置标签值,则确定所述待审核文本不是违规文本;
若各个所述字词的正常值小于所述预置标签值,则确定所述待审核文本为违规文本。
6.如权利要求1所述的文本审核方法,其特征在于,所述获取待审核文本之前,还包括:
对获取到的文本中的字词进行字词粒度标注,并将标注后的所述文本作为待训练文本;
根据所述待训练文本训练预置文本模型,生成对应的文本审核模型。
7.如权利要求6所述的文本审核方法,其特征在于,所述生成对应的文本审核模型之前,包括:
确定所述预置文本模型是否处于收敛状态;
若确定所述预置文本模型处于收敛状态,则将所述预置文本模型作为文本审核模型;
若所述预置文本模型未处于收敛状态,则根据所述待训练文本继续训练所述预置文本模型,以使所述预置文本模型处于收敛状态。
8.一种文本审核装置,其特征在于,包括:
第一获取模块,用于获取待审核文本,并将所述待审核文本输入到文本审核模型中,其中,所述文本审核模型包括预训练语言模型、长短期记忆网络和条件随机场;
第二获取模块,用于基于所述预训练语言模型,获取所述待审核文本中各个字词的字词语义特征向量信息;
第三获取模块,用于基于所述长短期记忆网络和各个所述字词的字词语义特征向量信息,得到各个所述字词的的上下文语义特征向量信息;
第四获取模块,用于通过预置全连接层对各个所述字词的的上下文语义特征向量信进行线性变换,得到各个所述字词的多个标签信息;
第五获取模块,用于基于所述条件随机场对各个所述字词的多个标签信息进行关联学习,获取所述待审核文本中各个字词的审核标签信息;
确定模块,用于基于各个所述字词的审核标签信息,确定所述待审核文本是否违规。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的文本审核方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的文本审核方法的步骤。
CN202011548444.0A 2020-12-23 2020-12-23 文本审核方法、装置、设备及存储介质 Pending CN112686049A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011548444.0A CN112686049A (zh) 2020-12-23 2020-12-23 文本审核方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011548444.0A CN112686049A (zh) 2020-12-23 2020-12-23 文本审核方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112686049A true CN112686049A (zh) 2021-04-20

Family

ID=75452397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011548444.0A Pending CN112686049A (zh) 2020-12-23 2020-12-23 文本审核方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112686049A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990182A (zh) * 2021-05-10 2021-06-18 北京轻松筹信息技术有限公司 筹款信息审核方法、***及电子设备
CN113935335A (zh) * 2021-12-16 2022-01-14 深圳市迪博企业风险管理技术有限公司 一种合同文本合规性智能检查方法
CN114492419A (zh) * 2022-04-01 2022-05-13 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、***及装置
CN116108132A (zh) * 2022-11-09 2023-05-12 上海创蓝云智信息科技股份有限公司 短信文本的审核方法和装置
CN117273667A (zh) * 2023-11-22 2023-12-22 浪潮通用软件有限公司 一种单据审核处理方法及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990182A (zh) * 2021-05-10 2021-06-18 北京轻松筹信息技术有限公司 筹款信息审核方法、***及电子设备
CN113935335A (zh) * 2021-12-16 2022-01-14 深圳市迪博企业风险管理技术有限公司 一种合同文本合规性智能检查方法
CN113935335B (zh) * 2021-12-16 2022-03-22 深圳市迪博企业风险管理技术有限公司 一种合同文本合规性智能检查方法
CN114492419A (zh) * 2022-04-01 2022-05-13 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、***及装置
CN114492419B (zh) * 2022-04-01 2022-08-23 杭州费尔斯通科技有限公司 基于标注中新增关键词语的文本标注方法、***及装置
CN116108132A (zh) * 2022-11-09 2023-05-12 上海创蓝云智信息科技股份有限公司 短信文本的审核方法和装置
CN116108132B (zh) * 2022-11-09 2024-04-19 上海创蓝云智信息科技股份有限公司 短信文本的审核方法和装置
CN117273667A (zh) * 2023-11-22 2023-12-22 浪潮通用软件有限公司 一种单据审核处理方法及设备
CN117273667B (zh) * 2023-11-22 2024-02-20 浪潮通用软件有限公司 一种单据审核处理方法及设备

Similar Documents

Publication Publication Date Title
CN112464641B (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN110347835B (zh) 文本聚类方法、电子装置及存储介质
CN112528672B (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
JP6955580B2 (ja) 文書要約自動抽出方法、装置、コンピュータ機器及び記憶媒体
CN112686049A (zh) 文本审核方法、装置、设备及存储介质
CN110377759B (zh) 事件关系图谱构建方法及装置
CN111475617B (zh) 事件主体抽取方法、装置及存储介质
CN111611810B (zh) 一种多音字读音消歧装置及方法
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN110851596A (zh) 文本分类方法、装置及计算机可读存储介质
CN112528634A (zh) 文本纠错模型训练、识别方法、装置、设备及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111368037A (zh) 基于Bert模型的文本相似度计算方法和装置
CN110866098A (zh) 基于transformer和lstm的机器阅读方法、装置及可读存储介质
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN111967264A (zh) 一种命名实体识别方法
WO2021223882A1 (en) Prediction explanation in machine learning classifiers
CN111339775A (zh) 命名实体识别方法、装置、终端设备及存储介质
CN113886601A (zh) 电子文本事件抽取方法、装置、设备及存储介质
CN112417887A (zh) 敏感词句识别模型处理方法、及其相关设备
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
CN114064852A (zh) 自然语言的关系抽取方法、装置、电子设备和存储介质
CN112988964B (zh) 文本韵律边界预测的方法、装置、设备及存储介质
CN114281996A (zh) 长文本分类方法、装置、设备及存储介质
CN108875024B (zh) 文本分类方法、***、可读存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination