CN111274782B - 一种文本审核方法、装置、计算机设备及可读存储介质 - Google Patents
一种文本审核方法、装置、计算机设备及可读存储介质 Download PDFInfo
- Publication number
- CN111274782B CN111274782B CN202010116229.7A CN202010116229A CN111274782B CN 111274782 B CN111274782 B CN 111274782B CN 202010116229 A CN202010116229 A CN 202010116229A CN 111274782 B CN111274782 B CN 111274782B
- Authority
- CN
- China
- Prior art keywords
- text
- audit
- auditing
- salient
- checked
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012550 audit Methods 0.000 claims abstract description 132
- 239000012634 fragment Substances 0.000 claims abstract description 85
- 238000013145 classification model Methods 0.000 claims abstract description 51
- 238000012549 training Methods 0.000 claims description 42
- 230000011218 segmentation Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 5
- 238000012552 review Methods 0.000 claims description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011282 treatment Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文本审核方法体,该方法体包括:接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示;本发明可以提高审核文本的精准度和速度。
Description
技术领域
本发明涉及互联网技术领域,具体涉及一种文本审核方法、装置、计算机设备及可读存储介质。
背景技术
随着互联网技术的不断发展,越来越多的信息通过互联网进行传播;其中,信息传播的一个重要载体就是文本;由于在文本中会包含敏感或不良信息,为了防止敏感信息泄露以及防止不良信息的传播,需要审核人员人工的对文本进行风险内容审核;但是,由于每份文本的文字数量大、内容繁杂、表述多样,需要耗费较多的人力成本,不仅审核效率较低,而且审核准确率也得不到保障。因此,如何提高审核文本的效率和准确率成为目前亟待解决的技术问题。
发明内容
本发明的目的在于提供一种文本审核方法、装置、计算机设备及可读存储介质,可以提高审核文本的精准度和速度。
根据本发明的一个方面,提供了一种文本审核方法,具体包括以下步骤:
接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示。
可选的,在所述从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签之前,所述方法还包括:
针对一种文本类型,获取与所述文本类型对应的训练样本集;其中,所述训练样本集包括:设定数量的历史文本、每个历史文本的片段信息以及每个片段的主题标签;
根据所述训练样本集中的各个历史文本所包含的主题标签,将包含在所有历史文本中的主题标签确定为所述文本类型的必要主题标签;
根据所述训练样本集对预设模型进行训练学习,以得到与所述文本类型对应的分类模型。
可选的,所述根据所述训练样本集对预设模型进行训练学习,以得到与所述文本类型对应的分类模型,具体包括:
针对所述训练样本集中的一个主题标签,获取各个历史文本中的与所述主题标签对应的片段;对获取到的每个片段进行分词处理,并提取出每个片段的名词;从所有片段的名词中确定出用于代表所述主题标签的设定数量的显著名词,并计算出每个显著名词的显著系数,以形成与所述主题标签对应的显著词集合;
汇聚所述训练样本集中的各个主题标签的显著词集合,作为与所述文本类型对应的分类模型。
可选的,所述利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签,具体包括:
确定出包含在所述待审核文本中的各个标题,并根据确定出的各个标题将所述待审核文本拆分为多个审核片段;其中,每个审核片段包括:标题部分和正文部分;
分别对每个审核片段进行分词处理,并提取出每个审核片段的名词;
针对一个审核片段,分别从每个显著词集合中确定出目标显著词,其中,所述目标显著词为同时出现在显著词集合和所述审核片段中的名词;根据每个显著词集合中的目标显著词的显著系数,计算出每个显著词集合的显著系数总和;并将显著系数总和最大的显著词集合所对应的主题标签添加到所述审核片段上。
可选的,所述根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则,具体包括:
判断在所述待审核文本的所有主题标签中是否包含所述文本类型的所有必要主题标签;若是,则根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;若否,则将包含缺少的必要主题标签的信息发送至所述用户终端。
可选的,所述审核规则包括:审核要素和审核子规则,且一个审核要素对应一个审核子规则;
所述根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示,具体包括:
根据所述审核规则中的各个审核要素,从所述审核片段中分别提取出与每个审核要素对应的要素内容;
针对一个审核要素的要素内容,判断所述要素内容是否满足与所述审核要素对应的审核子规则;若否,则将所述要素内容作为风险要素内容发送至所述用户终端。
可选的,在所述根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示之后,所述方法还包括:
接收由所述用户终端发送来的审核结果信息,根据所述审核结果信息判断确定出的风险要素内容是否正确;若是,则为所述风险要素内容所对应的审核规则的准确值加一;若否,则为所述风险要素内容所对应的审核规则的准确值减一;
将准确值小于预设阈值的审核规则发送至所述用户终端,以供所述用户终端对所述审核规则进行修改。
根据本发明的另一个方面,还提供了一种文本审核装置,具体包括以下组成部分:
接收模块,用于接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
拆分模块,用于从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
获取模块,用于根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
判断模块,用于根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示。
根据本发明的另一个方面,还提供了一种计算机设备,具体包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述文本审核方法的步骤。
根据本发明的另一个方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述文本审核方法的步骤。
本发明提供的文本审核方法、装置、计算机设备及可读存储介质,将待审核文本拆分为多个审核片段,并为每个审核片段设置对应的审核规则;通过每个审核规则对对应的审核片段进行文本审核,可以有针对性的进行风险检查,从而提高文本审核的精准度。此外,在本发明中还可以并行的对待审核文本中的各个审核片段进行审核,从而提高了审核文本的效率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为实施例一提供的文本审核方法的一种可选的流程示意图;
图2为实施例二提供的文本审核装置的一种可选的程序模块示意图;
图3为实施例三提供的计算机设备的一种可选的硬件架构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种文本审核方法,如图1所示,该方法具体包括以下步骤:
步骤S101:接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型。
优选的,本实施例中的文本可以为合同;合同关系到公司或个人的利益,在实际的业务场景中,为保证合同双方的权利与义务,需要对合同内容进行审核。因此,在步骤S101中,当接收到待审核合同时,通过分析所述待审核合同的合同结构以确定出所述待审核合同的合同类型。
在本实施例中,待审核合同是根据不同类型的合同模板生成的,每种类型的合同模板均有对应的合同结构,通过分析待审核合同的合同结构即可确定出待审核合同所使用的合同模板的类型,从而得到待审核合同的合同类型。
具体的,合同类型包括:采购类、销售类、意向合作类和保密类。
步骤S102:从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签。
具体的,在步骤S102之前,所述方法还包括:
步骤A1:针对一种文本类型,获取与所述文本类型对应的训练样本集;其中,所述训练样本集包括:设定数量的历史文本、每个历史文本的片段信息以及每个片段的主题标签;
合同通常包括多个部分,每个部分都有对应的标题和正文;由于在人工审核合同的场景中,审核人员在审核合同的时候会一部分一部分的审核合同,从而确认每个部分是否满足对应的法律等方面的条款,所以根据审核人员的审核习惯分别将所述训练样本集中的各个历史合同按照标题和正文拆分为多个片段,且根据每个片段的内容分别为拆分后的每个片段添加对应的主题标签。
例如,采购类的待审核合同被划分为以下片段:双方权利与义务、费用与付款、违约责任与责任限制、第三方权利保证、独立性与可分割性、协议变更及终止、合同标的及产品/服务标准、知识产权、合同生效及期限、最惠待遇。
步骤A2:根据所述训练样本集中的各个历史文本所包含的主题标签,将包含在所有历史文本中的主题标签确定为所述文本类型的必要主题标签。
步骤A3:根据所述训练样本集对预设模型进行训练学习,以得到与所述文本类型对应的分类模型。
进一步的,所述根据所述训练样本集对预设模型进行训练学习,以得到与所述文本类型对应的分类模型,具体包括:
步骤A31:针对所述训练样本集中的一个主题标签,获取各个历史文本中的与所述主题标签对应的片段;
步骤A32:对获取到的每个片段进行分词处理,并提取出每个片段的名词;
步骤A33:从所有片段的名词中确定出用于代表所述主题标签的设定数量的显著名词,并计算出每个显著名词的显著系数,以形成与所述主题标签对应的显著词集合;
步骤A34:汇聚所述训练样本集中的各个主题标签的显著词集合,作为与所述文本类型对应的分类模型。
需要说明的是,所述显示词集合中的各个显著名词均有对应的显著系数;显著名词的显著系数值越大,说明该显著名词越能代表对应的主题标签。
优选的,在实际应用中,在步骤A33中,根据每个名词在各个片段中的出现概率进行降序排序,将排在前设定数量的名词设置为显著名词,并根据每个显著名词的出现概率计算出对应的显著系数。
此外,在实际应用中预设模型还可采用朴素贝叶斯分类模型,根据所述训练样本集对朴素贝叶斯分类模型进行训练学习,以得到与所述文本类型对应的分类模型。
更进一步的,步骤S102,包括:
步骤B1:确定出包含在所述待审核文本中的各个标题,并根据确定出的各个标题将所述待审核文本拆分为多个审核片段;其中,每个审核片段包括:标题部分和正文部分;
步骤B2:分别对每个审核片段进行分词处理,并提取出每个审核片段的名词;
步骤B3:针对一个审核片段,分别从每个显著词集合中确定出目标显著词,其中,所述目标显著词为同时出现在显著词集合和所述审核片段中的名词;根据每个显著词集合中的目标显著词的显著系数,计算出每个显著词集合的显著系数总和;并将显著系数总和最大的显著词集合所对应的主题标签添加到所述审核片段上。
步骤S103:根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则。
具体的,步骤S103,包括:
判断在所述待审核文本的所有主题标签中是否包含所述文本类型的所有必要主题标签;若是,则根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;若否,则将包含缺少的必要主题标签的信息发送至所述用户终端。
在本实施例中,首先是对待审核合同的完整性进行审核,根据待审核合同所包含的主题标签的种类,确定出待审核合同是否缺少必要内容,在待审核合同缺少必要主题标签时进行提醒操作。
在本实施例中,事先分别为不同类型的合同设置对应的规则库;在一个规则库中包括与不同的主题标签对应的审核规则,即,待审核合同中的每个审核片段均有对应的审核规则,通过每个审核片段的审核规则,有针对性的进行风险检查,从而提高合同审核的精准度。
具体的,审核规则包括:审核要素和审核子规则,且一个审核要素对应一个审核子规则;其中,审核要素是文本审核的最小审核单元,审核子规则是用于对审核要素进行风险审核的判断规则。
例如,当合同类型为采购类、审核片段的主题标签为费用与付款时,对应的审核规则的审核要素包括:支付期限、账期、费用、税务;针对审核要素为费用,审核子规则为:判断是否包含金额和金额单位,若否,则存在风险。
步骤S104:根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示。
具体的,步骤S104,包括:
步骤C1:根据所述审核规则中的各个审核要素,从所述审核片段中分别提取出与每个审核要素对应的要素内容;
步骤C2:针对一个审核要素的要素内容,判断所述要素内容是否满足与所述审核要素对应的审核子规则;若否,则将所述要素内容作为风险要素内容发送至所述用户终端。
进一步的,所述判断所述要素内容是否满足与所述审核要素对应的审核子规则,包括:
判断所述要素内容是否包含预设关键词;或者,
判断所述要素内容是否与预设内容一致;或者,
判断所述要素内容中包含的币种或金额的大小写是否一致。
在本实施例中,将待审核合同拆分为多个审核片段,并可以并行的对待审核合同中的各个审核片段进行审核,从而提高了审核合同的效率;此外,针对每个审核片段设置对应的审核规则,因此,可以针对性的进行合同审核,准确性更高。
更进一步的,在步骤S104之后,所述方法还包括:
步骤D1:接收由所述用户终端发送来的审核结果信息,根据所述审核结果信息判断确定出的风险要素内容是否正确,若是,则为所述风险要素内容所对应的审核规则的准确值加一,若否,则为所述风险要素内容所对应的审核规则的准确值减一;
在本实施例中,分别为每个审核规则设置准确值,且每个审核规则的初始化的准确值均一致;当将风险要素内容发送至用户终端时,用户根据自身的专业知识背景,对风险要素内容进行人工纠正,并将审核结果信息反馈回来;再根据审核结果信息,调整每个审核规则的准确值。
步骤D2:将准确值小于预设阈值的审核规则发送至所述用户终端,以供所述用户终端对所述审核规则进行修改;
在本实施例中,利用审核结果信息不断的对审核规则进行修正,以让审核规则不断完善。
实施例二
本发明实施例提供了一种文本审核装置,如图2所示,该装置具体包括以下组成部分:
接收模块201,用于接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
拆分模块202,用于从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
获取模块203,用于根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
判断模块204,用于根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示。
具体的,所述装置还包括:
训练模块,用于在所述从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签之前,针对一种文本类型,获取与所述文本类型对应的训练样本集;其中,所述训练样本集包括:设定数量的历史文本、每个历史文本的片段信息以及每个片段的主题标签;根据所述训练样本集中的各个历史文本所包含的主题标签,将包含在所有历史文本中的主题标签确定为所述文本类型的必要主题标签;根据所述训练样本集对预设模型进行训练学习,以得到与所述文本类型对应的分类模型。
进一步的,所述训练模块在实现所述根据所述训练样本集对预设模型进行训练学习,以得到与所述文本类型对应的分类模型的功能时,具体包括:
针对所述训练样本集中的一个主题标签,获取各个历史文本中的与所述主题标签对应的片段;对获取到的每个片段进行分词处理,并提取出每个片段的名词;从所有片段的名词中确定出用于代表所述主题标签的设定数量的显著名词,并计算出每个显著名词的显著系数,以形成与所述主题标签对应的显著词集合;汇聚所述训练样本集中的各个主题标签的显著词集合,作为与所述文本类型对应的分类模型。
此外,拆分模块202,具体用于:
确定出包含在所述待审核文本中的各个标题,并根据确定出的各个标题将所述待审核文本拆分为多个审核片段;其中,每个审核片段包括:标题部分和正文部分;分别对每个审核片段进行分词处理,并提取出每个审核片段的名词;针对一个审核片段,分别从每个显著词集合中确定出目标显著词,其中,所述目标显著词为同时出现在显著词集合和所述审核片段中的名词;根据每个显著词集合中的目标显著词的显著系数,计算出每个显著词集合的显著系数总和;并将显著系数总和最大的显著词集合所对应的主题标签添加到所述审核片段上。
获取模块203,具体用于:
判断在所述待审核文本的所有主题标签中是否包含所述文本类型的所有必要主题标签;若是,则根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;若否,则将包含缺少的必要主题标签的信息发送至所述用户终端。
进一步的,所述审核规则包括:审核要素和审核子规则,且一个审核要素对应一个审核子规则;
此外,判断模块204,具体用于:
根据所述审核规则中的各个审核要素,从所述审核片段中分别提取出与每个审核要素对应的要素内容;针对一个审核要素的要素内容,判断所述要素内容是否满足与所述审核要素对应的审核子规则;若否,则将所述要素内容作为风险要素内容发送至所述用户终端。
更进一步的,所述装置还包括:
修正模块,用于在所述根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示之后,接收由所述用户终端发送来的审核结果信息,根据所述审核结果信息判断确定出的风险要素内容是否正确;若是,则为所述风险要素内容所对应的审核规则的准确值加一;若否,则为所述风险要素内容所对应的审核规则的准确值减一;将准确值小于预设阈值的审核规则发送至所述用户终端,以供所述用户终端对所述审核规则进行修改。
实施例三
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图3所示,本实施例的计算机设备30至少包括但不限于:可通过***总线相互通信连接的存储器301、处理器302。需要指出的是,图3仅示出了具有组件301-302的计算机设备30,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器301(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器301可以是计算机设备30的内部存储单元,例如该计算机设备30的硬盘或内存。在另一些实施例中,存储器301也可以是计算机设备30的外部存储设备,例如该计算机设备30上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器301还可以既包括计算机设备30的内部存储单元也包括其外部存储设备。在本实施例中,存储器301通常用于存储安装于计算机设备30的操作***和各类应用软件,例如实施例二的文本审核装置的程序代码等。此外,存储器301还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器302在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器302通常用于控制计算机设备30的总体操作。
具体的,在本实施例中,处理器302用于执行处理器302中存储的文本审核方法的程序,所述文本审核方法的程序被执行时实现如下步骤:
接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:
接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示。
上述方法步骤的具体实施例过程可参见第一实施例,本实施例在此不再重复赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种文本审核方法,其特征在于,所述方法包括:
接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示;
其中,所述从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签,包括:
针对一种文本类型,获取与所述文本类型对应的训练样本集;其中,所述训练样本集包括:设定数量的历史文本、每个历史文本的片段信息以及每个片段的主题标签;
根据所述训练样本集中的各个历史文本所包含的主题标签,将包含在所有历史文本中的主题标签确定为所述文本类型的必要主题标签;
针对所述训练样本集中的一个主题标签,获取各个历史文本中的与所述主题标签对应的片段;对获取到的每个片段进行分词处理,并提取出每个片段的名词;从所有片段的名词中确定出用于代表所述主题标签的设定数量的显著名词,并计算出每个显著名词的显著系数,以形成与所述主题标签对应的显著词集合;
汇聚所述训练样本集中的各个主题标签的显著词集合,作为与所述文本类型对应的分类模型;
确定出包含在所述待审核文本中的各个标题,并根据确定出的各个标题将所述待审核文本拆分为多个审核片段;其中,每个审核片段包括:标题部分和正文部分;
分别对每个审核片段进行分词处理,并提取出每个审核片段的名词;
针对一个审核片段,分别从每个显著词集合中确定出目标显著词,其中,所述目标显著词为同时出现在显著词集合和所述审核片段中的名词;根据每个显著词集合中的目标显著词的显著系数,计算出每个显著词集合的显著系数总和;并将显著系数总和最大的显著词集合所对应的主题标签添加到所述审核片段上。
2.根据权利要求1所述的文本审核方法,其特征在于,所述根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则,具体包括:
判断在所述待审核文本的所有主题标签中是否包含所述文本类型的所有必要主题标签;若是,则根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;若否,则将包含缺少的必要主题标签的信息发送至所述用户终端。
3.根据权利要求1所述的文本审核方法,其特征在于,所述审核规则包括:审核要素和审核子规则,且一个审核要素对应一个审核子规则;
所述根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示,具体包括:
根据所述审核规则中的各个审核要素,从所述审核片段中分别提取出与每个审核要素对应的要素内容;
针对一个审核要素的要素内容,判断所述要素内容是否满足与所述审核要素对应的审核子规则;若否,则将所述要素内容作为风险要素内容发送至所述用户终端。
4.根据权利要求1所述的文本审核方法,其特征在于,在所述根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示之后,所述方法还包括:
接收由所述用户终端发送来的审核结果信息,根据所述审核结果信息判断确定出的风险要素内容是否正确;若是,则为所述风险要素内容所对应的审核规则的准确值加一;若否,则为所述风险要素内容所对应的审核规则的准确值减一;
将准确值小于预设阈值的审核规则发送至所述用户终端,以供所述用户终端对所述审核规则进行修改。
5.一种文本审核装置,其特征在于,所述装置包括:
接收模块,用于接收用户终端发送来的待审核文本,并将所述待审核文本与多个文本类型的文本模板进行文本结构的匹配,以确定出所述待审核文本的文本类型;
拆分模块,用于从预设的分类模型库中获取与所述文本类型对应的分类模型,利用所述分类模型将所述待审核文本拆分为多个审核片段,并为每个审核片段添加对应的主题标签;
获取模块,用于根据每个审核片段的主题标签,从与所述文本类型对应的规则库中分别获取与各个主题标签对应的审核规则;
判断模块,用于根据所述审核规则,判断在对应的审核片段中是否存在风险要素内容,若是,则将所述风险要素内容发送至所述用户终端,以进行风险提示;
所述拆分模块还用于:
针对一种文本类型,获取与所述文本类型对应的训练样本集;其中,所述训练样本集包括:设定数量的历史文本、每个历史文本的片段信息以及每个片段的主题标签;
根据所述训练样本集中的各个历史文本所包含的主题标签,将包含在所有历史文本中的主题标签确定为所述文本类型的必要主题标签;
针对所述训练样本集中的一个主题标签,获取各个历史文本中的与所述主题标签对应的片段;对获取到的每个片段进行分词处理,并提取出每个片段的名词;从所有片段的名词中确定出用于代表所述主题标签的设定数量的显著名词,并计算出每个显著名词的显著系数,以形成与所述主题标签对应的显著词集合;
汇聚所述训练样本集中的各个主题标签的显著词集合,作为与所述文本类型对应的分类模型;
确定出包含在所述待审核文本中的各个标题,并根据确定出的各个标题将所述待审核文本拆分为多个审核片段;其中,每个审核片段包括:标题部分和正文部分;
分别对每个审核片段进行分词处理,并提取出每个审核片段的名词;
针对一个审核片段,分别从每个显著词集合中确定出目标显著词,其中,所述目标显著词为同时出现在显著词集合和所述审核片段中的名词;根据每个显著词集合中的目标显著词的显著系数,计算出每个显著词集合的显著系数总和;并将显著系数总和最大的显著词集合所对应的主题标签添加到所述审核片段上。
6.一种计算机设备,所述计算机设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1至4任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116229.7A CN111274782B (zh) | 2020-02-25 | 2020-02-25 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
PCT/CN2020/111641 WO2021169208A1 (zh) | 2020-02-25 | 2020-08-27 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010116229.7A CN111274782B (zh) | 2020-02-25 | 2020-02-25 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274782A CN111274782A (zh) | 2020-06-12 |
CN111274782B true CN111274782B (zh) | 2023-10-20 |
Family
ID=71000343
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010116229.7A Active CN111274782B (zh) | 2020-02-25 | 2020-02-25 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111274782B (zh) |
WO (1) | WO2021169208A1 (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111274782B (zh) * | 2020-02-25 | 2023-10-20 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
CN112182502A (zh) * | 2020-09-07 | 2021-01-05 | 支付宝(杭州)信息技术有限公司 | 合规审核方法、装置和设备 |
CN112163585B (zh) * | 2020-11-10 | 2023-11-10 | 上海七猫文化传媒有限公司 | 文本的审核方法、装置、计算机设备及存储介质 |
CN112579771B (zh) * | 2020-12-08 | 2024-05-07 | 腾讯科技(深圳)有限公司 | 一种内容的标题检测方法及装置 |
CN112597851A (zh) * | 2020-12-15 | 2021-04-02 | 泰康保险集团股份有限公司 | 签名的获取方法、装置、电子设备及存储介质 |
CN112613285A (zh) * | 2020-12-21 | 2021-04-06 | 红塔烟草(集团)有限责任公司 | 一种基于分区域处理的招标文件审查分析方法 |
CN112950017A (zh) * | 2021-02-26 | 2021-06-11 | 云账户技术(天津)有限公司 | 合同风险识别方法、装置和电子设备 |
CN113469732A (zh) * | 2021-06-11 | 2021-10-01 | 北京百度网讯科技有限公司 | 基于内容理解的审核方法、装置及电子设备 |
CN113689148A (zh) * | 2021-09-26 | 2021-11-23 | 支付宝(杭州)信息技术有限公司 | 一种文本风险识别方法、装置及设备 |
CN114285616B (zh) * | 2021-12-16 | 2024-07-12 | 上海商汤科技开发有限公司 | 一种数据传输方法和装置、电子设备及存储介质 |
CN114219443A (zh) * | 2021-12-16 | 2022-03-22 | 中国建设银行股份有限公司 | 单据数据处理方法、装置及设备 |
CN114489432B (zh) * | 2021-12-27 | 2024-04-09 | 掌阅科技股份有限公司 | 电子书审核方法、电子设备及存储介质 |
CN114302171B (zh) * | 2021-12-28 | 2024-04-09 | 新瑞鹏宠物医疗集团有限公司 | 视频审核方法、装置与存储介质 |
CN114049215A (zh) * | 2022-01-06 | 2022-02-15 | 杭州衡泰技术股份有限公司 | 异常交易识别方法、装置及应用 |
CN114399199A (zh) * | 2022-01-14 | 2022-04-26 | 中国建设银行股份有限公司 | 评审数据处理方法、装置、电子设备和存储介质 |
CN114095282B (zh) * | 2022-01-21 | 2022-04-15 | 杭银消费金融股份有限公司 | 一种基于短文本特征提取的风控处理方法及设备 |
CN114219501B (zh) * | 2022-02-22 | 2022-06-28 | 杭州衡泰技术股份有限公司 | 样本标注资源分配方法、装置及应用 |
CN114691865A (zh) * | 2022-03-03 | 2022-07-01 | 支付宝(杭州)信息技术有限公司 | 一种基金产品的审核方法、装置以及设备 |
CN114661901A (zh) * | 2022-03-03 | 2022-06-24 | 支付宝(杭州)信息技术有限公司 | 一种虚拟资源的审核方法、装置以及设备 |
CN115098629A (zh) * | 2022-06-22 | 2022-09-23 | 马上消费金融股份有限公司 | 文件处理方法、装置、服务器及可读存储介质 |
CN115358751B (zh) * | 2022-08-22 | 2023-04-28 | 中电金信软件有限公司 | 一种交易单据的自动审核方法、装置及电子设备 |
CN115130139B (zh) * | 2022-08-31 | 2022-12-02 | 杭州链城数字科技有限公司 | 数字资产审查方法、装置、***和存储介质 |
CN116663525B (zh) * | 2023-07-21 | 2023-12-01 | 科大讯飞股份有限公司 | 一种文档审核方法、装置、设备及存储介质 |
CN116664080B (zh) * | 2023-07-25 | 2023-10-10 | 山东唐和智能科技有限公司 | 一种微建议信息处理***及方法 |
CN117151096B (zh) * | 2023-09-05 | 2024-05-10 | 江苏群杰物联科技有限公司 | 智能合同审查方法、装置、电子设备及存储介质 |
CN116934278A (zh) * | 2023-09-19 | 2023-10-24 | 中铁建设集团有限公司 | 一种建筑施工方案审核方法与装置 |
CN117275030B (zh) * | 2023-09-27 | 2024-05-14 | 自然资源部地图技术审查中心 | 审核地图的方法和装置 |
CN117132244B (zh) * | 2023-10-26 | 2024-01-09 | 国网浙江省电力有限公司 | 用于智慧合规管理***的分类处理方法、装置及存储介质 |
CN117172249B (zh) * | 2023-11-03 | 2024-01-26 | 青矩技术股份有限公司 | 合同审查方法、装置、设备及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344382A (zh) * | 2018-10-23 | 2019-02-15 | 出门问问信息科技有限公司 | 审核合同的方法、装置、电子设备及计算机可读存储介质 |
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
WO2019196224A1 (zh) * | 2018-04-09 | 2019-10-17 | 平安科技(深圳)有限公司 | 制度信息处理方法、装置、计算机设备和存储介质 |
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
CN110705952A (zh) * | 2019-08-15 | 2020-01-17 | 平安信托有限责任公司 | 一种合同审核方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10521464B2 (en) * | 2015-12-10 | 2019-12-31 | Agile Data Decisions, Llc | Method and system for extracting, verifying and cataloging technical information from unstructured documents |
CN110362822B (zh) * | 2019-06-18 | 2024-07-02 | 中国平安财产保险股份有限公司 | 用于模型训练的文本标注方法、装置、计算机设备及存储介质 |
CN111274782B (zh) * | 2020-02-25 | 2023-10-20 | 平安科技(深圳)有限公司 | 一种文本审核方法、装置、计算机设备及可读存储介质 |
-
2020
- 2020-02-25 CN CN202010116229.7A patent/CN111274782B/zh active Active
- 2020-08-27 WO PCT/CN2020/111641 patent/WO2021169208A1/zh active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019184217A1 (zh) * | 2018-03-26 | 2019-10-03 | 平安科技(深圳)有限公司 | 热点事件分类方法、装置及存储介质 |
WO2019196224A1 (zh) * | 2018-04-09 | 2019-10-17 | 平安科技(深圳)有限公司 | 制度信息处理方法、装置、计算机设备和存储介质 |
CN109344382A (zh) * | 2018-10-23 | 2019-02-15 | 出门问问信息科技有限公司 | 审核合同的方法、装置、电子设备及计算机可读存储介质 |
CN110442842A (zh) * | 2019-06-20 | 2019-11-12 | 平安科技(深圳)有限公司 | 合同内容的提取方法及装置、计算机设备、存储介质 |
CN110705952A (zh) * | 2019-08-15 | 2020-01-17 | 平安信托有限责任公司 | 一种合同审核方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111274782A (zh) | 2020-06-12 |
WO2021169208A1 (zh) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274782B (zh) | 一种文本审核方法、装置、计算机设备及可读存储介质 | |
CN111598122B (zh) | 数据校验方法、装置、电子设备和存储介质 | |
CN112052305A (zh) | 信息提取方法、装置、计算机设备及可读存储介质 | |
CN111475700A (zh) | 一种数据提取方法及相关设备 | |
CN111582932A (zh) | 场景间信息推送方法、装置、计算机设备及存储介质 | |
CN110321423B (zh) | 一种文本数据的风险识别方法及服务器 | |
CN109324963B (zh) | 自动测试收益结果的方法及终端设备 | |
CN116758918A (zh) | 地址信息识别方法、装置、电子设备及存储介质 | |
CN113377972A (zh) | 多媒体内容推荐方法、装置、计算设备和存储介质 | |
CN114743012B (zh) | 一种文本识别方法及装置 | |
WO2017033200A1 (en) | Electronic sorting and classification of documents | |
CN113282837B (zh) | 事件分析方法、装置、计算机设备及存储介质 | |
CN113868210A (zh) | 一种导入数据的有效性验证方法、***、设备及存储介质 | |
CN113743982A (zh) | 广告投放方案推荐方法、装置、计算机设备及存储介质 | |
CN113901817A (zh) | 文档分类方法、装置、计算机设备和存储介质 | |
CN114861622A (zh) | 跟单信用证生成方法、装置、设备、存储介质和程序产品 | |
CN114549177A (zh) | 保函审查方法、装置、***与计算机可读存储介质 | |
CN113449506A (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN114154480A (zh) | 信息提取方法、装置、设备和存储介质 | |
EP4165564A1 (en) | Methods and systems for matching and optimizing technology solutions to requested enterprise products | |
CN112199948A (zh) | 文本内容识别和违规广告识别方法、装置及电子设备 | |
CN110879835A (zh) | 基于区块链的数据处理方法、装置、设备及可读存储介质 | |
CN114492413B (zh) | 文本校对方法、装置和电子设备 | |
US20230283580A1 (en) | Story message generation | |
CN118194841A (zh) | 报关单数据自动生成方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40030949 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |