CN110674255A - 文本内容审核方法及装置 - Google Patents
文本内容审核方法及装置 Download PDFInfo
- Publication number
- CN110674255A CN110674255A CN201910904584.8A CN201910904584A CN110674255A CN 110674255 A CN110674255 A CN 110674255A CN 201910904584 A CN201910904584 A CN 201910904584A CN 110674255 A CN110674255 A CN 110674255A
- Authority
- CN
- China
- Prior art keywords
- auditing
- text
- word
- audit
- text content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 85
- 238000012550 audit Methods 0.000 claims description 185
- 238000012549 training Methods 0.000 claims description 60
- 239000013598 vector Substances 0.000 claims description 49
- 230000008569 process Effects 0.000 claims description 19
- 238000003973 irrigation Methods 0.000 claims description 16
- 230000002262 irrigation Effects 0.000 claims description 16
- 238000012163 sequencing technique Methods 0.000 claims description 15
- 230000011218 segmentation Effects 0.000 claims description 14
- 238000012545 processing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 5
- 230000015654 memory Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002354 daily effect Effects 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种文本内容审核方法,包括:当接收到文本审核请求时,获取文本内容,并将文本内容的各个词数据与数据库中的各个关键词数据进行匹配。若存在词数据匹配成功,则确定该文本内容为负面文本,并生成第一审核结果发送给客户端;若不存在词数据匹配成功,则将该文本内容输入AI审核模型中进行审核,获取AI审核模型输出的审核参数,并依据该审核参数生成第二审核结果发送给客户端,该审核参数用于确定该文本内容是否为负面文本。应用该方法,在利用数据库中各个关键词数据进行匹配的基础上,再通过AI审核模型进行深度的审核,提高对文本内容审核的精度,正确地获知该文本内容是否为负面文本。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种文本内容审核方法及装置。
背景技术
随着互联网的发展以及网络用户的增多,人们越来越依赖于互联网,并进行各种信息的传播,例如新闻评论、视频弹幕、论坛、微博、博客等。用户可以在各个网络平台上发表言论。但是,随着网络上言论的增多,总有些不文明用户会在网上散播一些带有辱骂的负面性评论内容,或发布一些没有任何参考、阅读价值的灌水文本内容,会导致其他用户跟风散播负面内容的言论,影响网络环境。
在现有技术中,各大网络媒体运行商都会对用户发表的各种文本内容进行审核,通常做法是通过匹配关键词的方式,判断用户发表的文本内容中是否为负面文本或灌水文本。但是仅根据匹配关键词不一定能够完全识别出文本内容中携带的负面词汇,不文明用户在发表言论时,会将文本内容中负面词组替换成同音的词组,例如:微信、威信、薇信;或利用一些特殊符号将同一个词组的多个单词分开,使得审核文本内容过程中无法正确的判定该文本内容是否携带有负面词汇。
发明内容
有鉴于此,本发明提供了一种文本内容审核方法,先将文本内容的各个词数据与数据库中的各个关键词数据进行匹配,以确定文本内容是否存在负面的单词或词组。若各个词数据均未成功匹配,再利用AI审核模型对文本内容进行深度的审核,提高对文本内容审核的精度,正确地获知该文本内容是否为负面文本。
本发明还提供了一种文本内容审核装置,用以保证上述方法在实际中的实现及应用。
一种文本内容审核方法,包括:
当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
上述的方法,可选的,所述确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,包括:
调用预先设置的分词模块从所述文本内容提取多个单词及词组;
确定每个所述单词对应的词拼音,及每个所述词组对应的词组拼音;
将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的单词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配。
上述的方法,可选的,所述将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的单词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配,包括:
将各个所述单词、词组、单词拼音及词组拼音按照所述文本内容进行排序;
将各个所述单词及词组按照排序的顺序,依次与所述数据库中的各个关键词进行匹配;
判断每次进行匹配的单词或词组与各个所述关键词的是否匹配成功;
若每次进行匹配的单词或词组与各个所述关键词的均未匹配成功,则将各个所述单词拼音及词组拼音按照排序顺序,依次与所述数据库中的各个关键词拼音进行匹配。
上述的方法,可选的,所述将所述文本内容输入预先设置的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核,包括:
删除所述文本内容中携带的各个文本符号,获得与所述文本内容对应的待审核文本;
将所述待审核文本输入预先设置的向量转换器中,触发所述向量转换器对所述待审核文本进行转换,获得与所述待审核文本对应的编码向量;
获取所述AI审核模型中的第一审核模型及第二审核模型,并将所述编码向量分别输入所述第一审核模型及第二审核模型,触发所述第一审核模型及第二审核模型分别对所述编码向量进行审核后,分别生成与所述编码向量对应的第一审核数据和第二审核数据,以使所述AI审核模型依据所述第一审核数据和第二审核数据生成与所述文本内容对应的审核参数。
上述的方法,可选的,还包括:
将所述第一审核结果或所述第二审核结果更新至预先设置的任务列表,所述任务列表中包含各个已审核的历史文本内容的审核结果;
当接收到用户发送的任务查询请求时,将所述任务列表发送至预先设置的显示界面中,以使所述用户通过所述显示界面查看所述任务列表中的各个历史文本内容的审核结果。
上述的方法,可选的,所述AI审核模型的训练过程,包括:
获取预先存储的训练数据集,所述训练数据集包含各个携带标签的训练数据;
依次应用各个所述训练数据对初始审核模型进行训练,直至所述初始审核模型的网络参数满足预先设置的训练条件;
其中,将各个所述输入所述初始审核模型时,获得当前输入所述初始审核模型的训练数据对应的当前审核参数;调用预先设置的损失函数,对所述当前审核参数与当前输入所述初始审核模型的训练数据对应的标签进行计算,获得损失函数值;依据所述损失函数值,判断所述初始审核模型的模型参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始审核模型的模型参数;若满足,则将所述初始审核模型确定为AI审核模型。
一种文本内容审核装置,包括:
获取单元,用于当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
匹配单元,用于确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
第一生成单元,用于当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
审核单元,用于当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
第二生成单元,用于当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
上述的装置,可选的,所述匹配单元,包括:
提取子单元,用于调用预先设置的分词模块从所述文本内容提取多个单词及词组;
确定子单元,用于确定每个所述单词对应的词拼音,及每个所述词组对应的词组拼音;
第一匹配子单元,用于将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配。
上述的装置,可选的,所述匹配单元,包括:
排序子单元,用于将各个所述单词、词组、单词拼音及词组拼音按照所述文本内容进行排序;
第二匹配子单元,用于将各个所述单词及词组按照排序的顺序,依次与所述数据库中的各个关键词进行匹配;
判断子单元,用于判断每次进行匹配的单词或词组与各个所述关键词的是否匹配成功;
第三匹配子单元,用于若每次进行匹配的单词或词组与各个所述关键词的均未匹配成功,则将各个所述单词拼音及词组拼音按照排序顺序,依次与所述数据库中的各个关键词拼音进行匹配。
上述的装置,可选的,所述审核单元,包括:
删除子单元,用于删除所述文本内容中携带的各个文本符号,获得与所述文本内容对应的待审核文本;
转换子单元,用于将所述待审核文本输入预先设置的向量转换器中,触发所述向量转换器对所述待审核文本进行转换,获得与所述待审核文本对应的编码向量;
审核子单元,用于获取所述AI审核模型中的第一审核模型及第二审核模型,并将所述编码向量分别输入所述第一审核模型及第二审核模型,触发所述第一审核模型及第二审核模型分别对所述编码向量进行审核后,分别生成与所述编码向量对应的第一审核数据和第二审核数据,以使所述AI审核模型依据所述第一审核数据和第二审核数据生成与所述文本内容对应的审核参数。
一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述的文本内容审核方法。
一种电子设备,包括存储器,以及一个或者一个以上的指令,其中一个或者一个以上指令存储于存储器中,且经配置以由一个或者一个以上处理器执行上述的文本内容审核方法。
与现有技术相比,本发明包括以下优点:
本发明提供了一种文本内容审核方法,包括:当接收到客户端发送文本审核请求时,获取与该文本审核请求中包含的文本内容,并将文本内容的各个词数据与数据库中的各个关键词数据进行匹配。若存在词数据匹配成功,则确定该文本内容为负面文本,并生成第一审核结果发送给客户端;若不存在词数据匹配成功,则将该文本内容输入AI审核模型中进行审核,获取AI审核模型输出的审核参数,并依据该审核参数生成第二审核结果发送给客户端,该审核参数用于确定该文本内容是否为负面文本。应用本发明提供的方法,在利用数据库中各个关键词数据对文本内容进行匹配的基础上,再通过AI审核模型进行深度的审核,提高对文本内容审核的精度,正确地获知该文本内容是否为负面文本。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种文本内容审核方法的方法流程图;
图2为本发明实施例提供的一种文本内容审核方法的又一方法流程图;
图3为本发明实施例提供的一种文本内容审核方法的又一方法流程图;
图4为本发明实施例提供的一种文本内容审核方法的方法示意图;
图5为本发明实施例提供的一种文本内容审核方法的又一方法示意图;
图6为本发明实施例提供的一种文本内容审核方法的又一方法示意图;
图7为本发明实施例提供的一种文本内容审核装置的装置结构图;
图8为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种文本内容审核方法,该方法可以应用在多种***平台,其执行主体可以为计算机终端或各种移动设备中调度集群的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
在本发明实施例中,当用户在客户端中发表评论或创作等文本内容时,客户端可以将用户发表的文本内容以文本审核请求的方式发送至处理器。当处理器接收到客户端发送的文本审核请求时,获取该文本审核请求中包含的文本内容。
需要说明的是,该文本内容可以是一个单词、一个词组或由多个单词和词组组成的文本。
S102:确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
在本发明实施例中,确定与该文本内容对应的各个词数据。各个词数据包括了该文本内容的各个单词和词组,以及每个单词对应的单词拼音和词组对应的词组拼音。例如文本内容为“你真的很优秀”,则各个词数据分别为“你”、“真的”、“很”、“优秀”、“ni”、“zhende”、“hen”、“youxiu”。在确定各个词数据后,将每个词数据与数据库中的各个关键词数据进行匹配。其中,该数据库中的各个关键词数据也包含了多个关键词及每个关键词对应的关键词拼音。
需要说明的是,该数据中的各个关键词可以是负面性的词汇,为确定客户端所发送的文本内容是否存在负面性的词,可将数据库中的各个关键词进行匹配,以确定该文本内容是否为负面文本。负面文本中包含了一些具有辱骂、侮辱或不文明等词汇。
S103:当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
在本发明实施例中,在进行匹配的过程中,若存在一个词数据与该数据库中的关键词数据相匹配,即,该文本内容中存在一些负面词汇。将该文本内容确定为负面文本,并生成第一审核结果,该第一审核结果表明该文本内容为负面文本,并包含了对该文本内容进行审核的时间等参数。将该第一审核结果发送至客户端,客户端可以对该文本内容进行撤销或屏蔽等操作。
S104:当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
在本发明实施例中,在进行匹配完成后,当各个词数据中没有一个能够与数据库中的各个关键词数据成功匹配上,则可以初步确定该文本内容中可能没有负面词汇。将该文本内容输入预先完成训练的AI审核模型当中,触发该AI审核模型对该进行深入地审核,以确定该文本内容是否存在负面的词汇或者是语义。
S105:当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
在本发明实施例中,当接收到该AI审核模型输出审核参数时,根据该审核参数生成第二审核结果,根据该审核参数确定该文本内容是正常文本、负面文本或灌水文本。可选的,该AI审核模型除了可以确定负面文本、正常文本及灌水文本之外,还可以其他多种文本类型的文本,例如外文文本、数字文本等。
本发明实施例提供的文本内容审核方法中,当接收到客户端发送文本审核请求时,获取文本内容,并通过预先建立的数据库,将该文本内容对应的各个词数据分别与该数据库中的各个关键词数据进行匹配。其中,该文本内容对应的各个词数据包括了该文本内容的单词和词组,以及每个单词对应的单词拼音及每个词组对应的词组拼音。同样,该数据库中也存储了大量的关键词数据,其中,该关键词数据为关键词及每个关键词对应的关键词拼音。由于各个关键词为负面词汇,因此,通过将词数据与各个关键词数据匹配的方式,确定该文本内容中是否存在负面词汇。若该文本内容中存在负面词汇,即,该文本内容对应的各个词数据在进行匹配时,存在任意的词数据与数据库中关键词数据相匹配,则确定该文本内容为负面文本。生成第一审核结果,并将该第一审核结果发送至客户端,以使该客户端可以根据该第一审核结果对该文本内容进行撤销或屏蔽等操作。若该文本内容中不存在负面词汇,即,各个词数据在匹配过程中,不存在词数据与该数据库中的各个关键词数据相匹配,则确定该文本内容可能不携带负面文本。但数据库中的各个关键词数据可能不够全面,或各个词数据并非负面词汇,但文本内容的语义存在一些负面的含义,或文本内容可能是没有实际意义的灌水文本。例如文本内容为:“,,,。。。”,则该文本内容并不存在任何实际意义,因此该文本内容为灌水文本。当文本内容对应的各个词数据都没有匹配成功,则将该文本内容输入预先训练的AI审核模型当中,触发该AI审核模型对该文本内容进行审核,以确定该文本内容的文本类型是否为负面文本。当AI审核模型输出审核参数时,根据该审核参数生成第二审核结果。该审核参数可以表明该文本内容是正常文本、负面文本还是灌水文本,该审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。例如:审核参数为1,则该文本内容为正常文本;审核参数为2,则该文本内容为负面文本;审核参数为3,则该文本内容为灌水文本。根据该审核参数生成第二审核结果,该第二审核结果表明该文本内容的文本类型,并包含了对该文本内容进行审核的时间等参数。
需要说明的是,该AI审核模型可以是深度神经网络模型。该深度神经网络模型在进行深度学习后,可以对各种文本内容进行分类识别,确定每个文本内容的文本类型。该深度神经网络模型具有自然语言处理nlp审核算法的功能,可以通过该nlp审核算法对各种文本内容进行审核计算。
还需要说明的是,该文本内容可以是短文本内容。可选的,当该文本内容为长文本内容时,可以将该长文本内容拆分成多个短文本内容,并逐一对每个短文本内容进行审核。若存在任意的短文本内容为负面文本,则与其对应的长文本内容也为负面文本。
可选的,该预先建立的数据库中包含了多个关键词数据,该关键词数据分别为关键词及每个关键词对应的关键词拼音。该数据库可以是实时进行更新,以获取最新的关键词,并将将更新的关键词对应关键词拼音进行保存。该关键词具体可以是一些携带辱骂性、不文明语义的单词或词组,这些携带辱骂性、不文明语义的单词或词组均为负面词汇。通过更新数据库中的各个关键词数据,以提高对各个词数据的匹配成功率,有效识别出负面文本。
基于上述实施例提供的方法,对于上述文本内容的审核的过程,可以应用在用户发表视频弹幕的过程中,具体实施例为:
当用户在观看视频A时发送“这个演员演技很不错”弹幕内容时,客户端将与该弹幕内容对应的文本审核请求发送至处理器。当处理器接收到文本审核请求后,获取该弹幕内容“这个演员演技很不错”,并确定该弹幕内容对应的各个词数据分别为:“这个”、“演员”、“演技”、“很”、“不错”、“zhege”、“yanyuan”、“yanji”、“hen”、“bucuo”,并将各个词数据与数据库中的各个关键词数据进行匹配。当没有一个能成功匹配时,将弹幕内容“这个演员演技很不错”输入AI审核模型中。当AI审核模型输出代表为正常文本的审核参数1时,确定该用户发送的弹幕内容为正常文本。根据该审核参数生成审核结果发送至客户端,客户端可根据审核结果将该用户所发送的弹幕内容显示该视频A的弹幕显示区域中。
应用本发明实施例提供的方法,在获取文本内容后,先将文本内容对应的各个词数据与数据库中各个关键词数据进行匹配,能够初步确定该文本内容是否为负面文本,当词数据与数据库中的各个关键词数据匹配不成功时,在通过AI审核模型对文本内容进行审核,进一步深入地确定该文本内容为正常文本、负面文本还是灌水文本。通过AI审核模型对文本内容进行审核的方式,提高对文本内容审核的精度,正确地获知该文本内容是否为负面文本。
本发明实施例提供的方法中,基于上述步骤S102,在获取到文本内容后,确定与该文本内容对应的各个词数据,并将每个词数据与数据库中的各个关键词数据进行匹配的过程如图2所示,具体包括:
S201:调用预先设置的分词模块从所述文本内容提取多个单词及词组;
在本发明实施例中,在获取到文本内容后,利用预先设置的分词模块提取该文本内容中的多个单词和词组。即,将该文本内容分为多个单词和词组。
需要说明的是,该分词模块可以是中文分词模块中的jieba分词,用于将中文句子分成多个单词和词组。
S202:确定每个所述单词对应的词拼音,及每个所述词组对应的词组拼音;
在本发明实施例中,在根据分词模块提取出文本内容中的多个但词和词组后,将每个单词和词组都标注与其对应的拼音,确定每个单词对应的单词拼音以及每个词组对应的词组拼音。
S203将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的单词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配。
在本发明实施例中,将各个单词和词组分别与数据库中的各个关键词进行匹配,同样的,单词拼音和词组拼音与该数据库中的各个关键词拼音进行匹配。
本发明实施例提供的文本内容审核方法中,利用分词模块提取各个单词和词组,并确定每个单词和词组对应的单词拼音和词组拼音。将每个单词和词组与数据库中的各个关键词进行匹配,同时也将单词拼音和词组拼音与各个关键词的关键词拼音进行匹配。应用该方法,可以避免不文明用户利用同音词来替换负面词汇的情况,可以更加精确地对文本内容进行审核。
本发明实施例提供的方法中,基于上述步骤S203,在将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的单词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配时,具体包括:
将各个所述单词、词组、单词拼音及词组拼音按照所述文本内容进行排序;
将各个所述单词及词组按照排序的顺序,依次与所述数据库中的各个关键词进行匹配;
判断每次进行匹配的单词或词组与各个所述关键词的是否匹配成功;
若每次进行匹配的单词或词组与各个所述关键词的均未匹配成功,则将各个所述单词拼音及词组拼音按照排序顺序,依次与所述数据库中的各个关键词拼音进行匹配。
本发明实施例提供的文本内容审核方法中,在根据分词模块提取文本内容中的各个单词和词组以及确定每个单词对应的单词拼音和每个词组对应的词组拼音后,将各个单词、词组、单词拼音以及词组拼音进行排序。其排序顺序与文本内容中的顺序一致,先将各个单词和词组进行排序,再将各个单词拼音和词组拼音进行排序。先将各个已排序的单词和词组按照排序顺序,依次与数据库中的各个关键词进行匹配,并在每次匹配时,判断当前进行匹配的单词或词组是否匹配成功。如果所有的单词和词组都没有匹配成功,再将各个单词拼音和词组拼音按照排序顺序依次与该数据库中的各个关键词拼音进行匹配。
可选的,基于上述实施例提供的方法,当调用预先设置的分词模块提取文本内容中的多个单词和词组后,可以先将单词和词组排序并依次与数据库中的各个关键词进行匹配后,若不存在匹配成功的单词或词组,再确定各个单词和词组对应的单词拼音和词组拼音,并将已排序的各个单词拼音和词组拼音依次与数据库中的各个关键词拼音进行匹配。
进一步地,在各个单词和词语与各个关键词进行匹配的过程中,当前存在任意一个单词或词组与该数据库中的关键词匹配成功,则可以直接确定该文本内容为负面文本。并停止对未匹配的单词或词组的匹配,同时也无需再对单词拼音和词组拼音进行匹配。
应用本发明实施例提供的方法中,将先对单词和词组进行匹配,再对单词拼音与词组拼音进行匹配,只要当前有任意的单词或词组匹配成功,则无需再进行后续的匹配过程,提高对文本内容审核的速度。
本发明实施例提供的方法中,基于上述步骤S104,当该数据库中不存在与词数据相匹配的关键词数据时,所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核的过程,如图3所示,具体包括:
S301:删除所述文本内容中携带的各个文本符号,获得与所述文本内容对应的待审核文本;
在本发明实施例中,在将文本内容输入AI审核模型之前,先将该文本内容中携带的各个文本符号删除。该文本符号具体可以包括:“~”、“!”、“@”、“#”、“¥”、“%”、“……”、“()”、“,”等符号。将文本内容中的各个符号删除后,获得与该文本内容对应的待审核文本。例如,文本内容为“天啊~~他可真厉害!”,则待审核文本为“天啊他可真厉害”。
S302:将所述待审核文本输入预先设置的向量转换器中,触发所述向量转换器对所述待审核文本进行转换,获得与所述待审核文本对应的编码向量;
在本发明实施例中,将该待审核文本输入向量转换器当中,以使该向量转换器将该待审核文本转换成编码向量。
需要说明的是,该待审核文本转换成编码向量的过程,具体可以是将该待审核文件中的每个单词或词组对应一个维度为60的张量,一个文本内容最长截取400字符,后面填充0。将该待审核文本转换成400*60的矩阵,获得与该待审核文本对应的编码向量。
S303:获取所述AI审核模型中的第一审核模型及第二审核模型,并将所述编码向量分别输入所述第一审核模型及第二审核模型,触发所述第一审核模型及第二审核模型分别对所述编码向量进行审核后,分别生成与所述编码向量对应的第一审核数据和第二审核数据,以使所述AI审核模型依据所述第一审核数据和第二审核数据生成与所述文本内容对应的审核参数。
在本发明实施例中,该AI审核模型中包含了两个模型,分别为第一审核模型和第二审核模型。获取该AI审核模型中的第一审核模型和第二审核模型,并将该编码向量分别输入两个模型中进行审核。第一审核模型和第二审核模型在对该编码向量进行审核后,会输出与其对应的第一审核数据和第二审核数据,该AI审核模型在获得第一审核数据和第二审核数据后,生成与该文本内容对应的审核参数。
需要说明的是,该第一审核模型具体可以是卷积神经网络模型。应用该卷积神经网络模型对该待审核文本对应的编码向量采集文本中词与词之间的上下文信息,并根据上下文信息进行矩阵计算,输出与该文本内容对应的特征矩阵,输出与该特征矩阵对应的特征维度,即,上述实施例提及的第一审核数据。以三层卷积为例,输出与与文本内容对应的特征维度如图4所示。其中,embedding层为编码向量的矩阵维度,conv为卷积核,bn层为批量标准化结构层,能够提高训练速度,减少数据拟合过程;池化maxpool层用于固定输出长度;最后融合层将maxpool层输出的长度进行融合,获得第一审核数据。
该第二审核模型具体可以是长短期记忆网络(Long Short-Term Memory,LSTM)模型,该LSTM模型为循环神经网络(RecurrentNeuralNetwork,RNN)的一种特例。LSTM模型也用于获取整个文本内容的上下文信息,并采用双向LSTM的方法,即从前往后采集文本内容,又从后往前采集文本内容,获得更加完整的文本特征,即,上述实施例提及的第二审核数据。如图5所示,将编码向量分别进行从前往后采集文本内容,又从后往前采集文本内容,获得前向LSTM和后向LSTM,再将前向LSTM与后向LSTM融合,输出至bn层进行规范化,获得第二审核数据。
最后,如图6所示,由AI审核模型将三层卷积特征维度,即,第一审核数据,和双向LSTM特征维度,即,第二审核数据,进行特征融合,再通过全连接输出与该文本内容对应的审核参数。
本发明实施例提供的文本内容审核方法中,在将文本内容输入AI审核模型前,对该文本内容进行预处理,即,删除该文本内容中的各个文本符号,获得待审核文本,其中,该文本符号包含中英文标点符号。再将该待审核文本转换成编码向量后分别输入第一审核模型和第二审核模型,由第一审核模型和第二审核模型分别对该编码向量进行审核,分别获取该文本内容中上下文的信息,分别输出第一审核数据和第二审核数据。通过深度地对该文本内容进行审核,以提高对文本内容审核的精度,正确地获知该文本内容是否为负面文本。
本发明实施例提供的方法中,利用AI审核模型对文本内容进行审核。其中,该AI审核模型为预先训练完成的深度神经网络模型,其中,该AI审核模型的训练过程,具体包括:
获取预先存储的训练数据集,所述训练数据集包含各个携带标签的训练数据;
依次应用各个所述训练数据对初始审核模型进行训练,直至所述初始审核模型的网络参数满足预先设置的训练条件;
其中,将各个所述输入所述初始审核模型时,获得当前输入所述初始审核模型的训练数据对应的当前审核参数;调用预先设置的损失函数,对所述当前审核参数与当前输入所述初始审核模型的训练数据对应的标签进行计算,获得损失函数值;依据所述损失函数值,判断所述初始审核模型的模型参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始审核模型的模型参数;若满足,则将所述初始审核模型确定为AI审核模型。
本发明实施例提供的文本内容审核方法中,获取预先存储的训练数据集,该训练数据集中包含了各个携带标签的训练数据。其中,该各个训练数据的标签可以是人工设置的。若文本类型分为正常文本、负面文本和灌水文本时,则各个训练数据为各个文本内容,各个文本内容为正常文本的标签为正样本、负面文本的标签为负样本以及灌水文本的标签为灌水样本。利用该训练数据集中的各个训练数据对预先设置的初始审核模型进行训练,直至该初始审核模型的网络参数满足预设条件时,获得将满足该预设条件的初始审核模型确定为AI审核模型。其中,在对初始审核模型训练的过程中,将各个训练数据依次输入到该初始审核模型找那个进行训练,以使该初始审核模型输出当前审核参数。调用损失函数对该当前审核参数以及当前输入该初始审核模型的训练数据的标签进行计算,确定当前审核参数的损失函数值。判断该损失函数值是否满足训练条件,即,判断该初始审核模型对训练数据的训练是否达到了一定的条件。例如,该训练条件为对各个训练数据的输出的审核参数准确率要达到95%,但在通过计算后只达到92%,则不满足该训练条件。若计算后达到97%,则满足训练条件。不满足训练条件时,调整初始审核模型的模型参数,以使该初始审核模型在进行下一次审核训练时,提高训练精度。满足训练条件时,则将该初始审核模型确定为AI审核模型。
需要说明的是,在对初始审核模型进行训练前,可以预先生成文本case,该文本case中记录了人工对各个文本内容进行审核的审核情况,当初始审核模型对该文本case中各个文本内容进行审核后,将初始审核模型的审核结果记录至该文本case中,可以通过该文本case反映人工审核与模型审核的一致性。
可选的,可以每日对AI审核模型进行训练,并结合每日文本case可以生成文本报表,该文本报表中记录每日的对各个文本内容的审核数量、准确率、负面文本占比等。
应用本发明实施例提供的方法,通过训练初始审核模型获得AI审核模型,以保证AI审核模型在对各个文本内容进行文本审核时,提高对文本内容审核的准确度。
本发明实施例提供的方法中,在生成第一审核结果或第二审核结果后,具体还包括:
将所述第一审核结果或所述第二审核结果更新至预先设置的任务列表,所述任务列表中包含各个已审核的历史文本内容的审核结果;
当接收到用户发送的任务查询请求时,将所述任务列表发送至预先设置的显示界面中,以使所述用户通过所述显示界面查看所述任务列表中的各个历史文本内容的审核结果。
本发明实施例提供的文本内容审核方法中,当生成第一审核结果或第二审核结果时,将第一审核结果或第二审核结果更新至预先设置的任务列表中。该任务列表中记录了每次进行审核文本内容的历史审核结果,该任务列表具体包括文本内容的文本编号、文本创建时间、审核时间、结果、操作参数等。当用户发送任务查询请求时,将该任务列表中发送给用户,具体将该任务列表显示在预先设置的显示界面上,用户可以通过显示界面查看各个文本内容的审核结果。
应用本发明实施例提供的方法,可以对将每次生成的第一审核结果或第二审核结果保存到任务列表中,用户可以通过访问任务列表得知各个文本内容的审核情况。
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
与图1所述的方法相对应,本发明实施例还提供了一种文本内容审核装置,用于对图1中方法的具体实现,本发明实施例提供的文本内容审核装置可以应用计算机终端或各种移动设备中,其结构示意图如图7所示,具体包括:
获取单元701,用于当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
匹配单元702,用于确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
第一生成单元703,用于当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
审核单元704,用于当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
第二生成单元705,用于当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
本发明实施例提供的装置中,当接收到客户端发送的文本审核请求时,通过获取单元获取需要进行审核的文本内容,并在确定各个词数据后,通过匹配单元将各个词数据与数据库中的各个关键词数据进行匹配。若存在词数据与关键词数据相匹配,则确定该文本内容为负面文本,并由第一生成单元生成第一审核结果发送至客户端。若不存在词数据与关键词数据相匹配,则通过审核单元将文本内容输入AI审核模型进行审核,触发该AI审核模型对该文本内容进行审核,并在AI审核模型输出审核参数时,由第二生成单元生成第二审核结果发送至客户端。
应用本发明实施例提供的装置,通过匹配单元及审核单元,对文本内容的各个词数据进行匹配,并通过AI审核模型审核文本内容,能够更加精确地确定该文本内容是否为负面文本,防止存在不明用户在网络上发布不文明的负面文本。
本发明实施例提供的装置中,所述匹配单元702,包括:
提取子单元,用于调用预先设置的分词模块从所述文本内容提取多个单词及词组;
确定子单元,用于确定每个所述单词对应的词拼音,及每个所述词组对应的词组拼音;
第一匹配子单元,用于将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配。
本发明实施例提供的装置中,所述匹配单元702,包括:
排序子单元,用于将各个所述单词、词组、单词拼音及词组拼音按照所述文本内容进行排序;
第二匹配子单元,用于将各个所述单词及词组按照排序的顺序,依次与所述数据库中的各个关键词进行匹配;
判断子单元,用于判断每次进行匹配的单词或词组与各个所述关键词的是否匹配成功;
第三匹配子单元,用于若每次进行匹配的单词或词组与各个所述关键词的均未匹配成功,则将各个所述单词拼音及词组拼音按照排序顺序,依次与所述数据库中的各个关键词拼音进行匹配。
本发明实施例提供的装置中,所述审核单元704,包括:
删除子单元,用于删除所述文本内容中携带的各个文本符号,获得与所述文本内容对应的待审核文本;
转换子单元,用于将所述待审核文本输入预先设置的向量转换器中,触发所述向量转换器对所述待审核文本进行转换,获得与所述待审核文本对应的编码向量;
审核子单元,用于获取所述AI审核模型中的第一审核模型及第二审核模型,并将所述编码向量分别输入所述第一审核模型及第二审核模型,触发所述第一审核模型及第二审核模型分别对所述编码向量进行审核后,分别生成与所述编码向量对应的第一审核数据和第二审核数据,以使所述AI审核模型依据所述第一审核数据和第二审核数据生成与所述文本内容对应的审核参数。
本发明实施例提供的装置中,还包括:
更新单元,用于将所述第一审核结果或所述第二审核结果更新至预先设置的任务列表,所述任务列表中包含各个已审核的历史文本内容的审核结果;
发送单元,用于当接收到用户发送的任务查询请求时,将所述任务列表发送至预先设置的显示界面中,以使所述用户通过所述显示界面查看所述任务列表中的各个历史文本内容的审核结果。
本发明实施例提供的装置中,还包括:
训练单元,用于获取预先存储的训练数据集,所述训练数据集包含各个携带标签的训练数据;依次应用各个所述训练数据对初始审核模型进行训练,直至所述初始审核模型的网络参数满足预先设置的训练条件;其中,将各个所述输入所述初始审核模型时,获得当前输入所述初始审核模型的训练数据对应的当前审核参数;调用预先设置的损失函数,对所述当前审核参数与当前输入所述初始审核模型的训练数据对应的标签进行计算,获得损失函数值;依据所述损失函数值,判断所述初始审核模型的模型参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始审核模型的模型参数;若满足,则将所述初始审核模型确定为AI审核模型。
以上本发明实施例公开的文本内容审核装置各个单元及子单元具体工作过程,可参见本发明上述实施例公开的文本内容审核方法中的对应内容,这里不再进行赘述。
本发明实施例还提供了一种存储介质,所述存储介质包括存储的指令,其中,在所述指令运行时控制所述存储介质所在的设备执行上述文本内容审核方法。
本发明实施例还提供了一种电子设备,其结构示意图如图8所示,具体包括存储器801,以及一个或者一个以上的指令802,其中一个或者一个以上指令802存储于存储器801中,且经配置以由一个或者一个以上处理器803执行所述一个或者一个以上指令802进行以下操作:
当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于***或***实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的***及***实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种文本内容审核方法,其特征在于,包括:
当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
2.根据权利要求1所述的方法,其特征在于,所述确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,包括:
调用预先设置的分词模块从所述文本内容提取多个单词及词组;
确定每个所述单词对应的词拼音,及每个所述词组对应的词组拼音;
将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的单词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配。
3.根据权利要求2所述的方法,其特征在于,所述将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的单词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配,包括:
将各个所述单词、词组、单词拼音及词组拼音按照所述文本内容进行排序;
将各个所述单词及词组按照排序的顺序,依次与所述数据库中的各个关键词进行匹配;
判断每次进行匹配的单词或词组与各个所述关键词的是否匹配成功;
若每次进行匹配的单词或词组与各个所述关键词的均未匹配成功,则将各个所述单词拼音及词组拼音按照排序顺序,依次与所述数据库中的各个关键词拼音进行匹配。
4.根据权利要求1所述的方法,其特征在于,所述将所述文本内容输入预先设置的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核,包括:
删除所述文本内容中携带的各个文本符号,获得与所述文本内容对应的待审核文本;
将所述待审核文本输入预先设置的向量转换器中,触发所述向量转换器对所述待审核文本进行转换,获得与所述待审核文本对应的编码向量;
获取所述AI审核模型中的第一审核模型及第二审核模型,并将所述编码向量分别输入所述第一审核模型及第二审核模型,触发所述第一审核模型及第二审核模型分别对所述编码向量进行审核后,分别生成与所述编码向量对应的第一审核数据和第二审核数据,以使所述AI审核模型依据所述第一审核数据和第二审核数据生成与所述文本内容对应的审核参数。
5.根据权利要求1所述的方法,其特征在在于,还包括:
将所述第一审核结果或所述第二审核结果更新至预先设置的任务列表,所述任务列表中包含各个已审核的历史文本内容的审核结果;
当接收到用户发送的任务查询请求时,将所述任务列表发送至预先设置的显示界面中,以使所述用户通过所述显示界面查看所述任务列表中的各个历史文本内容的审核结果。
6.根据权利要求1所述的方法,其特征在于,所述AI审核模型的训练过程,包括:
获取预先存储的训练数据集,所述训练数据集包含各个携带标签的训练数据;
依次应用各个所述训练数据对初始审核模型进行训练,直至所述初始审核模型的网络参数满足预先设置的训练条件;
其中,将各个所述输入所述初始审核模型时,获得当前输入所述初始审核模型的训练数据对应的当前审核参数;调用预先设置的损失函数,对所述当前审核参数与当前输入所述初始审核模型的训练数据对应的标签进行计算,获得损失函数值;依据所述损失函数值,判断所述初始审核模型的模型参数是否满足所述训练条件;若不满足,则依据所述损失函数值调整所述初始审核模型的模型参数;若满足,则将所述初始审核模型确定为AI审核模型。
7.一种文本内容审核装置,其特征在于,包括:
获取单元,用于当接收到客户端发送的文本审核请求时,获取所述文本审核请求中包含的文本内容;
匹配单元,用于确定与所述文本内容对应的各个词数据,并将每个所述词数据与预先建立的数据库中的各个关键词数据进行匹配,所述各个词数据包括所述文本内容中的单词、词组以及每个所述单词对应的单词拼音和每个所述词组对应的词组拼音,所述关键词数据为预先设定的各个关键词及每个关键词对应的关键词拼音;
第一生成单元,用于当存在词数据与所述数据库中的关键词数据相匹配时,确定所述文本内容为负面文本,并生成与所述负面文本对应的第一审核结果,将所述第一审核结果发送至所述客户端;
审核单元,用于当不存在词数据与所述数据库中的关键词数据相匹配时,将所述文本内容输入预先训练完成的AI审核模型中,触发所述AI审核模型对所述文本内容进行审核;
第二生成单元,用于当接收到所述AI审核模型依据所述文本内容输出的审核参数时,依据所述审核参数生成第二审核结果,并将所述第二审核结果发送至所述客户端,所述审核参数包括正常文本的审核参数、负面文本的审核参数及灌水文本的审核参数。
8.根据权利要求7所述的装置,其特征在于,所述匹配单元,包括:
提取子单元,用于调用预先设置的分词模块从所述文本内容提取多个单词及词组;
确定子单元,用于确定每个所述单词对应的词拼音,及每个所述词组对应的词组拼音;
第一匹配子单元,用于将各个所述单词、词组分别与所述数据库中过的各个关键词进行匹配,并将各个所述单词对应的词拼音及各个所述词组对应的词组拼音分别与所述数据库中的关键词拼音进行匹配。
9.根据权利要求7所述的装置,其特征在于,所述匹配单元,包括:
排序子单元,用于将各个所述单词、词组、单词拼音及词组拼音按照所述文本内容进行排序;
第二匹配子单元,用于将各个所述单词及词组按照排序的顺序,依次与所述数据库中的各个关键词进行匹配;
判断子单元,用于判断每次进行匹配的单词或词组与各个所述关键词的是否匹配成功;
第三匹配子单元,用于若每次进行匹配的单词或词组与各个所述关键词的均未匹配成功,则将各个所述单词拼音及词组拼音按照排序顺序,依次与所述数据库中的各个关键词拼音进行匹配。
10.根据权利要求7所述的装置,其特征在在于,所述审核单元,包括:
删除子单元,用于删除所述文本内容中携带的各个文本符号,获得与所述文本内容对应的待审核文本;
转换子单元,用于将所述待审核文本输入预先设置的向量转换器中,触发所述向量转换器对所述待审核文本进行转换,获得与所述待审核文本对应的编码向量;
审核子单元,用于获取所述AI审核模型中的第一审核模型及第二审核模型,并将所述编码向量分别输入所述第一审核模型及第二审核模型,触发所述第一审核模型及第二审核模型分别对所述编码向量进行审核后,分别生成与所述编码向量对应的第一审核数据和第二审核数据,以使所述AI审核模型依据所述第一审核数据和第二审核数据生成与所述文本内容对应的审核参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910904584.8A CN110674255B (zh) | 2019-09-24 | 2019-09-24 | 文本内容审核方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910904584.8A CN110674255B (zh) | 2019-09-24 | 2019-09-24 | 文本内容审核方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110674255A true CN110674255A (zh) | 2020-01-10 |
CN110674255B CN110674255B (zh) | 2022-08-26 |
Family
ID=69077498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910904584.8A Active CN110674255B (zh) | 2019-09-24 | 2019-09-24 | 文本内容审核方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110674255B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN111581344A (zh) * | 2020-04-26 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种接口信息审核方法、装置、计算机设备及存储介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及*** |
CN112381408A (zh) * | 2020-11-16 | 2021-02-19 | 支付宝(杭州)信息技术有限公司 | 质检方法、装置和电子设备 |
CN113704414A (zh) * | 2021-09-02 | 2021-11-26 | 京东科技信息技术有限公司 | 一种数据处理方法、***、存储介质及电子设备 |
CN113807807A (zh) * | 2021-08-16 | 2021-12-17 | 深圳市云采网络科技有限公司 | 一种元器件参数识别方法、装置、电子设备及可读介质 |
CN114519997A (zh) * | 2022-02-17 | 2022-05-20 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于个性化语音进行视频合成的处理方法及装置 |
CN116663525A (zh) * | 2023-07-21 | 2023-08-29 | 科大讯飞股份有限公司 | 一种文档审核方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093324A1 (en) * | 2002-11-07 | 2004-05-13 | International Business Machines Corporation | System and method for data collection using subject records |
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
CN104866465A (zh) * | 2014-02-25 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及*** |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及*** |
-
2019
- 2019-09-24 CN CN201910904584.8A patent/CN110674255B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040093324A1 (en) * | 2002-11-07 | 2004-05-13 | International Business Machines Corporation | System and method for data collection using subject records |
CN102098332A (zh) * | 2010-12-30 | 2011-06-15 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
CN104866465A (zh) * | 2014-02-25 | 2015-08-26 | 腾讯科技(深圳)有限公司 | 敏感文本检测方法及装置 |
CN106445998A (zh) * | 2016-05-26 | 2017-02-22 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及*** |
CN108647309A (zh) * | 2018-05-09 | 2018-10-12 | 达而观信息科技(上海)有限公司 | 基于敏感词的聊天内容审核方法及*** |
Non-Patent Citations (2)
Title |
---|
SADAF KHURSHID 等: "Text-Based Intelligent Content Filtering on Social Platforms", 《 2014 12TH INTERNATIONAL CONFERENCE ON FRONTIERS OF INFORMATION TECHNOLOGY》 * |
刘丽芳: "基于规则和统计的网络不良信息识别研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111506708A (zh) * | 2020-04-22 | 2020-08-07 | 上海极链网络科技有限公司 | 一种文本审核方法、装置、设备和介质 |
CN111581344A (zh) * | 2020-04-26 | 2020-08-25 | 腾讯科技(深圳)有限公司 | 一种接口信息审核方法、装置、计算机设备及存储介质 |
CN112036187A (zh) * | 2020-07-09 | 2020-12-04 | 上海极链网络科技有限公司 | 一种结合上下文语境的视频弹幕文本审核方法及*** |
CN112381408A (zh) * | 2020-11-16 | 2021-02-19 | 支付宝(杭州)信息技术有限公司 | 质检方法、装置和电子设备 |
CN112381408B (zh) * | 2020-11-16 | 2022-10-14 | 支付宝(杭州)信息技术有限公司 | 质检方法、装置和电子设备 |
CN113807807A (zh) * | 2021-08-16 | 2021-12-17 | 深圳市云采网络科技有限公司 | 一种元器件参数识别方法、装置、电子设备及可读介质 |
CN113704414A (zh) * | 2021-09-02 | 2021-11-26 | 京东科技信息技术有限公司 | 一种数据处理方法、***、存储介质及电子设备 |
CN114519997A (zh) * | 2022-02-17 | 2022-05-20 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种基于个性化语音进行视频合成的处理方法及装置 |
CN116663525A (zh) * | 2023-07-21 | 2023-08-29 | 科大讯飞股份有限公司 | 一种文档审核方法、装置、设备及存储介质 |
CN116663525B (zh) * | 2023-07-21 | 2023-12-01 | 科大讯飞股份有限公司 | 一种文档审核方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110674255B (zh) | 2022-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110674255B (zh) | 文本内容审核方法及装置 | |
CN108536679B (zh) | 命名实体识别方法、装置、设备及计算机可读存储介质 | |
CN110287479B (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN109241524B (zh) | 语义解析方法及装置、计算机可读存储介质、电子设备 | |
CN112100354B (zh) | 人机对话方法、装置、设备及存储介质 | |
CN111523306A (zh) | 文本的纠错方法、装置和*** | |
CN111310440B (zh) | 文本的纠错方法、装置和*** | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN106874253A (zh) | 识别敏感信息的方法及装置 | |
CN110874536B (zh) | 语料质量评估模型生成方法和双语句对互译质量评估方法 | |
CN107862058B (zh) | 用于生成信息的方法和装置 | |
CN107291775B (zh) | 错误样本的修复语料生成方法和装置 | |
CN114385780B (zh) | 程序接口信息推荐方法、装置、电子设备和可读介质 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
CN110489747A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
CN111414561A (zh) | 用于呈现信息的方法和装置 | |
CN115130711A (zh) | 一种数据处理方法、装置、计算机及可读存储介质 | |
CN115099239B (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN111368551A (zh) | 一种确定事件主体的方法和装置 | |
CN112906361A (zh) | 文本数据的标注方法和装置、电子设备和存储介质 | |
CN111666405B (zh) | 用于识别文本蕴含关系的方法和装置 | |
CN115132182B (zh) | 一种数据识别方法、装置、设备及可读存储介质 | |
CN115630652A (zh) | 客服会话情感分析***、方法及计算机*** | |
CN110929499A (zh) | 文本相似度获取方法、装置、介质及电子设备 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |