CN110377900A - 网络内容发布的审核方法、装置、计算机设备及存储介质 - Google Patents
网络内容发布的审核方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN110377900A CN110377900A CN201910522440.6A CN201910522440A CN110377900A CN 110377900 A CN110377900 A CN 110377900A CN 201910522440 A CN201910522440 A CN 201910522440A CN 110377900 A CN110377900 A CN 110377900A
- Authority
- CN
- China
- Prior art keywords
- content
- released
- sentence
- user information
- basic sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 238000012550 audit Methods 0.000 claims abstract description 64
- 230000011218 segmentation Effects 0.000 claims description 67
- 239000013598 vector Substances 0.000 claims description 47
- 238000012549 training Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 15
- 230000005540 biological transmission Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 6
- 238000003786 synthesis reaction Methods 0.000 claims description 6
- 230000006870 function Effects 0.000 description 8
- 238000012552 review Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 241000227653 Lycopersicon Species 0.000 description 2
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 206010001488 Aggression Diseases 0.000 description 1
- 208000027534 Emotional disease Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种网络内容发布的审核方法、装置、计算机设备及存储介质,所述方法包括:在接收到网络内容发布的审核请求时,获取审核请求中包含的当前用户信息和待发布内容,并确定当前用户信息对应的用户类型,若当前用户信息对应的用户类型为普通用户,则对待发布内容进行解析,得到基础语句,进而采用自然语言语义识别的方式,对基础语句进行语义识别,得到基础语句对应的语义评分,再根据每个基础语句的语义评分,确定该待发布内容的综合评分,根据综合评分与预设评分阈值确认该待发布内容是否合法,实现智能化对网络内容进行语义识别,并根据识别出的语义来审核该网络内容发布是否合理,提高了网络内容发布的审核智能化程度和正确率。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种网络内容发布的审核方法、装置、计算机设备及存储介质。
背景技术
随着科技的飞速发展和人们生活质量的日益提高,越来越多的人使用网络进行互动和学习,各类论坛也成为人们通过网络进行交流的热门途径之一。当前,每天都有数万论坛用户通过论坛进行发帖回帖来交流,这使得人们的交流越来越便捷,但不可避免地,也有少数人因个人情感问题,在网络论坛上发布散播一些低俗、暴力、迷信和反动的言论,这些言论有碍广大网民的正常沟通交流,因而,有必要在论坛用户进行发帖回帖时,对发布的内容进行审核,确保维护论坛积极健康的交流环境。
现有技术中,主要采用关键字检测的方式进行审核,这种审核方式只能根据预设的关键字进行匹配,进而判断发布内容是否规范,受限于关键字的设定,且容易被用户避开关键字进行发布不良内容,使得网络发布内容的审核智能化程度和正确率均较低。
发明内容
本发明实施例提供一种网络内容发布的审核方法、装置、计算机设备和存储介质,以解决当前关键字匹配的方式进行网络内容发布的审核,导致的审核智能化程度低和正确率低的问题。
一种网络内容发布的审核方法,包括:
若接收到客户端发送的网络内容发布的审核请求,则获取所述审核请求中包含的当前用户信息和待发布内容;
将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配,确定所述当前用户信息对应的用户类型,其中,所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型;
若所述当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对所述待发布内容进行解析,得到所述待发布内容中包含的每个基础语句;
采用自然语言语义识别的方式,对每个所述基础语句进行语义识别,得到每个所述基础语句对应的语义评分;
根据每个所述基础语句的语义评分,确定所述待发布内容的综合评分;
将所述综合评分与预设评分阈值进行比较,若所述综合评分大于所述预设评分阈值,则确认所述待发布内容合法,发布所述待发布内容,并向所述客户端发送审核通过的消息。
一种网络内容发布的审核装置,包括:
请求接收模块,用于若接收到客户端发送的网络内容发布的审核请求,则获取所述审核请求中包含的当前用户信息和待发布内容;
类型匹配模块,用于将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配,确定所述当前用户信息对应的用户类型,其中,所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型;
内容解析模块,用于若所述当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对所述待发布内容进行解析,得到所述待发布内容中包含的每个基础语句;
语义识别模块,用于采用自然语言语义识别的方式,对每个所述基础语句进行语义识别,得到每个所述基础语句对应的语义评分;
综合评分模块,用于根据每个所述基础语句的语义评分,确定所述待发布内容的综合评分;
结果确定模块,用于将所述综合评分与预设评分阈值进行比较,若所述综合评分大于所述预设评分阈值,则确认所述待发布内容合法,发布所述待发布内容,并向所述客户端发送审核通过的消息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述网络内容发布的审核方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述网络内容发布的审核方法的步骤。
本发明实施例提供的网络内容发布的审核方法、装置、计算机设备及存储介质,在接收到客户端发送网络内容发布的审核请求时,获取审核请求中包含的当前用户信息和待发布内容,将当前用户信息与预设名单类型数据库中的每个用户信息进行比较,确定当前用户信息对应的用户类型,若当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对待发布内容进行解析,得到待发布内容中包含的每个基础语句,进而采用自然语言语义识别的方式,对每个基础语句进行语义识别,得到每个基础语句对应的语义评分,再根据每个基础语句的语义评分,确定该待发布内容的综合评分,最后将综合评分与预设评分阈值进行比较,在综合评分大于预设评分阈值时,确认该待发布内容合法,发布该待发布内容,并向客户端发送审核通过的消息,实现智能化对网络内容进行语义识别,并根据识别出的语义来审核该网络内容发布是否合理,提高了网络内容发布的审核智能化程度和正确率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的网络内容发布的审核方法的应用环境示意图;
图2是本发明实施例提供的网络内容发布的审核方法的实现流程图;
图3是本发明实施例提供的网络内容发布的审核方法中对非普通用户的审核流程图;
图4是本发明实施例提供的网络内容发布的审核方法中步骤S40的实现流程图;
图5是本发明实施例提供的网络内容发布的审核方法中步骤S41的实现流程图;
图6是本发明实施例提供的网络内容发布的审核装置的示意图;
图7是本发明实施例提供的计算机设备的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,图1示出本发明实施例提供的网络内容发布的审核方法的应用环境。该网络内容发布的审核方法应用在对网络论坛、网络直播或者其他种类的网络社区中的网络内容发布的审核场景中。该记录场景包括客户端、服务端和管理端,其中,服务端和客户端之间、服务端和管理端之间通过网络进行连接,客户端向服务端发送网络内容发布的审核请求,服务端在获取到该审核请求后,判断用户类型,并根据用户类型确定审核方式,在用户类型为普通用户时,获取待发布的内容,并进行语义分析,得到待发布内容的语义评分,进而确定待发布内容的合法性,并在不合法时,向管理端发送相应提示信息。客户端和管理端具体可以但不限于是手机、平板电脑、个人计算机(Personal Computer,PC)等智能终端设备,服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。
请参阅图2,图2示出本发明实施例提供的一种网络内容发布的审核方法,以该方法应用在图1中的服务端为例进行说明,详述如下:
S10:若接收到客户端发送的网络内容发布的审核请求,则获取审核请求中包含的当前用户信息和待发布内容。
具体地,用户在通过客户端进行论坛交流时,先编辑待发布内容,并在点击客户端的提交按钮后,客户端向服务端发送包含用户信息和待发布内容的审核请求,服务端通过网络传输协议接收该审核请求中包含的用户信息和待发布内容。
其中,用户信息包括但不限于用户账号信息等,服务端通过用户账号信息,确定用户类型,在本实施例中,针对不同用户类型的用户,采用该用户类型对应的审核方式对待发布内容进行审核,以便提高网络内容发布的审核效率。
其中,待发布内容为用户在客户端编辑好,用于上传论坛或者其他网络社区,用于同其他网络用户进行互动的文字信息、链接信息、图像信息和视频信息等。
其中,网络传输协议包括但不限于:互联网控制报文协议(Internet ControlMessage Protocol,ICMP)、地址解析协议(ARP Address Resolution Protocol,ARP)和文件传输协议(File Transfer Protocol,FTP)等。
S20:将当前用户信息与预设名单类型数据库中的每个用户信息进行匹配,确定当前用户信息对应的用户类型,其中,名单类型数据库包括每个用户信息和用户信息对应的用户类型。
具体地,服务端存储有预设名单类型数据库,该预设名单类型数据库中包含所有注册用户的用户信息,以及每个用户信息对应的用户类型,通过采用遍历查询的方式,对该预设名单类型数据库进行查询,实现对步骤S10中获取到的用户信息进行用户类型判断,得到该用户信息对应的用户类型。
其中,预设名单类型数据库包含的用户类型可以包括:白名单用户、黑名单用户和普通用户类型等,不同用户类型的区分是根据对用户的信用等级来进行划分,例如,管理人员名单中的用户对应的信用等级比较高,一般会划分为白名单用户,多次涉嫌违规操作应该网络社区正常次序的用户,对应的信用等级偏低,在信用等级降低到一定程度,将被列入到黑名单用户类型的清单。
其中,用户类型为普通用户的用户信息,其对应的审核请求需要进一步进行智能评估,根据评估结果确定审核结果。
S30:若当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对待发布内容进行解析,得到待发布内容中包含的每个基础语句。
具体地,在用户信息对应的用户类型为普通用户时,按照预设的语句划分方式,对待发布内容进行解析,得到待发布内容中包含的每个基础语句。
在本实施例中,预设的语句划分方式可以是通过对预设的分隔符号进行正则匹配,进而以匹配到存在预设的分隔符号的位置为分隔点,对待发布内容进行切分,得到待发布内容中包含的每个基础语句。
其中,预设的分隔符号包括但不限于:分段符、换行符、标点符号等,具体可根据实际需求进行设置,此处不做限定。
S40:采用自然语言语义识别的方式,对每个基础语句进行语义识别,得到每个基础语句对应的语义评分。
具体地,通过自然语言语义识别的方式,对每个所述基础语句进行语义识别,并根据预设的评分条件,对每个基础语句对应的语义进行评分,得到每个基础语句的语义评分。
其中,自然语言语义识别(Natural Language Processing,NLP)是人工智能(AI)的一个子领域,通过机器学习的方式,对自然语言进行理解解析,从而解决自然语言领域的一些问题,NLP主要应用范围包括但不限于:文本朗读(Text to speech)/语音合成(Speechsynthesis)、语音识别(Speech recognition)、中文自动分词(Chinese wordsegmentation)、词性标注(Part-of-speech tagging)、句法分析(Parsing)、文本分类(Text categorization)、信息检索(Information retrieval)、自动摘要(Automaticsummarization)和文字校对(Text-proofing)等。
S50:根据每个基础语句的语义评分,确定待发布内容的综合评分。
具体地,通过预设的加权方式,对每个基础语句的语义评分进行加权汇总,得到待发布内容的综合评分。
其中,预设的加权方式可以根据实际需求进行设定,例如,对于不同范围内的语义评分设置不同的加权系数等。
S60:将综合评分与预设评分阈值进行比较,若综合评分大于预设评分阈值,则确认待发布内容合法,发布待发布内容,并向客户端发送审核通过的消息。
具体地,服务端预设有评分阈值,将综合评分与预设评分阈值进行比较,在综合评分大于预设评分阈值时,确认待发布内容合法,发布该待发布内容,并向客户端发送审核通过的消息。
值得说明的是,在综合评分大于或等于预设评分阈值时,确认待发布内容可能涉嫌违规,将拒绝发布该待发布内容,并向客户端发送审核不通过的提示信息,并将该待发布内容审核请求进行记录,以便后续管理人员进行管理。
在本实施例中,在接收到客户端发送网络内容发布的审核请求时,获取审核请求中包含的当前用户信息和待发布内容,将当前用户信息与预设名单类型数据库中的每个用户信息进行比较,确定当前用户信息对应的用户类型,若当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对待发布内容进行解析,得到待发布内容中包含的每个基础语句,进而采用自然语言语义识别的方式,对每个基础语句进行语义识别,得到每个基础语句对应的语义评分,再根据每个基础语句的语义评分,确定该待发布内容的综合评分,最后将综合评分与预设评分阈值进行比较,在综合评分大于预设评分阈值时,确认该待发布内容合法,发布该待发布内容,并向客户端发送审核通过的消息,实现智能化对网络内容进行语义识别,并根据识别出的语义来审核该网络内容发布是否合理,提高了网络内容发布的审核智能化程度和正确率。
在一实施例中,请参阅图3,在步骤S20之后,该网络内容发布的审核方法还包括:
S70:若当前用户信息对应的用户类型为白名单用户,则发布待发布内容。
具体地,在通过采用遍历查询的方式,对该预设名单类型数据库进行查询后,确定当前用户信息对应的用户类型为白名单用户时,则直接发布该待发布内容。
S80:若当前用户信息对应的用户类型为黑名单用户,则移除待发布内容,并向客户端发送审核不通过的消息。
具体地,在通过采用遍历查询的方式,对该预设名单类型数据库进行查询后,确定当前用户信息对应的用户类型为黑名单用户时,则判断无需审核该待发布内容中包含语义信息,直接删除该待发布内容,并向客户端发送审核不通过的消息。
需要说明的是,步骤S70和步骤S80没有必然的先后执行顺序,其可以是并列执行的关系,此处不做限制。
在本实施例中,通过对用户类型为白名单用户和黑名单用户,按照预设方式进行快捷审核操作,而无需对这两种用户类型的用户的待发布内容进行语义识别,提高了网络内容发布的审核效率。
在图2对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S40中所提及的采用自然语言语义识别的方式,对每个基础语句进行语义识别,得到每个基础语句对应的语义评分的具体实现方法进行详细说明。
请参阅图4,图4示出了本发明实施例提供的步骤S40的具体实现流程,详述如下:
S41:通过预设的分词方式,对基础语句进行分词处理,得到基础语句中包含的基础分词。
具体地,通过预设的分词方式,对步骤S30中得到的每个基础语句均进行分词处理,得到每个基础语句中包含的基础分词。
其中,预设的分词方式包括但不限于:通过第三方分词工具或者分词算法等。
其中,常见的第三方分词工具包括但不限于:Stanford NLP分词器、ICTClAS分词***、ansj分词工具和HanLP中文分词工具等。
其中,分词算法包括但不限于:最大正向匹配(Maximum Matching,MM)算法、逆向最大匹配(ReverseDirectionMaximum Matching Method,RMM)算法、双向最大匹配(Bi-directction Matching method,BM)算法、隐马尔科夫模型(Hidden Markov Model,HMM)和N-gram模型等。
容易理解地,通过分词的方式提取基础分词,一方面,可以过滤掉有效基础语句中一些无意义的词汇,另一方面,也有利于后续使用这些基础分词生成词向量。
S42:将基础分词转换为词向量,并通过预设的聚类算法,对词向量进行聚类,得到每个基础语句对应的聚类中心。
在人工智能中,语言表示主要指语言的形式化或数学的描述,以便在计算机中表示语言,并能让计算机程序自动处理。本发明实施例中所指的词向量就是用向量的形式来表示一个基础分词。
具体地,先通过词向量的方式,对每个基础分词进行转化,得到每个基础分词对应的词向量,进而通过预设的聚类算法,对词向量进行聚类,得到每个基础分词对应的词向量的聚类中心,进而将同一个基础语句中的基础分词对应的聚类中心进行继续聚类,得到基础语句对应的聚类中心。
其中,聚类(Cluster)算法又称群分析,它是样品或指标分类问题的一种统计分析方法,同时也是数据挖掘的一个重要算法,聚类算法包括但不限于:K均值(K-Means)聚类算法、均值漂移聚类算法、基于密度的聚类(Density-Based Spatial Clustering ofApplications with Noise,DBSCAN)方法、基于高斯混合模型的最大期望聚类、凝聚层次聚类和图团体检测(Graph Community Detection)算法等。
优选地,在本实施例中,采用K均值(K-Means)聚类算法,通过对各个基础分词对应的词向量进行聚类,确定每个基础分词对应的分类,进而对基础语句进行聚类,得到基础语句对应的聚类中心。
S43:针对每个基础语句,计算基础语句对应的聚类中心与每个预设词义向量的距离,并将最小距离对应的预设词义向量作为目标向量,将目标向量对应的语义评分作为基础语句对应的语义评分。
具体地,服务端预先存储有表示指定语义的预设语义向量,每个预设语义向量对应有预设的语义评分,针对每个基础语句,分别计算该基础语句对应的聚类中心与这些预设语义向量的距离,并将最小距离对应的预设词义向量作为目标向量,并将目标向量对应的语义评分作为该基础语句的语义评分。
优选地,在本实施例中,确定目标向量之后,还可根据基础语句与目标向量的距离,计算评分参数,并根据评分参数和目标向量对应的语义评分确定基础语句的语义评分。
在本实施例中,通过预设的分词方式,对基础语句进行分词处理,得到基础语句中包含的基础分词,进而将基础分词转换为词向量,并通过预设的聚类算法,对词向量进行聚类,得到每个基础语句对应的聚类中心,针对每个基础语句,计算基础语句对应的聚类中心与每个预设词义向量的距离,并将最小距离对应的预设词义向量作为目标向量,将目标向量对应的语义评分作为基础语句对应的语义评分,实现了对基础语句的语义评分,提高了审核的智能化程度和审核效率。
在图2对应的实施例的基础之上,下面通过一个具体的实施例来对步骤S41中所提及的通过预设的分词方式,对基础语句进行分词处理,得到基础语句中包含的基础分词的具体实现方法进行详细说明。
请参阅图5,图5示出了本发明实施例提供的步骤S41的具体实现流程,详述如下:
S411:获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据。
具体地,训练语料库是用来为了对使用自然语言中的基础语句进行评估,而使用相关语料进行训练得到的语料库,通过使用N-gram模型对预设的训练语料库中每个语料进行统计分析,得出预设的训练语料库中一个语料H出现在另一个语料I之后的次数,进而得到“语料I+语料H”组成的词序列出现的词序列数据。本发明实施例中训练语料库中的内容包含但不限于:论坛或网络社区的话题对应的专业信息、网络语料和通用语料库等。
其中,语料库(Corpus)是指经科学取样和加工的大规模电子文本库。语料库是语言学研究的基础资源,也是经验主义语言研究方法的主要资源,应用于词典编纂,语言教学,传统语言研究,自然语言处理中基于统计或实例的研究等方面,语料,即语言材料,语料是语言学研究的内容,也是构成语料库的基本单元。
例如,在一具体实施方式中,预设的训练语料库为通过对热门网络话题和时事新闻通过网络爬虫的方式进行爬取,得到“时事”领域的语料库。
其中,词序列是指由至少两个语料按照一定顺序组合而成的序列,词序列频度是指该词序列出现的次数占整个语料库中分词(Word Segmentation)出现次数的比例,这里的分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。例如,某个词序列“爱吃西红柿”在整个语料库中出现的次数为100次,整个语料库所有分词出现的次数之和为100000次,则词序列“爱吃西红柿”的词序列频度为0.0001。
其中,N-gram模型是大词汇连续文字语义识别中常用的一种语言模型,利用上下文中相邻词间的搭配信息,在需要把连续无空格的文字转换成汉字串(即句子)时,可以计算出具有最大概率的句子,从而实现到汉字的自动转换,无需用户手动选择,提高了词序列确定的准确性。
值得说明的是,为了提高网络内容发布的审核效率,在本实施例中,获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据的过程,可以在审核之前进行,并将得到的词序列数据进行存储,在需要对待发布内容进行语义识别时,直接调用该词序列数据即可。
S412:对基础语句进行分词解析,得到M个分词序列。
具体地,每个基础语句,断句方式不一样,理解出的语句可能存在差别,为保证语句理解的正确性,服务端在获取到基础语句后,获取该基础语句的M个分词序列的组成,M为所有可能出现的分词序列的总数。
其中,每个分词序列均是将一个基础语句进行划分得到的一种结果,得到的包含至少两个分词的文字序列。
例如,在一具体实施方式中,一基础语句为“今天真热”,对该基础语句进行解析,得到分词序列A为:“今天”、“真”、“热”,得到分词序列B为:“今”、“天真”、“热”等。
S413:针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率。
具体地,根据步骤S412中获取到的词序列数据,对每个分词序列进行发生概率计算,得到M个分词序列的发生概率。
对分词序列计算发生概率具体可使用马尔科夫假设理论:第Y个词的出现只与前面Y-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计Y个词同时出现的次数得到。即:
P(T)=P(W1W2...WY)=P(W1)P(W2|W1)...P(WY|W1W2...WY-1)公式(1)
其中,P(T)为整句出现的概率,P(WY|W1W2...WY-1)为第Y个分词出现在Y-1个分词组成的词序列之后的概率。
例如:在“中华民族是一个有着悠久文明历史的民族”这句话进行语音识别后,划分的一种分词序列为:“中华民族”、“是”、“一个”、“有着”、“悠久”、“文明”、“历史”、“的”、“民族”,一共出现了9个分词,当n=9的时候,即计算“民族”这个分词在出现在“中华民族是一个有着悠久文明历史的”这个词序列之后的概率。
S414:从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为基础语句中包含的基础分词。
具体地,针对每个分词序列,通过步骤S413的计算均得到一个发生概率,共得到M个分词序列的发生概率,将这M个分词序列的发生概率分别与预设概率阈值进行比较,选取大于或者等于预设概率阈值的发生概率,作为有效发生概率,进而找到有效发生概率对应的分词序列,将这些分词序列作为目标分词序列。
通过与预设概率阈值进行比较,过滤掉发生概率不符合要求的分词序列,从而使得选取的目标分词序列更为接近自然语言中表达的含义,提高了语义识别的准确率。
需要说明的是,若计算出的M个分词序列的发生概率均小于预设的概率阈值,则确定该待发布内容为不符合规范的内容,此时,将审核不通过作为审核结果,并向客户端发送“请遵守网络发言规范,做一个文明的网民”的提醒消息。若目标分词序列个数大于预设个数,按照其对应的发生概率的大小顺序进行排序,并选取排序前面的预设个数分词序列作为目标分词序列,例如,预设的个数为5个,则在将有效发生概率进行排序后,选取排序前5个的有效发生概率,进而得到这5个发生概率对应的分词序列作为目标分词序列。
优选地,在本实施例中,选取最大发生概率对应的分词序列,作为目标分词序列,以便减少后续的运算量,提高网络内容发布的审核效率。
在本实施例中,通过获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据,方便后续计算发生概率时可直接使用词序列数据,从而节省了计算概率的时间,有利于提高审核效率,同时,对基础语句进行分词解析,得到M个分词序列,进而针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率,再从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为基础语句中包含的基础分词,确保分词的准确性,有利于提高后续通过基础分词进行聚类和语义评估的准确率。
在一实施例中,步骤S50中,根据每个基础语句的语义评分,确定待发布内容的综合评分具体实现流程,详述如下:
通过如下公式计算待发布内容的综合评分:
其中,Mi为第i个基础语句的语义评分,a和b为预设参数,Si为第i个基础语句的加权评分,n为基础语句的数量,W为待发布内容的综合评分,i和n为正整数,且i≤n。
值得说明的是,在本实施例中,语义评分可用于表达语义规范的程度,语义评分小于0表明该基础语句的语义存在不规范,对预设参数a设置比预设参数b更大的值,使得不规范的基础语句对整个待发布内容的影响更大,预设参数a和b的取值可以根据实际情况进行选取,此处不作具体限制。
在本实施例中,通过预设公式,对不同范围的语义评分进行加权汇总,得到待发布内容的综合评分,有利于提高综合评分评估的合理性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
图6示出与上述实施例网络内容发布的审核方法一一对应的网络内容发布的审核装置的原理框图。如图6所示,该网络内容发布的审核装置包括请求接收模块10、类型匹配模块20、内容解析模块30、语义识别模块40、综合评分模块50和结果确定模块60。各功能模块详细说明如下:
请求接收模块10,用于若接收到客户端发送的网络内容发布的审核请求,则获取审核请求中包含的当前用户信息和待发布内容;
类型匹配模块20,用于将当前用户信息与预设名单类型数据库中的每个用户信息进行匹配,确定当前用户信息对应的用户类型,其中,名单类型数据库包括每个用户信息和用户信息对应的用户类型;
内容解析模块30,用于若当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对待发布内容进行解析,得到待发布内容中包含的每个基础语句;
语义识别模块40,用于采用自然语言语义识别的方式,对每个基础语句进行语义识别,得到每个基础语句对应的语义评分;
综合评分模块50,用于根据每个基础语句的语义评分,确定待发布内容的综合评分;
结果确定模块60,用于将综合评分与预设评分阈值进行比较,若综合评分大于预设评分阈值,则确认待发布内容合法,发布待发布内容,并向客户端发送审核通过的消息。
进一步地,该网络内容发布的审核装置还包括:
第一审核模块70,用于若当前用户信息对应的用户类型为白名单用户,则发布待发布内容;
第二审核模块80,用于若当前用户信息对应的用户类型为黑名单用户,则移除待发布内容,并向客户端发送审核不通过的消息。
进一步地,语义识别模块40包括:
分词单元41,用于通过预设的分词方式,对基础语句进行分词处理,得到基础语句中包含的基础分词;
聚类单元42,用于将基础分词转换为词向量,并通过预设的聚类算法,对词向量进行聚类,得到每个基础语句对应的聚类中心;
评分单元43,用于针对每个基础语句,计算基础语句对应的聚类中心与每个预设词义向量的距离,并将最小距离对应的预设词义向量作为目标向量,将目标向量对应的语义评分作为基础语句对应的语义评分。
进一步地,分词单元41包括:
训练子单元411,用于获取预设的训练语料库,并使用N-gram模型对预设的训练语料库进行分析,得到预设的训练语料库的词序列数据;
解析子单元412,用于对基础语句进行分词解析,得到M个分词序列;
计算子单元413,用于针对每个分词序列,依据预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
选取子单元414,用于从M个分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为基础语句中包含的基础分词。
进一步地,综合评分模块50包括:
评分计算单元51,用于通过如下公式计算待发布内容的综合评分:
其中,Mi为第i个基础语句的语义评分,a和b为预设参数,Si为第i个基础语句的加权评分,n为基础语句的数量,W为待发布内容的综合评分,i和n为正整数,且i≤n。
关于网络内容发布的审核装置的具体限定可以参见上文中对于网络内容发布的审核方法的限定,在此不再赘述。上述网络内容发布的审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
图7是本发明一实施例提供的计算机设备的示意图。该计算机设备可以是服务端,其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设的语料库和预设词义向量。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网络内容发布的审核方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例网络内容发布的审核方法的步骤,例如图2所示的步骤S10至步骤S60。或者,处理器执行计算机程序时实现上述实施例网络内容发布的审核装置的各模块/单元的功能,例如图6所示的模块10至模块60的功能。为避免重复,这里不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
在一实施例中,提供一计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例网络内容发布的审核方法的步骤,或者,该计算机程序被处理器执行时实现上述实施例网络内容发布的审核装置中各模块/单元的功能。为避免重复,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种网络内容发布的审核方法,其特征在于,所述网络内容发布的审核方法包括:
若接收到客户端发送的网络内容发布的审核请求,则获取所述审核请求中包含的当前用户信息和待发布内容;
将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配,确定所述当前用户信息对应的用户类型,其中,所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型;
若所述当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对所述待发布内容进行解析,得到所述待发布内容中包含的每个基础语句;
采用自然语言语义识别的方式,对每个所述基础语句进行语义识别,得到每个所述基础语句对应的语义评分;
根据每个所述基础语句的语义评分,确定所述待发布内容的综合评分;
将所述综合评分与预设评分阈值进行比较,若所述综合评分大于所述预设评分阈值,则确认所述待发布内容合法,发布所述待发布内容,并向所述客户端发送审核通过的消息。
2.如权利要求1所述的网络内容发布的审核方法,其特征在于,在所述将所述当前用户信息与预设名单类型数据库中的每个用户信息进行比较,确定所述当前用户信息对应的用户类型之后,所述网络内容发布的审核方法还包括:
若所述当前用户信息对应的用户类型为白名单用户,则发布所述待发布内容;
若所述当前用户信息对应的用户类型为黑名单用户,则移除所述待发布内容,并向所述客户端发送审核不通过的消息。
3.如权利要求1所述的网络内容发布的审核方法,其特征在于,所述采用自然语言语义识别的方式,对每个所述基础语句进行语义识别,得到每个所述基础语句对应的语义评分包括:
通过预设的分词方式,对所述基础语句进行分词处理,得到所述基础语句中包含的基础分词;
将所述基础分词转换为词向量,并通过预设的聚类算法,对所述词向量进行聚类,得到每个所述基础语句对应的聚类中心;
针对每个所述基础语句,计算所述基础语句对应的聚类中心与每个预设词义向量的距离,并将最小距离对应的预设词义向量作为目标向量,将目标向量对应的语义评分作为所述基础语句对应的语义评分。
4.如权利要求3所述的网络内容发布的审核方法,其特征在于,在所述采用自然语言语义识别的方式,对每个所述基础语句进行语义识别,得到每个所述基础语句对应的语义评分之前,所述网络内容发布的审核方法还包括:
获取预设的训练语料库,并使用N-gram模型对所述预设的训练语料库进行分析,得到所述预设的训练语料库的词序列数据;
所述通过预设的分词方式,对所述基础语句进行分词处理,得到所述基础语句中包含的基础分词包括:
对所述基础语句进行分词解析,得到M个分词序列;
针对每个所述分词序列,依据所述预设的训练语料库的词序列数据,计算每个分词序列的发生概率,得到M个分词序列的发生概率;
从M个所述分词序列的发生概率中,选取达到预设概率阈值的发生概率对应的所述分词序列,作为目标分词序列,并将目标分词序列中的每个分词,作为所述基础语句中包含的基础分词。
5.如权利要求1至4任一项所述的网络内容发布的审核方法,其特征在于,所述根据每个所述基础语句的语义评分,确定所述待发布内容的综合评分包括:
通过如下公式计算待发布内容的综合评分:
其中,Mi为第i个所述基础语句的语义评分,a和b为预设参数,Si为第i个所述基础语句的加权评分,n为所述基础语句的数量,W为所述待发布内容的综合评分,i和n为正整数,且i≤n。
6.一种网络内容发布的审核装置,其特征在于,所述网络内容发布的审核装置包括:
请求接收模块,用于若接收到客户端发送的网络内容发布的审核请求,则获取所述审核请求中包含的当前用户信息和待发布内容;
类型匹配模块,用于将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配,确定所述当前用户信息对应的用户类型,其中,所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型;
内容解析模块,用于若所述当前用户信息对应的用户类型为普通用户,则按照预设的语句划分方式,对所述待发布内容进行解析,得到所述待发布内容中包含的每个基础语句;
语义识别模块,用于采用自然语言语义识别的方式,对每个所述基础语句进行语义识别,得到每个所述基础语句对应的语义评分;
综合评分模块,用于根据每个所述基础语句的语义评分,确定所述待发布内容的综合评分;
结果确定模块,用于将所述综合评分与预设评分阈值进行比较,若所述综合评分大于所述预设评分阈值,则确认所述待发布内容合法,发布所述待发布内容,并向所述客户端发送审核通过的消息。
7.如权利要求6所述的网络内容发布的审核装置,其特征在于,所述网络内容发布的审核装置还包括:
第一审核模块,用于若所述当前用户信息对应的用户类型为白名单用户,则发布所述待发布内容;
第二审核模块,用于若所述当前用户信息对应的用户类型为黑名单用户,则移除所述待发布内容,并向所述客户端发送审核不通过的消息。
8.如权利要求6所述的网络内容发布的审核装置,其特征在于,所述语义识别模块包括:
分词单元,用于通过预设的分词方式,对所述基础语句进行分词处理,得到所述基础语句中包含的基础分词;
聚类单元,用于将所述基础分词转换为词向量,并通过预设的聚类算法,对所述词向量进行聚类,得到每个所述基础语句对应的聚类中心;
评分单元,用于针对每个所述基础语句,计算所述基础语句对应的聚类中心与每个预设词义向量的距离,并将最小距离对应的预设词义向量作为目标向量,将目标向量对应的语义评分作为所述基础语句对应的语义评分。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的网络内容发布的审核方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的网络内容发布的审核方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522440.6A CN110377900A (zh) | 2019-06-17 | 2019-06-17 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
PCT/CN2020/085582 WO2020253350A1 (zh) | 2019-06-17 | 2020-04-20 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910522440.6A CN110377900A (zh) | 2019-06-17 | 2019-06-17 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110377900A true CN110377900A (zh) | 2019-10-25 |
Family
ID=68248961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910522440.6A Pending CN110377900A (zh) | 2019-06-17 | 2019-06-17 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110377900A (zh) |
WO (1) | WO2020253350A1 (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110929055A (zh) * | 2019-11-15 | 2020-03-27 | 北京达佳互联信息技术有限公司 | 多媒体质量检测方法、装置、电子设备及存储介质 |
CN111125023A (zh) * | 2019-11-15 | 2020-05-08 | 北京十分科技有限公司 | 文件的审核、审核控制、发布方法及对应装置 |
CN111209363A (zh) * | 2019-12-25 | 2020-05-29 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN111309938A (zh) * | 2020-01-22 | 2020-06-19 | 恒大新能源汽车科技(广东)有限公司 | 一种多媒体文件处理方法及装置 |
CN111414515A (zh) * | 2020-03-17 | 2020-07-14 | 中国建设银行股份有限公司 | 一种资源审核方法、装置、设备及存储介质 |
WO2020253350A1 (zh) * | 2019-06-17 | 2020-12-24 | 深圳壹账通智能科技有限公司 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
CN112163585A (zh) * | 2020-11-10 | 2021-01-01 | 平安普惠企业管理有限公司 | 文本的审核方法、装置、计算机设备及存储介质 |
CN112464036A (zh) * | 2020-11-24 | 2021-03-09 | 行吟信息科技(武汉)有限公司 | 一种违规数据的审核方法及装置 |
CN112906387A (zh) * | 2020-12-25 | 2021-06-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN113010708A (zh) * | 2021-03-11 | 2021-06-22 | 上海麦糖信息科技有限公司 | 针对违规朋友圈内容以及违规聊天内容的审核方法及*** |
CN113761182A (zh) * | 2020-06-17 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种确定业务问题的方法和装置 |
CN114245160A (zh) * | 2021-12-07 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN116822494A (zh) * | 2023-08-28 | 2023-09-29 | 深圳有咖互动科技有限公司 | 广播剧信息处理方法、装置、电子设备和计算机可读介质 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112783917A (zh) * | 2021-01-04 | 2021-05-11 | 广州海量数据库技术有限公司 | 工单审核方法及装置、存储介质及电子设备 |
CN113835730B (zh) * | 2021-09-24 | 2024-07-05 | 支付宝(杭州)信息技术有限公司 | 一种更新审核程序的方法、装置、设备及介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446970A (zh) * | 2008-12-15 | 2009-06-03 | 腾讯科技(深圳)有限公司 | 一种对用户发布的文本内容审核处理的方法及其装置 |
CN102096680A (zh) * | 2009-12-15 | 2011-06-15 | 北京大学 | 信息有效性分析的方法和装置 |
WO2015066891A1 (en) * | 2013-11-08 | 2015-05-14 | Google Inc. | Systems and methods for extracting and generating images for display content |
CN109800307A (zh) * | 2019-01-18 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539430B1 (en) * | 1997-03-25 | 2003-03-25 | Symantec Corporation | System and method for filtering data received by a computer system |
CN102098332B (zh) * | 2010-12-30 | 2014-04-16 | 北京新媒传信科技有限公司 | 一种内容审核方法和装置 |
CN109635073A (zh) * | 2018-10-18 | 2019-04-16 | 深圳壹账通智能科技有限公司 | 论坛社区应用管理方法、装置、设备及计算机可读存储介质 |
CN110377900A (zh) * | 2019-06-17 | 2019-10-25 | 深圳壹账通智能科技有限公司 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
-
2019
- 2019-06-17 CN CN201910522440.6A patent/CN110377900A/zh active Pending
-
2020
- 2020-04-20 WO PCT/CN2020/085582 patent/WO2020253350A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101446970A (zh) * | 2008-12-15 | 2009-06-03 | 腾讯科技(深圳)有限公司 | 一种对用户发布的文本内容审核处理的方法及其装置 |
CN102096680A (zh) * | 2009-12-15 | 2011-06-15 | 北京大学 | 信息有效性分析的方法和装置 |
WO2015066891A1 (en) * | 2013-11-08 | 2015-05-14 | Google Inc. | Systems and methods for extracting and generating images for display content |
CN109800307A (zh) * | 2019-01-18 | 2019-05-24 | 深圳壹账通智能科技有限公司 | 产品评价的分析方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
杨志明;王来奇;王泳;: "基于双通道卷积神经网络的问句意图分类研究", 中文信息学报, no. 05 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020253350A1 (zh) * | 2019-06-17 | 2020-12-24 | 深圳壹账通智能科技有限公司 | 网络内容发布的审核方法、装置、计算机设备及存储介质 |
CN111125023A (zh) * | 2019-11-15 | 2020-05-08 | 北京十分科技有限公司 | 文件的审核、审核控制、发布方法及对应装置 |
CN110929055A (zh) * | 2019-11-15 | 2020-03-27 | 北京达佳互联信息技术有限公司 | 多媒体质量检测方法、装置、电子设备及存储介质 |
CN111209363A (zh) * | 2019-12-25 | 2020-05-29 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN111209363B (zh) * | 2019-12-25 | 2024-02-09 | 华为技术有限公司 | 语料数据处理方法、装置、服务器和存储介质 |
CN111309938A (zh) * | 2020-01-22 | 2020-06-19 | 恒大新能源汽车科技(广东)有限公司 | 一种多媒体文件处理方法及装置 |
CN111414515A (zh) * | 2020-03-17 | 2020-07-14 | 中国建设银行股份有限公司 | 一种资源审核方法、装置、设备及存储介质 |
CN113761182A (zh) * | 2020-06-17 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种确定业务问题的方法和装置 |
CN112163585A (zh) * | 2020-11-10 | 2021-01-01 | 平安普惠企业管理有限公司 | 文本的审核方法、装置、计算机设备及存储介质 |
CN112163585B (zh) * | 2020-11-10 | 2023-11-10 | 上海七猫文化传媒有限公司 | 文本的审核方法、装置、计算机设备及存储介质 |
CN112464036B (zh) * | 2020-11-24 | 2023-06-16 | 行吟信息科技(武汉)有限公司 | 一种违规数据的审核方法及装置 |
CN112464036A (zh) * | 2020-11-24 | 2021-03-09 | 行吟信息科技(武汉)有限公司 | 一种违规数据的审核方法及装置 |
CN112906387B (zh) * | 2020-12-25 | 2023-08-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN112906387A (zh) * | 2020-12-25 | 2021-06-04 | 北京百度网讯科技有限公司 | 风险内容识别方法、装置、设备、介质和计算机程序产品 |
CN113010708A (zh) * | 2021-03-11 | 2021-06-22 | 上海麦糖信息科技有限公司 | 针对违规朋友圈内容以及违规聊天内容的审核方法及*** |
CN113010708B (zh) * | 2021-03-11 | 2023-08-25 | 上海麦糖信息科技有限公司 | 针对违规朋友圈内容以及违规聊天内容的审核方法及*** |
CN114245160A (zh) * | 2021-12-07 | 2022-03-25 | 北京达佳互联信息技术有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN116822494A (zh) * | 2023-08-28 | 2023-09-29 | 深圳有咖互动科技有限公司 | 广播剧信息处理方法、装置、电子设备和计算机可读介质 |
CN116822494B (zh) * | 2023-08-28 | 2023-12-08 | 深圳有咖互动科技有限公司 | 广播剧信息处理方法、装置、电子设备和计算机可读介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020253350A1 (zh) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110377900A (zh) | 网络内容发布的审核方法、装置、计算机设备及存储介质 | |
US11301637B2 (en) | Methods, devices, and systems for constructing intelligent knowledge base | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN111274365B (zh) | 基于语义理解的智能问诊方法、装置、存储介质及服务器 | |
Kumar et al. | Sanative chatbot for health seekers | |
KR101605430B1 (ko) | 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 | |
CN113704451B (zh) | 一种电力用户诉求筛选方法、***、电子设备和存储介质 | |
WO2021218028A1 (zh) | 基于人工智能的面试内容精炼方法、装置、设备及介质 | |
CN109299271A (zh) | 训练样本生成、文本数据、舆情事件分类方法及相关设备 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN110909531B (zh) | 信息安全的甄别方法、装置、设备及存储介质 | |
CN112287069A (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN109947934A (zh) | 针对短文本的数据挖掘方法及*** | |
US20210191981A1 (en) | Methods and systems for facilitating classification of documents | |
RU61442U1 (ru) | Система автоматизированного упорядочения неструктурированного информационного потока входных данных | |
US20210192125A1 (en) | Methods and systems for facilitating summarization of a document | |
CN110162615A (zh) | 一种智能问答方法、装置、电子设备和存储介质 | |
WO2023137918A1 (zh) | 文本数据的分析方法、模型训练方法、装置及计算机设备 | |
CN113961811B (zh) | 基于事件图谱的话术推荐方法、装置、设备及介质 | |
Voronov et al. | Forecasting popularity of news article by title analyzing with BN-LSTM network | |
CN114417827A (zh) | 文本上下文处理方法、装置、电子设备和存储介质 | |
Harshvardhan et al. | Topic modelling Twitterati sentiments using Latent Dirichlet allocation during demonetization | |
Long | A Grammatical Error Correction Model for English Essay Words in Colleges Using Natural Language Processing | |
CN110276001A (zh) | 盘点页识别方法、装置、计算设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |