WO2020253350A1

WO2020253350A1 - 网络内容发布的审核方法、装置、计算机设备及存储介质

Info

Publication number: WO2020253350A1
Application number: PCT/CN2020/085582
Authority: WO
Inventors: 夏新
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-06-17
Filing date: 2020-04-20
Publication date: 2020-12-24
Also published as: CN110377900A

Abstract

一种网络内容发布的审核方法、装置、计算机设备及存储介质，所述方法包括：在接收到网络内容发布的审核请求时，获取审核请求中包含的当前用户信息和待发布内容，并确定当前用户信息对应的用户类型，若当前用户信息对应的用户类型为普通用户，则对待发布内容进行解析，得到基础语句，进而采用自然语言语义识别的方式，对基础语句进行语义识别，得到基础语句对应的语义评分，再根据每个基础语句的语义评分，确定该待发布内容的综合评分，根据综合评分与预设评分阈值确认该待发布内容是否合法，实现智能化对网络内容进行语义识别，并根据识别出的语义来审核该网络内容发布是否合理，提高了网络内容发布的审核智能化程度和正确率。

Description

网络内容发布的审核方法、装置、计算机设备及存储介质

本申请要求于2019年6月17日提交中国专利局、申请号为201910522440.6，发明名称为“网络内容发布的审核方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及自然语言处理领域，尤其涉及一种网络内容发布的审核方法、装置、计算机设备及存储介质。

背景技术

随着科技的飞速发展和人们生活质量的日益提高，越来越多的人使用网络进行互动和学习，各类论坛也成为人们通过网络进行交流的热门途径之一。当前，每天都有数万论坛用户通过论坛进行发帖回帖来交流，这使得人们的交流越来越便捷，但不可避免地，也有少数人因个人情感问题，在网络论坛上发布散播一些低俗、暴力、迷信和反动的言论，这些言论有碍广大网民的正常沟通交流，因而，有必要在论坛用户进行发帖回帖时，对发布的内容进行审核，确保维护论坛积极健康的交流环境。

现有技术中，主要采用关键字检测的方式进行审核，发明人意识到这种审核方式只能根据预设的关键字进行匹配，进而判断发布内容是否规范，受限于关键字的设定，且容易被用户避开关键字进行发布不良内容，使得网络发布内容的审核智能化程度和正确率均较低。

发明内容

本申请实施例提供一种网络内容发布的审核方法、装置、计算机设备和存储介质，以解决当前关键字匹配的方式进行网络内容发布的审核，导致的审核智能化程度低和正确率低的问题。

一种网络内容发布的审核方法，包括：

若接收到客户端发送的网络内容发布的审核请求，则获取所述审核请求中包含的当前用户信息和待发布内容；

将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型，其中，所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型；

若所述当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对所述待发布内容进行解析，得到所述待发布内容中包含的每个基础语句；

采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分；

根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分；

将所述综合评分与预设评分阈值进行比较，若所述综合评分大于所述预设评分阈值，则确认所述待发布内容合法，发布所述待发布内容，并向所述客户端发送审核通过的消息。

一种网络内容发布的审核装置，包括：

请求接收模块，用于若接收到客户端发送的网络内容发布的审核请求，则获取所述审核请求中包含的当前用户信息和待发布内容；

类型匹配模块，用于将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型，其中，所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型；

内容解析模块，用于若所述当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对所述待发布内容进行解析，得到所述待发布内容中包含的每个基础语句；

语义识别模块，用于采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分；

综合评分模块，用于根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分；

结果确定模块，用于将所述综合评分与预设评分阈值进行比较，若所述综合评分大于所述预设评分阈值，则确认所述待发布内容合法，发布所述待发布内容，并向所述客户端发送审核通过的消息。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现一种网络内容发布的审核方法，包括：在接收到客户端发送网络内容发布的审核请求时，获取审核请求中包含的当前用户信息和待发布内容，将当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定当前用户信息对应的用户类型，若当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对待发布内容进行解析，得到待发布内容中包含的每个基础语句，进而采用自然语言语义识别的方式，对每个基础语句进行语义识别，得到每个基础语句对应的语义评分，再根据每个基础语句的语义评分，确定该待发布内容的综合评分，最后将综合评分与预设评分阈值进行比较，在综合评分大于预设评分阈值时，确认该待发布内容合法，发布该待发布内容，并向客户端发送审核通过的消息。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现一种网络内容发布的审核方法，包括：在接收到客户端发送网络内容发布的审核请求时，获取审核请求中包含的当前用户信息和待发布内容，将当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定当前用户信息对应的用户类型，若当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对待发布内容进行解析，得到待发布内容中包含的每个基础语句，进而采用自然语言语义识别的方式，对每个基础语句进行语义识别，得到每个基础语句对应的语义评分，再根据每个基础语句的语义评分，确定该待发布内容的综合评分，最后将综合评分与预设评分阈值进行比较，在综合评分大于预设评分阈值时，确认该待发布内容合法，发布该待发布内容，并向客户端发送审核通过的消息。

本申请实施例提供的网络内容发布的审核方法、装置、计算机设备及存储介质，实现智能化对网络内容进行语义识别，并根据识别出的语义来审核该网络内容发布是否合理，提高了网络内容发布的审核智能化程度和正确率。

附图说明

图1是本申请实施例提供的网络内容发布的审核方法的应用环境示意图；

图2是本申请实施例提供的网络内容发布的审核方法的实现流程图；

图3是本申请实施例提供的网络内容发布的审核方法中对非普通用户的审核流程图；

图4是本申请实施例提供的网络内容发布的审核方法中步骤S40的实现流程图；

图5是本申请实施例提供的网络内容发布的审核方法中步骤S41的实现流程图；

图6是本申请实施例提供的网络内容发布的审核装置的示意图；

图7是本申请实施例提供的计算机设备的示意图。

具体实施方式

请参阅图1，图1示出本申请实施例提供的网络内容发布的审核方法的应用环境。该网络内容发布的审核方法应用在对网络论坛、网络直播或者其他种类的网络社区中的网络内容发布的审核场景中。该记录场景包括客户端、服务端和管理端，其中，服务端和客户端之间、服务端和管理端之间通过网络进行连接，客户端向服务端发送网络内容发布的审核请求，服务端在获取到该审核请求后，判断用户类型，并根据用户类型确定审核方式，在用户类型为普通用户时，获取待发布的内容，并进行语义分析，得到待发布内容的语义评分，进而确定待发布内容的合法性，并在不合法时，向管理端发送相应提示信息。客户端和管理端具体可以但不限于是手机、平板电脑、个人计算机(Personal Computer，PC)等智能终端设备，服务端具体可以用独立的服务器或者多个服务器组成的服务器集群实现。

请参阅图2，图2示出本申请实施例提供的一种网络内容发布的审核方法，以该方法应用在图1中的服务端为例进行说明，详述如下：

S10：若接收到客户端发送的网络内容发布的审核请求，则获取审核请求中包含的当前用户信息和待发布内容。

具体地，用户在通过客户端进行论坛交流时，先编辑待发布内容，并在点击客户端的提交按钮后，客户端向服务端发送包含用户信息和待发布内容的审核请求，服务端通过网络传输协议接收该审核请求中包含的用户信息和待发布内容。

其中，用户信息包括但不限于用户账号信息等，服务端通过用户账号信息，确定用户类型，在本实施例中，针对不同用户类型的用户，采用该用户类型对应的审核方式对待发布内容进行审核，以便提高网络内容发布的审核效率。

其中，待发布内容为用户在客户端编辑好，用于上传论坛或者其他网络社区，用于同其他网络用户进行互动的文字信息、链接信息、图像信息和视频信息等。

其中，网络传输协议包括但不限于：互联网控制报文协议(Internet Control Message Protocol，ICMP)、地址解析协议(ARP Address Resolution Protocol，ARP)和文件传输协议(File Transfer Protocol，FTP)等。

S20：将当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定当前用户信息对应的用户类型，其中，名单类型数据库包括每个用户信息和用户信息对应的用户类型。

具体地，服务端存储有预设名单类型数据库，该预设名单类型数据库中包含所有注册用户的用户信息，以及每个用户信息对应的用户类型，通过采用遍历查询的方式，对该预设名单类型数据库进行查询，实现对步骤S10中获取到的用户信息进行用户类型判断，得到该用户信息对应的用户类型。

其中，预设名单类型数据库包含的用户类型可以包括：白名单用户、黑名单用户和普通用户类型等，不同用户类型的区分是根据对用户的信用等级来进行划分，例如，管理人员名单中的用户对应的信用等级比较高，一般会划分为白名单用户，多次涉嫌违规操作应该网络社区正常次序的用户，对应的信用等级偏低，在信用等级降低到一定程度，将被列入到黑名单用户类型的清单。

其中，用户类型为普通用户的用户信息，其对应的审核请求需要进一步进行智能评估，根据评估结果确定审核结果。

S30：若当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对待发布内容进行解析，得到待发布内容中包含的每个基础语句。

具体地，在用户信息对应的用户类型为普通用户时，按照预设的语句划分方式，对待发布内容进行解析，得到待发布内容中包含的每个基础语句。

在本实施例中，预设的语句划分方式可以是通过对预设的分隔符号进行正则匹配，进而以匹配到存在预设的分隔符号的位置为分隔点，对待发布内容进行切分，得到待发布内容中包含的每个基础语句。

其中，预设的分隔符号包括但不限于：分段符、换行符、标点符号等，具体可根据实际需求进行设置，此处不做限定。

S40：采用自然语言语义识别的方式，对每个基础语句进行语义识别，得到每个基础语句对应的语义评分。

具体地，通过自然语言语义识别的方式，对每个所述基础语句进行语义识别，并根据预设的评分条件，对每个基础语句对应的语义进行评分，得到每个基础语句的语义评分。

其中，自然语言语义识别(Natural Language Processing，NLP)是人工智能(AI)的一个子领域，通过机器学习的方式，对自然语言进行理解解析，从而解决自然语言领域的一些问题，NLP主要应用范围包括但不限于：文本朗读(Text to speech)/语音合成(Speech synthesis)、语音识别(Speech recognition)、中文自动分词(Chinese word segmentation)、词性标注(Part-of-speech tagging)、句法分析(Parsing)、文本分类(Text categorization)、信息检索(Information retrieval)、自动摘要(Automatic summarization)和文字校对(Text-proofing)等。

S50：根据每个基础语句的语义评分，确定待发布内容的综合评分。

具体地，通过预设的加权方式，对每个基础语句的语义评分进行加权汇总，得到待发布内容的综合评分。

其中，预设的加权方式可以根据实际需求进行设定，例如，对于不同范围内的语义评分设置不同的加权系数等。

S60：将综合评分与预设评分阈值进行比较，若综合评分大于预设评分阈值，则确认待发布内容合法，发布待发布内容，并向客户端发送审核通过的消息。

具体地，服务端预设有评分阈值，将综合评分与预设评分阈值进行比较，在综合评分大于预设评分阈值时，确认待发布内容合法，发布该待发布内容，并向客户端发送审核通过的消息。

值得说明的是，在综合评分大于或等于预设评分阈值时，确认待发布内容可能涉嫌违规，将拒绝发布该待发布内容，并向客户端发送审核不通过的提示信息，并将该待发布内容审核请求进行记录，以便后续管理人员进行管理。

在本实施例中，在接收到客户端发送网络内容发布的审核请求时，获取审核请求中包含的当前用户信息和待发布内容，将当前用户信息与预设名单类型数据库中的每个用户信息进行比较，确定当前用户信息对应的用户类型，若当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对待发布内容进行解析，得到待发布内容中包含的每个基础语句，进而采用自然语言语义识别的方式，对每个基础语句进行语义识别，得到每个基础语句对应的语义评分，再根据每个基础语句的语义评分，确定该待发布内容的综合评分，最后将综合评分与预设评分阈值进行比较，在综合评分大于预设评分阈值时，确认该待发布内容合法，发布该待发布内容，并向客户端发送审核通过的消息，实现智能化对网络内容进行语义识别，并根据识别出的语义来审核该网络内容发布是否合理，提高了网络内容发布的审核智能化程度和正确率。

在一实施例中，请参阅图3，在步骤S20之后，该网络内容发布的审核方法还包括：

S70：若当前用户信息对应的用户类型为白名单用户，则发布待发布内容。

具体地，在通过采用遍历查询的方式，对该预设名单类型数据库进行查询后，确定当前用户信息对应的用户类型为白名单用户时，则直接发布该待发布内容。

S80：若当前用户信息对应的用户类型为黑名单用户，则移除待发布内容，并向客户端发送审核不通过的消息。

具体地，在通过采用遍历查询的方式，对该预设名单类型数据库进行查询后，确定当前用户信息对应的用户类型为黑名单用户时，则判断无需审核该待发布内容中包含语义信息，直接删除该待发布内容，并向客户端发送审核不通过的消息。

需要说明的是，步骤S70和步骤S80没有必然的先后执行顺序，其可以是并列执行的关系，此处不做限制。

在本实施例中，通过对用户类型为白名单用户和黑名单用户，按照预设方式进行快捷审核操作，而无需对这两种用户类型的用户的待发布内容进行语义识别，提高了网络内容发布的审核效率。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S40中所提及的采用自然语言语义识别的方式，对每个基础语句进行语义识别，得到每个基础语句对应的语义评分的具体实现方法进行详细说明。

请参阅图4，图4示出了本申请实施例提供的步骤S40的具体实现流程，详述如下：

S41：通过预设的分词方式，对基础语句进行分词处理，得到基础语句中包含的基础分词。

具体地，通过预设的分词方式，对步骤S30中得到的每个基础语句均进行分词处理，得到每个基础语句中包含的基础分词。

其中，预设的分词方式包括但不限于：通过第三方分词工具或者分词算法等。

其中，常见的第三方分词工具包括但不限于：Stanford NLP分词器、ICTClAS分词***、ansj分词工具和HanLP中文分词工具等。

其中，分词算法包括但不限于：最大正向匹配(Maximum Matching，MM)算法、逆向最大匹配(ReverseDirectionMaximum Matching Method，RMM)算法、双向最大匹配(Bi-directction Matching method，BM)算法、隐马尔科夫模型(Hidden Markov Model，HMM)和N-gram模型等。

容易理解地，通过分词的方式提取基础分词，一方面，可以过滤掉有效基础语句中一些无意义的词汇，另一方面，也有利于后续使用这些基础分词生成词向量。

S42：将基础分词转换为词向量，并通过预设的聚类算法，对词向量进行聚类，得到每个基础语句对应的聚类中心。

在人工智能中，语言表示主要指语言的形式化或数学的描述，以便在计算机中表示语言，并能让计算机程序自动处理。本申请实施例中所指的词向量就是用向量的形式来表示一个基础分词。

具体地，先通过词向量的方式，对每个基础分词进行转化，得到每个基础分词对应的词向量，进而通过预设的聚类算法，对词向量进行聚类，得到每个基础分词对应的词向量的聚类中心，进而将同一个基础语句中的基础分词对应的聚类中心进行继续聚类，得到基础语句对应的聚类中心。

其中，聚类(Cluster)算法又称群分析，它是样品或指标分类问题的一种统计分析方法，同时也是数据挖掘的一个重要算法，聚类算法包括但不限于：K均值(K-Means)聚类算法、均值漂移聚类算法、基于密度的聚类(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)方法、基于高斯混合模型的最大期望聚类、凝聚层次聚类和图团体检测(Graph Community Detection)算法等。

优选地，在本实施例中，采用K均值(K-Means)聚类算法，通过对各个基础分词对应的词向量进行聚类，确定每个基础分词对应的分类，进而对基础语句进行聚类，得到基础语句对应的聚类中心。

S43：针对每个基础语句，计算基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为基础语句对应的语义评分。

具体地，服务端预先存储有表示指定语义的预设语义向量，每个预设语义向量对应有预设的语义评分，针对每个基础语句，分别计算该基础语句对应的聚类中心与这些预设语义向量的距离，并将最小距离对应的预设词义向量作为目标向量，并将目标向量对应的语义评分作为该基础语句的语义评分。

优选地，在本实施例中，确定目标向量之后，还可根据基础语句与目标向量的距离，计算评分参数，并根据评分参数和目标向量对应的语义评分确定基础语句的语义评分。

在本实施例中，通过预设的分词方式，对基础语句进行分词处理，得到基础语句中包含的基础分词，进而将基础分词转换为词向量，并通过预设的聚类算法，对词向量进行聚类，得到每个基础语句对应的聚类中心，针对每个基础语句，计算基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为基础语句对应的语义评分，实现了对基础语句的语义评分，提高了审核的智能化程度和审核效率。

在图2对应的实施例的基础之上，下面通过一个具体的实施例来对步骤S41中所提及的通过预设的分词方式，对基础语句进行分词处理，得到基础语句中包含的基础分词的具体实现方法进行详细说明。

请参阅图5，图5示出了本申请实施例提供的步骤S41的具体实现流程，详述如下：

S411：获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据。

具体地，训练语料库是用来为了对使用自然语言中的基础语句进行评估，而使用相关语料进行训练得到的语料库，通过使用N-gram模型对预设的训练语料库中每个语料进行统计分析，得出预设的训练语料库中一个语料H出现在另一个语料I之后的次数，进而得到“语料I+语料H”组成的词序列出现的词序列数据。本申请实施例中训练语料库中的内容包含但不限于：论坛或网络社区的话题对应的专业信息、网络语料和通用语料库等。

其中，语料库(Corpus)是指经科学取样和加工的大规模电子文本库。语料库是语言学研究的基础资源，也是经验主义语言研究方法的主要资源，应用于词典编纂，语言教学，传统语言研究，自然语言处理中基于统计或实例的研究等方面，语料，即语言材料，语料是语言学研究的内容，也是构成语料库的基本单元。

例如，在一具体实施方式中，预设的训练语料库为通过对热门网络话题和时事新闻通过网络爬虫的方式进行爬取，得到“时事”领域的语料库。

其中，词序列是指由至少两个语料按照一定顺序组合而成的序列，词序列频度是指该词序列出现的次数占整个语料库中分词(Word Segmentation)出现次数的比例，这里的分词指的是将连续的字序列按照预设的组合方式进行组合得到的词序列。例如，某个词序列“爱吃西红柿”在整个语料库中出现的次数为100次，整个语料库所有分词出现的次数之和为100000次，则词序列“爱吃西红柿”的词序列频度为0.0001。

其中，N-gram模型是大词汇连续文字语义识别中常用的一种语言模型，利用上下文中相邻词间的搭配信息，在需要把连续无空格的文字转换成汉字串(即句子)时，可以计算出具有最大概率的句子，从而实现到汉字的自动转换，无需用户手动选择，提高了词序列确定的准确性。

值得说明的是，为了提高网络内容发布的审核效率，在本实施例中，获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据的过程，可以在审核之前进行，并将得到的词序列数据进行存储，在需要对待发布内容进行语义识别时，直接调用该词序列数据即可。

S412：对基础语句进行分词解析，得到M个分词序列。

具体地，每个基础语句，断句方式不一样，理解出的语句可能存在差别，为保证语句理解的正确性，服务端在获取到基础语句后，获取该基础语句的M个分词序列的组成，M为所有可能出现的分词序列的总数。

其中，每个分词序列均是将一个基础语句进行划分得到的一种结果，得到的包含至少两个分词的文字序列。

例如，在一具体实施方式中，一基础语句为“今天真热”，对该基础语句进行解析，得到分词序列A为：“今天”、“真”、“热”，得到分词序列B为：“今”、“天真”、“热”等。

S413：针对每个分词序列，依据预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率。

具体地，根据步骤S412中获取到的词序列数据，对每个分词序列进行发生概率计算，得到M个分词序列的发生概率。

对分词序列计算发生概率具体可使用马尔科夫假设理论：第Y个词的出现只与前面Y-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计Y个词同时出现的次数得到。即：

P(T)＝P(W ₁W ₂...W _Y)＝P(W ₁)P(W ₂|W ₁)...P(W _Y|W ₁W ₂...W _Y-1) 公式(1)

其中，P(T)为整句出现的概率，P(W _Y|W ₁W ₂...W _Y-1)为第Y个分词出现在Y-1个分词组成的词序列之后的概率。

例如：在“中华民族是一个有着悠久文明历史的民族”这句话进行语音识别后，划分的一种分词序列为：“中华民族”、“是”、“一个”、“有着”、“悠久”、“文明”、“历史”、“的”、“民族”，一共出现了9个分词，当n＝9的时候，即计算“民族”这个分词在出现在“中华民族是一个有着悠久文明历史的”这个词序列之后的概率。

S414：从M个分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为基础语句中包含的基础分词。

具体地，针对每个分词序列，通过步骤S413的计算均得到一个发生概率，共得到M个分词序列的发生概率，将这M个分词序列的发生概率分别与预设概率阈值进行比较，选取大于或者等于预设概率阈值的发生概率，作为有效发生概率，进而找到有效发生概率对应的分词序列，将这些分词序列作为目标分词序列。

通过与预设概率阈值进行比较，过滤掉发生概率不符合要求的分词序列，从而使得选取的目标分词序列更为接近自然语言中表达的含义，提高了语义识别的准确率。

需要说明的是，若计算出的M个分词序列的发生概率均小于预设的概率阈值，则确定该待发布内容为不符合规范的内容，此时，将审核不通过作为审核结果，并向客户端发送“请遵守网络发言规范，做一个文明的网民”的提醒消息。若目标分词序列个数大于预设个数，按照其对应的发生概率的大小顺序进行排序，并选取排序前面的预设个数分词序列作为目标分词序列，例如，预设的个数为5个，则在将有效发生概率进行排序后，选取排序前5个的有效发生概率，进而得到这5个发生概率对应的分词序列作为目标分词序列。

优选地，在本实施例中，选取最大发生概率对应的分词序列，作为目标分词序列，以便减少后续的运算量，提高网络内容发布的审核效率。

在本实施例中，通过获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据，方便后续计算发生概率时可直接使用词序列数据，从而节省了计算概率的时间，有利于提高审核效率，同时，对基础语句进行分词解析，得到M个分词序列，进而针对每个分词序列，依据预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率，再从M个分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为基础语句中包含的基础分词，确保分词的准确性，有利于提高后续通过基础分词进行聚类和语义评估的准确率。

在一实施例中，步骤S50中，根据每个基础语句的语义评分，确定待发布内容的综合评分具体实现流程，详述如下：

通过如下公式计算待发布内容的综合评分：

其中，M _i为第i个基础语句的语义评分，a和b为预设参数，S _i为第i个基础语句的加权评分，n为基础语句的数量，W为待发布内容的综合评分，i和n为正整数，且i≤n。

值得说明的是，在本实施例中，语义评分可用于表达语义规范的程度，语义评分小于0表明该基础语句的语义存在不规范，对预设参数a设置比预设参数b更大的值，使得不规范的基础语句对整个待发布内容的影响更大，预设参数a和b的取值可以根据实际情况进行选取，此处不作具体限制。

在本实施例中，通过预设公式，对不同范围的语义评分进行加权汇总，得到待发布内容的综合评分，有利于提高综合评分评估的合理性。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

图6示出与上述实施例网络内容发布的审核方法一一对应的网络内容发布的审核装置的原理框图。如图6所示，该网络内容发布的审核装置包括请求接收模块10、类型匹配模块20、内容解析模块30、语义识别模块40、综合评分模块50和结果确定模块60。各功能模块详细说明如下：

请求接收模块10，用于若接收到客户端发送的网络内容发布的审核请求，则获取审核请求中包含的当前用户信息和待发布内容；

类型匹配模块20，用于将当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定当前用户信息对应的用户类型，其中，名单类型数据库包括每个用户信息和用户信息对应的用户类型；

内容解析模块30，用于若当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对待发布内容进行解析，得到待发布内容中包含的每个基础语句；

语义识别模块40，用于采用自然语言语义识别的方式，对每个基础语句进行语义识别，得到每个基础语句对应的语义评分；

综合评分模块50，用于根据每个基础语句的语义评分，确定待发布内容的综合评分；

结果确定模块60，用于将综合评分与预设评分阈值进行比较，若综合评分大于预设评分阈值，则确认待发布内容合法，发布待发布内容，并向客户端发送审核通过的消息。

进一步地，该网络内容发布的审核装置还包括：

第一审核模块70，用于若当前用户信息对应的用户类型为白名单用户，则发布待发布内容；

第二审核模块80，用于若当前用户信息对应的用户类型为黑名单用户，则移除待发布内容，并向客户端发送审核不通过的消息。

进一步地，语义识别模块40包括：

分词单元41，用于通过预设的分词方式，对基础语句进行分词处理，得到基础语句中包含的基础分词；

聚类单元42，用于将基础分词转换为词向量，并通过预设的聚类算法，对词向量进行聚类，得到每个基础语句对应的聚类中心；

评分单元43，用于针对每个基础语句，计算基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为基础语句对应的语义评分。

进一步地，分词单元41包括：

训练子单元411，用于获取预设的训练语料库，并使用N-gram模型对预设的训练语料库进行分析，得到预设的训练语料库的词序列数据；

解析子单元412，用于对基础语句进行分词解析，得到M个分词序列；

计算子单元413，用于针对每个分词序列，依据预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

选取子单元414，用于从M个分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为基础语句中包含的基础分词。

进一步地，综合评分模块50包括：

评分计算单元51，用于通过如下公式计算待发布内容的综合评分：

关于网络内容发布的审核装置的具体限定可以参见上文中对于网络内容发布的审核方法的限定，在此不再赘述。上述网络内容发布的审核装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图7是本申请一实施例提供的计算机设备的示意图。该计算机设备可以是服务端，其内部结构图可以如图7所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设的语料库和预设词义向量。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述公开的一种网络内容发布的审核方法的任意一组或多组步骤。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例网络内容发布的审核方法的步骤，例如图2所示的步骤S10至步骤S60。或者，处理器执行计算机程序时实现上述实施例网络内容发布的审核装置的各模块/单元的功能，例如图6所示的模块10至模块60的功能。为避免重复，这里不再赘述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

在一实施例中，提供一计算机可读存储介质，所述计算机可读存储介质为易失性存储介质或非易失性存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例网络内容发布的审核方法的步骤，或者，该计算机程序被处理器执行时实现上述实施例网络内容发布的审核装置中各模块/单元的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

Claims

一种网络内容发布的审核方法，其中，所述网络内容发布的审核方法包括：

若接收到客户端发送的网络内容发布的审核请求，则获取所述审核请求中包含的当前用户信息和待发布内容；

将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型，其中，所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型；

若所述当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对所述待发布内容进行解析，得到所述待发布内容中包含的每个基础语句；

采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分；

根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分；

将所述综合评分与预设评分阈值进行比较，若所述综合评分大于所述预设评分阈值，则确认所述待发布内容合法，发布所述待发布内容，并向所述客户端发送审核通过的消息。
如权利要求1所述的网络内容发布的审核方法，其中，在所述将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型之后，所述网络内容发布的审核方法还包括：

若所述当前用户信息对应的用户类型为白名单用户，则发布所述待发布内容；

若所述当前用户信息对应的用户类型为黑名单用户，则移除所述待发布内容，并向所述客户端发送审核不通过的消息。
如权利要求1所述的网络内容发布的审核方法，其中，所述采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分包括：

通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词；

将所述基础分词转换为词向量，并通过预设的聚类算法，对所述词向量进行聚类，得到每个所述基础语句对应的聚类中心；

针对每个所述基础语句，计算所述基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为所述基础语句对应的语义评分。
如权利要求3所述的网络内容发布的审核方法，其中，在所述采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分之前，所述网络内容发布的审核方法还包括:

获取预设的训练语料库，并使用N-gram模型对所述预设的训练语料库进行分析，得到所述预设的训练语料库的词序列数据；

所述通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词包括：

对所述基础语句进行分词解析，得到M个分词序列；

针对每个所述分词序列，依据所述预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

从M个所述分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的所述分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为所述基础语句中包含的基础分词。
如权利要求1至4任一项所述的网络内容发布的审核方法，其中，所述根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分包括：

通过如下公式计算待发布内容的综合评分：

其中，M _i为第i个所述基础语句的语义评分，a和b为预设参数，S _i为第i个所述基础语句的加权评分，n为所述基础语句的数量，W为所述待发布内容的综合评分，i和n为正整数，且i≤n。
一种网络内容发布的审核装置，其中，所述网络内容发布的审核装置包括：

请求接收模块，用于若接收到客户端发送的网络内容发布的审核请求，则获取所述审核请求中包含的当前用户信息和待发布内容；

类型匹配模块，用于将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型，其中，所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型；

内容解析模块，用于若所述当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对所述待发布内容进行解析，得到所述待发布内容中包含的每个基础语句；

语义识别模块，用于采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分；

综合评分模块，用于根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分；

结果确定模块，用于将所述综合评分与预设评分阈值进行比较，若所述综合评分大于所述预设评分阈值，则确认所述待发布内容合法，发布所述待发布内容，并向所述客户端发送审核通过的消息。
如权利要求6所述的网络内容发布的审核装置，其中，所述网络内容发布的审核装置还包括：

第一审核模块，用于若所述当前用户信息对应的用户类型为白名单用户，则发布所述待发布内容；

第二审核模块，用于若所述当前用户信息对应的用户类型为黑名单用户，则移除所述待发布内容，并向所述客户端发送审核不通过的消息。
如权利要求6所述的网络内容发布的审核装置，其中，所述语义识别模块包括：

分词单元，用于通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词；

聚类单元，用于将所述基础分词转换为词向量，并通过预设的聚类算法，对所述词向量进行聚类，得到每个所述基础语句对应的聚类中心；

评分单元，用于针对每个所述基础语句，计算所述基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为所述基础语句对应的语义评分。
一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现一种网络内容发布的审核方法，包括：

若接收到客户端发送的网络内容发布的审核请求，则获取所述审核请求中包含的当前用户信息和待发布内容；

将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型，其中，所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型；

若所述当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对所述待发布内容进行解析，得到所述待发布内容中包含的每个基础语句；

采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分；

根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分；

将所述综合评分与预设评分阈值进行比较，若所述综合评分大于所述预设评分阈值，则确认所述待发布内容合法，发布所述待发布内容，并向所述客户端发送审核通过的消息。
如权利要求9所述的计算机设备，其中，在所述将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型之后，还包括：

若所述当前用户信息对应的用户类型为白名单用户，则发布所述待发布内容；

若所述当前用户信息对应的用户类型为黑名单用户，则移除所述待发布内容，并向所述客户端发送审核不通过的消息。
如权利要求9所述的计算机设备，其中，所述采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分包括：

通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词；

将所述基础分词转换为词向量，并通过预设的聚类算法，对所述词向量进行聚类，得到每个所述基础语句对应的聚类中心；

针对每个所述基础语句，计算所述基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为所述基础语句对应的语义评分。
如权利要求11所述的计算机设备，其中，在所述采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分之前，还包括:

获取预设的训练语料库，并使用N-gram模型对所述预设的训练语料库进行分析，得到所述预设的训练语料库的词序列数据；

所述通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词包括：

对所述基础语句进行分词解析，得到M个分词序列；

针对每个所述分词序列，依据所述预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

从M个所述分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的所述分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为所述基础语句中包含的基础分词。
如权利要求9至12任一项所述的计算机设备，其中，所述根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分包括：

通过如下公式计算待发布内容的综合评分：

其中，M _i为第i个所述基础语句的语义评分，a和b为预设参数，S _i为第i个所述基础语句的加权评分，n为所述基础语句的数量，W为所述待发布内容的综合评分，i和n为正整数，且i≤n。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行一种所述的网络内容发布的审核方法，包括：

若接收到客户端发送的网络内容发布的审核请求，则获取所述审核请求中包含的当前用户信息和待发布内容；

将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型，其中，所述名单类型数据库包括每个用户信息和所述用户信息对应的用户类型；

若所述当前用户信息对应的用户类型为普通用户，则按照预设的语句划分方式，对所述待发布内容进行解析，得到所述待发布内容中包含的每个基础语句；

采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分；

根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分；

将所述综合评分与预设评分阈值进行比较，若所述综合评分大于所述预设评分阈值，则确认所述待发布内容合法，发布所述待发布内容，并向所述客户端发送审核通过的消息。
如权利要求14所述的存储介质，其中，在所述将所述当前用户信息与预设名单类型数据库中的每个用户信息进行匹配，确定所述当前用户信息对应的用户类型之后，还包括：

若所述当前用户信息对应的用户类型为白名单用户，则发布所述待发布内容；

若所述当前用户信息对应的用户类型为黑名单用户，则移除所述待发布内容，并向所述客户端发送审核不通过的消息。
如权利要求14所述的存储介质，其中，所述采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分包括：

通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词；

将所述基础分词转换为词向量，并通过预设的聚类算法，对所述词向量进行聚类，得到每个所述基础语句对应的聚类中心；

针对每个所述基础语句，计算所述基础语句对应的聚类中心与每个预设词义向量的距离，并将最小距离对应的预设词义向量作为目标向量，将目标向量对应的语义评分作为所述基础语句对应的语义评分。
如权利要求16所述的存储介质，其中，在所述采用自然语言语义识别的方式，对每个所述基础语句进行语义识别，得到每个所述基础语句对应的语义评分之前，还包括:

获取预设的训练语料库，并使用N-gram模型对所述预设的训练语料库进行分析，得到所述预设的训练语料库的词序列数据；

所述通过预设的分词方式，对所述基础语句进行分词处理，得到所述基础语句中包含的基础分词包括：

对所述基础语句进行分词解析，得到M个分词序列；

针对每个所述分词序列，依据所述预设的训练语料库的词序列数据，计算每个分词序列的发生概率，得到M个分词序列的发生概率；

从M个所述分词序列的发生概率中，选取达到预设概率阈值的发生概率对应的所述分词序列，作为目标分词序列，并将目标分词序列中的每个分词，作为所述基础语句中包含的基础分词。
如权利要求14至17任一项所述的存储介质，其中，所述根据每个所述基础语句的语义评分，确定所述待发布内容的综合评分包括：

通过如下公式计算待发布内容的综合评分：

其中，M _i为第i个所述基础语句的语义评分，a和b为预设参数，S _i为第i个所述基础语句的加权评分，n为所述基础语句的数量，W为所述待发布内容的综合评分，i和n为正整数，且i≤n。。