CN110321554A

CN110321554A - 基于Bi-LSTM的不良文本检测方法及装置

Info

Publication number: CN110321554A
Application number: CN201910485402.8A
Authority: CN
Inventors: 张聪; 沈冀平; 马啸尘; 周勇林; 沈智杰; 景晓军
Original assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd
Current assignee: SURFILTER NETWORK TECHNOLOGY Co Ltd
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-10-11

Abstract

本发明公开了一种基于Bi‑LSTM的不良文本检测方法，包括：获取文本数据，并对获取的文本数据进行类型标记；对文本数据进行预处理，组成训练集；通过训练集训练模型的参数，当Bi‑LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低，则终止Bi‑LSTM双向循环神经网络模型的训练，得到训练好的Bi‑LSTM双向循环神经网络模型；将待判定的文本数据预处理后输入训练好的Bi‑LSTM双向循环神经网络模型，输出判定结果。本发明从全文整体性角度来对文本内容进行理解、检测并分类，无需人工制定关键词典，对文本内容进行分词处理，实现了简洁、高效、高召回率的不良文本内容检测。

Description

基于Bi-LSTM的不良文本检测方法及装置

技术领域

本发明涉及网页内容检测领域，更具体地说，涉及一种基于Bi-LSTM的不良文本检测方法及装置。

背景技术

随着信息技术的飞速发展，互联网上的信息呈指数型不断增长，大量网页种类繁多，因此也夹杂着许多涉黄、涉政等不良文本内容。单纯依靠人工来对不良文本内容进行审核过滤，存在着工作量大，人力成本高等问题。因此，对Web页面的不良文本内容进行检测与识别是迫在眉睫的。

现有技术通常使用关键词匹配的方式来对文本内容进行检测。这种检测方式存在以下问题：没有对文本进行分词处理，关键词极易产生歧义匹配；关键词典由人工制定，局限性较大，覆盖性不够全面；忽略了文本理解的整体性原则。

发明内容

本发明提供一种基于Bi-LSTM的不良文本检测方法及装置，能够提高不良文本检测的准确率。

本发明解决其技术问题所采用的技术方案是：

第一方面，提供一种基于Bi-LSTM的不良文本检测方法，包括如下步骤：

S0、获取文本数据，并对获取的文本数据进行类型标记；

S1、对所述文本数据进行预处理，组成训练集；

S2、通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数，当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低，则终止所述Bi-LSTM双向循环神经网络模型的训练，得到训练好的Bi-LSTM双向循环神经网络模型；

S3、将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型，输出判定结果。

在本发明提供的基于Bi-LSTM的不良文本检测方法中，在所述步骤S0中，通过编写网络爬虫获取Web网页数据，或从已有的数据库中直接获取的方式来获取所述文本数据。

在本发明提供的基于Bi-LSTM的不良文本检测方法中，所述步骤S1包括：

S11、对所述文本数据进行数据清洗，过滤html标签，保留纯文本信息；

S12、对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作；

S13、对步骤S12处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作，得到组成所述训练集的纯文本数据。

在本发明提供的基于Bi-LSTM的不良文本检测方法中，所述步骤S2具体包括：

S21、将所述纯文本数据转换为固定长度的词向量；

S22、将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层，得到所述纯文本数据的前向向量和后向向量；

S23、将所述前向向量和所述后向向量输入到隐藏层，并将得到的隐藏向量拼接后输入到全连接层；

S24、将拼接后的隐藏向量的维度压缩至与检测类别一致的维度，使用Softmax计算每个纯文本数据属于标注的类型的概率；

S25、利用基于熵的损失函数计算损失值，通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数，以最小化损失函数来训练模型。

在本发明提供的基于Bi-LSTM的不良文本检测方法中，通过设置学习率控制所述Bi-LSTM双向循环神经网络模型的参数更新的速度。

在本发明提供的基于Bi-LSTM的不良文本检测方法中，所述固定长度等于所述Bi-LSTM双向循环神经网络模型中的LSTM层正向的LSTM单元个数。

在本发明提供的基于Bi-LSTM的不良文本检测方法中，所述最小化损失函数的计算公式如下：

其中，Loss是损失函数值，p(y_i)为纯文本数据x_i通过所述Bi-LSTM双向循环神经网络模型的输出结果的概率，为纯文本数据x_i的实际标记类型的概率，当损失值迭代变化|Loss_i-Loss_i+1|<ε时终止所述Bi-LSTM双向循环神经网络模型的训练。

第二方面，本发明还提供一种基于Bi-LSTM的不良文本检测装置，包括训练模块和检测模块，其中，所述训练模块包括训练数据获取单元、预处理单元和模型训练单元，

所述训练数据获取单元用于获取文本数据，并对获取的文本数据进行类型标记；

所述预处理单元用于对所述文本数据进行预处理，组成训练集；

所述模型训练单元用于通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数，当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低，则终止所述Bi-LSTM双向循环神经网络模型的训练，得到训练好的Bi-LSTM双向循环神经网络模型；

所述检测模块用于将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型，输出判定结果。

在本发明提供的基于Bi-LSTM的不良文本检测装置中，所述预处理单元包括：

数据清洗子单元，用于对所述文本数据进行数据清洗，过滤html标签，保留纯文本信息，对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作；

分词子单元，用于对处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作，得到组成所述训练集的纯文本数据。

在本发明提供的基于Bi-LSTM的不良文本检测装置中，所述模型训练单元包括：

词向量转换子单元，用于将所述纯文本数据转换为固定长度的词向量；

向量计算子单元，用于将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层，得到所述纯文本数据的前向向量和后向向量；

拼接子单元，用于将所述前向向量和所述后向向量输入到隐藏层，并将得到的隐藏向量拼接后输入到全连接层；

计算子单元，用于将拼接后的隐藏向量的维度压缩至与检测类别一致的维度，使用Softmax计算每个纯文本数据属于标注的类型的概率；

训练子单元，用于利用基于熵的损失函数计算损失值，通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数，以最小化损失函数来训练模型。

本发明的基于Bi-LSTM的不良文本检测方法及装置，具有以下有益效果：根据本发明提供的基于Bi-LSTM的不良文本检测方法及装置，通过训练得到的Bi-LSTM双向循环神经网络模型对待测文本数据进行全文检测，无需人工制定关键词典，解决了覆盖性不够全面的问题；从全文整体性角度来对文本内容进行理解、检测并分类，避免绝对化太强的问题；对文本内容进行分词处理，解决关键词歧义匹配的问题；同时，Bi-LSTM算法能自动对抽取文本特征，实现了简洁、高效、高召回率的不良文本内容检测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图：

图1为基于Bi-LSTM的不良文本检测方法的流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施例。相反地，提供这些实施例的目的是使对本发明的公开内容更加透彻全面。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明，应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明，而不是对本申请技术方案的限定，在不冲突的情况下，本发明实施例以及实施例中的技术特征可以相互组合。

实施例一

本实施例提供一种基于Bi-LSTM的不良文本检测方法，可由具有信息处理功能的计算机、网络服务器等执行。不良文本是指含有涉黄、涉赌及涉毒等违规的不良信息的文本内容。作为本发明的一个应用场景，在本实施例中，网络服务器根据本发明提供的方法，检测网络中数据流形式的网页文本。可以理解的是，为了进行检测，可将数据流形式的网页文本还原为自然语言形式的网页文本。以下，对本实施例提供的基于Bi-LSTM的不良文本检测方法进行说明。

参考图1，本实施例公开了一种基于Bi-LSTM的不良文本检测方法，如图1所示，方法主要包括：

S0、获取文本数据，并对获取的文本数据进行类型标记；

在本实施例中，为了训练模型，需预先准备训练集所需的文本数据。而为了提高基于Bi-LSTM的不良文本检测的准确率，需准备全面的训练集。所谓全面，是指训练集中的文本数据的数量足够庞大，能够涵盖绝大部分违规词。为了获得全面或趋于全面的训练集，本发明采用这样的方式：通过编写网络爬虫获取Web网页数据，或从已有的数据库中直接获取的方式来获取所述文本数据。

在此步骤中，网络服务器可以通过爬虫技术爬取网页数据然后进行人工或基于其他方式的方法标定文本数据的类型，或者从已经建立的数据库中直接获取类型已知的文本数据。在兼顾为获取或接收用于组成训练集的文本数据所需耗费的资源或人力不过大的前提下，组成训练集的文本数据的数量优选越多越好。

S1、对所述文本数据进行预处理，组成训练集；

在此步骤中，为了解决关键词歧义匹配的问题，需要对用于进行模型训练的数据进行预处理，生成纯文本数据。步骤S1具体可分为步骤S11～S13。

在此步骤中，通过数据清洗对数据进行重新审查和校验，以删除重复信息、纠正存在的错误，并提供数据一致性。

在此步骤中，通过分词将连续的字序列按照一定的规范重新组合成词序列。本领域技术人员可以理解的是，在本步骤中使用的中文分词方法为现有的分词方法，包括但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。通过分词及去除停用词和低频词的操作，将全文文本分为若干个常用词，用于后续模型的训练。

在此步骤中，利用上述处理得到的包含多个已标记类别的纯文本数据对Bi-LSTM双向循环神经网络模型进行训练。在本发明定义的Bi-LSTM双向循环神经网络模型中，考虑到实际设备计算能力及效率问题，词向量维度一般取200至500维之间，隐藏层数量一般为64、128、256。进一步地，词向量维度优选为300，隐藏层为128单元。

为了从全文的角度对不良文本内容进行检测，本发明采用了Bi-LSTM双向循环神经网络模型进行文本检测。具体地，步骤S2包括以下步骤：

S21、将所述纯文本数据转换为固定长度的词向量；

在此步骤中，所述固定长度等于所述Bi-LSTM双向循环神经网络模型中的LSTM层正向的LSTM单元个数。

在本步骤中，所述最小化损失函数的计算公式如下：

进一步地，为了控制参数更新速率，通过设置学习率控制所述Bi-LSTM双向循环神经网络模型的参数更新的速度。较大的学习率会使损失函数出现震荡，无法收敛，较小的学习率会使损失函数难以收敛，因此设置一个初始值较大的学习率，并使其随着训练不断衰减。优选地，学习率的初始值设为0.8.

在本步骤中，将待判定的文本数据经过数据清洗、分词、去除停用词等预处理操作后，输入上面训练好的模型中，概率最大的结果则为当前文本内容所属类别。例如，我们对“我爱中国……”这个文本进行检测，前向的LSTM(L)依次输入“我”，“爱”，“中国”得到词向量{hl0,hl1,hl2…}。后向的LSTM(R)依次输入“中国”，“爱”，“我”得到词向量{…hr0,hr1,hr2}。最后将前向和后向的隐藏向量拼接得到{[hl0,hr0],[hl1,hr1],[hl2,hr2]}，然后使用全连接层将向量维度压缩至与检测类别一致的维度，最后进行Softmax概率输出，概率最大的结果则为当前文本内容所属类别(正常、涉黄、涉政等)。

本实施例通过构建并训练了Bi-LSTM双向循环神经网络对不良文本内容进行检测，无需人工制定关键词典，解决了覆盖性不够全面的问题；从全文整体性角度来对文本内容进行理解、检测并分类，避免绝对化太强的问题；对文本内容进行分词处理，解决关键词歧义匹配的问题；同时，Bi-LSTM算法能自动对抽取文本特征，实现了简洁、高效、高召回率的不良文本内容检测。

实施例二

基于同一发明构思，本实施例公开了一种基于Bi-LSTM的不良文本检测装置，包括训练模块和检测模块，其中，所述训练模块包括训练数据获取单元、预处理单元和模型训练单元，

其他详细内容可参考实施例一，此处不再赘述。

实施例三

基于同一发明构思，本实施例公开了一种基于Bi-LSTM的不良文本检测***，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器可运行所述计算机程序以执行实施例一所述的方法。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory，ROM)或随机存储记忆体(RandomABBessMemory，RAM)等。

本领域内的技术人员应明白，本发明的实施例可提供为方法、***、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

上述描述涉及各种单元，需要指出的是，上文对各种单元的描述中，分割成这些单元，是为了说明清楚。然而，在实际实施中，各种单元的界限可以是模糊的。例如，本文中的任意或所有功能性单元可以共享各种硬件和/或软件元件。又例如，本文中的任何和/或所有功能单元可以由共有的处理器执行软件指令来全部或部分实施。相应地，除非明确要求，本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于Bi-LSTM的不良文本检测方法，其特征在于，包括如下步骤：

S0、获取文本数据，并对获取的文本数据进行类型标记；

S1、对所述文本数据进行预处理，组成训练集；

2.根据权利要求1所述的基于Bi-LSTM的不良文本检测方法，其特征在于，在所述步骤S0中，通过编写网络爬虫获取Web网页数据，或从已有的数据库中直接获取的方式来获取所述文本数据。

3.根据权利要求1所述的基于Bi-LSTM的不良文本检测方法，其特征在于，所述步骤S1包括：

4.根据权利要求3所述的基于Bi-LSTM的不良文本检测方法，其特征在于，所述步骤S2具体包括：

S21、将所述纯文本数据转换为固定长度的词向量；

5.根据权利要求4所述的基于Bi-LSTM的不良文本检测方法，其特征在于，通过设置学习率控制所述Bi-LSTM双向循环神经网络模型的参数更新的速度。

6.根据权利要求4所述的基于Bi-LSTM的不良文本检测方法，其特征在于，所述固定长度等于所述Bi-LSTM双向循环神经网络模型中的LSTM层正向的LSTM单元个数。

7.根据权利要求4所述的基于Bi-LSTM的不良文本检测方法，其特征在于，所述最小化损失函数的计算公式如下：

8.一种基于Bi-LSTM的不良文本检测装置，其特征在于，包括训练模块和检测模块，其中，所述训练模块包括训练数据获取单元、预处理单元和模型训练单元，

9.根据权利要求8所述的基于Bi-LSTM的不良文本检测装置，其特征在于，所述预处理单元包括：

10.根据权利要求9所述的基于Bi-LSTM的不良文本检测装置，其特征在于，所述模型训练单元包括：