CN110321554A - 基于Bi-LSTM的不良文本检测方法及装置 - Google Patents
基于Bi-LSTM的不良文本检测方法及装置 Download PDFInfo
- Publication number
- CN110321554A CN110321554A CN201910485402.8A CN201910485402A CN110321554A CN 110321554 A CN110321554 A CN 110321554A CN 201910485402 A CN201910485402 A CN 201910485402A CN 110321554 A CN110321554 A CN 110321554A
- Authority
- CN
- China
- Prior art keywords
- lstm
- neural network
- network model
- text data
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 47
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 58
- 238000003062 neural network model Methods 0.000 claims abstract description 52
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000005457 optimization Methods 0.000 claims description 6
- 230000000306 recurrent effect Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 15
- 238000004590 computer program Methods 0.000 description 5
- 210000004218 nerve net Anatomy 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 208000001613 Gambling Diseases 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于Bi‑LSTM的不良文本检测方法,包括:获取文本数据,并对获取的文本数据进行类型标记;对文本数据进行预处理,组成训练集;通过训练集训练模型的参数,当Bi‑LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止Bi‑LSTM双向循环神经网络模型的训练,得到训练好的Bi‑LSTM双向循环神经网络模型;将待判定的文本数据预处理后输入训练好的Bi‑LSTM双向循环神经网络模型,输出判定结果。本发明从全文整体性角度来对文本内容进行理解、检测并分类,无需人工制定关键词典,对文本内容进行分词处理,实现了简洁、高效、高召回率的不良文本内容检测。
Description
技术领域
本发明涉及网页内容检测领域,更具体地说,涉及一种基于Bi-LSTM的不良文本检测方法及装置。
背景技术
随着信息技术的飞速发展,互联网上的信息呈指数型不断增长,大量网页种类繁多,因此也夹杂着许多涉黄、涉政等不良文本内容。单纯依靠人工来对不良文本内容进行审核过滤,存在着工作量大,人力成本高等问题。因此,对Web页面的不良文本内容进行检测与识别是迫在眉睫的。
现有技术通常使用关键词匹配的方式来对文本内容进行检测。这种检测方式存在以下问题:没有对文本进行分词处理,关键词极易产生歧义匹配;关键词典由人工制定,局限性较大,覆盖性不够全面;忽略了文本理解的整体性原则。
发明内容
本发明提供一种基于Bi-LSTM的不良文本检测方法及装置,能够提高不良文本检测的准确率。
本发明解决其技术问题所采用的技术方案是:
第一方面,提供一种基于Bi-LSTM的不良文本检测方法,包括如下步骤:
S0、获取文本数据,并对获取的文本数据进行类型标记;
S1、对所述文本数据进行预处理,组成训练集;
S2、通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数,当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止所述Bi-LSTM双向循环神经网络模型的训练,得到训练好的Bi-LSTM双向循环神经网络模型;
S3、将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型,输出判定结果。
在本发明提供的基于Bi-LSTM的不良文本检测方法中,在所述步骤S0中,通过编写网络爬虫获取Web网页数据,或从已有的数据库中直接获取的方式来获取所述文本数据。
在本发明提供的基于Bi-LSTM的不良文本检测方法中,所述步骤S1包括:
S11、对所述文本数据进行数据清洗,过滤html标签,保留纯文本信息;
S12、对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作;
S13、对步骤S12处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作,得到组成所述训练集的纯文本数据。
在本发明提供的基于Bi-LSTM的不良文本检测方法中,所述步骤S2具体包括:
S21、将所述纯文本数据转换为固定长度的词向量;
S22、将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层,得到所述纯文本数据的前向向量和后向向量;
S23、将所述前向向量和所述后向向量输入到隐藏层,并将得到的隐藏向量拼接后输入到全连接层;
S24、将拼接后的隐藏向量的维度压缩至与检测类别一致的维度,使用Softmax计算每个纯文本数据属于标注的类型的概率;
S25、利用基于熵的损失函数计算损失值,通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数,以最小化损失函数来训练模型。
在本发明提供的基于Bi-LSTM的不良文本检测方法中,通过设置学习率控制所述Bi-LSTM双向循环神经网络模型的参数更新的速度。
在本发明提供的基于Bi-LSTM的不良文本检测方法中,所述固定长度等于所述Bi-LSTM双向循环神经网络模型中的LSTM层正向的LSTM单元个数。
在本发明提供的基于Bi-LSTM的不良文本检测方法中,所述最小化损失函数的计算公式如下:
其中,Loss是损失函数值,p(yi)为纯文本数据xi通过所述Bi-LSTM双向循环神经网络模型的输出结果的概率,为纯文本数据xi的实际标记类型的概率,当损失值迭代变化|Lossi-Lossi+1|<ε时终止所述Bi-LSTM双向循环神经网络模型的训练。
第二方面,本发明还提供一种基于Bi-LSTM的不良文本检测装置,包括训练模块和检测模块,其中,所述训练模块包括训练数据获取单元、预处理单元和模型训练单元,
所述训练数据获取单元用于获取文本数据,并对获取的文本数据进行类型标记;
所述预处理单元用于对所述文本数据进行预处理,组成训练集;
所述模型训练单元用于通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数,当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止所述Bi-LSTM双向循环神经网络模型的训练,得到训练好的Bi-LSTM双向循环神经网络模型;
所述检测模块用于将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型,输出判定结果。
在本发明提供的基于Bi-LSTM的不良文本检测装置中,所述预处理单元包括:
数据清洗子单元,用于对所述文本数据进行数据清洗,过滤html标签,保留纯文本信息,对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作;
分词子单元,用于对处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作,得到组成所述训练集的纯文本数据。
在本发明提供的基于Bi-LSTM的不良文本检测装置中,所述模型训练单元包括:
词向量转换子单元,用于将所述纯文本数据转换为固定长度的词向量;
向量计算子单元,用于将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层,得到所述纯文本数据的前向向量和后向向量;
拼接子单元,用于将所述前向向量和所述后向向量输入到隐藏层,并将得到的隐藏向量拼接后输入到全连接层;
计算子单元,用于将拼接后的隐藏向量的维度压缩至与检测类别一致的维度,使用Softmax计算每个纯文本数据属于标注的类型的概率;
训练子单元,用于利用基于熵的损失函数计算损失值,通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数,以最小化损失函数来训练模型。
本发明的基于Bi-LSTM的不良文本检测方法及装置,具有以下有益效果:根据本发明提供的基于Bi-LSTM的不良文本检测方法及装置,通过训练得到的Bi-LSTM双向循环神经网络模型对待测文本数据进行全文检测,无需人工制定关键词典,解决了覆盖性不够全面的问题;从全文整体性角度来对文本内容进行理解、检测并分类,避免绝对化太强的问题;对文本内容进行分词处理,解决关键词歧义匹配的问题;同时,Bi-LSTM算法能自动对抽取文本特征,实现了简洁、高效、高召回率的不良文本内容检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图:
图1为基于Bi-LSTM的不良文本检测方法的流程图。
具体实施方式
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的典型实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
实施例一
本实施例提供一种基于Bi-LSTM的不良文本检测方法,可由具有信息处理功能的计算机、网络服务器等执行。不良文本是指含有涉黄、涉赌及涉毒等违规的不良信息的文本内容。作为本发明的一个应用场景,在本实施例中,网络服务器根据本发明提供的方法,检测网络中数据流形式的网页文本。可以理解的是,为了进行检测,可将数据流形式的网页文本还原为自然语言形式的网页文本。以下,对本实施例提供的基于Bi-LSTM的不良文本检测方法进行说明。
参考图1,本实施例公开了一种基于Bi-LSTM的不良文本检测方法,如图1所示,方法主要包括:
S0、获取文本数据,并对获取的文本数据进行类型标记;
在本实施例中,为了训练模型,需预先准备训练集所需的文本数据。而为了提高基于Bi-LSTM的不良文本检测的准确率,需准备全面的训练集。所谓全面,是指训练集中的文本数据的数量足够庞大,能够涵盖绝大部分违规词。为了获得全面或趋于全面的训练集,本发明采用这样的方式:通过编写网络爬虫获取Web网页数据,或从已有的数据库中直接获取的方式来获取所述文本数据。
在此步骤中,网络服务器可以通过爬虫技术爬取网页数据然后进行人工或基于其他方式的方法标定文本数据的类型,或者从已经建立的数据库中直接获取类型已知的文本数据。在兼顾为获取或接收用于组成训练集的文本数据所需耗费的资源或人力不过大的前提下,组成训练集的文本数据的数量优选越多越好。
S1、对所述文本数据进行预处理,组成训练集;
在此步骤中,为了解决关键词歧义匹配的问题,需要对用于进行模型训练的数据进行预处理,生成纯文本数据。步骤S1具体可分为步骤S11~S13。
S11、对所述文本数据进行数据清洗,过滤html标签,保留纯文本信息;
在此步骤中,通过数据清洗对数据进行重新审查和校验,以删除重复信息、纠正存在的错误,并提供数据一致性。
S12、对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作;
S13、对步骤S12处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作,得到组成所述训练集的纯文本数据。
在此步骤中,通过分词将连续的字序列按照一定的规范重新组合成词序列。本领域技术人员可以理解的是,在本步骤中使用的中文分词方法为现有的分词方法,包括但不限于基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。通过分词及去除停用词和低频词的操作,将全文文本分为若干个常用词,用于后续模型的训练。
S2、通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数,当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止所述Bi-LSTM双向循环神经网络模型的训练,得到训练好的Bi-LSTM双向循环神经网络模型;
在此步骤中,利用上述处理得到的包含多个已标记类别的纯文本数据对Bi-LSTM双向循环神经网络模型进行训练。在本发明定义的Bi-LSTM双向循环神经网络模型中,考虑到实际设备计算能力及效率问题,词向量维度一般取200至500维之间,隐藏层数量一般为64、128、256。进一步地,词向量维度优选为300,隐藏层为128单元。
为了从全文的角度对不良文本内容进行检测,本发明采用了Bi-LSTM双向循环神经网络模型进行文本检测。具体地,步骤S2包括以下步骤:
S21、将所述纯文本数据转换为固定长度的词向量;
在此步骤中,所述固定长度等于所述Bi-LSTM双向循环神经网络模型中的LSTM层正向的LSTM单元个数。
S22、将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层,得到所述纯文本数据的前向向量和后向向量;
S23、将所述前向向量和所述后向向量输入到隐藏层,并将得到的隐藏向量拼接后输入到全连接层;
S24、将拼接后的隐藏向量的维度压缩至与检测类别一致的维度,使用Softmax计算每个纯文本数据属于标注的类型的概率;
S25、利用基于熵的损失函数计算损失值,通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数,以最小化损失函数来训练模型。
在本步骤中,所述最小化损失函数的计算公式如下:
其中,Loss是损失函数值,p(yi)为纯文本数据xi通过所述Bi-LSTM双向循环神经网络模型的输出结果的概率,为纯文本数据xi的实际标记类型的概率,当损失值迭代变化|Lossi-Lossi+1|<ε时终止所述Bi-LSTM双向循环神经网络模型的训练。
进一步地,为了控制参数更新速率,通过设置学习率控制所述Bi-LSTM双向循环神经网络模型的参数更新的速度。较大的学习率会使损失函数出现震荡,无法收敛,较小的学习率会使损失函数难以收敛,因此设置一个初始值较大的学习率,并使其随着训练不断衰减。优选地,学习率的初始值设为0.8.
S3、将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型,输出判定结果。
在本步骤中,将待判定的文本数据经过数据清洗、分词、去除停用词等预处理操作后,输入上面训练好的模型中,概率最大的结果则为当前文本内容所属类别。例如,我们对“我爱中国……”这个文本进行检测,前向的LSTM(L)依次输入“我”,“爱”,“中国”得到词向量{hl0,hl1,hl2…}。后向的LSTM(R)依次输入“中国”,“爱”,“我”得到词向量{…hr0,hr1,hr2}。最后将前向和后向的隐藏向量拼接得到{[hl0,hr0],[hl1,hr1],[hl2,hr2]},然后使用全连接层将向量维度压缩至与检测类别一致的维度,最后进行Softmax概率输出,概率最大的结果则为当前文本内容所属类别(正常、涉黄、涉政等)。
本实施例通过构建并训练了Bi-LSTM双向循环神经网络对不良文本内容进行检测,无需人工制定关键词典,解决了覆盖性不够全面的问题;从全文整体性角度来对文本内容进行理解、检测并分类,避免绝对化太强的问题;对文本内容进行分词处理,解决关键词歧义匹配的问题;同时,Bi-LSTM算法能自动对抽取文本特征,实现了简洁、高效、高召回率的不良文本内容检测。
实施例二
基于同一发明构思,本实施例公开了一种基于Bi-LSTM的不良文本检测装置,包括训练模块和检测模块,其中,所述训练模块包括训练数据获取单元、预处理单元和模型训练单元,
所述训练数据获取单元用于获取文本数据,并对获取的文本数据进行类型标记;
所述预处理单元用于对所述文本数据进行预处理,组成训练集;
所述模型训练单元用于通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数,当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止所述Bi-LSTM双向循环神经网络模型的训练,得到训练好的Bi-LSTM双向循环神经网络模型;
所述检测模块用于将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型,输出判定结果。
在本发明提供的基于Bi-LSTM的不良文本检测装置中,所述预处理单元包括:
数据清洗子单元,用于对所述文本数据进行数据清洗,过滤html标签,保留纯文本信息,对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作;
分词子单元,用于对处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作,得到组成所述训练集的纯文本数据。
在本发明提供的基于Bi-LSTM的不良文本检测装置中,所述模型训练单元包括:
词向量转换子单元,用于将所述纯文本数据转换为固定长度的词向量;
向量计算子单元,用于将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层,得到所述纯文本数据的前向向量和后向向量;
拼接子单元,用于将所述前向向量和所述后向向量输入到隐藏层,并将得到的隐藏向量拼接后输入到全连接层;
计算子单元,用于将拼接后的隐藏向量的维度压缩至与检测类别一致的维度,使用Softmax计算每个纯文本数据属于标注的类型的概率;
训练子单元,用于利用基于熵的损失函数计算损失值,通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数,以最小化损失函数来训练模型。
其他详细内容可参考实施例一,此处不再赘述。
实施例三
基于同一发明构思,本实施例公开了一种基于Bi-LSTM的不良文本检测***,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器可运行所述计算机程序以执行实施例一所述的方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read Only Memory,ROM)或随机存储记忆体(RandomABBessMemory,RAM)等。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述描述涉及各种单元,需要指出的是,上文对各种单元的描述中,分割成这些单元,是为了说明清楚。然而,在实际实施中,各种单元的界限可以是模糊的。例如,本文中的任意或所有功能性单元可以共享各种硬件和/或软件元件。又例如,本文中的任何和/或所有功能单元可以由共有的处理器执行软件指令来全部或部分实施。相应地,除非明确要求,本发明的范围不受各种硬件和/或软件元件间强制性界限的限制。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。
Claims (10)
1.一种基于Bi-LSTM的不良文本检测方法,其特征在于,包括如下步骤:
S0、获取文本数据,并对获取的文本数据进行类型标记;
S1、对所述文本数据进行预处理,组成训练集;
S2、通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数,当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止所述Bi-LSTM双向循环神经网络模型的训练,得到训练好的Bi-LSTM双向循环神经网络模型;
S3、将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型,输出判定结果。
2.根据权利要求1所述的基于Bi-LSTM的不良文本检测方法,其特征在于,在所述步骤S0中,通过编写网络爬虫获取Web网页数据,或从已有的数据库中直接获取的方式来获取所述文本数据。
3.根据权利要求1所述的基于Bi-LSTM的不良文本检测方法,其特征在于,所述步骤S1包括:
S11、对所述文本数据进行数据清洗,过滤html标签,保留纯文本信息;
S12、对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作;
S13、对步骤S12处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作,得到组成所述训练集的纯文本数据。
4.根据权利要求3所述的基于Bi-LSTM的不良文本检测方法,其特征在于,所述步骤S2具体包括:
S21、将所述纯文本数据转换为固定长度的词向量;
S22、将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层,得到所述纯文本数据的前向向量和后向向量;
S23、将所述前向向量和所述后向向量输入到隐藏层,并将得到的隐藏向量拼接后输入到全连接层;
S24、将拼接后的隐藏向量的维度压缩至与检测类别一致的维度,使用Softmax计算每个纯文本数据属于标注的类型的概率;
S25、利用基于熵的损失函数计算损失值,通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数,以最小化损失函数来训练模型。
5.根据权利要求4所述的基于Bi-LSTM的不良文本检测方法,其特征在于,通过设置学习率控制所述Bi-LSTM双向循环神经网络模型的参数更新的速度。
6.根据权利要求4所述的基于Bi-LSTM的不良文本检测方法,其特征在于,所述固定长度等于所述Bi-LSTM双向循环神经网络模型中的LSTM层正向的LSTM单元个数。
7.根据权利要求4所述的基于Bi-LSTM的不良文本检测方法,其特征在于,所述最小化损失函数的计算公式如下:
其中,Loss是损失函数值,p(yi)为纯文本数据xi通过所述Bi-LSTM双向循环神经网络模型的输出结果的概率,为纯文本数据xi的实际标记类型的概率,当损失值迭代变化|Lossi-Lossi+1|<ε时终止所述Bi-LSTM双向循环神经网络模型的训练。
8.一种基于Bi-LSTM的不良文本检测装置,其特征在于,包括训练模块和检测模块,其中,所述训练模块包括训练数据获取单元、预处理单元和模型训练单元,
所述训练数据获取单元用于获取文本数据,并对获取的文本数据进行类型标记;
所述预处理单元用于对所述文本数据进行预处理,组成训练集;
所述模型训练单元用于通过所述训练集训练Bi-LSTM双向循环神经网络模型的参数,当所述Bi-LSTM双向循环神经网络模型产生的损失值迭代变化小于设定阈值不再降低,则终止所述Bi-LSTM双向循环神经网络模型的训练,得到训练好的Bi-LSTM双向循环神经网络模型;
所述检测模块用于将待判定的文本数据预处理后输入所述训练好的Bi-LSTM双向循环神经网络模型,输出判定结果。
9.根据权利要求8所述的基于Bi-LSTM的不良文本检测装置,其特征在于,所述预处理单元包括:
数据清洗子单元,用于对所述文本数据进行数据清洗,过滤html标签,保留纯文本信息,对所述纯文本信息进行调整UTF-8编码、去除非法符号的清洗操作;
分词子单元,用于对处理后的所述纯文本信息进行中文分词、去除停用词、低频词的操作,得到组成所述训练集的纯文本数据。
10.根据权利要求9所述的基于Bi-LSTM的不良文本检测装置,其特征在于,所述模型训练单元包括:
词向量转换子单元,用于将所述纯文本数据转换为固定长度的词向量;
向量计算子单元,用于将词向量输入到所述Bi-LSTM双向循环神经网络模型的BI-LSTM层,得到所述纯文本数据的前向向量和后向向量;
拼接子单元,用于将所述前向向量和所述后向向量输入到隐藏层,并将得到的隐藏向量拼接后输入到全连接层;
计算子单元,用于将拼接后的隐藏向量的维度压缩至与检测类别一致的维度,使用Softmax计算每个纯文本数据属于标注的类型的概率;
训练子单元,用于利用基于熵的损失函数计算损失值,通过Adam优化算法来更新所述Bi-LSTM双向循环神经网络模型的参数,以最小化损失函数来训练模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485402.8A CN110321554A (zh) | 2019-06-03 | 2019-06-03 | 基于Bi-LSTM的不良文本检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910485402.8A CN110321554A (zh) | 2019-06-03 | 2019-06-03 | 基于Bi-LSTM的不良文本检测方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110321554A true CN110321554A (zh) | 2019-10-11 |
Family
ID=68120277
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910485402.8A Pending CN110321554A (zh) | 2019-06-03 | 2019-06-03 | 基于Bi-LSTM的不良文本检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110321554A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955756A (zh) * | 2019-12-04 | 2020-04-03 | 中电福富信息科技有限公司 | 基于深度学习的特定领域不良信息检测方法 |
CN111651995A (zh) * | 2020-06-07 | 2020-09-11 | 上海建科工程咨询有限公司 | 基于深度循环神经网络的事故信息自动提取方法及*** |
CN112287072A (zh) * | 2020-11-20 | 2021-01-29 | 公安部第一研究所 | 一种多维互联网文本风险数据识别方法 |
CN114036935A (zh) * | 2021-07-13 | 2022-02-11 | 北京金山数字娱乐科技有限公司 | 一种实体识别方法、模型训练方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和*** |
CN108763542A (zh) * | 2018-05-31 | 2018-11-06 | 中国华戎科技集团有限公司 | 一种基于联合学习的文本情报分类方法、装置及计算机设备 |
CN108874776A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种垃圾文本的识别方法及装置 |
CN109271513A (zh) * | 2018-09-07 | 2019-01-25 | 华南师范大学 | 一种文本分类方法、计算机可读储存介质及*** |
CN109344244A (zh) * | 2018-10-29 | 2019-02-15 | 山东大学 | 一种融合区分度信息的神经网络关系分类方法及其实现*** |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN109522406A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 文本语义匹配方法、装置、计算机设备和存储介质 |
CN109614487A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于张量融合方式的情感分类的方法 |
US20190138595A1 (en) * | 2017-05-10 | 2019-05-09 | Oracle International Corporation | Enabling chatbots by detecting and supporting affective argumentation |
-
2019
- 2019-06-03 CN CN201910485402.8A patent/CN110321554A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107025284A (zh) * | 2017-04-06 | 2017-08-08 | 中南大学 | 网络评论文本情感倾向的识别方法及卷积神经网络模型 |
US20190138595A1 (en) * | 2017-05-10 | 2019-05-09 | Oracle International Corporation | Enabling chatbots by detecting and supporting affective argumentation |
CN108647225A (zh) * | 2018-03-23 | 2018-10-12 | 浙江大学 | 一种电商黑灰产舆情自动挖掘方法和*** |
CN108763542A (zh) * | 2018-05-31 | 2018-11-06 | 中国华戎科技集团有限公司 | 一种基于联合学习的文本情报分类方法、装置及计算机设备 |
CN108874776A (zh) * | 2018-06-11 | 2018-11-23 | 北京奇艺世纪科技有限公司 | 一种垃圾文本的识别方法及装置 |
CN109271513A (zh) * | 2018-09-07 | 2019-01-25 | 华南师范大学 | 一种文本分类方法、计算机可读储存介质及*** |
CN109522406A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 文本语义匹配方法、装置、计算机设备和存储介质 |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN109344244A (zh) * | 2018-10-29 | 2019-02-15 | 山东大学 | 一种融合区分度信息的神经网络关系分类方法及其实现*** |
CN109614487A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于张量融合方式的情感分类的方法 |
Non-Patent Citations (2)
Title |
---|
YUQI YU,等: "Attention-based Bi-LSTM Model for Anomalous HTTP Traffic Detection", 《2018 15TH INTERNATIONAL CONFERENCE ON SERVICE SYSTEMS AND SERVICE MANAGEMENT (ICSSSM)》 * |
李弼程,等: "《网络舆情分析 理论技术与应对策略》", 北京:国防工业出版社 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110955756A (zh) * | 2019-12-04 | 2020-04-03 | 中电福富信息科技有限公司 | 基于深度学习的特定领域不良信息检测方法 |
CN111651995A (zh) * | 2020-06-07 | 2020-09-11 | 上海建科工程咨询有限公司 | 基于深度循环神经网络的事故信息自动提取方法及*** |
CN112287072A (zh) * | 2020-11-20 | 2021-01-29 | 公安部第一研究所 | 一种多维互联网文本风险数据识别方法 |
CN114036935A (zh) * | 2021-07-13 | 2022-02-11 | 北京金山数字娱乐科技有限公司 | 一种实体识别方法、模型训练方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Choudhary et al. | Linguistic feature based learning model for fake news detection and classification | |
CN110321554A (zh) | 基于Bi-LSTM的不良文本检测方法及装置 | |
CN110083700A (zh) | 一种基于卷积神经网络的企业舆情情感分类方法及*** | |
CN107992982B (zh) | 一种基于深度学习的非结构化数据的违约概率预测方法 | |
Abuhamad et al. | Code authorship identification using convolutional neural networks | |
CN108509411A (zh) | 语义分析方法和装置 | |
CN108170736A (zh) | 一种基于循环注意力机制的文档快速扫描定性方法 | |
CN111159395A (zh) | 基于图神经网络的谣言立场检测方法、装置和电子设备 | |
CN108549658A (zh) | 一种基于语法分析树上注意力机制的深度学习视频问答方法及*** | |
CN107943784A (zh) | 基于生成对抗网络的关系抽取方法 | |
CN111898374B (zh) | 文本识别方法、装置、存储介质和电子设备 | |
CN107679110A (zh) | 结合文本分类与图片属性提取完善知识图谱的方法及装置 | |
CN104573711B (zh) | 基于文本‑物体‑场景关系的物体和场景的图像理解方法 | |
CN109376613A (zh) | 基于大数据和深度学习技术的视频智能监控*** | |
CN110197389A (zh) | 一种用户识别方法及装置 | |
CN110427484A (zh) | 一种基于深度学习的中文自然语言处理方法 | |
CN108563638A (zh) | 一种基于主题识别和集成学习的微博情感分析方法 | |
CN106537387B (zh) | 检索/存储与事件相关联的图像 | |
CN113392209A (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN108229170A (zh) | 利用大数据和神经网络的软件分析方法和装置 | |
CN109740151A (zh) | 基于迭代膨胀卷积神经网络的公安笔录命名实体识别方法 | |
CN111709468A (zh) | 一种定向人工智能的训练方法、装置及存储介质 | |
CN113988075A (zh) | 基于多任务学习的网络安全领域文本数据实体关系抽取法 | |
CN115391570A (zh) | 一种基于方面的情感知识图谱构建方法及装置 | |
CN110489552A (zh) | 一种微博用户***风险检测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191011 |
|
RJ01 | Rejection of invention patent application after publication |