CN110991171B - 敏感词检测方法及装置 - Google Patents
敏感词检测方法及装置 Download PDFInfo
- Publication number
- CN110991171B CN110991171B CN201910945463.8A CN201910945463A CN110991171B CN 110991171 B CN110991171 B CN 110991171B CN 201910945463 A CN201910945463 A CN 201910945463A CN 110991171 B CN110991171 B CN 110991171B
- Authority
- CN
- China
- Prior art keywords
- text
- word
- word segmentation
- classification model
- category
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 139
- 238000013145 classification model Methods 0.000 claims abstract description 99
- 230000007246 mechanism Effects 0.000 claims abstract description 64
- 238000013528 artificial neural network Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims abstract description 30
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 27
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000003062 neural network model Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims description 22
- 238000001914 filtration Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012544 monitoring process Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种敏感词检测方法及装置,其中,方法包括:获取目标文本,对目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若文本分类模型输出的目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。本发明实施例能提高检测敏感词的效率,节省人工成本,时效性高。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种敏感词检测方法及装置。
背景技术
随着信息技术的快速发展,在互联网的网页中的文本内容也以***式的速度涌现,例如直播弹幕、贴吧、评论、社交平台等互联网内容类产品,随着活跃用户量的增加,这些产品会带来大量的文本。然而这些文本中可能会存在如广告类或其他不良类型等敏感词。
敏感词主要用来做网页过滤或者网页违规监测等作用,可过滤掉网页中存在的敏感词的信息。因此,敏感词检测是现代网络监控的必要功能。随着内容的增多和时间的推移,敏感词需要不断的去富集。用富集后的敏感词来过滤网页或监测,从网页过滤或监测结果中再发现新敏感词。因此,这是一个不断迭代更新的过程。
当前,敏感词收集主要还是通过人工运营来收集,人工需要查看大量的文本内容,人工检测出敏感词。但是,这种人工检测敏感词的方式效率太低,而且实时性不够。
发明内容
针对现有技术存在的问题,本发明实施例提供一种敏感词检测方法及装置。
本发明实施例提供一种敏感词检测方法,包括:
获取目标文本,对所述目标文本进行分词处理;
将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
可选地,在将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重之前,所述方法还包括:
获取带有类别的标注的文本样本;
对所述带有类别的标注的文本样本进行分词处理;
基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可选地,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
可选地,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
本发明实施例提供一种敏感词检测装置,包括:
第一获取模块,用于获取目标文本,对所述目标文本进行分词处理;
第二获取模块,用于将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
检测模块,用于若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
可选地,所述装置还包括:
第三获取模块,用于获取带有类别的标注的文本样本;
处理模块,用于对所述带有类别的标注的文本样本进行分词处理;
训练模块,用于基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可选地,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
可选地,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
本发明实施例提供的敏感词检测方法及装置,通过将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常,若文本分类模型输出的目标文本的类别为敏感,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,其中,文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,由此,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的一种敏感词检测方法的流程示意图;
图2为本发明一实施例提供的一种敏感词检测装置的结构示意图;
图3为本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明一实施例提供的一种敏感词检测方法的流程示意图,如图1所示,本实施例的敏感词检测方法,包括:
S1、获取目标文本,对所述目标文本进行分词处理。
需要说明的是,本实施例所述敏感词检测方法的执行主体为处理器。
可以理解的是,在具体应用中,可以利用分词工具,对所述目标文本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对目标文本进行分词处理功能的工具都可以。
可以理解的是,敏感词主要用来做网页过滤或者网页违规监测等作用,因此,本实施例所述目标文本可以包括:从新监测到的网页中提取的文本;或者,利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
S2、将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常。
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
可以理解的是,由于本实施例所述文本分类模型是带有注意力机制的循环神经网络模型,是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,因此所述文本分类模型中,所输入的分词处理后的目标文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的目标文本中的任一词语,通过隐藏层得到将当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型可以输出所输入的分词处理后的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重。
S3、若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,可利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,一些网站会根据自身实际情况,预先设定一些只适用于本网站的特殊敏感词。
本实施例是先利用文本分类模型,对分词处理后的目标文本进行分类,获取目标文本的类别(目标文本的类别为敏感或者正常)和分词处理后的目标文本中每个词语的注意力权重,分词处理后的目标文本中每个词语的注意力权重的大小可以代表每一个单词对分类结果的影响程度,因此,本实施例在所述目标文本的类别为敏感时,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。
可以理解的是,所检测出的敏感词的注意力权重越大,则表明所检测出的敏感词对所述目标文本的类别为敏感的文本分类结果的作用/影响程度越大。
可以理解的是,由于敏感词主要用来做网页过滤或者网页违规监测等作用,本实施例检测出新的敏感词后,可以用来过滤或监测更多的网页中的文本内容,新监测到的网页也可以利用本实施例所述敏感词检测方法检测出新的敏感词,两者之间是相互迭代促进的。
本实施例提供的敏感词检测方法,通过将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取文本分类模型输出的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常,若文本分类模型输出的目标文本的类别为敏感,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,其中,文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,由此,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
进一步地,在上述实施例的基础上,在所述步骤S2之前,本实施例所述方法还可以包括图中未示出的步骤P1-P3:
P1、获取带有类别的标注的文本样本。
可以理解的是,所述类别是文本的类别,包括:敏感和正常,所述类别的标注是将文本样本标注为敏感还是正常。
P2、对所述带有类别的标注的文本样本进行分词处理。
可以理解的是,在具体应用中,可以利用分词工具,对所述带有类别的标注的文本样本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对所述带有类别的标注的文本样本进行分词处理功能的工具都可以。
P3、基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,所述文本分类模型中,
所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
本实施例提供的敏感词检测方法,利用基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的文本分类模型,获取目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,将类别为敏感的分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,相比于现有技术,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
图2示出了本发明一实施例提供的一种敏感词检测装置的结构示意图,如图2所示,本实施例的敏感词检测装置,包括:第一获取模块21、第二获取模块22和检测模块23;其中:
所述第一获取模块21,用于获取目标文本,对所述目标文本进行分词处理;
所述第二获取模块22,用于将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
所述检测模块23,用于若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
具体地,所述第一获取模块21获取目标文本,对所述目标文本进行分词处理;所述第二获取模块22将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;所述检测模块23若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
需要说明的是,本实施例所述敏感词检测装置应用于处理器中。
可以理解的是,在具体应用中,所述第一获取模块21可以利用分词工具,对所述目标文本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对目标文本进行分词处理功能的工具都可以。
可以理解的是,敏感词主要用来做网页过滤或者网页违规监测等作用,因此,本实施例所述目标文本可以包括:从新监测到的网页中提取的文本;或者,利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
可以理解的是,由于本实施例所述文本分类模型是带有注意力机制的循环神经网络模型,是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,因此所述文本分类模型中,所输入的分词处理后的目标文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的目标文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型可以输出所输入的分词处理后的目标文本的类别和分词处理后的目标文本中每个词语的注意力权重。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,可利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,一些网站会根据自身实际情况,预先设定一些只适用于本网站的特殊敏感词。
本实施例是先利用文本分类模型,对分词处理后的目标文本进行分类,获取目标文本的类别(目标文本的类别为敏感或者正常)和分词处理后的目标文本中每个词语的注意力权重,分词处理后的目标文本中每个词语的注意力权重的大小可以代表每一个单词对分类结果的影响程度,因此,本实施例在所述目标文本的类别为敏感时,将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词。
可以理解的是,所检测出的敏感词的注意力权重越大,则表明所检测出的敏感词对所述目标文本的类别为敏感的文本分类结果的作用/影响程度越大。
可以理解的是,由于敏感词主要用来做网页过滤或者网页违规监测等作用,本实施例所述敏感词检测装置检测出新的敏感词后,可以用来过滤或监测更多的网页中的文本内容,新监测到的网页也可以利用本实施例所述敏感词检测装置检测出新的敏感词,两者之间是相互迭代促进的。
本实施例提供的敏感词检测装置,通过第一获取模块获取目标文本,对所述目标文本进行分词处理,第二获取模块将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常,检测模块若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,由此,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
进一步地,在上述实施例的基础上,本实施例所述敏感词检测装置还可以包括图中未示出的:
第三获取模块,用于获取带有类别的标注的文本样本;
处理模块,用于对所述带有类别的标注的文本样本进行分词处理;
训练模块,用于基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型。
可以理解的是,所述类别是文本的类别,包括:敏感和正常,所述类别的标注是将文本样本标注为敏感还是正常。
可以理解的是,在具体应用中,所述第三获取模块可以利用分词工具,对所述带有类别的标注的文本样本进行分词处理,本实施例并不对所述分词工具进行限制,只要能够实现对所述带有类别的标注的文本样本进行分词处理功能的工具都可以。
可以理解的是,本实施例在循环神经网络中引入了注意力机制,在基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练的过程中,利用注意力机制能够训练出分词处理后的带有类别的标注的文本样本中每个词语的注意力权重,具体原理可参考现有技术中对注意力机制的说明,本实施例不进行详细阐述。
可以理解的是,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
本实施例提供的敏感词检测装置,利用基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的文本分类模型,获取目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,将类别为敏感的分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词,相比于现有技术,能够检测出目标文本中的敏感词,提高检测敏感词的效率,节省人工成本,而且时效性高。
本发明实施例提供的敏感词检测装置,可以用于执行前述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图3示出了本发明一实施例提供的一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括存储器302、处理器301、总线303及存储在存储器302上并可在处理器301上运行的计算机程序,其中,处理器301,存储器302通过总线303完成相互间的通信。所述处理器301执行所述计算机程序时实现上述方法的步骤,例如包括:获取目标文本,对所述目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤,例如包括:获取目标文本,对所述目标文本进行分词处理;将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种敏感词检测方法,其特征在于,包括:
获取目标文本,对所述目标文本进行分词处理;
将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,其中,在将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重之前,所述方法还包括:
获取带有类别的标注的文本样本;
对所述带有类别的标注的文本样本进行分词处理;
基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
2.根据权利要求1所述的敏感词检测方法,其特征在于,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
3.一种敏感词检测装置,其特征在于,包括:
第一获取模块,用于获取目标文本,对所述目标文本进行分词处理;
第二获取模块,用于将分词处理后的目标文本输入文本分类模型,所述文本分类模型是带有注意力机制的循环神经网络模型,获取所述文本分类模型输出的所述目标文本的类别和分词处理后的目标文本中每个词语的注意力权重,所述类别包括:敏感和正常;
检测模块,用于若所述文本分类模型输出的所述目标文本的类别为敏感,则将分词处理后的目标文本中注意力权重最大的词语作为检测出的敏感词;
其中,所述文本分类模型是基于分词处理后的带有类别的标注的文本样本、对带有注意力机制的循环神经网络进行训练后生成的,其中,
所述装置还包括:
第三获取模块,用于获取带有类别的标注的文本样本;
处理模块,用于对所述带有类别的标注的文本样本进行分词处理;
训练模块,用于基于分词处理后的带有类别的标注的文本样本,对带有注意力机制的循环神经网络进行训练,生成文本分类模型,所述文本分类模型中,所输入的分词处理后的文本中的每个词语在循环神经网络内部均有一个隐藏状态,对于所输入的分词处理后的文本中的任一词语,通过隐藏层得到当前词语的隐藏状态,把隐藏状态值输入注意力机制函数得到每个词的注意力权重,把每个词的隐藏状态值和注意力权重相乘结合在一起,结合值输入到一个全连接层,全连接层输出值是整个文本的特征向量,对所述特征向量进行类别的分类,使得所述文本分类模型输出所输入的分词处理后的文本的类别和分词处理后的文本中每个词语的注意力权重。
4.根据权利要求3所述的敏感词检测装置,其特征在于,所述目标文本包括:从新监测到的网页中提取的文本;或者,
利用已检测出的敏感词对监测的网页进行过滤、从过滤后的网页中提取的文本。
5.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至2任一项所述方法的步骤。
6.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至2任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945463.8A CN110991171B (zh) | 2019-09-30 | 2019-09-30 | 敏感词检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910945463.8A CN110991171B (zh) | 2019-09-30 | 2019-09-30 | 敏感词检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110991171A CN110991171A (zh) | 2020-04-10 |
CN110991171B true CN110991171B (zh) | 2023-10-13 |
Family
ID=70081901
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910945463.8A Active CN110991171B (zh) | 2019-09-30 | 2019-09-30 | 敏感词检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110991171B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113111174A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型的群体识别方法与装置、设备及介质 |
CN113111175A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型极端行为识别方法与装置、设备及介质 |
CN113111176A (zh) * | 2020-04-28 | 2021-07-13 | 北京明亿科技有限公司 | 基于深度学习模型作案手段识别方法与装置、设备及介质 |
CN112084306B (zh) * | 2020-09-10 | 2023-08-29 | 北京天融信网络安全技术有限公司 | 一种关键词挖掘方法、装置、存储介质及电子设备 |
CN113761112A (zh) * | 2020-10-09 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种敏感词过滤方法和装置 |
CN112528636A (zh) * | 2020-12-10 | 2021-03-19 | 平安科技(深圳)有限公司 | 封停敏感词预测方法、装置、计算机设备及存储介质 |
CN112597770B (zh) * | 2020-12-16 | 2024-06-11 | 盐城数智科技有限公司 | 基于深度学习的敏感信息查询方法 |
CN112765402A (zh) * | 2020-12-31 | 2021-05-07 | 北京奇艺世纪科技有限公司 | 一种敏感信息识别方法、装置、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170736A (zh) * | 2017-12-15 | 2018-06-15 | 南瑞集团有限公司 | 一种基于循环注意力机制的文档快速扫描定性方法 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN109992771A (zh) * | 2019-03-13 | 2019-07-09 | 北京三快在线科技有限公司 | 一种文本生成的方法及装置 |
-
2019
- 2019-09-30 CN CN201910945463.8A patent/CN110991171B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108170736A (zh) * | 2017-12-15 | 2018-06-15 | 南瑞集团有限公司 | 一种基于循环注意力机制的文档快速扫描定性方法 |
US10210860B1 (en) * | 2018-07-27 | 2019-02-19 | Deepgram, Inc. | Augmented generalized deep learning with special vocabulary |
CN109472024A (zh) * | 2018-10-25 | 2019-03-15 | 安徽工业大学 | 一种基于双向循环注意力神经网络的文本分类方法 |
CN109992771A (zh) * | 2019-03-13 | 2019-07-09 | 北京三快在线科技有限公司 | 一种文本生成的方法及装置 |
Non-Patent Citations (1)
Title |
---|
王盛玉 ; 曾碧卿 ; 商齐 ; 韩旭丽 ; .基于词注意力卷积神经网络模型的情感分析研究.中文信息学报.2018,(09),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN110991171A (zh) | 2020-04-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110991171B (zh) | 敏感词检测方法及装置 | |
CN109299258B (zh) | 一种舆情事件检测方法、装置及设备 | |
US20190370296A1 (en) | Method and device for mining an enterprise relationship | |
JP7155739B2 (ja) | Apiドキュメンテーションの収集 | |
US20150295942A1 (en) | Method and server for performing cloud detection for malicious information | |
CN105022803B (zh) | 一种提取网页正文内容的方法及*** | |
CN109145216A (zh) | 网络舆情监控方法、装置及存储介质 | |
CN108182175B (zh) | 一种文本质量指标获取方法及装置 | |
CN111046656A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN112818200A (zh) | 基于静态网站的数据爬取及事件分析方法及*** | |
CN107436931B (zh) | 网页正文抽取方法及装置 | |
CN106227770A (zh) | 一种智能化的新闻网页信息抽取方法 | |
CN113918794B (zh) | 企业网络舆情效益分析方法、***、电子设备及存储介质 | |
JP2011039575A (ja) | コンテンツ検出支援装置、コンテンツ検出支援方法およびコンテンツ検出支援プログラム | |
CN107688594B (zh) | 基于社交信息的风险事件的识别***及方法 | |
CN112989043A (zh) | 指代消解方法、装置、电子设备及可读存储介质 | |
CN110851597A (zh) | 一种基于同类实体替换的语句标注的方法及装置 | |
CN115730071A (zh) | 电力舆情事件的抽取方法、装置、电子设备及存储介质 | |
Munot et al. | Conceptual framework for abstractive text summarization | |
CN113792232B (zh) | 页面特征计算方法、装置、电子设备、介质及程序产品 | |
CN112328812B (zh) | 基于自调参数的领域知识抽取方法与***、电子设备 | |
CN114254650A (zh) | 一种信息处理方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088 Applicant after: QAX Technology Group Inc. Applicant after: Qianxin Wangshen information technology (Beijing) Co.,Ltd. Address before: Room 332, 3 / F, Building 102, 28 xinjiekouwei street, Xicheng District, Beijing 100088 Applicant before: QAX Technology Group Inc. Applicant before: LEGENDSEC INFORMATION TECHNOLOGY (BEIJING) Inc. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |