CN117113988B

CN117113988B - 一种基于nlp的敏感词汇屏蔽方法及***

Info

Publication number: CN117113988B
Application number: CN202311068514.6A
Authority: CN
Inventors: 陈竑; 韩三普
Original assignee: Beijing Shenwei Zhixin Technology Co ltd
Current assignee: Beijing Shenwei Zhixin Technology Co ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2024-06-07
Anticipated expiration: 2043-08-23
Also published as: CN117113988A

Abstract

本发明属于敏感词汇屏蔽技术领域，公开了一种基于NLP的敏感词汇屏蔽方法及***。所述的方法包括如下步骤：构建敏感词汇语料库和非敏感词汇语料库；使用NLP算法，构建敏感词汇识别模型；对待分析文件进行文本提取；使用分词算法，对待分析文本进行分词处理；将待分析词序列输入敏感词汇识别模型进行敏感词汇识别；根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇；获取敏感词汇屏蔽后文本，并将敏感词汇屏蔽后文本加载至待分析文件，得到敏感词汇屏蔽后文件。本发明解决了现有技术存在的屏蔽敏感词汇的准确率低，效率低以及实用性低的问题。

Description

一种基于NLP的敏感词汇屏蔽方法及***

技术领域

本发明属于敏感词汇屏蔽技术领域，具体涉及一种基于NLP的敏感词汇屏蔽方法及***。

背景技术

根据监管和安全的要求，互联网上的流通文件中存在的一些敏感词汇，例如，用户的姓名、身份证或手机号码等隐私信息，不合适的言论等敏感信息，企业的名称、信息、核心技术或员工情况等商业信息，需要进行屏蔽。

现有技术存在的缺陷：

1)现有的敏感词汇屏蔽算法只能识别出某些关键的敏感词汇，而对于敏感词汇的拼音、字形相近、音形相近或同义词无法进行识别，导致屏蔽敏感词汇的准确率低；

2)现有的敏感词汇屏蔽算法利用敏感词库做字符串匹配，从而实现敏感词识别，这种方式的效率低，并且只能对纯文本文件进行敏感词汇屏蔽，对于图像文件或视频文件则无法进行文本识别和敏感词汇屏蔽，实用性低。

发明内容

为了解决现有技术存在的屏蔽敏感词汇的准确率低，效率低以及实用性低的问题，本发明目的在于提供一种基于NLP的敏感词汇屏蔽方法及***。

本发明所采用的技术方案为：

一种基于NLP的敏感词汇屏蔽方法，包括如下步骤：

构建敏感词汇语料库和非敏感词汇语料库；

根据敏感词汇语料库和非敏感词汇语料库，使用NLP算法，构建敏感词汇识别模型；

对待分析文件进行文本提取，得到待分析文本；

使用分词算法，对待分析文本进行分词处理，得到待分析词序列；

将待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇；

根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别；

根据敏感词汇屏蔽后词序列，得到敏感词汇屏蔽后文本，并将敏感词汇屏蔽后文本加载至待分析文件，得到敏感词汇屏蔽后文件。

进一步地，构建敏感词汇语料库和非敏感词汇语料库，包括如下步骤：

使用爬虫工具，在互联网中抓取中文或英文的若干已知的敏感词汇；

抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇；

对若干已知的敏感词汇及其拼音、近义词汇以及同音词汇进行数据压缩处理、数据降噪处理以及数据清洗处理，得到处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇；

根据处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇，构建敏感词汇语料库；

使用爬虫工具，在互联网中采集中文或英文的若干通用词汇；

根据敏感词汇语料库，对若干通用词汇中混入的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行剔除，得到若干非敏感词汇；

对若干非敏感词汇进行数据压缩处理、数据降噪处理以及数据清洗处理，得到处理后的若干非敏感词汇；

根据处理后的若干非敏感词汇，构建非敏感词汇语料库。

进一步地，根据敏感词汇语料库和非敏感词汇语料库，使用NLP算法，构建敏感词汇识别模型，包括如下步骤：

任意提取敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇，构成若干训练文本数据；

使用NLP算法中的BERT-BILSTM-CRF算法，构建初始的敏感词汇识别模型；

使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数，并输入若干训练文本数据进行优化训练，得到最优的敏感词汇识别模型。

进一步地，敏感词汇识别模型包括依次连接的输入层、设置有BERT预训练语言子模型的向量表征层、BILSTM层、特征融合层、CRF层以及输出层；

引入Circle混沌序列初始化和动态反向学习策略对传统的WOA寻优算法进行改进，得到IWOA寻优算法；

Circle混沌序列初始化的公式为：

式中，x_i+1,j+1为Circle混沌映射生成的鲸鱼种群的初始位置；x_i,j为随机生成的鲸鱼种群的初始位置；mod(·)为mod函数；i为鲸鱼个体指示量；j为维度指示量；

动态反向学习策略的公式为：

x'_ij(t)＝k(a_j(t)+b_j(t))-x_ij(t)

式中，x'_ij(t)、x_ij(t)分别为第i鲸鱼个体第j维的反向位置和正向位置；a_j(t)、b_j(t)分别为当前鲸鱼种群第j维的上界和下界；k为递减惯性因子，k＝0.9-0.5D/D_max；D、D_max分别为当前迭代次数和最大迭代次数；t为时刻指示量。

进一步地，使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数，包括如下步骤：

将BILSTM层的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标，即IWOA种群的鲸鱼个体的位置；

初始化IWOA寻优算法的参数，并使用Circle混沌序列初始化IWOA种群；

计算IWOA种群中每个鲸鱼个体的适应度值；

进行包围猎物行为、泡泡网攻击行为或搜索猎物行为，更新鲸鱼个体和IWOA种群；

对更新后的IWOA种群进行动态反向学习，得到IWOA种群中每个正向解对应的反向解，根据IWOA种群中所有正向解和所有反向解的鲸鱼个体的适应度值，筛选最优鲸鱼个体及其最优适应度值；

若最优适应度值满足要求或迭代次数满足要求，输出最优鲸鱼个体对应的全局最优解的位置，即BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率，否则，重复更新鲸鱼个体和IWOA种群。

进一步地，对待分析文件进行文本提取，得到待分析文本，包括如下步骤：

接收待分析文件，对待分析文件的文件名后缀进行分析，得到待分析文件的数据格式；

若待分析文件的数据格式为文本格式，对文本格式的待分析文件进行文本提取，得到文本格式的待分析文件对应的待分析文本；

若待分析文件的数据格式为图片格式，使用图文识别模型对图片格式的待分析文件进行文本提取，得到图片格式的待分析文件对应的待分析文本；

若待分析文件的数据格式为视频格式，对视频格式的待分析文件进行帧截取，得到连续帧的待分析图像，使用图文识别模型对连续帧的待分析图像进行文本提取，得到若干原始的待分析文本，对若干原始的待分析文本进行文本组合和去重处理，得到视频格式的待分析文件对应的待分析文本。

进一步地，使用分词算法，对待分析文本进行分词处理，得到待分析词序列，包括如下步骤：

使用pkuseg分词算法，对待分析文本进行分词处理，得到第一待分析词序列；

使用jieba分词算法，对待分析文本进行分词处理，得到第二待分析词序列；

使用ltp分词算法，对待分析文本进行分词处理，得到第三待分析词序列；

使用hanlp分词算法，对待分析文本进行分词处理，得到第四待分析词序列；

将第一待分析词序列、第二待分析词序列、第三待分析词序列以及第四待分析词序列进行合并和筛选，得到最终的待分析词序列。

进一步地，将待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇，包括如下步骤：

使用敏感词汇识别模型的输入层，接收待分析词序列；

使用敏感词汇识别模型的向量表征层，将待分析词序列中的若干分词转化为词向量，得到包括若干词向量的待分析词序列；

使用敏感词汇识别模型的向量表征层，将包括若干词向量的待分析词序列中每个词向量转换为字向量，得到包括若干字向量的待分析字序列；

使用敏感词汇识别模型的BILSTM层，提取每个词向量的词语义特征和每个字向量的字语义特征；

使用敏感词汇识别模型的特征融合层，将所有词向量的词语义特征和所有字向量的字语义特征进行特征融合，得到融合特征序列；

使用敏感词汇识别模型的CRF层，根据融合特征序列，对待分析词序列中每个词向量进行依赖性处理，并添加敏感词汇标签，得到敏感词汇标记词序列；

使用敏感词汇识别模型的输出层，根据敏感词汇标记词序列中的敏感词汇标签，输出对应的待分析词序列的敏感词汇，并记录待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息。

进一步地，根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别，包括如下步骤：

将待分析词序列的每个敏感词汇输入敏感词汇语料库，与敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行相似度匹配；

若存在已知的敏感词汇、拼音、近义词汇或同音词与待分析词序列的当前敏感词汇的相似度值大于阈值，则进入下一步骤，否则，输出核验结果为不真实；

若待分析词序列的所有敏感词汇均通过核验，则输出核验结果为真实，否则，将待分析词序列的下个敏感词汇输入敏感词汇语料库进行核验；

若核验结果为真实，则根据待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息，使用屏蔽符号替换待分析词序列中对应位置的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别。

一种基于NLP的敏感词汇屏蔽***，用于实现敏感词汇屏蔽方法，包括语料库构建单元、敏感词汇识别模型构建单元、文本提取单元、分词处理单元、敏感词汇识别单元以及敏感词汇核验单元，语料库构建单元分别与敏感词汇识别模型构建单元和敏感词汇核验单元连接，且语料库构建单元连接有外部的互联网语料库，敏感词汇识别模型构建单元与敏感词汇识别单元连接，敏感词汇识别单元分别与分词处理单元和敏感词汇核验单元连接，分词处理单元与文本提取单元连接；

语料库构建单元，用于抓取外部的互联网语料库中的若干敏感词汇和若干通用词汇，根据若干敏感词汇构建敏感词汇语料库，并根据若干通用词汇构建非敏感词汇语料库；

敏感词汇识别模型构建单元，用于调用语料库构建单元构建的敏感词汇语料库和非敏感词汇语料库，使用NLP算法，构建敏感词汇识别模型；

文本提取单元，用于接收对待分析文件，并对待分析文件进行文本提取，得到待分析文本；

分词处理单元，用于使用分词算法，对文本提取单元得到的待分析文本进行分词处理，得到待分析词序列，并将待分析词序列发送至敏感词汇识别单元；

敏感词汇识别单元，用于调用敏感词汇识别模型构建单元构建的敏感词汇识别模型，将分词处理单元发送的待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇，接收敏感词汇核验单元发送的核验结果，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，并根据敏感词汇屏蔽后词序列，得到敏感词汇屏蔽后文本；

敏感词汇核验单元，用于提取敏感词汇识别单元得到的待分析词序列的敏感词汇，调用语料库构建单元构建的敏感词汇语料库，根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，得到核验结果，并将核验结果发送至敏感词汇识别单元。

本发明的有益效果为：

本发明提供的基于NLP的敏感词汇屏蔽方法及***，通过构建敏感词汇语料库和非敏感词汇语料库，丰富了敏感词汇识别训练样本，扩大了敏感词汇的数据支撑，并使用NLP算法构建敏感词汇识别模型，对敏感词汇识别训练样本进行充分的学习，实现了敏感词汇的自动、准确的识别，提高了后续敏感词汇屏蔽的效率和准确性；敏感词汇识别模型能够提取语义特征，结合语义环境进行分析，避免了敏感词汇的误触发，提高了用户的使用体验度；该方法能够应用于不同数据格式的待分析文件，提高了方法的实用性；使用敏感词汇语料库对敏感词汇进行核验，进一步提高了敏感词汇屏蔽的准确性。

本发明的其他有益效果将在具体实施方式中进一步进行说明。

附图说明

图1是本发明中基于NLP的敏感词汇屏蔽方法的流程框图。

图2是本发明中基于NLP的敏感词汇屏蔽***的结构框图。

具体实施方式

下面结合附图及具体实施例对本发明做进一步阐释。

实施例1：

如图1所示，本实施例提供一种基于NLP的敏感词汇屏蔽方法，包括如下步骤：

构建敏感词汇语料库和非敏感词汇语料库，包括如下步骤：

抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇；

提高了敏感词汇语料库对敏感词汇的灵敏性，避免了使用拼音、近义词汇以及同音词汇代替敏感词汇从而逃过敏感词汇屏蔽的问题，扩大了敏感词汇识别的范围，提高了敏感词汇屏蔽的有效性；

数据压缩处理将敏感词汇及其拼音、近义词汇以及同音词所占用的内存量进行压缩，提高了硬件的处理效率，数据降噪处理将敏感词汇及其拼音、近义词汇以及同音词汇中存在的噪音数据进行剔除，提高了敏感词汇及其拼音、近义词汇以及同音词汇的真实性和后续敏感词汇屏蔽方法的准确性，数据清洗处理将重复的数据进行剔除，减少了所用内存，进一步提高了硬件的处理效率；

根据处理后的若干非敏感词汇，构建非敏感词汇语料库；

根据敏感词汇语料库和非敏感词汇语料库，使用NLP算法，构建敏感词汇识别模型，包括如下步骤：

敏感词汇识别模型的有效性，关键在于训练文本数据的数量和质量，通过非敏感词汇语料库和敏感词汇语料库生成的若干训练文本数据，不仅丰富了训练样本的数量，前述一系列处理提高了若干训练文本数据的质量，使敏感词汇识别模型能够充分学习到训练文本数据的数据特征，能够准确的识别出文本中的敏感词汇；

使用自然语言处理(NLP，Natural Language Processing)算法中的BERT-BILSTM-CRF算法，构建初始的敏感词汇识别模型；

敏感词汇识别模型包括依次连接的输入层、设置有来自Transformers的双向编码表示(BERT，Bidirectional Encoder Representation from Transformers)预训练语言子模型的向量表征层、双向长短期记忆网络(BILSTM，Bi-directional Long Short-TermMemory)层、特征融合层、线性链条件随机场(CRF，Conditional Random Field)以及输出层；

BERT预训练语言子模型通过预训练建立，能够将词序列中的若干分词转化为词向量，还能将词向量进行字符拆分，转换为字向量，实现向量表征，BILSTM层能够结合上下文信息，提取词向量和字向量的语义特征，特征融合层将特征融合层进行特征融合，避免了中英文融合、字序打乱或错别字导致的敏感词汇漏认，并且语义特征也避免了敏感词汇的误识别，提高了模型的准确性；

使用改进鲸鱼寻优(IWOA，Improved Whale Optimization Algorithm)算法优化初始的敏感词汇识别模型的网络参数，并输入若干训练文本数据进行优化训练，得到最优的敏感词汇识别模型；

引入Circle混沌序列初始化和动态反向学习策略对传统的鲸鱼寻优(WOA，WhaleOptimization Algorithm)算法进行改进，得到IWOA寻优算法；

Circle混沌序列初始化的公式为：

利用Circle混沌序列映射产生初始种群相比于随机分布的初始种群，改进后的种群初始位置分布更加均匀，扩大了鲸鱼群在空间中的搜索范围，增加了群***置的多样性，一定程度上改善了算法容易陷入局部极值的缺陷，从而提高了算法的寻优效率；

动态反向学习策略的公式为：

x'_ij(t)＝k(a_j(t)+b_j(t))-x_ij(t)

式中，x'_ij(t)、x_ij(t)分别为第i鲸鱼个体第j维的反向位置和正向位置；a_j(t)、b_j(t)分别为当前鲸鱼种群第j维的上界和下界；k为递减惯性因子，k＝0.9-0.5D/D_max；D、D_max分别为当前迭代次数和最大迭代次数；t为时刻指示量；

动态反向学习减少搜索盲点，更有效的避免算法早熟和陷入局部最优值；

使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数，包括如下步骤：

计算IWOA种群中每个鲸鱼个体的适应度值；

若最优适应度值满足要求或迭代次数满足要求，输出最优鲸鱼个体对应的全局最优解的位置，即BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率，否则，重复更新鲸鱼个体和IWOA种群；

解决了BILSTM对网络参数初值敏感的问题，加快了模型的训练速率和准确性；

对待分析文件进行文本提取，得到待分析文本，包括如下步骤：

若待分析文件的数据格式为视频格式，对视频格式的待分析文件进行帧截取，得到连续帧的待分析图像，使用图文识别模型对连续帧的待分析图像进行文本提取，得到若干原始的待分析文本，对若干原始的待分析文本进行文本组合和去重处理，得到视频格式的待分析文件对应的待分析文本；

使用分词算法，对待分析文本进行分词处理，得到待分析词序列，包括如下步骤：

将第一待分析词序列、第二待分析词序列、第三待分析词序列以及第四待分析词序列进行合并和筛选，得到最终的待分析词序列；

采用多种分词算法进行分词处理，避免了单一分词算法存在的误分或漏分的情况，提高了分词算法的准确性；

将待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇，包括如下步骤：

使用敏感词汇识别模型的输入层，接收待分析词序列；

使用敏感词汇识别模型的输出层，根据敏感词汇标记词序列中的敏感词汇标签，输出对应的待分析词序列的敏感词汇，并记录待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息；

根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别，包括如下步骤：

若核验结果为真实，则根据待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息，使用屏蔽符号替换待分析词序列中对应位置的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别；

本实施例作为敏感词汇屏蔽方法，得到敏感词汇屏蔽后文本后，还需将敏感词汇屏蔽后文本加载至待分析文件，针对不同的数据格式的待分析文件，使用不同的加载工具，例如，若待分析文件的数据格式为文本格式，直接将敏感词汇屏蔽后文本替换至待分析文件的待分析文本，若待分析文件的数据格式为图片格式，使用图像编辑工具，将敏感词汇屏蔽后文本添加至图片格式的待分析文件的对应位置，或将敏感词汇屏蔽后文本中屏蔽符号添加至图片格式的待分析文件的对应位置，若待分析文件的数据格式为视频格式，根据敏感词汇屏蔽后文本与若干原始的待分析文本进行匹配，并匹配对应帧的待分析图像，将敏感词汇屏蔽后文本添加至对应帧的待分析图像的对应位置，或将敏感词汇屏蔽后文本中屏蔽符号添加至对应帧的待分析图像的对应位置。

实施例2：

如图2所示，本实施例提供一种基于NLP的敏感词汇屏蔽***，用于实现敏感词汇屏蔽方法，包括语料库构建单元、敏感词汇识别模型构建单元、文本提取单元、分词处理单元、敏感词汇识别单元以及敏感词汇核验单元，语料库构建单元分别与敏感词汇识别模型构建单元和敏感词汇核验单元连接，且语料库构建单元连接有外部的互联网语料库，敏感词汇识别模型构建单元与敏感词汇识别单元连接，敏感词汇识别单元分别与分词处理单元和敏感词汇核验单元连接，分词处理单元与文本提取单元连接；

本发明不局限于上述可选的实施方式，任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制，本发明的保护范围应当以权利要求书中界定的为准，并且说明书可以用于解释权利要求书。

Claims

1.一种基于NLP的敏感词汇屏蔽方法，其特征在于：包括如下步骤：

构建敏感词汇语料库和非敏感词汇语料库，包括如下步骤：

抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇；

根据处理后的若干非敏感词汇，构建非敏感词汇语料库；

所述的敏感词汇识别模型包括依次连接的输入层、设置有BERT预训练语言子模型的向量表征层、BILSTM层、特征融合层、CRF层以及输出层；

Circle混沌序列初始化的公式为：

动态反向学习策略的公式为：

x'_ij(t)＝k(a_j(t)+b_j(t))-x_ij(t)

计算IWOA种群中每个鲸鱼个体的适应度值；

根据BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率，设置初始的敏感词汇识别模型的网络参数，并输入若干训练文本数据进行优化训练，得到最优的敏感词汇识别模型；

对待分析文件进行文本提取，得到待分析文本；

2.根据权利要求1所述的基于NLP的敏感词汇屏蔽方法，其特征在于：对待分析文件进行文本提取，得到待分析文本，包括如下步骤：

3.根据权利要求1所述的基于NLP的敏感词汇屏蔽方法，其特征在于：使用分词算法，对待分析文本进行分词处理，得到待分析词序列，包括如下步骤：

4.根据权利要求1所述的基于NLP的敏感词汇屏蔽方法，其特征在于：将待分析词序列输入敏感词汇识别模型进行敏感词汇识别，得到待分析词序列的敏感词汇，包括如下步骤：

使用敏感词汇识别模型的输入层，接收待分析词序列；

5.根据权利要求4所述的基于NLP的敏感词汇屏蔽方法，其特征在于：根据敏感词汇语料库，对待分析词序列的敏感词汇进行核验，若核验结果为真实，则使用屏蔽符号替换待分析词序列的敏感词汇，得到敏感词汇屏蔽后词序列，否则，将待分析词序列重新进行敏感词汇识别，包括如下步骤：

6.一种基于NLP的敏感词汇屏蔽***，用于实现如权利要求1-5任一所述的敏感词汇屏蔽方法，其特征在于：包括语料库构建单元、敏感词汇识别模型构建单元、文本提取单元、分词处理单元、敏感词汇识别单元以及敏感词汇核验单元，所述的语料库构建单元分别与敏感词汇识别模型构建单元和敏感词汇核验单元连接，且语料库构建单元连接有外部的互联网语料库，所述的敏感词汇识别模型构建单元与敏感词汇识别单元连接，所述的敏感词汇识别单元分别与分词处理单元和敏感词汇核验单元连接，所述的分词处理单元与文本提取单元连接；