CN117113988B - 一种基于nlp的敏感词汇屏蔽方法及*** - Google Patents

一种基于nlp的敏感词汇屏蔽方法及*** Download PDF

Info

Publication number
CN117113988B
CN117113988B CN202311068514.6A CN202311068514A CN117113988B CN 117113988 B CN117113988 B CN 117113988B CN 202311068514 A CN202311068514 A CN 202311068514A CN 117113988 B CN117113988 B CN 117113988B
Authority
CN
China
Prior art keywords
analyzed
sensitive
sensitive vocabulary
word
vocabulary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311068514.6A
Other languages
English (en)
Other versions
CN117113988A (zh
Inventor
陈竑
韩三普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Shenwei Zhixin Technology Co ltd
Original Assignee
Beijing Shenwei Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Shenwei Zhixin Technology Co ltd filed Critical Beijing Shenwei Zhixin Technology Co ltd
Priority to CN202311068514.6A priority Critical patent/CN117113988B/zh
Publication of CN117113988A publication Critical patent/CN117113988A/zh
Application granted granted Critical
Publication of CN117113988B publication Critical patent/CN117113988B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明属于敏感词汇屏蔽技术领域,公开了一种基于NLP的敏感词汇屏蔽方法及***。所述的方法包括如下步骤:构建敏感词汇语料库和非敏感词汇语料库;使用NLP算法,构建敏感词汇识别模型;对待分析文件进行文本提取;使用分词算法,对待分析文本进行分词处理;将待分析词序列输入敏感词汇识别模型进行敏感词汇识别;根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇;获取敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件。本发明解决了现有技术存在的屏蔽敏感词汇的准确率低,效率低以及实用性低的问题。

Description

一种基于NLP的敏感词汇屏蔽方法及***
技术领域
本发明属于敏感词汇屏蔽技术领域,具体涉及一种基于NLP的敏感词汇屏蔽方法及***。
背景技术
根据监管和安全的要求,互联网上的流通文件中存在的一些敏感词汇,例如,用户的姓名、身份证或手机号码等隐私信息,不合适的言论等敏感信息,企业的名称、信息、核心技术或员工情况等商业信息,需要进行屏蔽。
现有技术存在的缺陷:
1)现有的敏感词汇屏蔽算法只能识别出某些关键的敏感词汇,而对于敏感词汇的拼音、字形相近、音形相近或同义词无法进行识别,导致屏蔽敏感词汇的准确率低;
2)现有的敏感词汇屏蔽算法利用敏感词库做字符串匹配,从而实现敏感词识别,这种方式的效率低,并且只能对纯文本文件进行敏感词汇屏蔽,对于图像文件或视频文件则无法进行文本识别和敏感词汇屏蔽,实用性低。
发明内容
为了解决现有技术存在的屏蔽敏感词汇的准确率低,效率低以及实用性低的问题,本发明目的在于提供一种基于NLP的敏感词汇屏蔽方法及***。
本发明所采用的技术方案为:
一种基于NLP的敏感词汇屏蔽方法,包括如下步骤:
构建敏感词汇语料库和非敏感词汇语料库;
根据敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型;
对待分析文件进行文本提取,得到待分析文本;
使用分词算法,对待分析文本进行分词处理,得到待分析词序列;
将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇;
根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别;
根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件。
进一步地,构建敏感词汇语料库和非敏感词汇语料库,包括如下步骤:
使用爬虫工具,在互联网中抓取中文或英文的若干已知的敏感词汇;
抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇;
对若干已知的敏感词汇及其拼音、近义词汇以及同音词汇进行数据压缩处理、数据降噪处理以及数据清洗处理,得到处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇;
根据处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇,构建敏感词汇语料库;
使用爬虫工具,在互联网中采集中文或英文的若干通用词汇;
根据敏感词汇语料库,对若干通用词汇中混入的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行剔除,得到若干非敏感词汇;
对若干非敏感词汇进行数据压缩处理、数据降噪处理以及数据清洗处理,得到处理后的若干非敏感词汇;
根据处理后的若干非敏感词汇,构建非敏感词汇语料库。
进一步地,根据敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型,包括如下步骤:
任意提取敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇,构成若干训练文本数据;
使用NLP算法中的BERT-BILSTM-CRF算法,构建初始的敏感词汇识别模型;
使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数,并输入若干训练文本数据进行优化训练,得到最优的敏感词汇识别模型。
进一步地,敏感词汇识别模型包括依次连接的输入层、设置有BERT预训练语言子模型的向量表征层、BILSTM层、特征融合层、CRF层以及输出层;
引入Circle混沌序列初始化和动态反向学习策略对传统的WOA寻优算法进行改进,得到IWOA寻优算法;
Circle混沌序列初始化的公式为:
式中,xi+1,j+1为Circle混沌映射生成的鲸鱼种群的初始位置;xi,j为随机生成的鲸鱼种群的初始位置;mod(·)为mod函数;i为鲸鱼个体指示量;j为维度指示量;
动态反向学习策略的公式为:
x'ij(t)=k(aj(t)+bj(t))-xij(t)
式中,x'ij(t)、xij(t)分别为第i鲸鱼个体第j维的反向位置和正向位置;aj(t)、bj(t)分别为当前鲸鱼种群第j维的上界和下界;k为递减惯性因子,k=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量。
进一步地,使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数,包括如下步骤:
将BILSTM层的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标,即IWOA种群的鲸鱼个体的位置;
初始化IWOA寻优算法的参数,并使用Circle混沌序列初始化IWOA种群;
计算IWOA种群中每个鲸鱼个体的适应度值;
进行包围猎物行为、泡泡网攻击行为或搜索猎物行为,更新鲸鱼个体和IWOA种群;
对更新后的IWOA种群进行动态反向学习,得到IWOA种群中每个正向解对应的反向解,根据IWOA种群中所有正向解和所有反向解的鲸鱼个体的适应度值,筛选最优鲸鱼个体及其最优适应度值;
若最优适应度值满足要求或迭代次数满足要求,输出最优鲸鱼个体对应的全局最优解的位置,即BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率,否则,重复更新鲸鱼个体和IWOA种群。
进一步地,对待分析文件进行文本提取,得到待分析文本,包括如下步骤:
接收待分析文件,对待分析文件的文件名后缀进行分析,得到待分析文件的数据格式;
若待分析文件的数据格式为文本格式,对文本格式的待分析文件进行文本提取,得到文本格式的待分析文件对应的待分析文本;
若待分析文件的数据格式为图片格式,使用图文识别模型对图片格式的待分析文件进行文本提取,得到图片格式的待分析文件对应的待分析文本;
若待分析文件的数据格式为视频格式,对视频格式的待分析文件进行帧截取,得到连续帧的待分析图像,使用图文识别模型对连续帧的待分析图像进行文本提取,得到若干原始的待分析文本,对若干原始的待分析文本进行文本组合和去重处理,得到视频格式的待分析文件对应的待分析文本。
进一步地,使用分词算法,对待分析文本进行分词处理,得到待分析词序列,包括如下步骤:
使用pkuseg分词算法,对待分析文本进行分词处理,得到第一待分析词序列;
使用jieba分词算法,对待分析文本进行分词处理,得到第二待分析词序列;
使用ltp分词算法,对待分析文本进行分词处理,得到第三待分析词序列;
使用hanlp分词算法,对待分析文本进行分词处理,得到第四待分析词序列;
将第一待分析词序列、第二待分析词序列、第三待分析词序列以及第四待分析词序列进行合并和筛选,得到最终的待分析词序列。
进一步地,将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇,包括如下步骤:
使用敏感词汇识别模型的输入层,接收待分析词序列;
使用敏感词汇识别模型的向量表征层,将待分析词序列中的若干分词转化为词向量,得到包括若干词向量的待分析词序列;
使用敏感词汇识别模型的向量表征层,将包括若干词向量的待分析词序列中每个词向量转换为字向量,得到包括若干字向量的待分析字序列;
使用敏感词汇识别模型的BILSTM层,提取每个词向量的词语义特征和每个字向量的字语义特征;
使用敏感词汇识别模型的特征融合层,将所有词向量的词语义特征和所有字向量的字语义特征进行特征融合,得到融合特征序列;
使用敏感词汇识别模型的CRF层,根据融合特征序列,对待分析词序列中每个词向量进行依赖性处理,并添加敏感词汇标签,得到敏感词汇标记词序列;
使用敏感词汇识别模型的输出层,根据敏感词汇标记词序列中的敏感词汇标签,输出对应的待分析词序列的敏感词汇,并记录待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息。
进一步地,根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别,包括如下步骤:
将待分析词序列的每个敏感词汇输入敏感词汇语料库,与敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行相似度匹配;
若存在已知的敏感词汇、拼音、近义词汇或同音词与待分析词序列的当前敏感词汇的相似度值大于阈值,则进入下一步骤,否则,输出核验结果为不真实;
若待分析词序列的所有敏感词汇均通过核验,则输出核验结果为真实,否则,将待分析词序列的下个敏感词汇输入敏感词汇语料库进行核验;
若核验结果为真实,则根据待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息,使用屏蔽符号替换待分析词序列中对应位置的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别。
一种基于NLP的敏感词汇屏蔽***,用于实现敏感词汇屏蔽方法,包括语料库构建单元、敏感词汇识别模型构建单元、文本提取单元、分词处理单元、敏感词汇识别单元以及敏感词汇核验单元,语料库构建单元分别与敏感词汇识别模型构建单元和敏感词汇核验单元连接,且语料库构建单元连接有外部的互联网语料库,敏感词汇识别模型构建单元与敏感词汇识别单元连接,敏感词汇识别单元分别与分词处理单元和敏感词汇核验单元连接,分词处理单元与文本提取单元连接;
语料库构建单元,用于抓取外部的互联网语料库中的若干敏感词汇和若干通用词汇,根据若干敏感词汇构建敏感词汇语料库,并根据若干通用词汇构建非敏感词汇语料库;
敏感词汇识别模型构建单元,用于调用语料库构建单元构建的敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型;
文本提取单元,用于接收对待分析文件,并对待分析文件进行文本提取,得到待分析文本;
分词处理单元,用于使用分词算法,对文本提取单元得到的待分析文本进行分词处理,得到待分析词序列,并将待分析词序列发送至敏感词汇识别单元;
敏感词汇识别单元,用于调用敏感词汇识别模型构建单元构建的敏感词汇识别模型,将分词处理单元发送的待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇,接收敏感词汇核验单元发送的核验结果,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,并根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本;
敏感词汇核验单元,用于提取敏感词汇识别单元得到的待分析词序列的敏感词汇,调用语料库构建单元构建的敏感词汇语料库,根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,得到核验结果,并将核验结果发送至敏感词汇识别单元。
本发明的有益效果为:
本发明提供的基于NLP的敏感词汇屏蔽方法及***,通过构建敏感词汇语料库和非敏感词汇语料库,丰富了敏感词汇识别训练样本,扩大了敏感词汇的数据支撑,并使用NLP算法构建敏感词汇识别模型,对敏感词汇识别训练样本进行充分的学习,实现了敏感词汇的自动、准确的识别,提高了后续敏感词汇屏蔽的效率和准确性;敏感词汇识别模型能够提取语义特征,结合语义环境进行分析,避免了敏感词汇的误触发,提高了用户的使用体验度;该方法能够应用于不同数据格式的待分析文件,提高了方法的实用性;使用敏感词汇语料库对敏感词汇进行核验,进一步提高了敏感词汇屏蔽的准确性。
本发明的其他有益效果将在具体实施方式中进一步进行说明。
附图说明
图1是本发明中基于NLP的敏感词汇屏蔽方法的流程框图。
图2是本发明中基于NLP的敏感词汇屏蔽***的结构框图。
具体实施方式
下面结合附图及具体实施例对本发明做进一步阐释。
实施例1:
如图1所示,本实施例提供一种基于NLP的敏感词汇屏蔽方法,包括如下步骤:
构建敏感词汇语料库和非敏感词汇语料库,包括如下步骤:
使用爬虫工具,在互联网中抓取中文或英文的若干已知的敏感词汇;
抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇;
提高了敏感词汇语料库对敏感词汇的灵敏性,避免了使用拼音、近义词汇以及同音词汇代替敏感词汇从而逃过敏感词汇屏蔽的问题,扩大了敏感词汇识别的范围,提高了敏感词汇屏蔽的有效性;
对若干已知的敏感词汇及其拼音、近义词汇以及同音词汇进行数据压缩处理、数据降噪处理以及数据清洗处理,得到处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇;
数据压缩处理将敏感词汇及其拼音、近义词汇以及同音词所占用的内存量进行压缩,提高了硬件的处理效率,数据降噪处理将敏感词汇及其拼音、近义词汇以及同音词汇中存在的噪音数据进行剔除,提高了敏感词汇及其拼音、近义词汇以及同音词汇的真实性和后续敏感词汇屏蔽方法的准确性,数据清洗处理将重复的数据进行剔除,减少了所用内存,进一步提高了硬件的处理效率;
根据处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇,构建敏感词汇语料库;
使用爬虫工具,在互联网中采集中文或英文的若干通用词汇;
根据敏感词汇语料库,对若干通用词汇中混入的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行剔除,得到若干非敏感词汇;
对若干非敏感词汇进行数据压缩处理、数据降噪处理以及数据清洗处理,得到处理后的若干非敏感词汇;
根据处理后的若干非敏感词汇,构建非敏感词汇语料库;
根据敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型,包括如下步骤:
任意提取敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇,构成若干训练文本数据;
敏感词汇识别模型的有效性,关键在于训练文本数据的数量和质量,通过非敏感词汇语料库和敏感词汇语料库生成的若干训练文本数据,不仅丰富了训练样本的数量,前述一系列处理提高了若干训练文本数据的质量,使敏感词汇识别模型能够充分学习到训练文本数据的数据特征,能够准确的识别出文本中的敏感词汇;
使用自然语言处理(NLP,Natural Language Processing)算法中的BERT-BILSTM-CRF算法,构建初始的敏感词汇识别模型;
敏感词汇识别模型包括依次连接的输入层、设置有来自Transformers的双向编码表示(BERT,Bidirectional Encoder Representation from Transformers)预训练语言子模型的向量表征层、双向长短期记忆网络(BILSTM,Bi-directional Long Short-TermMemory)层、特征融合层、线性链条件随机场(CRF,Conditional Random Field)以及输出层;
BERT预训练语言子模型通过预训练建立,能够将词序列中的若干分词转化为词向量,还能将词向量进行字符拆分,转换为字向量,实现向量表征,BILSTM层能够结合上下文信息,提取词向量和字向量的语义特征,特征融合层将特征融合层进行特征融合,避免了中英文融合、字序打乱或错别字导致的敏感词汇漏认,并且语义特征也避免了敏感词汇的误识别,提高了模型的准确性;
使用改进鲸鱼寻优(IWOA,Improved Whale Optimization Algorithm)算法优化初始的敏感词汇识别模型的网络参数,并输入若干训练文本数据进行优化训练,得到最优的敏感词汇识别模型;
引入Circle混沌序列初始化和动态反向学习策略对传统的鲸鱼寻优(WOA,WhaleOptimization Algorithm)算法进行改进,得到IWOA寻优算法;
Circle混沌序列初始化的公式为:
式中,xi+1,j+1为Circle混沌映射生成的鲸鱼种群的初始位置;xi,j为随机生成的鲸鱼种群的初始位置;mod(·)为mod函数;i为鲸鱼个体指示量;j为维度指示量;
利用Circle混沌序列映射产生初始种群相比于随机分布的初始种群,改进后的种群初始位置分布更加均匀,扩大了鲸鱼群在空间中的搜索范围,增加了群***置的多样性,一定程度上改善了算法容易陷入局部极值的缺陷,从而提高了算法的寻优效率;
动态反向学习策略的公式为:
x'ij(t)=k(aj(t)+bj(t))-xij(t)
式中,x'ij(t)、xij(t)分别为第i鲸鱼个体第j维的反向位置和正向位置;aj(t)、bj(t)分别为当前鲸鱼种群第j维的上界和下界;k为递减惯性因子,k=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
动态反向学习减少搜索盲点,更有效的避免算法早熟和陷入局部最优值;
使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数,包括如下步骤:
将BILSTM层的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标,即IWOA种群的鲸鱼个体的位置;
初始化IWOA寻优算法的参数,并使用Circle混沌序列初始化IWOA种群;
计算IWOA种群中每个鲸鱼个体的适应度值;
进行包围猎物行为、泡泡网攻击行为或搜索猎物行为,更新鲸鱼个体和IWOA种群;
对更新后的IWOA种群进行动态反向学习,得到IWOA种群中每个正向解对应的反向解,根据IWOA种群中所有正向解和所有反向解的鲸鱼个体的适应度值,筛选最优鲸鱼个体及其最优适应度值;
若最优适应度值满足要求或迭代次数满足要求,输出最优鲸鱼个体对应的全局最优解的位置,即BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率,否则,重复更新鲸鱼个体和IWOA种群;
解决了BILSTM对网络参数初值敏感的问题,加快了模型的训练速率和准确性;
对待分析文件进行文本提取,得到待分析文本,包括如下步骤:
接收待分析文件,对待分析文件的文件名后缀进行分析,得到待分析文件的数据格式;
若待分析文件的数据格式为文本格式,对文本格式的待分析文件进行文本提取,得到文本格式的待分析文件对应的待分析文本;
若待分析文件的数据格式为图片格式,使用图文识别模型对图片格式的待分析文件进行文本提取,得到图片格式的待分析文件对应的待分析文本;
若待分析文件的数据格式为视频格式,对视频格式的待分析文件进行帧截取,得到连续帧的待分析图像,使用图文识别模型对连续帧的待分析图像进行文本提取,得到若干原始的待分析文本,对若干原始的待分析文本进行文本组合和去重处理,得到视频格式的待分析文件对应的待分析文本;
使用分词算法,对待分析文本进行分词处理,得到待分析词序列,包括如下步骤:
使用pkuseg分词算法,对待分析文本进行分词处理,得到第一待分析词序列;
使用jieba分词算法,对待分析文本进行分词处理,得到第二待分析词序列;
使用ltp分词算法,对待分析文本进行分词处理,得到第三待分析词序列;
使用hanlp分词算法,对待分析文本进行分词处理,得到第四待分析词序列;
将第一待分析词序列、第二待分析词序列、第三待分析词序列以及第四待分析词序列进行合并和筛选,得到最终的待分析词序列;
采用多种分词算法进行分词处理,避免了单一分词算法存在的误分或漏分的情况,提高了分词算法的准确性;
将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇,包括如下步骤:
使用敏感词汇识别模型的输入层,接收待分析词序列;
使用敏感词汇识别模型的向量表征层,将待分析词序列中的若干分词转化为词向量,得到包括若干词向量的待分析词序列;
使用敏感词汇识别模型的向量表征层,将包括若干词向量的待分析词序列中每个词向量转换为字向量,得到包括若干字向量的待分析字序列;
使用敏感词汇识别模型的BILSTM层,提取每个词向量的词语义特征和每个字向量的字语义特征;
使用敏感词汇识别模型的特征融合层,将所有词向量的词语义特征和所有字向量的字语义特征进行特征融合,得到融合特征序列;
使用敏感词汇识别模型的CRF层,根据融合特征序列,对待分析词序列中每个词向量进行依赖性处理,并添加敏感词汇标签,得到敏感词汇标记词序列;
使用敏感词汇识别模型的输出层,根据敏感词汇标记词序列中的敏感词汇标签,输出对应的待分析词序列的敏感词汇,并记录待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息;
根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别,包括如下步骤:
将待分析词序列的每个敏感词汇输入敏感词汇语料库,与敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行相似度匹配;
若存在已知的敏感词汇、拼音、近义词汇或同音词与待分析词序列的当前敏感词汇的相似度值大于阈值,则进入下一步骤,否则,输出核验结果为不真实;
若待分析词序列的所有敏感词汇均通过核验,则输出核验结果为真实,否则,将待分析词序列的下个敏感词汇输入敏感词汇语料库进行核验;
若核验结果为真实,则根据待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息,使用屏蔽符号替换待分析词序列中对应位置的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别;
根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件。
本实施例作为敏感词汇屏蔽方法,得到敏感词汇屏蔽后文本后,还需将敏感词汇屏蔽后文本加载至待分析文件,针对不同的数据格式的待分析文件,使用不同的加载工具,例如,若待分析文件的数据格式为文本格式,直接将敏感词汇屏蔽后文本替换至待分析文件的待分析文本,若待分析文件的数据格式为图片格式,使用图像编辑工具,将敏感词汇屏蔽后文本添加至图片格式的待分析文件的对应位置,或将敏感词汇屏蔽后文本中屏蔽符号添加至图片格式的待分析文件的对应位置,若待分析文件的数据格式为视频格式,根据敏感词汇屏蔽后文本与若干原始的待分析文本进行匹配,并匹配对应帧的待分析图像,将敏感词汇屏蔽后文本添加至对应帧的待分析图像的对应位置,或将敏感词汇屏蔽后文本中屏蔽符号添加至对应帧的待分析图像的对应位置。
实施例2:
如图2所示,本实施例提供一种基于NLP的敏感词汇屏蔽***,用于实现敏感词汇屏蔽方法,包括语料库构建单元、敏感词汇识别模型构建单元、文本提取单元、分词处理单元、敏感词汇识别单元以及敏感词汇核验单元,语料库构建单元分别与敏感词汇识别模型构建单元和敏感词汇核验单元连接,且语料库构建单元连接有外部的互联网语料库,敏感词汇识别模型构建单元与敏感词汇识别单元连接,敏感词汇识别单元分别与分词处理单元和敏感词汇核验单元连接,分词处理单元与文本提取单元连接;
语料库构建单元,用于抓取外部的互联网语料库中的若干敏感词汇和若干通用词汇,根据若干敏感词汇构建敏感词汇语料库,并根据若干通用词汇构建非敏感词汇语料库;
敏感词汇识别模型构建单元,用于调用语料库构建单元构建的敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型;
文本提取单元,用于接收对待分析文件,并对待分析文件进行文本提取,得到待分析文本;
分词处理单元,用于使用分词算法,对文本提取单元得到的待分析文本进行分词处理,得到待分析词序列,并将待分析词序列发送至敏感词汇识别单元;
敏感词汇识别单元,用于调用敏感词汇识别模型构建单元构建的敏感词汇识别模型,将分词处理单元发送的待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇,接收敏感词汇核验单元发送的核验结果,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,并根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本;
敏感词汇核验单元,用于提取敏感词汇识别单元得到的待分析词序列的敏感词汇,调用语料库构建单元构建的敏感词汇语料库,根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,得到核验结果,并将核验结果发送至敏感词汇识别单元。
本发明提供的基于NLP的敏感词汇屏蔽方法及***,通过构建敏感词汇语料库和非敏感词汇语料库,丰富了敏感词汇识别训练样本,扩大了敏感词汇的数据支撑,并使用NLP算法构建敏感词汇识别模型,对敏感词汇识别训练样本进行充分的学习,实现了敏感词汇的自动、准确的识别,提高了后续敏感词汇屏蔽的效率和准确性;敏感词汇识别模型能够提取语义特征,结合语义环境进行分析,避免了敏感词汇的误触发,提高了用户的使用体验度;该方法能够应用于不同数据格式的待分析文件,提高了方法的实用性;使用敏感词汇语料库对敏感词汇进行核验,进一步提高了敏感词汇屏蔽的准确性。
本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (6)

1.一种基于NLP的敏感词汇屏蔽方法,其特征在于:包括如下步骤:
构建敏感词汇语料库和非敏感词汇语料库,包括如下步骤:
使用爬虫工具,在互联网中抓取中文或英文的若干已知的敏感词汇;
抓取若干已知的敏感词汇的拼音、近义词汇以及同音词汇;
对若干已知的敏感词汇及其拼音、近义词汇以及同音词汇进行数据压缩处理、数据降噪处理以及数据清洗处理,得到处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇;
根据处理后的若干已知的敏感词汇及其拼音、近义词汇以及同音词汇,构建敏感词汇语料库;
使用爬虫工具,在互联网中采集中文或英文的若干通用词汇;
根据敏感词汇语料库,对若干通用词汇中混入的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行剔除,得到若干非敏感词汇;
对若干非敏感词汇进行数据压缩处理、数据降噪处理以及数据清洗处理,得到处理后的若干非敏感词汇;
根据处理后的若干非敏感词汇,构建非敏感词汇语料库;
根据敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型,包括如下步骤:
任意提取敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇和非敏感词汇语料库中的非敏感词汇,构成若干训练文本数据;
使用NLP算法中的BERT-BILSTM-CRF算法,构建初始的敏感词汇识别模型;
所述的敏感词汇识别模型包括依次连接的输入层、设置有BERT预训练语言子模型的向量表征层、BILSTM层、特征融合层、CRF层以及输出层;
引入Circle混沌序列初始化和动态反向学习策略对传统的WOA寻优算法进行改进,得到IWOA寻优算法;
Circle混沌序列初始化的公式为:
式中,xi+1,j+1为Circle混沌映射生成的鲸鱼种群的初始位置;xi,j为随机生成的鲸鱼种群的初始位置;mod(·)为mod函数;i为鲸鱼个体指示量;j为维度指示量;
动态反向学习策略的公式为:
x'ij(t)=k(aj(t)+bj(t))-xij(t)
式中,x'ij(t)、xij(t)分别为第i鲸鱼个体第j维的反向位置和正向位置;aj(t)、bj(t)分别为当前鲸鱼种群第j维的上界和下界;k为递减惯性因子,k=0.9-0.5D/Dmax;D、Dmax分别为当前迭代次数和最大迭代次数;t为时刻指示量;
使用IWOA寻优算法优化初始的敏感词汇识别模型的网络参数,包括如下步骤:
将BILSTM层的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率作为优化目标,即IWOA种群的鲸鱼个体的位置;
初始化IWOA寻优算法的参数,并使用Circle混沌序列初始化IWOA种群;
计算IWOA种群中每个鲸鱼个体的适应度值;
进行包围猎物行为、泡泡网攻击行为或搜索猎物行为,更新鲸鱼个体和IWOA种群;
对更新后的IWOA种群进行动态反向学习,得到IWOA种群中每个正向解对应的反向解,根据IWOA种群中所有正向解和所有反向解的鲸鱼个体的适应度值,筛选最优鲸鱼个体及其最优适应度值;
若最优适应度值满足要求或迭代次数满足要求,输出最优鲸鱼个体对应的全局最优解的位置,即BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率,否则,重复更新鲸鱼个体和IWOA种群;
根据BILSTM层最优的隐含层神经元数量、隐含层神经元的初始权值和初始阈值以及初始学习率,设置初始的敏感词汇识别模型的网络参数,并输入若干训练文本数据进行优化训练,得到最优的敏感词汇识别模型;
对待分析文件进行文本提取,得到待分析文本;
使用分词算法,对待分析文本进行分词处理,得到待分析词序列;
将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇;
根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别;
根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本,并将敏感词汇屏蔽后文本加载至待分析文件,得到敏感词汇屏蔽后文件。
2.根据权利要求1所述的基于NLP的敏感词汇屏蔽方法,其特征在于:对待分析文件进行文本提取,得到待分析文本,包括如下步骤:
接收待分析文件,对待分析文件的文件名后缀进行分析,得到待分析文件的数据格式;
若待分析文件的数据格式为文本格式,对文本格式的待分析文件进行文本提取,得到文本格式的待分析文件对应的待分析文本;
若待分析文件的数据格式为图片格式,使用图文识别模型对图片格式的待分析文件进行文本提取,得到图片格式的待分析文件对应的待分析文本;
若待分析文件的数据格式为视频格式,对视频格式的待分析文件进行帧截取,得到连续帧的待分析图像,使用图文识别模型对连续帧的待分析图像进行文本提取,得到若干原始的待分析文本,对若干原始的待分析文本进行文本组合和去重处理,得到视频格式的待分析文件对应的待分析文本。
3.根据权利要求1所述的基于NLP的敏感词汇屏蔽方法,其特征在于:使用分词算法,对待分析文本进行分词处理,得到待分析词序列,包括如下步骤:
使用pkuseg分词算法,对待分析文本进行分词处理,得到第一待分析词序列;
使用jieba分词算法,对待分析文本进行分词处理,得到第二待分析词序列;
使用ltp分词算法,对待分析文本进行分词处理,得到第三待分析词序列;
使用hanlp分词算法,对待分析文本进行分词处理,得到第四待分析词序列;
将第一待分析词序列、第二待分析词序列、第三待分析词序列以及第四待分析词序列进行合并和筛选,得到最终的待分析词序列。
4.根据权利要求1所述的基于NLP的敏感词汇屏蔽方法,其特征在于:将待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇,包括如下步骤:
使用敏感词汇识别模型的输入层,接收待分析词序列;
使用敏感词汇识别模型的向量表征层,将待分析词序列中的若干分词转化为词向量,得到包括若干词向量的待分析词序列;
使用敏感词汇识别模型的向量表征层,将包括若干词向量的待分析词序列中每个词向量转换为字向量,得到包括若干字向量的待分析字序列;
使用敏感词汇识别模型的BILSTM层,提取每个词向量的词语义特征和每个字向量的字语义特征;
使用敏感词汇识别模型的特征融合层,将所有词向量的词语义特征和所有字向量的字语义特征进行特征融合,得到融合特征序列;
使用敏感词汇识别模型的CRF层,根据融合特征序列,对待分析词序列中每个词向量进行依赖性处理,并添加敏感词汇标签,得到敏感词汇标记词序列;
使用敏感词汇识别模型的输出层,根据敏感词汇标记词序列中的敏感词汇标签,输出对应的待分析词序列的敏感词汇,并记录待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息。
5.根据权利要求4所述的基于NLP的敏感词汇屏蔽方法,其特征在于:根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别,包括如下步骤:
将待分析词序列的每个敏感词汇输入敏感词汇语料库,与敏感词汇语料库中的已知的敏感词汇及其拼音、近义词汇以及同音词汇进行相似度匹配;
若存在已知的敏感词汇、拼音、近义词汇或同音词与待分析词序列的当前敏感词汇的相似度值大于阈值,则进入下一步骤,否则,输出核验结果为不真实;
若待分析词序列的所有敏感词汇均通过核验,则输出核验结果为真实,否则,将待分析词序列的下个敏感词汇输入敏感词汇语料库进行核验;
若核验结果为真实,则根据待分析词序列的敏感词汇在敏感词汇标记词序列中的位置信息,使用屏蔽符号替换待分析词序列中对应位置的敏感词汇,得到敏感词汇屏蔽后词序列,否则,将待分析词序列重新进行敏感词汇识别。
6.一种基于NLP的敏感词汇屏蔽***,用于实现如权利要求1-5任一所述的敏感词汇屏蔽方法,其特征在于:包括语料库构建单元、敏感词汇识别模型构建单元、文本提取单元、分词处理单元、敏感词汇识别单元以及敏感词汇核验单元,所述的语料库构建单元分别与敏感词汇识别模型构建单元和敏感词汇核验单元连接,且语料库构建单元连接有外部的互联网语料库,所述的敏感词汇识别模型构建单元与敏感词汇识别单元连接,所述的敏感词汇识别单元分别与分词处理单元和敏感词汇核验单元连接,所述的分词处理单元与文本提取单元连接;
语料库构建单元,用于抓取外部的互联网语料库中的若干敏感词汇和若干通用词汇,根据若干敏感词汇构建敏感词汇语料库,并根据若干通用词汇构建非敏感词汇语料库;
敏感词汇识别模型构建单元,用于调用语料库构建单元构建的敏感词汇语料库和非敏感词汇语料库,使用NLP算法,构建敏感词汇识别模型;
文本提取单元,用于接收对待分析文件,并对待分析文件进行文本提取,得到待分析文本;
分词处理单元,用于使用分词算法,对文本提取单元得到的待分析文本进行分词处理,得到待分析词序列,并将待分析词序列发送至敏感词汇识别单元;
敏感词汇识别单元,用于调用敏感词汇识别模型构建单元构建的敏感词汇识别模型,将分词处理单元发送的待分析词序列输入敏感词汇识别模型进行敏感词汇识别,得到待分析词序列的敏感词汇,接收敏感词汇核验单元发送的核验结果,若核验结果为真实,则使用屏蔽符号替换待分析词序列的敏感词汇,得到敏感词汇屏蔽后词序列,并根据敏感词汇屏蔽后词序列,得到敏感词汇屏蔽后文本;
敏感词汇核验单元,用于提取敏感词汇识别单元得到的待分析词序列的敏感词汇,调用语料库构建单元构建的敏感词汇语料库,根据敏感词汇语料库,对待分析词序列的敏感词汇进行核验,得到核验结果,并将核验结果发送至敏感词汇识别单元。
CN202311068514.6A 2023-08-23 2023-08-23 一种基于nlp的敏感词汇屏蔽方法及*** Active CN117113988B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311068514.6A CN117113988B (zh) 2023-08-23 2023-08-23 一种基于nlp的敏感词汇屏蔽方法及***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311068514.6A CN117113988B (zh) 2023-08-23 2023-08-23 一种基于nlp的敏感词汇屏蔽方法及***

Publications (2)

Publication Number Publication Date
CN117113988A CN117113988A (zh) 2023-11-24
CN117113988B true CN117113988B (zh) 2024-06-07

Family

ID=88810489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311068514.6A Active CN117113988B (zh) 2023-08-23 2023-08-23 一种基于nlp的敏感词汇屏蔽方法及***

Country Status (1)

Country Link
CN (1) CN117113988B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测***
US10878124B1 (en) * 2017-12-06 2020-12-29 Dataguise, Inc. Systems and methods for detecting sensitive information using pattern recognition
CN113988061A (zh) * 2021-10-22 2022-01-28 平安国际智慧城市科技股份有限公司 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN114298039A (zh) * 2021-11-19 2022-04-08 马上消费金融股份有限公司 敏感词识别方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10878124B1 (en) * 2017-12-06 2020-12-29 Dataguise, Inc. Systems and methods for detecting sensitive information using pattern recognition
CN108984530A (zh) * 2018-07-23 2018-12-11 北京信息科技大学 一种网络敏感内容的检测方法及检测***
CN113988061A (zh) * 2021-10-22 2022-01-28 平安国际智慧城市科技股份有限公司 基于深度学习的敏感词检测方法、装置、设备及存储介质
CN114298039A (zh) * 2021-11-19 2022-04-08 马上消费金融股份有限公司 敏感词识别方法、装置、电子设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
嵌入Circle映射和逐维小孔成像反向学习的鲸鱼优化算法;张达敏 等;控制与决策;20210531;第36卷(第5期);第1173-1180页 *

Also Published As

Publication number Publication date
CN117113988A (zh) 2023-11-24

Similar Documents

Publication Publication Date Title
CN109299273B (zh) 基于改进seq2seq模型的多源多标签文本分类方法及其***
CN111897908B (zh) 融合依存信息和预训练语言模型的事件抽取方法及***
CN108984530B (zh) 一种网络敏感内容的检测方法及检测***
CN109871535B (zh) 一种基于深度神经网络的法语命名实体识别方法
CN110444198B (zh) 检索方法、装置、计算机设备和存储介质
CN111985239B (zh) 实体识别方法、装置、电子设备及存储介质
CN111476023B (zh) 识别实体关系的方法及装置
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN109165563B (zh) 行人再识别方法和装置、电子设备、存储介质、程序产品
CN113312500A (zh) 一种面向大坝安全运行的事件图谱构建方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN113223509B (zh) 一种应用于多人混杂场景下的模糊语句识别方法及***
CN114153971B (zh) 一种含错中文文本纠错识别分类设备
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN114756675A (zh) 文本分类方法、相关设备及可读存储介质
CN110826298A (zh) 一种智能辅助定密***中使用的语句编码方法
CN113761883A (zh) 一种文本信息识别方法、装置、电子设备及存储介质
CN111159405B (zh) 基于背景知识的讽刺检测方法
CN113486178A (zh) 文本识别模型训练方法、文本识别方法、装置以及介质
CN115168590A (zh) 文本特征提取方法、模型训练方法、装置、设备及介质
CN115408488A (zh) 用于小说场景文本的分割方法及***
CN111460100A (zh) 一种刑事法律文书罪名的推荐方法和***
CN114694255A (zh) 基于通道注意力与时间卷积网络的句子级唇语识别方法
CN113221553A (zh) 一种文本处理方法、装置、设备以及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant