CN112052675A - 一种非结构化文本的敏感信息检测方法及检测装置 - Google Patents

一种非结构化文本的敏感信息检测方法及检测装置 Download PDF

Info

Publication number
CN112052675A
CN112052675A CN202010850308.0A CN202010850308A CN112052675A CN 112052675 A CN112052675 A CN 112052675A CN 202010850308 A CN202010850308 A CN 202010850308A CN 112052675 A CN112052675 A CN 112052675A
Authority
CN
China
Prior art keywords
data
text
sensitive information
unstructured text
feature data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010850308.0A
Other languages
English (en)
Inventor
徐国爱
蔺岩
徐国胜
王浩宇
郭燕慧
张淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202010850308.0A priority Critical patent/CN112052675A/zh
Publication of CN112052675A publication Critical patent/CN112052675A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/76Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data
    • G06F7/78Arrangements for rearranging, permuting or selecting data according to predetermined rules, independently of the content of the data for changing the order of data flow, e.g. matrix transposition or LIFO buffers; Overflow or underflow handling therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种非结构化文本的敏感信息检测方法及其检测装置,首先对非结构化文本数据的预处理得到文本数据的向量表达,然后提取预处理文本数据的局部特征数据和全局特征数据,最后将提取的局部特征数据和全局特征数据进行融合和分类检测;利用基于深度学习的文本分类模型对含有敏感信息的文本进行区分,采用自动化的检测方法检测公开数据集文本中是否存在敏感信息,达到取代传统的人工检测方法的目的,提高数据信息保护的工作效率,提高数据信息保护检测的准确率,利用卷积神经网络提取局部特征数据的优势特点,同时利用双向长短时记忆网络提取全局特征数据的优势,实现对文本数据特征更充分的利用,提高敏感信息检测的准确效果。

Description

一种非结构化文本的敏感信息检测方法及检测装置
技术领域
本说明书一个或多个实施例涉及敏感信息检测方法技术领域,尤其涉及一种非结构化文本的敏感信息检测方法及检测装置。
背景技术
目前,中国网民规模已超8亿,互联网普及率达71.4%,数字经济总量达31.3万亿元。随着5G时代、万物互联时代的到来,网络安全面临新的难题。网络空间安全不仅关系着人们日常的生产生活,更是维护国家安全的重要战略要塞。在飞速发展的今天,网络成为人们日常生活的重要组成部分,数据作为网络各项功能的载体,规模不断增加,种类多样,其中包括日常使用的各种用户数据信息,网络自媒体及政务部分的各项办公数据。为我们带来便捷生活的同时,也存在各种各样的敏感信息数据泄露问题。
现阶段对于敏感信息和敏感信息的检测方法,主要包括敏感词字典匹配技术,依赖所构建的敏感词字典中的字符串匹配算法来完成敏感信息的检测;传统的机器学习算法,使用空间向量中的一个向量来表示文档,该向量的每一维度表示文档的一个特征值,通过计算文本向量和主题向量之间的空间距离,来判定文本类型,该方法主要是基于数据集中存在的敏感信息进行检测;递归神经网络方法检测文本文档中所包含的敏感数据信息主要是通过对文本文档的语义学习来完成的,通过递归神经网络将敏感性分数分配给句子结构的语义成分,实现敏感信息的检测,达到数据保护的目的。
虽然上述方法都能实现对敏感信息的检测,但是由于敏感词字典匹配技术中的敏感词字典是人为制定,往往存在不同客体差异的影响,直接影响敏感词信息检测效果的可靠性;传统的机器学习算法在有效特征的筛选工作上仍然需要人力判断合适的检测依据,效率较低,且难以应用于实际的生产实践中;递归神经网络在处理文本时,由于其处理文本需要按序一个个处理的特点,无法实现多GPU的并行运算,采用该方法浪费对现有科技资源的有效利用,识别速率较差,难以满足敏感信息检测的及时性要求。
发明内容
有鉴于此,本说明书一个或多个实施例的目的在于提出一种非结构化文本的敏感信息检测方法及检测装置,以解决现有技术敏感信息检测的可靠性差、检测效率低和及时性差的问题。
基于上述目的,本说明书一个或多个实施例提供了一种非结构化文本的敏感信息检测方法,包括:
获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,提取预处理数据的局部特征数据和全局特征数据;
融合提取的局部特征数据和全局特征数据;
将融合后的特征数据进行分类检测,并输出分类检测结果。
可选的,所述对非结构化文本数据进行分词预处理,包括:
解析非结构化文本数据,提取非结构化文本数据中的结构化数据;
将提取的结构化数据进行文本分词处理,得分词文本;
对分词文本进行去除停用词处理,得文本数据集。
可选的,所述向量化预处理,包括:
采用文本数据集训练词向量计算工具,词向量维度为100,词向量上下文最大距离为5,取迭代次数为5的词向量计算工具模型;
将文本数据集输入到词向量计算工具模型中进行向量化处理;
输出文本数据集的向量表达。
可选的,所述构建特征提取模型,提取预处理数据的局部特征数据和全局特征数据,包括:
将提取的预处理数据分为训练集、测试集;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型;
采用训练集中的数据对特征提取模型进行训练至收敛,采用测试集的数据对训练的特征提取模型进行验证;
将预处理数据输入到特征提取模型进行卷积处理,得到局部特征数据;
将预处理数据分别从前向和后向输入到特征提取模型中,保存两个方向的历史信息数据和未来信息数据,并将两个方向的输出数据进行拼接,得到全局特征数据。
可选的,所述特征提取模型包括:输入层,嵌入层,处理层,全连接层,所述处理层包括卷积神经网络和双向长短期记忆网络。
可选的,所述特征提取模型包括如下参数:卷积层为3个r×k的滤波器f,k表示词向量的维度,r表示滤波器大小,f代表非线性操作的函数,卷积核为128个,激活函数为RELU,池化层的池化操作为最大池化法,Dropout值为0.5,优化函数为Adam,Epoch为100,学习率为0.001,隐藏层大小为128。
可选的,所述将融合后的特征数据进行分类检测,并输出分类检测结果,包括:
将融合后的特征数据输入到softmax分类器中进行分类,并设定判定阈值Q,对于样本x的分类为m类别的概率的公式如下:
Figure BDA0002644498970000031
x(i):第i个输入样本,y(i):第i个输入样本的特征数据,θ:模型训练参数,k:类别的总数,j:第j类,T:矩阵转置运算;
输出分类检测结果R,根据分类检测结果判断是否含有敏感信息,如果R>Q,则判定该文本数据含有敏感信息;否则,判定该文本数据不含有敏感信息。
可选的,所述词向量计算工具为word2vec。
可选的,所述将提取的结构化数据进行文本分词处理是采用cppjieba分词工具进行的分词处理。
一种检测所述非结构化文本的敏感信息的装置,包括:
数据处理模块:获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;
特征提取、融合模块:用于提取预处理数据的局部特征数据和全局特征数据,并融合提取的局部特征数据和全局特征数据;
数据检测模块:用于分类检测融合后的特征数据,并输出分类检测结果。
从上面所述可以看出,本说明书一个或多个实施例提供的一种非结构化文本的敏感信息检测方法及其检测装置,首先对非结构化文本数据的预处理得到文本数据的向量表达,然后提取预处理文本数据的局部特征数据和全局特征数据,最后将提取的局部特征数据和全局特征数据进行融合和分类检测,由于检测的文本特征数据中包含数据的局部特征数据和全局特征数据,能够更好地实现敏感信息分类。
利用基于深度学习的文本分类模型对含有敏感信息的文本进行区分,采用自动化的检测方法检测公开数据集文本中是否存在敏感信息,达到取代传统的人工检测方法的目的,提高数据信息保护的工作效率,提高数据信息保护检测的准确率,利用卷积神经网络提取局部特征数据的优势特点,同时利用双向长短时记忆网络提取全局特征数据的优势,实现对文本数据特征更充分的利用,提高敏感信息检测的准确效果。有助于国家及用户更高效地发现敏感信息安全隐患,极大地提高数据信息安全。
附图说明
为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书一个或多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一个或多个实施例非结构化文本的敏感信息检测方法流程图;
图2为本说明书一个或多个实施例非结构化文本分词预处理过程图;
图3为本说明书一个或多个实施例非结构化文本向量化预处理过程图;
图4为本说明书一个或多个实施例提取特征数据过程图;
图5为本说明书一个或多个实施例检测非结构化文本的敏感信息的装置内部结构框图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本公开进一步详细说明。
可知的,目前用于检测敏感信息的方法中,由于敏感词字典匹配技术中的敏感词字典是人为制定,往往存在不同客体差异的影响,直接影响敏感词信息检测效果的可靠性;传统的机器学习算法在有效特征的筛选工作上仍然需要人力判断合适的检测依据,效率较低,且难以应用于实际的生产实践中;递归神经网络在处理文本时,由于其处理文本需要按序一个个处理的特点,无法实现多GPU的并行运算,采用该方法浪费对现有科技资源的有效利用,识别速率较差,难以满足敏感信息检测的及时性要求。因此,现有技术中用于检测敏感信息的方法存在可靠性差、检测效率低和及时性差的问题。
为了解决上述问题,本说明书一个或多个实施例提供了一种非结构化文本的敏感信息检测方法,包括:
获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,提取预处理数据的局部特征数据和全局特征数据;
融合提取的局部特征数据和全局特征数据;
将融合后的特征数据进行分类检测,并输出分类检测结果。
首先对非结构化文本数据的预处理得到文本数据的向量表达,然后提取预处理文本数据的局部特征数据和全局特征数据,最后将提取的局部特征数据和全局特征数据进行融合和分类检测,由于检测的文本特征数据中包含数据的局部特征数据和全局特征数据,能够更好地实现敏感信息分类。
利用基于深度学习的文本分类模型对含有敏感信息的文本进行区分,采用自动化的检测方法检测公开数据集文本中是否存在敏感信息,达到取代传统的人工检测方法的目的,提高数据信息保护的工作效率,提高数据信息保护检测的准确率,利用卷积神经网络提取局部特征数据的优势特点,同时利用双向长短时记忆网络提取全局特征数据的优势,实现对文本数据特征更充分的利用,提高敏感信息检测的准确效果。有助于国家及用户更高效地发现敏感信息安全隐患,极大地提高数据信息安全。
具体的,本说明书一个或多个实施例提供了一种非结构化文本的敏感信息检测方法,流程如图1所示,包括如下步骤:
步骤101:获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据。
在一种实施例中,步骤101的对非结构化文本数据进行分词预处理,过程如图2所示,包括:解析非结构化文本数据,提取非结构化文本数据中的结构化数据;
将提取的结构化数据进行文本分词处理,得分词文本;
对分词文本进行去除停用词处理,得文本数据集。
步骤101的向量化预处理,过程如图3所示,包括:
采用文本数据集训练词向量计算工具,词向量维度为100,词向量上下文最大距离为5,取迭代次数为5的词向量计算工具模型;
将文本数据集输入到词向量计算工具模型中进行向量化处理;
输出文本数据集的向量表达。
举例来说,步骤101,通过维基解密爬取含有敏感信息的文本,非敏感信息文本从新闻数据集中获取,敏感信息以军事,政治为主,非结构化文本数据主要针对中文文本文件,是指不能够用于数据库中的二维表表示的数据,包括Microsoft Word,MicrosoftExcel,Microsoft PPT,PDF等类型的办公文件,首先需要对非结构化文本进行解析以提取文本数据,Microsoft Word文件在解压操作之后包含一个word文件夹,从word文件夹的document.xml文件中能够提取相关文本数据。Microsoft Excel文件通过解压操作后得到的sharedStrings.xml文件中提取文本数据,Microsoft PPT文件通过解压操作后得到的slide.xml文件提取文本数据。PDF可以通过但不限于开源软件进行文本数据的提取,得到提取的结构化数据。
使用cppjieba包将提取出的文本结构化数据进行文本分词。cppjieba自带的词典库包含约两万条中文词汇,本实施例主要针对中文数据的政治与军事类别的敏感信息,为达到可以使用的标准,对cppjieba自带的字典库进行扩充。cppjieba分词支持三种模式的分词,本实施例采用精确模式,即将句子精确地切分开,更适合本实施例中所需要的文本分析。将提取的结构化数据句子利用cppjieba进行分词处理。例如,“高密度训练”会被拆分为“高”、“密度”、“训练”。文本分词的步骤是将提取的文本内容直接输入到cppjieba工具,然后cppjieba工具输出一个分词后的结果。
经过分词之后的文本数据包含一些缺乏实际意义的词汇,如“你”,“或者”,“她”等等,利用停用词表对前面得到的分词文本进行处理,去掉分词结果中包含的没有实际意义的词,得到所使用的文本数据集。
对文本数据集进行向量化预处理,将分好词后的文本数据集作为word2vec的输入中文语料,训练词向量计算工具word2vec模型,词向量维度为100,词向量上下文最大距离为5,取迭代次数为5的词向量计算工具模型,训练完成之后,word2vec模型能够将每个词映射到一个向量,可以用来表示词对词之间的关系。利用训练好的word2vec词向量计算工具,得到文本数据集对应的向量表达。词语W(i)通过word2vec方法被转化为对应的词向量V(W(i)),由W(i)构成的句子矩阵D则得到相应的表达式:
D={V(W(1)),V(W(2)),...,V(W(i))}。
步骤102:构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,提取预处理数据的局部特征数据和全局特征数据。
在一种实施例中,步骤102的过程如图4所示,包括:将提取的预处理数据分为训练集、测试集;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型;
采用训练集中的数据对特征提取模型进行训练至收敛,采用测试集的数据对训练的特征提取模型进行验证;
将预处理数据输入到特征提取模型进行卷积处理,得到局部特征数据;
将预处理数据分别从前向和后向输入到特征提取模型中,保存两个方向的历史信息数据和未来信息数据,并将两个方向的输出数据进行拼接,得到全局特征数据。
举例来说,将提取的预处理数据以3:1的比例分为训练集、测试集,构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,并初始化模型参数,特征提取模型包括:输入层,嵌入层,处理层,全连接层,处理层包括卷积神经网络和双向长短期记忆网络,包括如下参数:卷积层为3个r×k的滤波器f,k表示词向量的维度,r表示滤波器大小,f代表非线性操作的函数,卷积核为128个,激活函数为RELU,池化层的池化操作为最大池化法,Dropout值为0.5,优化函数为Adam,Epoch为100,学习率为0.001,隐藏层大小为128。
将训练集中的数据输入到构建的模型中,通过卷积层采用r×k大小的滤波器F对句子矩阵D进行卷积操作,得到句子矩阵D局部特征数据c:
c=f(F*V{(W(1),W(2),…,W(i))}+b,
其中k表示词向量的维度,r表示滤波器大小,滤波器采取三个不同的大小r1,r2,r3,b代表偏置,f代表非线性操作的函数。
将句子矩阵D输入到模型中双向长短期记忆网络部分时,输入序列分别从前向和后向输入,经过隐藏层保存两个方向的历史信息和未来信息,最后将两个隐藏层的输出部分拼接,得到通过双向长短期记忆网络的输出,通过双向长短期记忆网络模型提取句子矩阵D的全局特征数据。利用双向长短期记忆网络模型能够解决循环神经网络容易导致的梯度消失或者梯度***的问题,同时能够充分考虑当前次的上下文语义信息。主要核心部分是利用记忆门来获取长期的双向信息并采用门机制来进行管理。句子矩阵D通过前向层和后向层来获取数据样本的双向信息,两个层的输出结合在一起作为双向长短期记忆网络的输出部分,由此得到的特征数据是具有全局性的全局特征数据,将文本数据的上下文信息也作为全局特征数据的一部分。
将提取的句子矩阵D局部特征数据和全局特征数据放到同一个数据集中进行融合,该融合特征同时包含文本数据的局部特征数据和全局特征数据,能够更好地实现敏感信息分类,采用误差反向传播算法,调整模型参数,采用常用的交叉熵计算,通过loss判断,当loss达到一定稳定数值为收敛。模型训练结束,采用测试集的数据对训练的特征提取模型进行验证,得到验证的特征提取模型。
将预处理数据中句子矩阵D*输入到验证后的特征提取模型进行卷积处理,得到局部特征数据cj;将预处理数据分别从前向和后向输入到验证后的特征提取模型中,保存两个方向的历史信息数据和未来信息数据,并将两个方向的输出数据进行拼接,得到全局特征数据bj
步骤103:融合提取的局部特征数据和全局特征数据。
在一种实施例中,举例来说,将经过验证后的特征提取模型提取的局部特征数据cj和全局特征数据bj放到同一个数据集,得到包括局部特征数据和全局特征数据的一个数据集,记样本x。
步骤104:将融合后的特征数据进行分类检测,并输出分类检测结果。
在一种实施例中,举例来说,将融合后的特征数据样本x进行分类检测,并输出分类检测结果,包括:将融合后的特征数据样本x输入到softmax分类器中进行分类,并设定判定阈值Q,对于样本x的分类为m类别的概率的公式如下:
Figure BDA0002644498970000091
x(i):第i个输入样本,y(i):第i个输入样本的特征数据,θ:模型训练参数,k:类别的总数,j:第j类,T:矩阵转置运算;
输出分类检测结果R,根据分类检测结果判断是否含有敏感信息,如果R>Q,则判定该文本数据含有敏感信息;否则,判定该文本数据不含有敏感信息。
本发明针对非结构化文本进行自动化检测,检测非结构化文本中是否存在敏感信息,达到有效保护数据的目的。
通过自动化脚本进行非结构化文本的采集,并将含有敏感信息的文本数据与不含有敏感信息的文本数据分别进行标注。我们提出的方法基于Python语言进行开发,采用Pytorch框架进行实现。
基于上述的方法,本说明书一个或多个实施例还提供了一种检测非结构化文本的敏感信息的装置,内部结构框图如图5所示,包括:数据处理模块201,特征提取、融合模块202,数据检测模块203。
数据处理模块201,获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据。具体的,数据处理模块201对非结构化文本数据进行分词预处理,包括:解析非结构化文本数据,提取非结构化文本数据中的结构化数据;将提取的结构化数据进行文本分词处理,得分词文本;对分词文本进行去除停用词处理,得文本数据集;采用文本数据集训练词向量计算工具,词向量维度为100,词向量上下文最大距离为5,取迭代次数为5的词向量计算工具模型;将文本数据集输入到词向量计算工具模型中进行向量化处理;输出文本数据集的向量表达。
特征提取、融合模块202:用于提取预处理数据的局部特征数据和全局特征数据,并融合提取的局部特征数据和全局特征数据。具体的,特征提取、融合模块202,将提取的预处理数据分为训练集、测试集;构建包括卷积神经网络和双向长短期记忆网络的特征提取模型;采用训练集中的数据对特征提取模型进行训练至收敛,采用测试集的数据对训练的特征提取模型进行验证;将预处理数据输入到特征提取模型进行卷积处理,得到局部特征数据;将预处理数据分别从前向和后向输入到特征提取模型中,保存两个方向的历史信息数据和未来信息数据,并将两个方向的输出数据进行拼接,得到全局特征数据。融合提取的局部特征数据和全局特征数据。
数据检测模块203:用于分类检测融合后的特征数据,并输出分类检测结果。具体的,将融合后的特征数据样本x输入到softmax分类器中,进行分类检测结果的输出。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种非结构化文本的敏感信息检测方法,其特征在于,包括:
获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型,提取预处理数据的局部特征数据和全局特征数据;
融合提取的局部特征数据和全局特征数据;
将融合后的特征数据进行分类检测,并输出分类检测结果。
2.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述对非结构化文本数据进行分词预处理,包括:
解析非结构化文本数据,提取非结构化文本数据中的结构化数据;
将提取的结构化数据进行文本分词处理,得分词文本;
对分词文本进行去除停用词处理,得文本数据集。
3.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述向量化预处理,包括:
采用文本数据集训练词向量计算工具,词向量维度为100,词向量上下文最大距离为5,取迭代次数为5的词向量计算工具模型;
将文本数据集输入到词向量计算工具模型中进行向量化处理;
输出文本数据集的向量表达。
4.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述提取预处理数据的局部特征数据和全局特征数据,包括:
将提取的预处理数据分为训练集、测试集;
构建包括卷积神经网络和双向长短期记忆网络的特征提取模型;
采用训练集中的数据对特征提取模型进行训练至收敛,采用测试集的数据对训练的特征提取模型进行验证;
将预处理数据输入到特征提取模型进行卷积处理,得到局部特征数据;
将预处理数据分别从前向和后向输入到特征提取模型中,保存两个方向的历史信息数据和未来信息数据,并将两个方向的输出数据进行拼接,得到全局特征数据。
5.根据权利要求4所述的非结构化文本的敏感信息检测方法,其特征在于,所述特征提取模型包括:输入层,嵌入层,处理层,全连接层,所述处理层包括卷积神经网络和双向长短期记忆网络。
6.根据权利要求4所述的非结构化文本的敏感信息检测方法,其特征在于,所述特征提取模型包括如下参数:卷积层为3个r×k的滤波器f,k表示词向量的维度,r表示滤波器大小,f代表非线性操作的函数,卷积核为128个,激活函数为RELU,池化层的池化操作为最大池化法,Dropout值为0.5,优化函数为Adam,Epoch为100,学习率为0.001,隐藏层大小为128。
7.根据权利要求1所述的非结构化文本的敏感信息检测方法,其特征在于,所述将融合后的特征数据进行分类检测,并输出分类检测结果,包括:
将融合后的特征数据输入到softmax分类器中进行分类,并设定判定阈值Q,对于样本x的分类为m类别的概率的公式如下:
Figure FDA0002644498960000021
x(i):第i个输入样本,y(i):第i个输入样本的特征数据,θ:模型训练参数,k:类别的总数,j:第j类,T:矩阵转置运算;
输出分类检测结果R,根据分类检测结果判断是否含有敏感信息,如果R>Q,则判定该文本数据含有敏感信息;否则,判定该文本数据不含有敏感信息。
8.根据权利要求3所述的非结构化文本的敏感信息检测方法,其特征在于,所述词向量计算工具为word2vec。
9.根据权利要求2所述的非结构化文本的敏感信息检测方法,其特征在于,所述将提取的结构化数据进行文本分词处理是采用cppjieba分词工具进行的分词处理。
10.一种检测权利要求1~9任一所述非结构化文本的敏感信息的装置,其特征在于,包括:
数据处理模块:获取非结构化文本数据,对非结构化文本数据进行分词预处理和向量化预处理,得预处理数据;
特征提取、融合模块:用于提取预处理数据的局部特征数据和全局特征数据,并融合提取的局部特征数据和全局特征数据;
数据检测模块:用于分类检测融合后的特征数据,并输出分类检测结果。
CN202010850308.0A 2020-08-21 2020-08-21 一种非结构化文本的敏感信息检测方法及检测装置 Pending CN112052675A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010850308.0A CN112052675A (zh) 2020-08-21 2020-08-21 一种非结构化文本的敏感信息检测方法及检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010850308.0A CN112052675A (zh) 2020-08-21 2020-08-21 一种非结构化文本的敏感信息检测方法及检测装置

Publications (1)

Publication Number Publication Date
CN112052675A true CN112052675A (zh) 2020-12-08

Family

ID=73599247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010850308.0A Pending CN112052675A (zh) 2020-08-21 2020-08-21 一种非结构化文本的敏感信息检测方法及检测装置

Country Status (1)

Country Link
CN (1) CN112052675A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113672729A (zh) * 2021-07-31 2021-11-19 广州永链信息技术有限责任公司 敏感信息文本分类方法、装置、设备及存储介质
CN113688235A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本多标签分类方法、装置、设备及存储介质
CN114218391A (zh) * 2021-12-30 2022-03-22 闪捷信息科技有限公司 一种基于深度学习技术的敏感信息识别方法
WO2022142106A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 文本分析方法、装置、电子设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169035A (zh) * 2017-04-19 2017-09-15 华南理工大学 一种混合长短期记忆网络和卷积神经网络的文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李洋等: "基于 CNN 和 BiLSTM 网络特征融合的文本情感分析", 《计算机应用》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022142106A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 文本分析方法、装置、电子设备及可读存储介质
CN113672729A (zh) * 2021-07-31 2021-11-19 广州永链信息技术有限责任公司 敏感信息文本分类方法、装置、设备及存储介质
CN113688235A (zh) * 2021-07-31 2021-11-23 广州永链信息技术有限责任公司 文本多标签分类方法、装置、设备及存储介质
CN113672729B (zh) * 2021-07-31 2024-07-09 广州永哲信息技术有限公司 敏感信息文本分类方法、装置、设备及存储介质
CN113688235B (zh) * 2021-07-31 2024-07-09 广州永哲信息技术有限公司 文本多标签分类方法、装置、设备及存储介质
CN114218391A (zh) * 2021-12-30 2022-03-22 闪捷信息科技有限公司 一种基于深度学习技术的敏感信息识别方法

Similar Documents

Publication Publication Date Title
KR102455616B1 (ko) 멀티 모달리티를 기반으로 하는 주제 분류 방법, 장치, 기기 및 저장 매체
CN112052675A (zh) 一种非结构化文本的敏感信息检测方法及检测装置
CN112231472B (zh) 融入领域术语词典的司法舆情敏感信息识别方法
CN110717324B (zh) 裁判文书答案信息提取方法、装置、提取器、介质和设备
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN106570180A (zh) 基于人工智能的语音搜索方法及装置
CN113569050B (zh) 基于深度学习的政务领域知识图谱自动化构建方法和装置
Braz et al. Document classification using a Bi-LSTM to unclog Brazil's supreme court
CN112036705A (zh) 一种质检结果数据获取方法、装置及设备
ALBayari et al. Cyberbullying classification methods for Arabic: A systematic review
CN112069312A (zh) 一种基于实体识别的文本分类方法及电子装置
CN113722492A (zh) 一种意图识别方法及装置
CN114491018A (zh) 敏感信息检测模型的构建方法、敏感信息检测方法及装置
Najafi et al. Text-to-Text Transformer in Authorship Verification Via Stylistic and Semantical Analysis.
CN116150651A (zh) 基于ai的深度合成检测方法和***
CN115080750A (zh) 基于融合提示序列的弱监督文本分类方法、***和装置
CN114117041B (zh) 一种基于特定属性词上下文建模的属性级情感分析方法
CN114881043A (zh) 基于深度学习模型的法律文书语义相似度评估方法及***
CN117235605B (zh) 一种基于多模态注意力融合的敏感信息分类方法及装置
CN117332789A (zh) 一种面向对话场景的语义分析方法及***
CN116029280A (zh) 一种文档关键信息抽取方法、装置、计算设备和存储介质
CN115115432B (zh) 基于人工智能的产品信息推荐方法及装置
KR20210065390A (ko) 텍스트의 계층적 특성을 반영한 문맥적 비윤리 탐지 장치 및 방법
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN114298041A (zh) 网络安全命名实体的识别方法及识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20201208

RJ01 Rejection of invention patent application after publication