CN112052675A

CN112052675A - 一种非结构化文本的敏感信息检测方法及检测装置

Info

Publication number: CN112052675A
Application number: CN202010850308.0A
Authority: CN
Inventors: 徐国爱; 蔺岩; 徐国胜; 王浩宇; 郭燕慧; 张淼
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2020-08-21
Filing date: 2020-08-21
Publication date: 2020-12-08

Abstract

本说明书一个或多个实施例提供一种非结构化文本的敏感信息检测方法及其检测装置，首先对非结构化文本数据的预处理得到文本数据的向量表达，然后提取预处理文本数据的局部特征数据和全局特征数据，最后将提取的局部特征数据和全局特征数据进行融合和分类检测；利用基于深度学习的文本分类模型对含有敏感信息的文本进行区分，采用自动化的检测方法检测公开数据集文本中是否存在敏感信息，达到取代传统的人工检测方法的目的，提高数据信息保护的工作效率，提高数据信息保护检测的准确率，利用卷积神经网络提取局部特征数据的优势特点，同时利用双向长短时记忆网络提取全局特征数据的优势，实现对文本数据特征更充分的利用，提高敏感信息检测的准确效果。

Description

一种非结构化文本的敏感信息检测方法及检测装置

技术领域

本说明书一个或多个实施例涉及敏感信息检测方法技术领域，尤其涉及一种非结构化文本的敏感信息检测方法及检测装置。

背景技术

目前，中国网民规模已超8亿，互联网普及率达71.4％，数字经济总量达31.3万亿元。随着5G时代、万物互联时代的到来，网络安全面临新的难题。网络空间安全不仅关系着人们日常的生产生活，更是维护国家安全的重要战略要塞。在飞速发展的今天，网络成为人们日常生活的重要组成部分，数据作为网络各项功能的载体，规模不断增加，种类多样，其中包括日常使用的各种用户数据信息，网络自媒体及政务部分的各项办公数据。为我们带来便捷生活的同时，也存在各种各样的敏感信息数据泄露问题。

现阶段对于敏感信息和敏感信息的检测方法，主要包括敏感词字典匹配技术，依赖所构建的敏感词字典中的字符串匹配算法来完成敏感信息的检测；传统的机器学习算法，使用空间向量中的一个向量来表示文档，该向量的每一维度表示文档的一个特征值，通过计算文本向量和主题向量之间的空间距离，来判定文本类型，该方法主要是基于数据集中存在的敏感信息进行检测；递归神经网络方法检测文本文档中所包含的敏感数据信息主要是通过对文本文档的语义学习来完成的，通过递归神经网络将敏感性分数分配给句子结构的语义成分，实现敏感信息的检测，达到数据保护的目的。

虽然上述方法都能实现对敏感信息的检测，但是由于敏感词字典匹配技术中的敏感词字典是人为制定，往往存在不同客体差异的影响，直接影响敏感词信息检测效果的可靠性；传统的机器学习算法在有效特征的筛选工作上仍然需要人力判断合适的检测依据，效率较低，且难以应用于实际的生产实践中；递归神经网络在处理文本时，由于其处理文本需要按序一个个处理的特点，无法实现多GPU的并行运算，采用该方法浪费对现有科技资源的有效利用，识别速率较差，难以满足敏感信息检测的及时性要求。

发明内容

有鉴于此，本说明书一个或多个实施例的目的在于提出一种非结构化文本的敏感信息检测方法及检测装置，以解决现有技术敏感信息检测的可靠性差、检测效率低和及时性差的问题。

基于上述目的，本说明书一个或多个实施例提供了一种非结构化文本的敏感信息检测方法，包括：

获取非结构化文本数据，对非结构化文本数据进行分词预处理和向量化预处理，得预处理数据；

构建包括卷积神经网络和双向长短期记忆网络的特征提取模型，提取预处理数据的局部特征数据和全局特征数据；

融合提取的局部特征数据和全局特征数据；

将融合后的特征数据进行分类检测，并输出分类检测结果。

可选的，所述对非结构化文本数据进行分词预处理，包括：

解析非结构化文本数据，提取非结构化文本数据中的结构化数据；

将提取的结构化数据进行文本分词处理，得分词文本；

对分词文本进行去除停用词处理，得文本数据集。

可选的，所述向量化预处理，包括：

采用文本数据集训练词向量计算工具，词向量维度为100，词向量上下文最大距离为5，取迭代次数为5的词向量计算工具模型；

将文本数据集输入到词向量计算工具模型中进行向量化处理；

输出文本数据集的向量表达。

可选的，所述构建特征提取模型，提取预处理数据的局部特征数据和全局特征数据，包括：

将提取的预处理数据分为训练集、测试集；

构建包括卷积神经网络和双向长短期记忆网络的特征提取模型；

采用训练集中的数据对特征提取模型进行训练至收敛，采用测试集的数据对训练的特征提取模型进行验证；

将预处理数据输入到特征提取模型进行卷积处理，得到局部特征数据；

将预处理数据分别从前向和后向输入到特征提取模型中，保存两个方向的历史信息数据和未来信息数据，并将两个方向的输出数据进行拼接，得到全局特征数据。

可选的，所述特征提取模型包括：输入层，嵌入层，处理层，全连接层，所述处理层包括卷积神经网络和双向长短期记忆网络。

可选的，所述特征提取模型包括如下参数：卷积层为3个r×k的滤波器f，k表示词向量的维度，r表示滤波器大小，f代表非线性操作的函数，卷积核为128个，激活函数为RELU，池化层的池化操作为最大池化法，Dropout值为0.5，优化函数为Adam，Epoch为100，学习率为0.001，隐藏层大小为128。

可选的，所述将融合后的特征数据进行分类检测，并输出分类检测结果，包括：

将融合后的特征数据输入到softmax分类器中进行分类，并设定判定阈值Q，对于样本x的分类为m类别的概率的公式如下：

x⁽ⁱ⁾：第i个输入样本，y⁽ⁱ⁾：第i个输入样本的特征数据，θ：模型训练参数，k：类别的总数，j：第j类，T：矩阵转置运算；

输出分类检测结果R，根据分类检测结果判断是否含有敏感信息，如果R>Q，则判定该文本数据含有敏感信息；否则，判定该文本数据不含有敏感信息。

可选的，所述词向量计算工具为word2vec。

可选的，所述将提取的结构化数据进行文本分词处理是采用cppjieba分词工具进行的分词处理。

一种检测所述非结构化文本的敏感信息的装置，包括：

数据处理模块：获取非结构化文本数据，对非结构化文本数据进行分词预处理和向量化预处理，得预处理数据；

特征提取、融合模块：用于提取预处理数据的局部特征数据和全局特征数据，并融合提取的局部特征数据和全局特征数据；

数据检测模块：用于分类检测融合后的特征数据，并输出分类检测结果。

从上面所述可以看出，本说明书一个或多个实施例提供的一种非结构化文本的敏感信息检测方法及其检测装置，首先对非结构化文本数据的预处理得到文本数据的向量表达，然后提取预处理文本数据的局部特征数据和全局特征数据，最后将提取的局部特征数据和全局特征数据进行融合和分类检测，由于检测的文本特征数据中包含数据的局部特征数据和全局特征数据，能够更好地实现敏感信息分类。

利用基于深度学习的文本分类模型对含有敏感信息的文本进行区分，采用自动化的检测方法检测公开数据集文本中是否存在敏感信息，达到取代传统的人工检测方法的目的，提高数据信息保护的工作效率，提高数据信息保护检测的准确率，利用卷积神经网络提取局部特征数据的优势特点，同时利用双向长短时记忆网络提取全局特征数据的优势，实现对文本数据特征更充分的利用，提高敏感信息检测的准确效果。有助于国家及用户更高效地发现敏感信息安全隐患，极大地提高数据信息安全。

附图说明

为了更清楚地说明本说明书一个或多个实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书一个或多个实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书一个或多个实施例非结构化文本的敏感信息检测方法流程图；

图2为本说明书一个或多个实施例非结构化文本分词预处理过程图；

图3为本说明书一个或多个实施例非结构化文本向量化预处理过程图；

图4为本说明书一个或多个实施例提取特征数据过程图；

图5为本说明书一个或多个实施例检测非结构化文本的敏感信息的装置内部结构框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本公开进一步详细说明。

可知的，目前用于检测敏感信息的方法中，由于敏感词字典匹配技术中的敏感词字典是人为制定，往往存在不同客体差异的影响，直接影响敏感词信息检测效果的可靠性；传统的机器学习算法在有效特征的筛选工作上仍然需要人力判断合适的检测依据，效率较低，且难以应用于实际的生产实践中；递归神经网络在处理文本时，由于其处理文本需要按序一个个处理的特点，无法实现多GPU的并行运算，采用该方法浪费对现有科技资源的有效利用，识别速率较差，难以满足敏感信息检测的及时性要求。因此，现有技术中用于检测敏感信息的方法存在可靠性差、检测效率低和及时性差的问题。

为了解决上述问题，本说明书一个或多个实施例提供了一种非结构化文本的敏感信息检测方法，包括：

融合提取的局部特征数据和全局特征数据；

将融合后的特征数据进行分类检测，并输出分类检测结果。

首先对非结构化文本数据的预处理得到文本数据的向量表达，然后提取预处理文本数据的局部特征数据和全局特征数据，最后将提取的局部特征数据和全局特征数据进行融合和分类检测，由于检测的文本特征数据中包含数据的局部特征数据和全局特征数据，能够更好地实现敏感信息分类。

具体的，本说明书一个或多个实施例提供了一种非结构化文本的敏感信息检测方法，流程如图1所示，包括如下步骤：

步骤101：获取非结构化文本数据，对非结构化文本数据进行分词预处理和向量化预处理，得预处理数据。

在一种实施例中，步骤101的对非结构化文本数据进行分词预处理，过程如图2所示，包括：解析非结构化文本数据，提取非结构化文本数据中的结构化数据；

将提取的结构化数据进行文本分词处理，得分词文本；

对分词文本进行去除停用词处理，得文本数据集。

步骤101的向量化预处理，过程如图3所示，包括：

输出文本数据集的向量表达。

举例来说，步骤101，通过维基解密爬取含有敏感信息的文本，非敏感信息文本从新闻数据集中获取，敏感信息以军事，政治为主，非结构化文本数据主要针对中文文本文件，是指不能够用于数据库中的二维表表示的数据，包括Microsoft Word，MicrosoftExcel，Microsoft PPT，PDF等类型的办公文件，首先需要对非结构化文本进行解析以提取文本数据，Microsoft Word文件在解压操作之后包含一个word文件夹，从word文件夹的document.xml文件中能够提取相关文本数据。Microsoft Excel文件通过解压操作后得到的sharedStrings.xml文件中提取文本数据，Microsoft PPT文件通过解压操作后得到的slide.xml文件提取文本数据。PDF可以通过但不限于开源软件进行文本数据的提取，得到提取的结构化数据。

使用cppjieba包将提取出的文本结构化数据进行文本分词。cppjieba自带的词典库包含约两万条中文词汇，本实施例主要针对中文数据的政治与军事类别的敏感信息，为达到可以使用的标准，对cppjieba自带的字典库进行扩充。cppjieba分词支持三种模式的分词，本实施例采用精确模式，即将句子精确地切分开，更适合本实施例中所需要的文本分析。将提取的结构化数据句子利用cppjieba进行分词处理。例如，“高密度训练”会被拆分为“高”、“密度”、“训练”。文本分词的步骤是将提取的文本内容直接输入到cppjieba工具，然后cppjieba工具输出一个分词后的结果。

经过分词之后的文本数据包含一些缺乏实际意义的词汇，如“你”，“或者”，“她”等等，利用停用词表对前面得到的分词文本进行处理，去掉分词结果中包含的没有实际意义的词，得到所使用的文本数据集。

对文本数据集进行向量化预处理，将分好词后的文本数据集作为word2vec的输入中文语料，训练词向量计算工具word2vec模型，词向量维度为100，词向量上下文最大距离为5，取迭代次数为5的词向量计算工具模型，训练完成之后，word2vec模型能够将每个词映射到一个向量，可以用来表示词对词之间的关系。利用训练好的word2vec词向量计算工具，得到文本数据集对应的向量表达。词语W(i)通过word2vec方法被转化为对应的词向量V(W(i))，由W(i)构成的句子矩阵D则得到相应的表达式：

D＝{V(W(1))，V(W(2))，...，V(W(i))}。

步骤102：构建包括卷积神经网络和双向长短期记忆网络的特征提取模型，提取预处理数据的局部特征数据和全局特征数据。

在一种实施例中，步骤102的过程如图4所示，包括：将提取的预处理数据分为训练集、测试集；

举例来说，将提取的预处理数据以3:1的比例分为训练集、测试集，构建包括卷积神经网络和双向长短期记忆网络的特征提取模型，并初始化模型参数，特征提取模型包括：输入层，嵌入层，处理层，全连接层，处理层包括卷积神经网络和双向长短期记忆网络，包括如下参数：卷积层为3个r×k的滤波器f，k表示词向量的维度，r表示滤波器大小，f代表非线性操作的函数，卷积核为128个，激活函数为RELU，池化层的池化操作为最大池化法，Dropout值为0.5，优化函数为Adam，Epoch为100，学习率为0.001，隐藏层大小为128。

将训练集中的数据输入到构建的模型中，通过卷积层采用r×k大小的滤波器F对句子矩阵D进行卷积操作，得到句子矩阵D局部特征数据c：

c＝f(F*V{(W(1),W(2),…,W(i))}+b，

其中k表示词向量的维度，r表示滤波器大小，滤波器采取三个不同的大小r1，r2，r3，b代表偏置，f代表非线性操作的函数。

将句子矩阵D输入到模型中双向长短期记忆网络部分时，输入序列分别从前向和后向输入，经过隐藏层保存两个方向的历史信息和未来信息，最后将两个隐藏层的输出部分拼接，得到通过双向长短期记忆网络的输出，通过双向长短期记忆网络模型提取句子矩阵D的全局特征数据。利用双向长短期记忆网络模型能够解决循环神经网络容易导致的梯度消失或者梯度***的问题，同时能够充分考虑当前次的上下文语义信息。主要核心部分是利用记忆门来获取长期的双向信息并采用门机制来进行管理。句子矩阵D通过前向层和后向层来获取数据样本的双向信息，两个层的输出结合在一起作为双向长短期记忆网络的输出部分，由此得到的特征数据是具有全局性的全局特征数据，将文本数据的上下文信息也作为全局特征数据的一部分。

将提取的句子矩阵D局部特征数据和全局特征数据放到同一个数据集中进行融合，该融合特征同时包含文本数据的局部特征数据和全局特征数据，能够更好地实现敏感信息分类，采用误差反向传播算法，调整模型参数，采用常用的交叉熵计算，通过loss判断，当loss达到一定稳定数值为收敛。模型训练结束，采用测试集的数据对训练的特征提取模型进行验证，得到验证的特征提取模型。

将预处理数据中句子矩阵D^*输入到验证后的特征提取模型进行卷积处理，得到局部特征数据c_j；将预处理数据分别从前向和后向输入到验证后的特征提取模型中，保存两个方向的历史信息数据和未来信息数据，并将两个方向的输出数据进行拼接，得到全局特征数据b_j。

步骤103：融合提取的局部特征数据和全局特征数据。

在一种实施例中，举例来说，将经过验证后的特征提取模型提取的局部特征数据c_j和全局特征数据b_j放到同一个数据集，得到包括局部特征数据和全局特征数据的一个数据集，记样本x。

步骤104：将融合后的特征数据进行分类检测，并输出分类检测结果。

在一种实施例中，举例来说，将融合后的特征数据样本x进行分类检测，并输出分类检测结果，包括：将融合后的特征数据样本x输入到softmax分类器中进行分类，并设定判定阈值Q，对于样本x的分类为m类别的概率的公式如下：

本发明针对非结构化文本进行自动化检测，检测非结构化文本中是否存在敏感信息，达到有效保护数据的目的。

通过自动化脚本进行非结构化文本的采集，并将含有敏感信息的文本数据与不含有敏感信息的文本数据分别进行标注。我们提出的方法基于Python语言进行开发，采用Pytorch框架进行实现。

基于上述的方法，本说明书一个或多个实施例还提供了一种检测非结构化文本的敏感信息的装置，内部结构框图如图5所示，包括：数据处理模块201，特征提取、融合模块202，数据检测模块203。

数据处理模块201，获取非结构化文本数据，对非结构化文本数据进行分词预处理和向量化预处理，得预处理数据。具体的，数据处理模块201对非结构化文本数据进行分词预处理，包括：解析非结构化文本数据，提取非结构化文本数据中的结构化数据；将提取的结构化数据进行文本分词处理，得分词文本；对分词文本进行去除停用词处理，得文本数据集；采用文本数据集训练词向量计算工具，词向量维度为100，词向量上下文最大距离为5，取迭代次数为5的词向量计算工具模型；将文本数据集输入到词向量计算工具模型中进行向量化处理；输出文本数据集的向量表达。

特征提取、融合模块202：用于提取预处理数据的局部特征数据和全局特征数据，并融合提取的局部特征数据和全局特征数据。具体的，特征提取、融合模块202，将提取的预处理数据分为训练集、测试集；构建包括卷积神经网络和双向长短期记忆网络的特征提取模型；采用训练集中的数据对特征提取模型进行训练至收敛，采用测试集的数据对训练的特征提取模型进行验证；将预处理数据输入到特征提取模型进行卷积处理，得到局部特征数据；将预处理数据分别从前向和后向输入到特征提取模型中，保存两个方向的历史信息数据和未来信息数据，并将两个方向的输出数据进行拼接，得到全局特征数据。融合提取的局部特征数据和全局特征数据。

数据检测模块203：用于分类检测融合后的特征数据，并输出分类检测结果。具体的，将融合后的特征数据样本x输入到softmax分类器中，进行分类检测结果的输出。

所属领域的普通技术人员应当理解：以上任何实施例的讨论仅为示例性的，并非旨在暗示本公开的范围(包括权利要求)被限于这些例子；在本公开的思路下，以上实施例或者不同实施例中的技术特征之间也可以进行组合，步骤可以以任意顺序实现，并存在如上所述的本说明书一个或多个实施例的不同方面的许多其它变化，为了简明它们没有在细节中提供。

本说明书一个或多个实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种非结构化文本的敏感信息检测方法，其特征在于，包括：

融合提取的局部特征数据和全局特征数据；

将融合后的特征数据进行分类检测，并输出分类检测结果。

2.根据权利要求1所述的非结构化文本的敏感信息检测方法，其特征在于，所述对非结构化文本数据进行分词预处理，包括：

将提取的结构化数据进行文本分词处理，得分词文本；

对分词文本进行去除停用词处理，得文本数据集。

3.根据权利要求1所述的非结构化文本的敏感信息检测方法，其特征在于，所述向量化预处理，包括：

输出文本数据集的向量表达。

4.根据权利要求1所述的非结构化文本的敏感信息检测方法，其特征在于，所述提取预处理数据的局部特征数据和全局特征数据，包括：

将提取的预处理数据分为训练集、测试集；

5.根据权利要求4所述的非结构化文本的敏感信息检测方法，其特征在于，所述特征提取模型包括：输入层，嵌入层，处理层，全连接层，所述处理层包括卷积神经网络和双向长短期记忆网络。

6.根据权利要求4所述的非结构化文本的敏感信息检测方法，其特征在于，所述特征提取模型包括如下参数：卷积层为3个r×k的滤波器f，k表示词向量的维度，r表示滤波器大小，f代表非线性操作的函数，卷积核为128个，激活函数为RELU，池化层的池化操作为最大池化法，Dropout值为0.5，优化函数为Adam，Epoch为100，学习率为0.001，隐藏层大小为128。

7.根据权利要求1所述的非结构化文本的敏感信息检测方法，其特征在于，所述将融合后的特征数据进行分类检测，并输出分类检测结果，包括：

8.根据权利要求3所述的非结构化文本的敏感信息检测方法，其特征在于，所述词向量计算工具为word2vec。

9.根据权利要求2所述的非结构化文本的敏感信息检测方法，其特征在于，所述将提取的结构化数据进行文本分词处理是采用cppjieba分词工具进行的分词处理。

10.一种检测权利要求1～9任一所述非结构化文本的敏感信息的装置，其特征在于，包括：