CN111310205B

CN111310205B - 敏感信息的检测方法、装置、计算机设备和存储介质

Info

Publication number: CN111310205B
Application number: CN202010086751.5A
Authority: CN
Inventors: 谭杰
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-11
Filing date: 2020-02-11
Publication date: 2024-05-10
Anticipated expiration: 2040-02-11
Also published as: CN111310205A; WO2021159642A1

Abstract

本申请涉及信息安全领域，尤其是一种敏感信息的检测方法、装置、计算机设备和存储介质。包括：拦截外发邮件，提取出第一文字数据；获取预设监控字段，从第一文字数据中识别出与预设监控字段对应的第一监控字段值；并进行组合生成第一组合特征，将第一组合特征输入敏感数据检测模型中得到第一敏感概率；当第一敏感概率小于等于预设值时，则提取外发邮件的附件；对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变；当解析后的文件数据发生改变时，则判定外发邮件存在数据泄露；提取解析后的文件数据中的发生改变的数据，并生成第一预警信息；将提取的数据和第一预警信息发送至管理终端。采用本方法能够提高邮件检测的准确率。

Description

敏感信息的检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及安全管控技术领域，特别是涉及一种敏感信息的检测方法、装置、计算机设备和存储介质。

背景技术

由于业务需求，公司内网邮件经常需要外发，但公司的内网存在大量敏感数据，如客户的敏感信息、关键***的技术方案以及公司的财务信息、员工信息等。因此邮件管控对于邮件安全至关重要。现在的邮件审计***会对邮件文字中出现的敏感词汇进行设计检查，但是，随着信息隐写技术的发展，许多人或利用隐写技术将敏感信息隐藏至附件中，而现有的审计***无法检测出这些隐藏信息，导致产生许多漏网之鱼，邮件检测的准确率很低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高邮件检测的准确率的邮件检测方法、装置、计算机设备和存储介质。

一种敏感信息的检测方法，所述方法包括：

拦截外发邮件，并从所拦截的外发邮件中提取出第一文字数据；

获取预设监控字段，并从所述第一文字数据中识别出与所述预设监控字段对应的第一监控字段值；

对所述第一监控字段值进行组合生成第一组合特征，并将所述第一组合特征输入敏感数据检测模型中得到第一敏感概率；

当所述第一敏感概率小于等于预设值时，则提取所述外发邮件的附件；

对所述附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变；

当解析后的文件数据发生改变时，则判定所述外发邮件存在数据泄露；

提取解析后的文件数据中的发生改变的数据，并生成第一预警信息；

将提取的数据和第一预警信息发送至管理终端。

在其中一个实施例中，所述方法还包括：

当解析后的文件数据未发生改变时，则从解析后的文档类型的附件中提取第二文字数据；

将所述第二文字数据输入至敏感数据检测模型中进行敏感信息检测；

当所述第二文字数据检测到敏感信息时，则判定所述外发邮件存在数据泄露；

提取检测到的敏感信息，并生成第二预警信息；

将所提取到的敏感信息和第二预警信息发送至管理终端。

在其中一个实施例中，述对所述附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：

对所述附件中的压缩包附件进行解压，并识别解压后的文件以及文件类型；

取消文件类型为文档类型的附件的文字隐藏设置，并判断取消设置后的附件是否存在新增文字；

采用图像隐写检测算法对文件类型为图像类型的附件进行隐写检测；

当存在新增文字和/或检测到图像类型的附件进行了隐写时，则判定解析后的文件数据发生了改变。

在其中一个实施例中，所述对所述附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：

将文件类型为文档类型的附件还原为压缩包文件；

检测压缩包文件中是否还包括除文档类型的附件之外的多余文件；

当检测到多余文件时，则判定解析后的文件数据发生了改变。

在其中一个实施例中，所述将所述第二文字数据输入至敏感数据检测模型中进行敏感信息检测，包括：

从所述第二文字数据中识别出与预设监控字段对应的第二监控字段值；

对所述第二监控字段值进行组合生成第二组合特征，并将所述第二组合特征输入敏感数据检测模型中得到第二敏感概率；

当所述第二敏感概率大于预设概率值时，则判定检测到敏感信息。

在其中一个实施例中，所述从所拦截的外发邮件中提取出第一文字数据，包括：

根据所述外发邮件的邮件标题和邮件正文生成第一文字数据；

所述从所拦截的外发邮件中提取出第一文字数据之后，还包括：

根据敏感字符列表识别所述第一文字数据中是否存在敏感字符；

当未识别到敏感字符时，则继续获取预设监控字段。

一种敏感信息的检测装置，所述装置包括：

拦截模块，用于拦截外发邮件，并从所拦截的外发邮件中提取出第一文字数据；

第一识别模块，用于获取预设监控字段，并从所述第一文字数据中识别出与所述预设监控字段对应的第一监控字段值；

第一敏感概率获取模块，用于对所述第一监控字段值进行组合生成第一组合特征，并将所述第一组合特征输入敏感数据检测模型中得到第一敏感概率；

第一提取模块，用于当所述第一敏感概率小于等于预设值时，则提取所述外发邮件的附件；

解析模块，用于对所述附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变第一判定模块，用于当解析后的文件数据发生改变时，则判定所述外发邮件存在数据泄露；

第二提取模块，用于提取解析后的文件数据中的发生改变的数据，并生成第一预警信息；

第一发送模块，用于将提取的数据和第一预警信息发送至管理终端。

在其中一个实施例中，所述装置还包括：

第三提取模块，用于当解析后的文件数据未发生改变时，则从解析后的文档类型的附件中提取第二文字数据；

敏感信息检测模块，用于将所述第二文字数据输入至敏感数据检测模型中进行敏感信息检测；

第二判定模块，用于当所述第二文字数据检测到敏感信息时，则判定所述外发邮件存在数据泄露；

第四提取模块，用于提取检测到的敏感信息，并生成第二预警信息；

第二发送模块，用于将所提取到的敏感信息和第二预警信息发送至管理终端。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

上述敏感信息的检测方法、装置、计算机设备和存储介质，除了对邮件正文文字部分进行检测之外，还对邮件附件中的数据进行反隐藏解析，通过判断解析后的文件数据是否发生改变以判断邮件是否存在泄漏，且在邮件存在数据泄漏的时候，生成第一预警信息，并发送给管理终端，从而提高信息检测的全面性和准确性，进而提高外发邮件的信息安全。

附图说明

图1为一个实施例中敏感信息的检测方法的应用场景图；

图2为一个实施例中敏感信息的检测方法的流程示意图；

图3为另一个实施例中敏感信息的检测方法的流程示意图；

图4为一个实施例中敏感信息的检测装置的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的敏感信息的检测方法，可以应用于如图1所示的应用环境中。其中，用户终端102以及管理终端106通过网络与服务器104通过网络进行通信。用户终端102在向外网发送外发邮件的时候，该邮件被服务器104所拦截，服务器从所拦截的外发邮件中提取出第一文字数据，并获取预设监控字段，并从第一文字数据中识别出与预设监控字段对应的第一监控字段值，然后对第一监控字段值进行组合生成第一组合特征，这样将第一组合特征输入敏感数据检测模型得到第一敏感概率，当第一敏感概率大于预设值，则说明存在数据泄露，否则也就是说未检测到敏感信息时，则提取外发邮件的附件，对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，如果发生改变，则判定外发邮件存在数据泄露；服务器104提取解析后的文件数据中的发生改变的数据，并生成第一预警信息；将提取的数据和第一预警信息发送至管理终端106。其中，用户终端102以及管理终端106可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种敏感信息的检测方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S202：拦截外发邮件，并从所拦截的外发邮件中提取出第一文字数据。

具体地，外发邮件是指用户终端由内网发送到外网的邮件，服务器可以通过判断收件人的邮箱后缀或者是域名是否为内网邮箱的后缀或域名，如果不是，则判定邮件为外发邮件。

第一文字数据是指外发邮件的标题、正文信息等。

服务器对发送至***外部的外发邮件进行监控，如可以通过检测外发邮件域名的方式判断是否为外发邮件，并对外发邮件进行拦截，然后从外发邮件中提取邮件标题和正文文字数据作为第一文字数据，并对第一文字数据进行敏感信息检测，例如可以识别邮件标题和正文文字数据中是否存在预设的敏感字符等，例如服务器检测文字部分是否存在敏感信息时，可以检测是否存在敏感词汇，及是否存在不允许外发的隐藏字符组合等敏感信息。

S204：获取预设监控字段，并从测样本中识别出与预设监控字段对应的第一监控字段值。

具体地，文字中单个的信息未必属于敏感词汇，但是，若对一些信息进行组合，则组合得到的信息可能是不允许出现的敏感信息，如险种为健康险、新增保险项目、保额上限，这三个字段的组合可能涉及了一个新上线保险项目的商业机密，是敏感信息，不允许外发的，但单独检测某个字段是无法判断的。为此，服务器预先设置需要监控的字段，获取预设监控字段，根据预设监控字段对文字数据进行信息提取，例如从测样本中识别出与所述预设监控字段对应的第一监控字段值。如保额上限字段对应的字段值为100万等，也可事先设置监控字段的数据格式，根据数据格式进行字段值提取和校验。

S206：对第一监控字段值进行组合生成第一组合特征，并将第一组合特征输入敏感数据检测模型中得到第一敏感概率。

具体地，其中第一监控字段值进行组合生成第一组合特征，可以是将第一监控字段值进行拼接，例如查询预设监控字段和对应的监控字段值，然后按照预设监控字段-第一监控字段值-预设监控字段-第一监控字段值的形式来进行组合得到第一组合特征。其中，可选地，服务器先判断提取出的第一监控字段值个数是否小于监测下限数量，如2个，3个，如未超过，则判定未检测到敏感信息，若超过，则将第一组合特征输入敏感数据检测模型。敏感数据检测模型是根据多个样本数据进行训练得到的，敏感数据检测模型可以计算出第一组合特征为敏感信息的概率，并根据样本训练结果设定预设概率阈值，超过该阈值，则判定为敏感信息。

S208：当第一敏感概率小于等于预设值，则提取外发邮件的附件。

具体地，当服务器未从文字中检测出敏感信息时，服务器检测邮件是否存在附件，若不存在附件，则判定外发邮件中不存在泄漏信息。当邮件中存在附件时，服务器提取出邮件附件。附件可以为word、pdf文档等，也可以为图片、压缩包等文件。

S210：对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变。

S212：当解析后的文件数据发生改变时，则判定外发邮件存在数据泄露。

具体地，服务器检测附件中是否存在隐藏的数据。具体地，附件可以为word、pdf文档等，也可以为图片、压缩包等文件，服务器检测这些文件中是否隐藏的数据、隐写的数据，及文档正文部分是否包含隐藏组合的敏感信息等，根据以上的检测结果综合判断附件中是否存在隐藏数据，当判断出存在隐藏数据时，则判定外发邮件存在泄漏信息，反之，不存在泄漏信息。具体地，如果附件中是存在隐藏数据的，也就是说不排除用户为了发送不能外发的数据，而进行了隐写，这样为了保证数据的安全，则判定外发邮件存在数据泄露。

在实际应用中，服务器对各个附件文件进行反隐藏解析，反隐藏解析可以包括检测word文档中隐藏了文字，图片是否进行了隐写等，将附件文件还原成初始状态，判断当前状态等文件与初始文件相比是否存在数据增加或改变，只要发现某个附件等数据发生了改变，则判定外发邮件中存在泄漏信息。

各附件的检测顺序可以不做限定，也可以根据文件的类型检测时所花费的时间，从小至大的顺序进行设定，如先检测word等文档数据是否隐藏了数据，再检测图像类型的文件是否进行了隐写等。

在本实施例中，根据附件是否发生数据改变，对附件是否隐藏数据进行初检，并可对附件检测顺序进行设定，以尽可能减少检测时间。

S214：提取解析后的文件数据中的发生改变的数据，并生成第一预警信息。

S216：将提取的数据和第一预警信息发送至管理终端。

具体地，当判定出外发邮件中存在泄漏信息时，服务器将隐藏数据提取出来，及发生改变的数据提取出来，并生成信息预警，将隐藏数据和信息预警发送至管理终端。

上述敏感信息的检测方法，除了对邮件正文文字部分进行检测之外，还对邮件附件中的数据进行反隐藏解析，通过判断解析后的文件数据是否发生改变以判断邮件是否存在泄漏，且在邮件存在数据泄漏的时候，生成第一预警信息，并发送给管理终端，从而提高信息检测的全面性和准确性，进而提高外发邮件的信息安全。

在其中一个实施例中，上述敏感信息的检测方法还包括：当解析后的文件数据未发生改变时，则从解析后的文档类型的附件中提取第二文字数据；将第二文字数据输入至敏感数据检测模型中进行敏感信息检测；当第二文字数据检测到敏感信息时，则判定外发邮件存在数据泄露；提取检测到的敏感信息，并生成第二预警信息；将所提取到的敏感信息和第二预警信息发送至管理终端。

服务器检测出文件数据未发生改变时，将所有文档类型的附件中提取出第二文字数据，文档类型的数据可以包括word、excel、pdf等数据，可以对提取出的第二文字数据进行语义识别和特征提取，将提取出的特征输入预先训练好的敏感数据检测模型进行检测，根据模型输出的敏感信息匹配概率，来判断第二文字数据中是否存在敏感信息。

敏感数据检测的目的是检测出文档文字中是否存在不允许外发的敏感信息，这些信息不是根据单个的特征直接判断是否敏感，而是需要进行特征组合判断和匹配，是文字中隐藏组合信息。

在本实施例中，在对附件是否进行了信息隐藏操作检测的基础上，进一步对附件文字中可能隐藏的敏感信息进行了检测，进一步提高了检测信息的全面性。

在其中一个实施例中，对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：对附件中的压缩包附件进行解压，并识别解压后的文件以及文件类型；取消文件类型为文档类型的附件的文字隐藏设置，并判断取消设置后的附件是否存在新增文字；采用图像隐写检测算法对文件类型为图像类型的附件进行隐写检测；当存在新增文字和/或检测到图像类型的附件进行了隐写时，则判定解析后的文件数据发生了改变。

具体地，服务器先检测附件中是否存在压缩包，在存在压缩包时，将压缩包解压得到独立的文件，并识别出解压后的文件和其他附件文件的类型。

文档类型的附件可以为word、excel、pdf等，判断文档是否进行了隐藏设置，若进行了隐藏设置，则解除其设置，判断解除设置后的文档相对于初始文档是否发生数据改变，若改变，则结束检测。

若未发生改变，则检测文档中是否存在图像，若存在，将文档中的图像提取出来，并与其他图片类型的附件一起进行图像隐写检测，可以调用隐写检测工具进行检测，若检测出图像进行了隐写，则结束检测，判断定析后的文件数据发生改变。

可选地，上述针对文档类型的附件以及图片类型的附件的隐写检测可以是同步进行，即设置两个线程，一个线程针对文档类型分附件进行检测，另外一个线程针对图片类型的附件进行检测。

上述实施例中，针对附件中的文档类型的附件以及图片类型的附件分别进行隐写检测，可以提高检测的效率。

在其中一个实施例中，对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：将文件类型为文档类型的附件还原为压缩包文件；检测压缩包文件中是否还包括除文档类型的附件之外的多余文件；当检测到多余文件时，则判定解析后的文件数据发生了改变。

具体地，以word文档为例，word文档实际上可以看作为一个压缩包，这个重新打包的过程中可能会加入新的文件，添加xml文件或者其它的一些文件，而显示出来只有一个word文档。

服务器将文档类型的附件还原为压缩包文件，如可以通过转变文档后缀的方式进行还原，判断还原后的压缩包中是否存在除文档文件之外的其他文件，若检测到其他文件，则判定解析后的文件数据发生改变。

在本实施中，除了对文档附件的文字隐藏进行解析之外，对其可能出现的文件隐藏方式进行进一步检测。

在其中一个实施例中，将第二文字数据输入至敏感数据检测模型中进行敏感信息检测，包括：从第二文字数据中识别出与预设监控字段对应的第二监控字段值；对第二监控字段值进行组合生成第二组合特征，并将第二组合特征输入敏感数据检测模型中得到第二敏感概率；当第二敏感概率大于预设概率值时，则判定检测到敏感信息。

具体地，文字中单个的信息未必属于敏感词汇，但是，若对一些信息进行组合，则组合得到的信息可能是不允许出现的敏感信息，如险种为健康险、新增保险项目、保额上限，这三个字段的组合可能涉及了一个新上线保险项目的商业机密，是敏感信息，不允许外发的，但单独检测某个字段是无法判断的。

为此，服务器预先设置需要监控的字段，获取预设监控字段，根据预设监控字段对文字数据进行信息提取，得到各监控字段对应的第二监控字段值，如保额上限字段对应的字段值为100万等，也可事先设置监控字段的数据格式，根据数据格式进行字段值提取和校验。服务器首先按照预设监控字段-第二监控字段值-预设监控字段-第二监控字段值来对所提取到的第二监控字段值进行拼接得到第二组合特征，然后服务器先判断提取出的字段值个数是否小于监测下限数量，如2个，3个，如未超过，则判定未检测到敏感信息，若超过，则将第二组合特征输入敏感数据检测模型。敏感数据检测模型是根据多个样本数据进行训练得到的，敏感数据检测模型可以计算出第二组合特征为敏感信息的概率，并根据样本训练结果设定预设概率阈值，超过该阈值，则判定为敏感信息。

上述实施例中，根据第二监控字段值生成第二组合特征，并通过敏感数据检测模型第二组合特征进行判断，可以提高判断的准确性。

在其中一个实施例中，从所拦截的外发邮件中提取出第一文字数据，包括：根据外发邮件的邮件标题和邮件正文生成第一文字数据；从所拦截的外发邮件中提取出第一文字数据之后，还包括：根据敏感字符列表识别第一文字数据中是否存在敏感字符；当未识别到敏感字符时，则第一文字数据继续获取预设监控字段。

在本实施例中，第一文字数据是包括外发邮件的邮件标题和邮件正文的，服务器先对邮件文字部分进行简单的敏感字符检测，若未检测出敏感字符时，再将其输入至敏感数据检测模型进行敏感信息检测，具体实施方法可参照上文所示。这样首先进行敏感字符的检测，可以降低检测的复杂度，且只有未检测到敏感字符，才会仅需敏感信息检测，这样可以提高检测效率。

上述实施例中，首先根据敏感字符对第一文字数据进行检测，在未识别到敏感信息后，则通过敏感数据检测模型再次进行检测，这样可以提高检测的准确性。

具体地，请参阅图3，图3为一个实施例中的敏感信息的检测方法的流程图，在该实施例中以word文档为例进行说明，首先服务器收集公司敏感数据文件集，对该敏感数据文件集进行训练得到敏感数据检测模型。然后服务器可以拦截外发邮件，对外发邮件的正文和标题，即第一文字数据进行检测，若没有检测到敏感信息，则提取出附件，本实施例中以word为例进行说明，其可以包括三种方式，第一种是对word文档进行隐藏文字检测，即可以取消隐藏设置后，判断文字是否增加，第二种方式是检测是否存在多余文件，即通过压缩的方式进行判断，第三种是图片隐写检测，即可以通过图片隐写检测算法进行检测。如果检测到隐藏数据，则说明存在数据的泄露，此时服务器将生成预警信息，并将预警信息以及泄露的数据发送至管理终端，以便于管理终端进行处理。

应该理解的是，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种敏感信息的检测装置，包括：拦截模块100、第一识别模块200、第一敏感概率获取模块300、第一提取模块400、解析模块500、第一判定模块600、第二提取模块700和第一发送模块800，其中：

拦截模块100，用于拦截外发邮件，并从所拦截的外发邮件中提取出第一文字数据。

第一识别模块200，用于获取预设监控字段，并从第一文字数据中识别出与预设监控字段对应的第一监控字段值。

第一敏感概率获取模块300，用于对第一监控字段值进行组合生成第一组合特征，并将第一组合特征输入敏感数据检测模型中得到第一敏感概率。

第一提取模块400，用于当第一敏感概率小于等于预设值时，则提取外发邮件的附件。

解析模块500，用于对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变。第一判定模块600，用于当解析后的文件数据发生改变时，则判定外发邮件存在数据泄露。

第二提取模块700，用于提取解析后的文件数据中的发生改变的数据，并生成第一预警信息。

第一发送模块800，用于将提取的数据和第一预警信息发送至管理终端。

在其中一个实施例中，装置还包括：

第三提取模块，用于当解析后的文件数据未发生改变时，则从解析后的文档类型的附件中提取第二文字数据。

第二敏感信息检测模块，用于将第二文字数据输入至敏感数据检测模型中进行敏感信息检测。

第二判定模块，用于当第二文字数据检测到敏感信息时，则判定外发邮件存在数据泄露。

第四提取模块，用于提取检测到的敏感信息，并生成第二预警信息。

在其中一个实施例中，解析模块500可以包括：

解压单元，用于对附件中的压缩包附件进行解压，并识别解压后的文件以及文件类型。

判断单元，用于取消文件类型为文档类型的附件的文字隐藏设置，并判断取消设置后的附件是否存在新增文字。

隐写检测单元，用于采用图像隐写检测算法对文件类型为图像类型的附件进行隐写检测。

第一判定单元，用于当存在新增文字和/或检测到图像类型的附件进行了隐写时，则判定解析后的文件数据发生了改变。

在其中一个实施例中，解析模块500还可以包括：

还原单元，用于将文件类型为文档类型的附件还原为压缩包文件。

多余文件检测单元，用于检测压缩包文件中是否还包括除文档类型的附件之外的多余文件。

第一判定单元还用于当检测到多余文件时，则判定解析后的文件数据发生了改变。

在其中一个实施例中，第二敏感信息检测模块可以包括：

第二监控字段值获取单元，用于从第二文字数据中识别出与预设监控字段对应的第二监控字段值。

第一模型处理单元，用于对第二监控字段值进行组合生成第二组合特征，并将第二组合特征输入敏感数据检测模型中得到第二敏感概率。

第二判定单元，用于当第二敏感概率大于预设概率值时，则判定检测到敏感信息。

在其中一个实施例中，拦截模块100包括：

样本生成单元，用于根据外发邮件的邮件标题和邮件正文生成第一文字数据。

上述装置还可以包括：

敏感字符识别模块，用于根据敏感字符列表识别检测样本第一文字数据中是否存在敏感字符。

上述的第一识别模块还用于当未识别到敏感字符时，则将检测样本第一文字数据输入至敏感数据检测模型进行敏感信息检测继续获取预设监控字段。

关于敏感信息的检测装置的具体限定可以参见上文中对于敏感信息的检测方法的限定，在此不再赘述。上述敏感信息的检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储邮件数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种敏感信息的检测方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：拦截外发邮件，并从所拦截的外发邮件中提取出第一文字数据；获取预设监控字段，并从第一文字数据中识别出与预设监控字段对应的第一监控字段值；对第一监控字段值进行组合生成第一组合特征，并将第一组合特征输入敏感数据检测模型中得到第一敏感概率；当第一敏感概率小于等于预设值时，则提取外发邮件的附件；对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变；当解析后的文件数据发生改变时，则判定外发邮件存在数据泄露；提取解析后的文件数据中的发生改变的数据，并生成第一预警信息；将提取的数据和第一预警信息发送至管理终端。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：当解析后的文件数据未发生改变时，则从解析后的文档类型的附件中提取第二文字数据；将第二文字数据输入至敏感数据检测模型中进行敏感信息检测；当第二文字数据检测到敏感信息时，则判定外发邮件存在数据泄露；提取检测到的敏感信息，并生成第二预警信息；将所提取到的敏感信息和第二预警信息发送至管理终端。

在一个实施例中，处理器执行计算机程序时所实现的对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：对附件中的压缩包附件进行解压，并识别解压后的文件以及文件类型；取消文件类型为文档类型的附件的文字隐藏设置，并判断取消设置后的附件是否存在新增文字；采用图像隐写检测算法对文件类型为图像类型的附件进行隐写检测；当存在新增文字和/或检测到图像类型的附件进行了隐写时，则判定解析后的文件数据发生了改变。

在一个实施例中，处理器执行计算机程序时所实现的对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：将文件类型为文档类型的附件还原为压缩包文件；检测压缩包文件中是否还包括除文档类型的附件之外的多余文件；当检测到多余文件时，则判定解析后的文件数据发生了改变。

在一个实施例中，处理器执行计算机程序时所实现的将第二文字数据输入至敏感数据检测模型中进行敏感信息检测，包括：从第二文字数据中识别出与预设监控字段对应的第二监控字段值；对第二监控字段值进行组合生成第二组合特征，并将第二组合特征输入敏感数据检测模型中得到第二敏感概率；当第二敏感概率大于预设概率值时，则判定检测到敏感信息。

在一个实施例中，处理器执行计算机程序时所实现的从所拦截的外发邮件中提取出第一文字数据，包括：根据外发邮件的邮件标题和邮件正文生成第一文字数据；处理器执行计算机程序时所实现的从所拦截的外发邮件中提取出第一文字数据之后，还包括：根据敏感字符列表识别第一文字数据中是否存在敏感字符；当未识别到敏感字符时，则继续获取预设监控字段。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：拦截外发邮件，并从所拦截的外发邮件中提取出第一文字数据；获取预设监控字段，并从第一文字数据中识别出与预设监控字段对应的第一监控字段值；对第一监控字段值进行组合生成第一组合特征，并将第一组合特征输入敏感数据检测模型中得到第一敏感概率；当第一敏感概率小于等于预设值时，则提取外发邮件的附件；对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变；当解析后的文件数据发生改变时，则判定外发邮件存在数据泄露；提取解析后的文件数据中的发生改变的数据，并生成第一预警信息；将提取的数据和第一预警信息发送至管理终端。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：当解析后的文件数据未发生改变时，则从解析后的文档类型的附件中提取第二文字数据；将第二文字数据输入至敏感数据检测模型中进行敏感信息检测；当第二文字数据检测到敏感信息时，则判定外发邮件存在数据泄露；提取检测到的敏感信息，并生成第二预警信息；将所提取到的敏感信息和第二预警信息发送至管理终端。

在一个实施例中，计算机程序被处理器执行时所实现的对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：对附件中的压缩包附件进行解压，并识别解压后的文件以及文件类型；取消文件类型为文档类型的附件的文字隐藏设置，并判断取消设置后的附件是否存在新增文字；采用图像隐写检测算法对文件类型为图像类型的附件进行隐写检测；当存在新增文字和/或检测到图像类型的附件进行了隐写时，则判定解析后的文件数据发生了改变。

在一个实施例中，计算机程序被处理器执行时所实现的对附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：将文件类型为文档类型的附件还原为压缩包文件；检测压缩包文件中是否还包括除文档类型的附件之外的多余文件；当检测到多余文件时，则判定解析后的文件数据发生了改变。

在一个实施例中，计算机程序被处理器执行时所实现的将第二文字数据输入至敏感数据检测模型中进行敏感信息检测，包括：从第二文字数据中识别出与预设监控字段对应的第二监控字段值；对第二监控字段值进行组合生成第二组合特征，并将第二组合特征输入敏感数据检测模型中得到第二敏感概率；当第二敏感概率大于预设概率值时，则判定检测到敏感信息。

在一个实施例中，计算机程序被处理器执行时所实现的根据外发邮件的邮件标题和邮件正文生成第一文字数据；计算机程序被处理器执行时所实现的从所拦截的外发邮件中提取出第一文字数据之后，还包括：根据敏感字符列表识别第一文字数据中是否存在敏感字符；当未识别到敏感字符时，则继续获取预设监控字段。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种敏感信息的检测方法，所述方法包括：

判断提取出的第一监控字段值的个数是否小于监测下限数量，若是小于监测下限数量，则判定未检测到敏感信息，若是大于或等于监测下限数量，则对所述第一监控字段值进行组合生成第一组合特征，并将所述第一组合特征输入敏感数据检测模型中以对字段组合进行敏感数据检测得到第一敏感概率；

将提取的数据和第一预警信息发送至管理终端；

其中，所述对所述第一监控字段值进行组合生成第一组合特征，包括：

将第一监控字段值按照预设监控字段-第一监控字段值连接的形式进行拼接得到第一组合特征。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

提取检测到的敏感信息，并生成第二预警信息；

将所提取到的敏感信息和第二预警信息发送至管理终端。

3.根据权利要求2所述的方法，其特征在于，所述对所述附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：

4.根据权利要求3所述的方法，其特征在于，所述对所述附件中的文件进行反隐藏解析，并判断解析后的文件数据是否发生改变，包括：

将文件类型为文档类型的附件还原为压缩包文件；

5.根据权利要求2至4任意一项所述的方法，其特征在于，所述将所述第二文字数据输入至敏感数据检测模型中进行敏感信息检测，包括：

6.根据权利要求5所述的方法，其特征在于，所述从所拦截的外发邮件中提取出第一文字数据，包括：

当未识别到敏感字符时，则第一文字数据继续获取预设监控字段。

7.一种敏感信息的检测装置，其特征在于，所述装置包括：

第一敏感概率获取模块，用于判断提取出的第一监控字段值的个数是否小于监测下限数量，若是小于监测下限数量，则判定未检测到敏感信息，若是大于或等于监测下限数量，则对所述第一监控字段值进行组合生成第一组合特征，并将所述第一组合特征输入敏感数据检测模型中以对字段组合进行敏感数据检测得到第一敏感概率；

第一发送模块，用于将提取的数据和第一预警信息发送至管理终端；

所述第一敏感概率获取模块还用于将第一监控字段值按照预设监控字段-第一监控字段值连接的形式进行拼接得到第一组合特征。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。