CN116663001A

CN116663001A - 一种针对邮件的安全分析方法、装置、电子设备及介质

Info

Publication number: CN116663001A
Application number: CN202310648613.5A
Authority: CN
Inventors: 蔡晶晶; 陈俊; 洪荣灿; 骆国华; 施艳萍; 张剑奇; 李宇涵; 郑祖荣; 陈鸿; 危文涛
Original assignee: Beijing Yongxin Zhicheng Technology Co Ltd
Current assignee: Beijing Yongxin Zhicheng Technology Co Ltd
Priority date: 2023-06-02
Filing date: 2023-06-02
Publication date: 2023-08-29

Abstract

本发明涉及一种针对邮件的安全分析方法、装置、电子设备及介质，该方法包括：获取邮件数据并对其进行解析，得到五元组数据；对所述五元组数据进行一次检索，得到一次检索结果，所述一次检索结果用于分析一次检索内容是否具有安全性；对一次检索结果中具有安全性的五元组数据进行深层次的二次检索，得到二次检索结果，所述二次检索结果用于判断二次检索内容是否具有安全性。通过本发明的方法，可以对邮件进行分层次的检测分析，并过滤掉具有敏感信息的邮件。

Description

一种针对邮件的安全分析方法、装置、电子设备及介质

技术领域

本发明属于邮件管理技术领域，特别涉及一种针对邮件的安全分析方法、装置、电子设备及介质。

背景技术

电子邮件是一种用电子手段提供信息交换的通信方式，是互联网应用最广的服务。通过网络的电子邮件***，用户可以以非常低廉的价格(不管发送到哪里，都只需负担网费)、非常快速的方式(几秒钟之内可以发送到世界上任何指定的目的地)，与世界上任何一个角落的网络用户联系。

电子邮件可以是文字、图像等多种形式。同时，用户可以得到大量免费的新闻、专题邮件，并轻松实现轻松的信息搜索。电子邮件的存在极大地方便了人与人之间的沟通与交流，促进了社会的发展。

由于邮件的普遍性和通用性，对邮件的鉴别与分析的需求与日俱增，现有技术中通过对邮件的主题、发件人和收件人等信息进行分析，用于过滤垃圾邮件和存在敏感信息文件。

现有技术至少存在如下问题：

1.现有技术缺少对正文文本数据以及附件数据的分析，分析结果不全面。

2.现有技术缺少对邮件进行安全分析，无法避免潜在威胁的文件对用户终端造成破坏。

发明内容

本发明所要解决的技术问题是提供了一种针对邮件的安全分析方法、装置、设备及介质，旨在解决上述至少一个技术问题。

本发明解决上述技术问题的技术方案如下：一种针对邮件的安全分析方法，该方法包括：

获取邮件数据并对其进行解析，得到五元组数据，将所述五元组数据划分为一次检索内容和二次检索内容；

对所述一次检索内容进行一次检索，得到一次检索结果，所述一次检索结果用于分析一次检索内容是否具有安全性；

获取一次检索结果中具有安全性的邮件的二次检索内容，并进行二次检索，得到二次检索结果，所述二次检索结果用于判断二次检索内容是否具有安全性。

本发明的有益效果是：解析得到邮件的五元组数据后，对五元组数据进行一次检索，判断其是否为安全数据，若不为安全数据则将该邮件进行过滤，若判断为安全邮件，则对该邮件的五元组数据进行深层次的二次检索，二次检索能够对五元组数据进行更全面的检索，通过二次检索判断该邮件是否为安全邮件，若不为安全邮件则进行过滤。通过两次检索，实现对邮件数据进行全部检索。保证了邮件的安全性。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，上述五元组数据包括：主题、正文、发件人、收件人和附件，所述一次检索内容包括主题、正文、发件人和收件人，一次检索的过程为：获取一次检索内容后，对正文进行敏感关键字信息检索，对主题进行情感分析检索，然后对收件人和发件人进行检索，最终得到一次检索结果。

采用上述进一步方案的有益效果是：通过对正文进行敏感关键字检索，获取正文是否存在敏感关键字信息，判断了正文的安全性。

进一步，上述对正文进行敏感关键字信息检索为：

构建包含敏感关键字的关键字数据库；

获取正文的文本数据，基于NLP解析器，通过自然语言处理方法对所述文本数据进行分解，得到待分析正文数据，自然语言处理方法包括：依存语法解析、词嵌入、命名实体识别、词性标注和语义消歧；

将所述待分析正文数据与关键字数据库进行匹配，判断待分析正文数据中是否存在敏感关键字，得到一次匹配结果，所述一次匹配结果用于判断正文中是否存在敏感关键字。

采用上述进一步方案的有益效果是：通过自然语言处理方法对正文的文本数据进行分词处理，使分词处理更加精准。

进一步，上述通过自然语言处理方法对主题的文本内容进行解析，得到待分析主题数据，采用情感分析模型对待分析主题数据进行情感分析，获取待分析主题数据对应的情感分析结果，所述情感分析结果用于表征主题的描述性质是正面描述或是负面描述。

采用上述进一步方案的有益效果是：通过情感分析模型更加准确得到主题的情感状态描述。

进一步，上述第二次检索内容为附件，二次检索的过程为：获取附件，并对附件进行安全运行检测，在附件支持安全运行的前提下，获取附件的图文数据，对图文数据进行识别解析，获取解析后的图文数据的安全指数。

采用上述进一步方案的有益效果是：在一次检索正文内容安全的前提下，二次检索邮件的附件数据，分层次检索使检索效率更高。

进一步，上述安全运行检测过程为：

获取附件中存在的可执行代码；

采用沙箱***模拟执行所述可执行代码，并利用沙箱***中的Hook API模块检测在模拟执行所述可执行代码的过程中是否存在对***应用程序编程接口API函数的调用；

若存在对***应用程序编程接口API函数的调用，则确定所述附件为潜在威胁文件并发出告警信息。

采用上述进一步方案的有益效果是：通过沙箱技术预先检测附件中是否存在潜在威胁文件，避免服务器被潜在威胁文件破坏。

进一步，上述对附件进行二次检索的具体过程为：

构建包含敏感关键字的关键字数据库；

通过OCR模块对附件中的图片文件进行识别，得到图片文字数据，将图片文件数据与附件中的文本数据进行组合形成待分析附件数据；

基于NLP解析器，通过自然语言处理方法对待分析附件数据进行分解，将分解后的待分析数据与关键字数据库进行匹配，得到二次匹配结果，所述二次匹配结果用于判断分解后的待分析数据是否存在敏感关键字。

采用上述进一步方案的有益效果是：通过OCR模块识别图片内容，进行图片和文字的双检测，使检测数据更好全面。

第二方面，本发明为了解决上述技术问题还提供了一种针对邮件的安全分析装置，包括：

解析模块：获取邮件数据并对其进行解析，得到五元组数据，将所述五元组数据划分为一次检索内容和二次检索内容；

一次检索模块：对所述一次检索内容进行一次检索，得到一次检索结果，所述一次检索结果用于分析一次检索内容是否具有安全性；

二次检索模块：获取一次检索结果中具有安全性的邮件的二次检索内容，并进行二次检索，得到二次检索结果，所述二次检索结果用于判断二次检索内容是否具有安全性。

第三方面，本发明为了解决上述技术问题还提供了一种电子设备，该电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行该计算机程序时实现本申请的邮件安全分析方法。

第四方面，本发明为了解决上述技术问题还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现本申请的邮件安全分析方法。

本申请附加的方面和优点将在下面的描述中部分给出，这些将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

图1为本发明一个实施例提供的一种针对邮件的安全分析方法的流程示意图；

图2为本发明一个实施例提供的一种针对邮件的安全分析装置的结构示意图；

图3为本发明一个实施例提供的一种电子设备的结构示意图。

具体实施方式

以下对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本发明的实施例进行描述。

本发明实施例所提供的方案可以适用于任何需要进行数据存储的应用场景中。本发明实施例所提供的方案可以由任一电子设备执行，比如，可以是用户的终端设备，包括以下至少一项：智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、智能电视、智能车载设备。

本发明实施例提供了一种可能的实现方式，如图1所示，提供了种针对邮件的安全分析方法的流程示意图，该方案可以由任一电子设备执行，例如，可以是终端设备，或者由终端设备和服务器共同执行。为描述方便，下面将以服务器作为执行主体为例对本发明实施例提供的方法进行说明，如图1中所示的流程图，该方法可以包括以下步骤：

通过本发明的方法，解析得到邮件的五元组数据后，对五元组数据进行一次检索，判断其是否为安全数据，若不为安全数据则将该邮件进行过滤，若判断为安全邮件，则对该邮件的五元组数据进行深层次的二次检索，二次检索能够对五元组数据进行更全面的检索，通过二次检索判断该邮件是否为安全邮件，若不为安全邮件则进行过滤。通过两次检索，实现对邮件数据进行全部检索。保证了邮件的安全性。

下面结合以下具体的实施例，对本发明的方案进行进一步的说明，在该实施例中，邮件的安全分析方法包括以下步骤：

获取邮件数据并对其进行解析，得到五元组数据；其中五元组数据五元组数据包括：主题、正文、发件人、收件人和附件。

对所述五元组数据进行一次检索，得到一次检索结果，其中一次检索内容包括主题、正文、发件人和收件人，通过对一次检索内容进行检索判断邮件的安全性；

对一次检索结果中具有安全性的五元组数据进行深层次的二次检索，得到二次检索结果，二次检索内容为附件，二次检索能够判断邮件中的附件是否存在安全性。

可选的，对获取到的不同类型的邮件进行归一化处理，得到统一格式的邮件：首先获取包含大量邮件的压缩包文件；识别邮件格式，例如：msg、pst、eml等，进行归一化处理，将其他格式的邮件转换为eml格式邮件。

可选的，上述对正文的文本数据进行敏感关键字检索，步骤为：

构建包含敏感关键字的关键字数据库；

可选的，通过自然语言处理方法对主题的文本内容进行解析，得到待分析主题数据，采用情感分析模型对待分析主题数据进行情感分析，获取待分析主题数据对应的情感分析结果，所述情感分析结果用于表征主题的描述性质是正面描述或是负面描述。

可选的，通过正则表达式匹配出五元组数据中指定的发件人和收件人。

通过上述检索得出，一次检索结果包括：一次匹配结果的评价报告、情感分析结果的评价报告以及收件人和发件人信息。

可选的，当一次匹配结果的评价报告为不安全或者情感分析结果的评价报告为负面情绪时，将对应的邮件指定为危险邮件，否则对邮件的附件进行二次检索，得到二检索结果。在进行二次检索之前，先对附件进行安全运行检测。

安全运行检测过程为：获取附件中存在的可执行代码；采用沙箱***模拟执行所述可执行代码，并利用沙箱***中的Hook API模块检测在模拟执行所述可执行代码的过程中是否存在对***应用程序编程接口API函数的调用；若存在对***应用程序编程接口API函数的调用，则确定所述附件为潜在威胁文件并发出告警信息。并将该邮件指定为危险邮件。

可选的，当附件能够安全运行，对附件进行二次检索，过程为：

构建包含敏感关键字的关键字数据库；

其中得到二次匹配结果后，所其中存在敏感关键字，则将该邮件指定为危险邮件，若不存在敏感关键字，则该邮件为安全邮件。其中进行一次检索和二次检索所采用的敏感词数据库为同一数据库。

可选的，在获取到正文和附件的文本数据后，还包括对文件数据进行预处理，得到预处理后的文本数据，预处理包括数据清洗、数据格式统一处理和数据补齐处理中的至少一种。

基于与图1中所示的方法相同的原理，本发明实施例还提供了一种针对邮件的安全分析装置，如图2中所示，该邮件的安全分析装置可以包括解析模块，一次检索模块和二次检索模块，其中：

可选的，所述五元组数据包括：主题、正文、发件人、收件人和附件，所述一次检索内容包括主题、正文、发件人和收件人，一次检索的过程为：获取一次检索内容后，对正文进行敏感关键字信息检索，对主题进行情感分析检索，然后对收件人和发件人进行检索，最终得到一次检索结果。

可选的，对正文进行敏感关键字信息检索为：

构建包含敏感关键字的关键字数据库；

可选的，对主题进行情感分析检索具体为：通过自然语言处理方法对主题的文本内容进行解析，得到待分析主题数据，采用情感分析模型对待分析主题数据进行情感分析，获取待分析主题数据对应的情感分析结果，所述情感分析结果用于表征主题的描述性质是正面描述或是负面描述。

可选的，所述第二次检索内容为附件，二次检索的过程为：获取附件，并对附件进行安全运行检测，在附件支持安全运行的前提下，获取附件的图文数据，对图文数据进行识别解析，获取解析后的图文数据的安全指数。

可选的，所述安全运行检测过程为：

获取附件中存在的可执行代码；

可选的，对附件进行二次检索的具体过程为：

构建包含敏感关键字的关键字数据库；

本发明实施例的邮件的安全分析装置可执行本发明实施例所提供的邮件的安全分析方法，其实现原理相类似，本发明各实施例中的邮件的安全分析装置中的各模块、单元所执行的动作是与本发明各实施例中的邮件的安全分析方法中的步骤相对应的，对于邮件的安全分析装置的各模块的详细功能描述具体可以参见前文中所示的对应的邮件的安全分析方法中的描述，此处不再赘述。

其中，上述邮件的安全分析装置可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该邮件的安全分析装置为一个应用软件；该装置可以用于执行本发明实施例提供的方法中的相应步骤。

在一些实施例中，本发明实施例提供的邮件的安全分析装置可以采用软硬件结合的方式实现，作为示例，本发明实施例提供的邮件的安全分析装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本发明实施例提供的邮件的安全分析方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，ApplicationSpecific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable LogicDevice)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

在另一些实施例中，本发明实施例提供的邮件的安全分析装置可以采用软件方式实现，图2示出了存储在存储器中的邮件的安全分析装置，其可以是程序和插件等形式的软件，并包括一系列的模块，包括解析模块，一次检索模块和二次检索模块，用于实现本发明实施例提供的方法。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

基于与本发明的实施例中所示的方法相同的原理，本发明的实施例中还提供了一种电子设备，该电子设备可以包括但不限于：处理器和存储器；存储器，用于存储计算机程序；处理器，用于通过调用计算机程序执行本发明任一实施例所示的方法。

在一个可选实施例中提供了一种电子设备，如图3所示，图3所示的电子设备包括：处理器和存储器。其中，处理器和存储器相连，如通过总线相连。可选地，电子设备还可以包括收发器，收发器可以用于该电子设备与其他电子设备之间的数据交互，如数据的发送和/或数据的接收等。需要说明的是，实际应用中收发器不限于一个，该电子设备的结构并不构成对本发明实施例的限定。

处理器可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegratedCircuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器4001也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线可包括一通路，在上述组件之间传送信息。总线可以是PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry StandardArchitecture，扩展工业标准结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图3中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(ElectricallyErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(CompactDiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器用于存储执行本发明方案的应用程序代码(计算机程序)，并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备也可以是终端设备，图3示出的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

本发明实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。

根据本发明的另一个方面，还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种实施例实现方式中提供的方法。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

应该理解的是，附图中的流程图和框图，图示了按照本发明各种实施例的方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的***来实现，或者可以用专用硬件与计算机指令的组合来实现。

本发明实施例提供的计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备执行上述实施例所示的方法。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种针对邮件的安全分析方法,其特征在于，包括：

2.根据权利要求1所述的一种针对邮件的安全分析方法，其特征在于，所述五元组数据包括：主题、正文、发件人、收件人和附件，所述一次检索内容包括主题、正文、发件人和收件人，一次检索的过程为：获取一次检索内容后，对正文进行敏感关键字信息检索，对主题进行情感分析检索，然后对收件人和发件人进行检索，最终得到一次检索结果。

3.根据权利要求2所述的一种针对邮件的安全分析方法，其特征在于，对正文进行敏感关键字信息检索为：

构建包含敏感关键字的关键字数据库；

4.根据权利要求2所述的一种针对邮件的安全分析方法，其特征在于，对主题进行情感分析检索具体为：通过自然语言处理方法对主题的文本内容进行解析，得到待分析主题数据，采用情感分析模型对待分析主题数据进行情感分析，获取待分析主题数据对应的情感分析结果，所述情感分析结果用于表征主题的描述性质是正面描述或是负面描述。

5.根据权利要求1所述的一种针对邮件的安全分析方法，其特征在于，所述第二次检索内容为附件，二次检索的过程为：获取附件，并对附件进行安全运行检测，在附件支持安全运行的前提下，获取附件的图文数据，对图文数据进行识别解析，获取解析后的图文数据的安全指数。

6.根据权利要求5所述的一种针对邮件的安全分析方法，其特征在于，所述安全运行检测过程为：

获取附件中存在的可执行代码；

7.根据权利要求5所述的一种针对邮件的安全分析方法，其特征在于，对附件进行二次检索的具体过程为：

构建包含敏感关键字的关键字数据库；

8.一种针对邮件的安全分析装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7中任一项所述的方法。