CN113592416A

CN113592416A - 一种邮件识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN113592416A
Application number: CN202110204331.7A
Authority: CN
Inventors: 杨坤; 刘晓明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Guangzhou Tencent Technology Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2021-11-02

Abstract

本申请提供了一种邮件识别方法、设备及计算机可读存储介质；方法包括：获取待识别邮件，其中，待识别邮件为接收对象接收到的电子邮件；获取待识别邮件的页面标签序列，其中，页面标签序列用于显示待识别邮件；获取页面标签序列中的每个页面标签的标签向量，从而获得与页面标签序列对应的标签向量序列；基于标签向量序列，对待识别邮件的邮件类型进行识别；基于识别出的邮件类型概率值，确定待识别邮件对应的邮件识别结果，其中，邮件识别结果为待识别邮件所属的邮件类型。通过本申请，能够基于人工智能技术提升电子邮件的识别准确度。

Description

一种邮件识别方法、装置、设备及计算机可读存储介质

技术领域

本申请涉及人工智能领域中的信息处理技术，尤其涉及一种邮件识别方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机通信技术的快速发展，电子邮件成为了人们进行网络通信的主要方式之一；然而，用户接收到的电子邮件除了包括用户的个人邮件之外，通常还包括其他类型的一些电子邮件，比如，广告邮件、***邮件、官方邮件等；因此，为了提升电子邮箱的使用效率，通常对电子邮件的邮件类型进行识别。

一般来说，为了识别电子邮件的邮件类型，通常采用人工智能技术对电子邮件的文本信息进行邮件类型的识别；然而，有的电子邮件是不包括文本信息或包括的文本信息较少的，从而，基于电子邮件的文本信息进行邮件类型的识别时，所获得的识别结果的准确度较低。

发明内容

本申请实施例提供一种邮件识别方法、装置、设备及计算机可读存储介质，能够提升电子邮件的邮件类型的识别准确度。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种邮件识别方法，包括：

获取待识别邮件，其中，所述待识别邮件为接收对象接收到的电子邮件；

获取所述待识别邮件的页面标签序列，其中，所述页面标签序列用于显示所述待识别邮件；

获取所述页面标签序列中的每个页面标签的标签向量，从而获得与所述页面标签序列对应的标签向量序列；

基于所述标签向量序列，对所述待识别邮件的邮件类型进行识别；

基于识别出的邮件类型概率值，确定所述待识别邮件对应的邮件识别结果，其中，所述邮件识别结果为所述待识别邮件所属的邮件类型。

本申请实施例提供一种邮件识别装置，包括：

邮件获取模块，用于获取待识别邮件，其中，所述待识别邮件为接收对象接收到的电子邮件；

标签获取模块，用于获取所述待识别邮件的页面标签序列，其中，所述页面标签序列用于显示所述待识别邮件；

向量获取模块，用于获取所述页面标签序列中的每个页面标签的标签向量，从而获得与所述页面标签序列对应的标签向量序列；

邮件识别模块，用于基于所述标签向量序列，对所述待识别邮件的邮件类型进行识别；

结果确定模块，用于基于识别出的邮件类型概率值，确定所述待识别邮件对应的邮件识别结果，其中，所述邮件识别结果为所述待识别邮件所属的邮件类型。

在本申请实施例中，所述邮件识别装置还包括辅助识别模块，用于获取所述待识别邮件的至少一种邮件信息，其中，所述至少一种邮件信息包括内容信息、附件信息和行为信息中的一种或多种；基于所述至少一种邮件信息，对所述待识别邮件的邮件类型进行识别，获得待结合邮件类型概率值。

在本申请实施例中，所述结果确定模块，还用于结合所述邮件类型概率值和待结合邮件类型概率值，确定所述待识别邮件对应的所述邮件识别结果。

在本申请实施例中，所述结果确定模块，还用于针对所述至少一种邮件信息中的每种邮件信息，对所述待识别邮件的邮件类型进行至少一种方式的识别，获得至少一种识别概率值；拼接所述至少一种识别概率值，获得所述每种邮件信息对应的邮件识别概率值，从而获得与所述至少一种邮件信息对应的至少一种邮件识别概率值；拼接所述至少一种邮件识别概率值，获得所述待结合邮件类型概率值。

在本申请实施例中，所述至少一种邮件信息包括所述行为信息时，所述结果确定模块，还用于获取所述待识别邮件的邮件发送主体，其中，所述邮件发送主体包括邮件发送网址信息、发送对象和邮箱域名中的一种或多种；基于所述邮件发送实体对应的历史邮件类型，确定实体评分信息；获取所述接收对象的对象画像信息；基于所述对象画像信息确定兴趣标签；获取所述接收对象与所述邮件发送主体之间的关系链；将所述实体评分信息、所述兴趣标签信息和所述关系链中的一种或多种，确定为所述至少一种邮件信息中的所述行为信息。

在本申请实施例中，所述至少一种邮件信息包括所述附件信息，所述附件信息为文档信息和图像信息中的一种或两种时，所述结果确定模块，还用于当所述附件信息为所述文档信息时，获取所述文档信息中的每个文本字符串的字符串向量，从而获得与所述文档信息对应的字符串向量序列，并基于所述字符串向量序列对所述待识别邮件的邮件类型进行识别；当所述附件信息为所述图像信息时，提取所述图像信息的特征，并基于提取的特征对所述待识别邮件的邮件类型进行识别，其中，所述提取的特征为所述图像信息的文本特征和所述图像信息的图像特征中一种或两种。

在本申请实施例中，所述结果确定模块，还用于拼接所述邮件类型概率值和待结合邮件类型概率值，获得待识别邮件类型特征；基于所述待识别邮件类型特征，对所述待识别邮件的邮件类型进行识别，获得所述邮件识别结果。

在本申请实施例中，所述邮件识别装置还包括归一化模块，用于对所述标签向量序列进行归一化处理，获得待识别页面标签特征；基于所述待识别页面标签特征，对所述待识别邮件的邮件类型进行识别。

在本申请实施例中，所述邮件识别装置还包括向量模型训练模块，用于获取邮件样本；获取所述邮件样本对应的页面标签序列样本集合；将所述页面标签序列样本集合作为语料库，训练出标签向量模型。

在本申请实施例中，所述向量获取模块，还用于采用所述词向量模型，获取所述页面标签序列中的所述每个页面标签的所述标签向量。

在本申请实施例中，所述邮件识别模块，还用于采用标签识别模型，识别所述页面标签特征，以对所述待识别邮件的邮件类型进行识别，其中，所述标签识别模型用于基于页面标签特征预测待识别邮件对应的邮件类型的概率值。

在本申请实施例中，所述邮件识别装置还包括识别模型训练模块，用于获取模型训练样本，其中，所述模型训练样本包括邮件样本和识别结果标注信息；采用待训练标签识别模型，对所述邮件样本的邮件类型进行识别，获得识别结果预测信息，其中，所述待训练标签识别模型为待训练的用于识别电子邮件类型的模型；基于所述识别结果预测信息与所述识别结果标注信息之间的差异，训练所述待训练标签识别模型，获得所述标签识别模型。

在本申请实施例中，所述邮件识别装置还包括模型优化模块，用于获取新的模型训练样本，其中，所述新的模型训练样本是在所述模型训练样本之后获得的；基于所述新的模型训练样本，优化所述标签识别模型。

在本申请实施例中，所述邮件识别模块，还用于采用优化后的标签识别模型，对所述页面标签特征进行识别。

在本申请实施例中，所述邮件获取模块，还用于响应于接收端设备发送的邮件识别请求，获取所述待识别邮件，其中，所述接收端设备对应于所述接收对象，所述邮件识别请求为所述接收端设备接收到所述待识别邮件时生成的。

在本申请实施例中，所述邮件识别装置还包括结果发送模块，用于将所述邮件识别结果发送至所述接收端设备，以使所述接收端设备针对所述待识别邮件，执行与所述邮件识别结果适配的处理。

本申请实施例提供一种邮件识别设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的邮件识别方法。

本申请实施例提供一种计算机可读存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的邮件识别方法。

本申请实施例至少具有以下有益效果：由于不同类型的电子邮件在内容的显示上存在着较大的差异；因此，当通过待识别邮件的页面标签序列所对应的特征，确定待识别邮件所属邮件类型的结果时，即使待识别邮件为不包括文本信息或包括的文本信息较少的电子邮件，也能够准确地识别出待识别邮件所属的邮件类型；从而，能够提升电子邮件的邮件类型的识别准确度。

附图说明

图1是一种示例性的模型结构示意图；

图2是另一种示例性的模型结构示意图；

图3是又一种示例性的模型结构示意图；

图4是一种示例性的隐含狄利克雷分布模型的示意图；

图5是本申请实施例提供的邮件识别***的一个可选的架构示意图；

图6是本申请实施例提供的图5中的一种服务器的组成结构示意图；

图7是本申请实施例提供的邮件识别方法的一个可选的流程示意图；

图8是本申请实施例提供的邮件识别方法的另一个可选的流程示意图；

图9是本申请实施例提供的一种示例性的进行至少一种方式识别的示意图；

图10是本申请实施例提供的另一种示例性的进行至少一种方式识别的示意图；

图11是本申请实施例提供的一种示例性的页面标签序列样本集合的部分示意图；

图12是本申请实施例提供的一种示例性的标签向量的示意图；

图13是本申请实施例提供的邮件识别方法的又一个可选的流程示意图；

图14是本申请实施例提供的邮件识别方法的再一个可选的流程示意图；

图15是本申请实施例提供的一种示例性的待识别邮件的示意图；

图16是本申请实施例提供的一种示例性的邮件识别方法的流程实现示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)人工智能(Artificial Intelligence，AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。

2)机器学习(Machine Learning，ML)，是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能；重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习通常包括人工神经网络、置信网络、强化学习、迁移学习和归纳学习等技术。

3)人工神经网络，是一种模仿生物神经网络结构和功能的数学模型，本申请实施例中人工神经网络的示例性结构包括深度神经网络(Deep Neural Networks，DNN)、卷积神经网络(Convolutional Neural Network，CNN)和循环神经网络(Recurrent NeuralNetwork，RNN)、NSM(Neural State Machine，神经状态机)、PFNN(Phase-FunctionedNeural Network，相位函数神经网络)等。

4)自然语言处理(Nature Language processing，NLP)，是计算机科学领域与人工智能领域中的一个重要方向；它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法；自然语言处理是一门融语言学、计算机科学、数学于一体的科学；因此，这一领域的研究将涉及自然语言(即人们日常使用的语言)所以它与语言学的研究有着密切的联系；自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

5)词向量(Word Embedding)，又叫词嵌入，一种通过词向量技术将词转化成为稠密向量获得的，并且对于相似的词，其对应的词向量也相近，即语义相近的词在词向量空间里聚集在一起；比如，本申请实施例中的标签向量和字符串向量。另外，词向量可以通过word2vec(word to vector)、“glove”、“Fast Text”、BERT(Bidirectional EncoderRepresentations from Transformers)、“XLNet”、“GPT 3”训练出的词向量模型获得。其中：

word2vec，是一个嵌入式工具包，用于训练向量空间模型。

BERT模型，是继“ELMo”模型和“OpenAI GPT”模型之后的转换(Transformer)模型；BERT模型一方面可以用来做字符串级别和句子级别的多个任务，另一方面还可以利用大规模语料快速地进行微调(fine tuning)，实现下游的一些文本分类、语义理解、序列标注等任务。

6)分类器，在已有数据的基础上构造出的一个分类函数或一个分类模型；比如：逻辑回归(Logistic Regression，LR)、BERT分类器、“softmax”分类器、“ELMo”分类器、“OpenAI GPT”分类器、GBDT(Gradient Boosting Decision Tree，梯度提升决策树)、随机森林分类器、决策树、“XGBoost”分类器、文本卷积神经网络(Text CNN)、贝叶斯(Bayes)分类器和LDA(Latent Dirichlet Allocation，隐含狄利克雷分布)分类器。其中：

参见图1，图1是一种示例性的模型结构示意图；如图1所示，模型1-1为“ELMo”模型，其使用了LSTM(Long Short-Term Memory，LSTM)模型，且是双向LSTM。参见图2，图2是另一种示例性的模型结构示意图；如图2所示，模型2-1为BERT分类器，其采用的基本模型为Transformer模型(简称为“Trm”)，且是双向Transformer模型。参见图3，图3是又一种示例性的模型结构示意图；如图3所示，模型3-1为“OpenAI GPT”分类器，其采用的基本模型也为Transformer模型，但是单向Transformer模型。图1至图3中，E₁、E₂、…、E_N为文本的各个字符串(比如，词)，T₁、T₂、…、T_N为输出的每个字符串对应的分类概率值。

LDA分类器，是一种文档主题生成模型，也称为一个三层贝叶斯概率模型，包含字符串、主题和文档三层结构。在“PLSI”模型的基础上提出的，文档到主题是一个狄利克雷(Dirichlet)分布，主题到字符串是一个Dirichlet分布，在LDA模型进行主题聚类建模时是非监督的聚类算法，文档到主题的分布能够确定出该篇文章主题的分布情况，主题到字符串的分布能够确定出主题描述的内容，具有较好的语义表述能力。

示例性地，参见图4，图4是一种示例性的隐含狄利克雷分布模型的示意图；如图4所示，模型4-1示出的α为超参数，是一个K维向量，基于α能够获得M篇文档中的第d篇文档对应的主题分布θ_d；这里，第d篇文档包括N_d个词，针对第d篇文档中的第n个词，可以从主题分布θ_d中获得对应的主题编号Z_d,n。另外，β为超参数，是一个V维向量，V为字符串表中所有字符串的个数；假定主题数目K对应任一主题k，对应的词分布为

基于主题编号Z_d,n和词分布为

能够确定第d篇文档中的第n个词的概率分布w_d,n。这里，k∈[1,K]，n∈[1,N_d]，d∈[1,M]。

7)页面标签，用于显示页面的基本单位，比如，HTML(Hyper Text MarkupLanguage，超文本标记语言)标签、ASP(Active Server Pages动态服务器页面)标签、JSP(JavaServer Pages，JAVA服务器页面)标签、PHP(Hypertext Preprocessor，超文本预处理器)标签。

8)全连接层，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

9)响应于，用于表示所执行的处理所依赖的条件或者状态，当满足所依赖的条件或状态时，所执行的一个或多个请求可以是实时的，也可以具有设定的延迟；在没有特别说明的情况下，所执行的多个请求不存在执行先后顺序的限制。

需要说明的是，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

另外，人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

随着人工智能技术的研究和进步，人工智能技术在多个领域展开了研究和应用；例如，常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗和智能客服等；随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。在本申请实施例中，将对人工智能在邮件识别中的应用进行说明。

一般来说，为了识别电子邮件的邮件类型，通常基于电子邮件的文本信息进行邮件类型的识别；比如，通过LDA模型或BERT模型对电子邮件的文本信息进行识别；

然而，有的电子邮件是不包括文本信息或包括的文本信息较少，从而，基于电子邮件的文本信息进行邮件类型的识别时，所依据的数据量较少，使得所获得的识别结果的准确度较低。

另外，为了识别电子邮件的邮件类型，还可以基于电子邮件对应的主体的行为数据进行邮件类型的识别；然而，上述两种邮件识别的方法，均存在识别问题；参见表1：

表1

基于此，本申请实施例提供一种邮件识别方法、装置、设备和计算机可读存储介质，能够提升电子邮件的识别准确度。

下面说明本申请实施例提供的邮件识别设备的示例性应用，本申请实施例提供的邮件识别设备可以实施为笔记本电脑，平板电脑，台式计算机，机顶盒，移动设备(例如，移动电话，便携式音乐播放器，个人数字助理，专用消息设备，便携式游戏设备)等各种类型的用户终端，也可以实施为服务器。下面，将说明邮件识别设备实施为服务器时的示例性应用。

参见图5，图5是本申请实施例提供的邮件识别***的一个可选的架构示意图；如图5所示，为支撑一个邮件识别应用，在邮件识别***100中，终端400包括终端400-1(发送端设备)和终端400-2(接收端设备)，终端400-2通过网络300连接服务器200(邮件识别设备)，网络300可以是广域网或者局域网，又或者是二者的组合。另外，该邮件识别***100中还包括数据库500，该数据库500用于在服务器200通过网络300向终端400-2提供邮件识别服务时，为服务器200提供数据支持。

终端400-1，用于向终端400-2发送待识别邮件。

终端400-2，用于接收终端400-1发送的待识别邮件，并通过网络300向服务器200发送携带待识别邮件的邮件识别请求。

服务器200，用于获取待识别邮件，其中，待识别邮件为接收对象接收到的电子邮件；获取待识别邮件的页面标签序列，其中，页面标签序列用于显示待识别邮件；获取页面标签序列中的每个页面标签的标签向量，从而获得与页面标签序列对应的标签向量序列；基于标签向量序列，对待识别邮件的邮件类型进行识别；基于识别出的邮件类型概率值，确定待识别邮件对应的邮件识别结果，其中，邮件识别结果为待识别邮件所属的邮件类型。还用于通过网络300向终端400-2发送邮件识别结果。

在一些实施例中，服务器200可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本发明实施例中不做限制。

参见图6，图6是本申请实施例提供的图5中的一种服务器的组成结构示意图，图6所示的服务器200包括：至少一个处理器210、存储器250、至少一个网络接口220和用户接口230。服务器200中的各个组件通过总线***240耦合在一起。可理解，总线***240用于实现这些组件之间的连接通信。总线***240除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图6中将各种总线都标为总线***240。

处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

用户接口230包括使得能够呈现媒体内容的一个或多个输出装置231，包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口230还包括一个或多个输入装置232，包括有助于用户输入的用户接口部件，比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。

存储器250可以是可移除的，不可移除的或其组合。示例性的硬件设备包括固态存储器，硬盘驱动器，光盘驱动器等。存储器250可选地包括在物理位置上远离处理器210的一个或多个存储设备。

存储器250包括易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM，Read Only Memory)，易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器250旨在包括任意适合类型的存储器。

在一些实施例中，存储器250能够存储数据以支持各种操作，这些数据的示例包括程序、模块和数据结构或者其子集或超集，下面示例性说明。

操作***251，包括用于处理各种基本***服务和执行硬件相关任务的***程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务；

网络通信模块252，用于经由一个或多个(有线或无线)网络接口220到达其他计算设备，示例性的网络接口220包括：蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB，Universal Serial Bus)等；

呈现模块253，用于经由一个或多个与用户接口230相关联的输出装置231(例如，显示屏、扬声器等)使得能够呈现信息(例如，用于操作***设备和显示内容和信息的用户接口)；

输入处理模块254，用于对一个或多个来自一个或多个输入装置232之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。

在一些实施例中，本申请实施例提供的邮件识别装置可以采用软件方式实现，图6示出了存储在存储器250中的邮件识别装置255，其可以是程序和插件等形式的软件，包括以下软件模块：邮件获取模块2551、标签获取模块2552、向量获取模块2553、邮件识别模块2554、结果确定模块2555、辅助识别模块2556、归一化模块2557、向量模型训练模块2558、识别模型训练模块2559、模型优化模块25510和结果发送模块25511，这些模块是逻辑上的，因此根据所实现的功能可以进行任意的组合或进一步拆分。将在下文中说明各个模块的功能。

在另一些实施例中，本申请实施例提供的邮件识别装置可以采用硬件方式实现，作为示例，本申请实施例提供的邮件识别装置可以是采用硬件译码处理器形式的处理器，其被编程以执行本申请实施例提供的邮件识别方法，例如，硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC，Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD，Programmable Logic Device)、复杂可编程逻辑器件(CPLD，Complex Programmable Logic Device)、现场可编程门阵列(FPGA，Field-Programmable Gate Array)或其他电子元件。

下面，将结合本申请实施例提供的服务器的示例性应用和实施，说明本申请实施例提供的邮件识别方法。

参见图7，图7是本申请实施例提供的邮件识别方法的一个可选的流程示意图，将结合图7示出的步骤进行说明。

S701、获取待识别邮件。

在本申请实施例中，当邮件识别设备执行邮件类型的识别任务时，所获得的识别对象即待识别邮件。

需要说明的是，待识别邮件为接收对象接收到的电子邮件，可以是实时接收到的电子邮件，还可以是未读取状态下的电子邮件，等等，本申请实施例对此不作具体要求。另外，接收对象可以是邮箱账号，还可以是邮箱地址，又可以是邮箱账号对应的终端网址信息，等等，本申请实施例对此不作具体限定。

S702、获取待识别邮件的页面标签序列。

在本申请实施例中，邮件识别设备基于待识别邮件的页面显示信息进行邮件类型的识别，而待识别邮件的页面显示信息是通过页面标签显示出来的；从而，邮件识别设备获取待识别邮件对应的邮件页面的各个页面标签，也就获得了页面标签序列。也就是说，页面标签序列为用于显示待识别邮件的各个页面标签按照待识别邮件对应的信息显示方式所构成的序列。

这里，邮件识别设备在获取待识别邮件的页面标签序列时，可通过获取待识别邮件对应的邮件页面的源文件，去除源文件中的非标签内容(显示的图片、文本等)，所去除后的源文件即页面标签序列；或者通过提取源文件中的各个页面标签，来获得页面标签序列，本申请实施例对此不作具体限定。

需要说明的是，页面标签序列用于显示待识别邮件，以呈现邮件页面；其中，所呈现的邮件页面可以是HTML页面，此时，对应的页面标签序列为HTML标签序列；所呈现的邮件页面还可以是ASP页面，此时，对应的页面标签序列为ASP标签序列；所呈现的邮件页面又可以是XML页面，此时，对应的页面标签序列为XML标签序列；等等，本申请实施例对此不作具体限定。另外，页面标签序列中的页面标签的顺序即用于显示邮件页面时的页面标签顺序。

S703、获取页面标签序列中的每个页面标签的标签向量，从而获得与页面标签序列对应的标签向量序列。

在本申请实施例中，邮件识别设备获得了页面标签序列之后，针对页面标签序列中的每个页面标签，获取对应的向量表示，也就获得了每个页面标签的标签向量；这里，当邮件识别设备获得了页面标签序列中所有页面标签的所有标签向量之后，该所有标签向量也就构成了标签向量序列。

需要说明的是，页面标签序列与标签向量序列对应，即页面标签序列中的一个页面标签与标签向量序列中的一个标签向量对应；标签向量为页面标签的特征，标签向量可以为将每个页面标签作为字符串并通过字符串向量技术(词向量技术)将字符串转化成稠密向量所获得的字符串向量(词向量)，对于相似的页面标签，其对应的标签向量也相近，即语义相近的页面标签在标签向量空间里聚集在一起。

S704、基于标签向量序列，对待识别邮件的邮件类型进行识别。

在本申请实施例中，邮件识别设备获得标签向量序列之后，将标签向量序列作为待识别邮件的特征进行待识别邮件的邮件类型的识别，以识别出邮件类型概率值。

需要说明的是，不同邮件类型的电子邮件在所采用的页面标签和页面标签的显示顺序上存在差异；比如，广告邮件通常以图片和页面渲染为主，和正常的个人邮件之间的页面标签在排列顺序和渲染方式上存在比较大的差异：个人邮件中通常不包括页面标签：“<a></a>”，而广告邮件中通常包括多个页面标签：“<a></a>”。这里，标签向量序列能够表征出电子邮件的所采用的页面标签和页面标签的显示顺序等信息；邮件类型概率值为基于页面标签序列识别出的待识别邮件属于各个邮件类型的概率值，还可以是基于属于各个邮件类型的概率值确定的邮件类型标签，比如，0或1；易知，概率值表征待识别邮件属于一个邮件类型的概率，概率值越大，待识别邮件属于该邮件类型的可能性越大。另外，邮件类型包括至少一种类型，比如：异常类型(广告类型邮件、***类型等)或正常类型(个人类型)；又比如，异常类型和个人类型；再比如：广告类型、***类型、病毒类型、个人类型等。相应地，邮件类型概率值包括至少一种类型对应的概率值。

S705、基于识别出的邮件类型概率值，确定待识别邮件对应的邮件识别结果。

需要说明的是，邮件识别设备获得了邮件类型概率值之后，将邮件类型概率值与预先设置的概率阈值进行比较，该概率阈值与邮件类型对应，用于确定是否属于该邮件类型，比如，0.5。这里，邮件识别结果为待识别邮件所属的邮件类型。

示例性地，当邮件类型概率值为0.8，概率阈值为0.5时，由于0.8大于0.5，从而确定待识别邮件为广告类型的电子邮件。

可以理解的是，由于不同类型的电子邮件在内容的显示上存在着较大的差异；因此，当通过待识别邮件的页面标签序列所对应的特征，确定待识别邮件所属邮件类型的结果时，即使待识别邮件为不包括文本信息或包括的文本信息较少的电子邮件，也能够准确地识别出待识别邮件所属的邮件类型；从而，能够提升电子邮件的邮件类型的识别准确度。

参见图8，图8是本申请实施例提供的邮件识别方法的另一个可选的流程示意图；如图8所示，在本申请实施例中，S701之后，以及S705之前，还包括S706和S707；也就是说，邮件识别设备获取待识别邮件之后，以及基于识别出的邮件类型概率值，确定待识别邮件对应的邮件识别结果之前，该邮件识别方法还包括S706和S707，下面对各步骤分别进行说明。

S706、获取待识别邮件的至少一种邮件信息。

需要说明的是，至少一种邮件信息包括内容信息、附件信息和行为信息中的一种或多种；其中，内容信息为待识别邮件的邮件内容，比如，邮件主题和/或邮件正文等；附件信息为待识别邮件的附件所对应的信息，比如，文档附件和/或图片附件等；行为信息为待识别邮件的主体的行为信息，而待识别邮件的主体包括发件对象、接收对象、发件地址、收件地址等。

S707、基于至少一种邮件信息，对待识别邮件的邮件类型进行识别，获得待结合邮件类型概率值。

在本申请实施例中，邮件识别设备获得了至少一种邮件信息之后，基于至少一种邮件信息中的每种邮件信息分别对待识别邮件的邮件类型进行识别，也就获得了与至少一种邮件信息对应的识别出的待识别邮件的邮件类型的概率分布，这里，称为待结合邮件类型概率值。

继续参见图8，在本申请实施例中，S705可通过S7051实现；也就是说，邮件识别设备基于识别出的邮件类型概率值，确定待识别邮件对应的邮件识别结果，包括S7051，下面对该步骤进行说明。

S7051、结合邮件类型概率值和待结合邮件类型概率值，确定待识别邮件对应的邮件识别结果。

需要说明的是，邮件识别设备结合针对页面标签序列识别出的邮件类型概率值、以及针对至少一种邮件信息识别出的待结合邮件类型概率值，共同确定待识别邮件的邮件类型；此时，邮件识别结果是基于页面标签序列和至少一种邮件信息识别出的待识别邮件所属的邮件类型。

可以理解的是，本申请实施例在基于页面标签序列识别待识别邮件的邮件类型的同时，还基于内容信息、附件信息和行为信息中的一种或多种进行待识别邮件的邮件类型的识别；也就是说，待识别邮件的邮件类型的识别是从多个维度进行的，从而，能够提高待识别邮件的识别准确度和覆盖范围。

在本申请实施例中，S707可通过S7071-S7073实现；也就是说，邮件识别设备对待识别邮件的邮件类型进行识别，获得待结合邮件类型概率值，包括S7071-S7073，下面对各步骤分别进行说明。

S7071、针对至少一种邮件信息中的每种邮件信息，对待识别邮件的邮件类型进行至少一种方式的识别，获得至少一种识别概率值。

在本申请实施例中，邮件识别设备针对至少一种邮件信息的每种邮件信息分别对待识别邮件的邮件类型进行识别时，采用至少一种方式对待识别邮件的邮件类型进行识别；从而，针对每种邮件信息，均能够获得识别出的至少一种识别概率值。这里，至少一种方式中的一种方式与至少一种识别概率值中的一种识别概率值对应。

需要说明的是，至少一种方式包括聚类方式和分类方式等，比如，采用不同的网络模型的识别方式。另外，每种邮件信息所对应的至少一种方式存在区别，比如，针对内容信息，可以采用基于朴素贝叶斯、支持向量机(Support Vector Machine，SVM)、LDA模型、“fast text”、文本卷积神经网络模型、BERT模型、“xlnet”、“GPT 3”等模型进行识别；针对行为信息，可以采用专家分类模型、决策树、随机森林、“XGBoost”等分类模型进行识别；针对附件信息，可以采用基于朴素贝叶斯、SVM、LDA、“fast text”、文本卷积神经网络模型、BERT模型、“xlnet”、“GPT 3”等模型进行识别，也可以采用CNN进行识别。此外，每种邮件信息所对应的至少一种方式在方式数量上可以相等，也可以不等，本申请实施例对此不作具体限定。

示例性地，参见图9，图9是本申请实施例提供的一种示例性的进行至少一种方式的识别的示意图；如图9所示，当至少一种邮件信息包括行为信息时，邮件识别设备针对行为信息9-1，分别采用专家分类模型9-21、决策树9-22、随机森林9-23和极端梯度提升模型(Extreme Gradient Boosting，XGBoost)9-24进行邮件识别，以获得至少一种识别概率值9-3。

参见图10，图10是本申请实施例提供的另一种示例性的进行至少一种方式的识别的示意图；如图10所示，当至少一种邮件信息包括内容信息时，邮件识别设备针对内容信息10-1，分别采用最大熵、LDA或贝叶斯模型10-21、聚类模型10-22(比如，最小哈希聚类、词向量聚类等)、神经网络模型10-23进行邮件识别，以获得至少一种识别概率值10-3。

S7072、拼接至少一种识别概率值，获得每种邮件信息对应的邮件识别概率值，从而获得与至少一种邮件信息对应的至少一种邮件识别概率值。

需要说明的是，邮件识别设备针对每种邮件信息，获得了对应的至少一种识别概率值之后，对该至少一种识别概率值进行拼接，所获得的至少一种识别概率值的拼接结果即每种邮件信息对应的邮件识别概率值。邮件识别设备将每种邮件信息对应的邮件识别概率值进行组合，所获得的每种邮件信息对应的邮件识别概率值的组合结果即与至少一种邮件信息对应的至少一种邮件识别概率值。

S7073、拼接至少一种邮件识别概率值，获得待结合邮件类型概率值。

在本申请实施例中，邮件识别设备拼接至少一种邮件识别概率值，所获得的至少一种邮件识别概率值的拼接结果即待结合邮件类型概率值。

可以理解的是，由于每种待识别邮件的邮件类型的识别方式在训练数据集、识别过程和识别结果上存在不同，以及在邮件类型的针对性上也存在不同；因此，邮件识别设备通过采用至少一种识别方式对待识别邮件的邮件类型进行识别，再将通过至少一种识别方式识别出的至少一种识别概率值进行拼接，得到邮件识别概率值；进而基于至少一种邮件信息对应的至少一种邮件识别概率值确定邮件识别结果，能够提升识别准确度。

在本申请实施例中，至少一种邮件信息包括行为信息时，S706可通过S7061-S7066实现；也就是说，邮件识别设备获取待识别邮件的至少一种邮件信息，包括S7061-S7066，下面对各步骤分别进行说明。

S7061、获取待识别邮件的邮件发送主体。

需要说明的是，邮件发送主体包括邮件发送网址信息、发送对象和邮箱域名中的一种或多种；其中，邮件发送网址信息可以是发件人邮箱地址、发件人IP(InternetProtocol，网际互连协议)地址、发件人IP网段等等；发送对象可以是发件人的名称、发件人的账号等等。

S7062、基于邮件发送实体对应的历史邮件类型，确定实体评分信息。

在本申请实施例中，邮件识别设备针对邮件发送实体所发送的历史电子邮件的邮件类型，也就邮件发送实体对应的历史邮件类型；从而，基于历史邮件类型进行实时评分，也就获得了实体评分信息。

示例性地，在广告类型的电子邮件的识别场景中，如果某银行(发送对象)历史所发送的电子邮件的邮件类型为个人邮件，则该银行的实体评分信息对应的评分值较高；而如果该银行历史所发送的电子邮件的邮件类型为广告邮件，则该银行的实体评分信息对应的平方值较低。

S7063、获取接收对象的对象画像信息。

在本申请实施例中，邮件识别设备中预先存储有接收对象的对象画像信息，或者，邮件识别设备能够从其他设备中获取到接收对象的对象画像信息；该对象画像信息为接收对象的用户画像，包括了接收对象的行为数据，比如，对电子邮件的浏览、删除等操作行为，又比如，对其他信息(招聘网站、小说网站等)的操作行为。

S7064、基于对象画像信息确定兴趣标签。

需要说明的是，邮件识别设备根据对象画像信息能够确定接收对象的兴趣标签，比如，应聘、广告策划、财务等。

S7065、获取接收对象与邮件发送主体之间的关系链。

在本申请实施例中，邮件识别设备还用于获取接收对象与邮件发送主体之间的电子邮件的往来记录，也就获得了关系链。比如，接收对象与邮件发送主体之间存在多次电子邮件的收发，接收对象仅单方面接收过邮件发送主题发送的电子邮件。

S7066、将实体评分信息、兴趣标签信息和关系链中的一种或多种，确定为至少一种邮件信息中的行为信息。

需要说明的是，行为信息包括实体评分信息、兴趣标签信息和关系链中的一种或多种。

可以理解的是，由于不同的发送对象对不同邮件类型的电子邮件存在不同的行为数据，因此，通过基于行为数据对待识别邮件的电子类型进行识别，能够实现针对性的电子邮件的识别，提升电子邮件的邮件类型的识别效果。

在本申请实施例中，至少一种邮件信息包括附件信息，附件信息为文档信息(文档附件)和图像信息(图片附件)中的一种或两种时，S707还可通过S7074或S7075实现；也就是说，邮件识别设备基于至少一种邮件信息，对待识别邮件的邮件类型进行识别，包括S7074或S7075，下面对各步骤分别进行说明。

S7074、当附件信息为文档信息时，获取文档信息中的每个文本字符串的字符串向量，从而获得与文档信息对应的字符串向量序列，并基于字符串向量序列对待识别邮件的邮件类型进行识别。

需要说明的是，当附件信息为文档信息时，邮件识别设备针对文档信息的标题、内容等信息中的每个文本字符串，获取对应的特征，也就获得了字符串向量；这里，邮件识别设备将每个文本字符串的字符串向量组合，也就获得了与文档信息对应的字符串向量序列。从而，邮件识别设备是基于字符串向量序列对待识别邮件的邮件类型进行的识别。

S7075、当附件信息为图像信息时，提取图像信息的特征，并基于提取的特征对待识别邮件的邮件类型进行识别。

需要说明的是，当附件信息为图像信息时，邮件识别设备可以对图像信息进行OCR(Optical Character Recognition，光学字符识别)处理，进行基于获得的文本信息进行文本分类；此时，提取的特征为图像信息的文本特征。

邮件识别设备还可以直接提取图像信息对应的图像特征，进行通过图像处理技术对图像信息进行分类；此时，提取的特征为图像信息的图像特征。

这里，邮件识别设备是基于提取的图像信息的特征对待识别邮件的邮件类型进行的识别。以及，提取的特征为图像信息的文本特征和图像信息的图像特征中一种或两种。

继续参见图8，在本申请实施例中，S7051可通过S70511和S70512实现；也就是说，邮件识别设备结合邮件类型概率值和待结合邮件类型概率值，确定待识别邮件对应的邮件识别结果，包括S70511和S70512，下面对各步骤分别进行说明。

S70511、拼接邮件类型概率值和待结合邮件类型概率值，获得待识别邮件类型特征。

需要说明的是，待识别邮件类型特征为邮件类型概率值和待结合邮件类型概率值的拼接结果。这里，邮件识别设备可以通过一个全连接层拼接邮件类型概率值和待结合邮件类型概率值。

S70512、基于待识别邮件类型特征，对待识别邮件的邮件类型进行识别，获得邮件识别结果。

需要说明的是，邮件识别设备针对待识别邮件类型特征，再次对待识别邮件的邮件类型进行识别，以确定待识别邮件所属的邮件类型，也就获得了邮件识别结果。这里，邮件识别设备可以通过预设权重信息将待识别邮件类型特征进行叠加，以完成对待识别邮件的邮件类型的识别。

在本申请实施例中，S704可通过S7041和S7042实现；也就是说，邮件识别设备基于标签向量序列，对待识别邮件的邮件类型进行识别，包括S7041和S7042，下面对各步骤分别进行说明。

S7041、对标签向量序列进行归一化处理，获得待识别页面标签特征。

需要说明的是，由于不同的电子邮件对应的页面不同，从而对应的页面标签的数量也不同，为了实现无纲量化，邮件识别设备对标签向量序列进行归一化处理，所获得的归一化处理结果即待识别页面标签特征。

示例性地，邮件识别设备可以通过获取标签向量序列的平均信息，以获得待识别页面标签特征。

S7042、基于待识别页面标签特征，对待识别邮件的邮件类型进行识别。

在本申请实施例中，邮件识别设备基于归一化获得的待识别页面标签特征，对待识别邮件的邮件类型进行识别。

可以理解的时，通过对标签向量序列进行归一化处理，使得采用统一化的特征对待识别邮件的邮件类型进行识别，提升了待识别邮件的识别准确度。

在本申请实施例中，S703中邮件识别设备获取页面标签序列中的每个页面标签的标签向量之前，该邮件识别方法还包括S708-S710，下面对各步骤分别进行说明。

S708、获取邮件样本。

需要说明的是，邮件样本为批量的电子邮件，用于训练能够确定标签向量的网络模型；并且，该邮件样本为不区分邮件类型的电子邮件。

S709、获取邮件样本对应的页面标签序列样本集合。

需要说明的是，邮件识别设备针对邮件样本中的每个邮件，获取对应的页面标签序列样本，将邮件样本中的每个邮件对应的页面标签序列样本进行组合，也就获得了与邮件样本对应的页面标签序列样本集合。也就是说，页面标签序列样本集合为邮件样本中的每个邮件对应的页面标签序列样本构成的集合。

示例性地，参见图11，图11是本申请实施例提供的一种示例性的页面标签序列样本集合的部分示意图；如图11所示，页面11-1中显示的为各个页面标签；比如，页面11-1中：“<div>”为一个页面标签，“<br/>”为一个页面标签，“<img/>”为一个页面标签，等等。

S710、将页面标签序列样本集合作为语料库，训练出标签向量模型。

在本申请实施例中，邮件识别设备将页面标签序列样本集合作为语料库，对待训练标签向量模型进行迭代训练，当训练结束时，也就训练出了标签向量模型；这里，标签向量模型为训练好的待训练标签向量模型；其中，待训练标签向量模型可以是Word2vec、“glove”、“fast text”和BERT模型等。

需要说明的是，标签向量模型用于确定页面标签的向量表示，当给定一个页面标签，标签向量模型就能够确定该给定页面标签的向量表示，即标签向量。

示例性地，参见图12，图12是本申请实施例提供的一种示例性的标签向量的示意图；如图12所示，页面12-1显示的为各个页面标签对应的标签向量；比如，针对图11中的页面标签“<div>”对应的标签向量为“0.093114”，图11中的页面标签“<br/>”对应的标签向量为“0.455824”，等等。

相应地，在本申请实施例中，S703中邮件识别设备获取页面标签序列中的每个页面标签的标签向量，包括S7031，下面对该步骤进行说明。

S7031、采用词向量模型，获取页面标签序列中的每个页面标签的标签向量。

需要说明的是，邮件识别设备获得了词向量模型之后，采用词向量模型获取页面标签序列中的每个页面标签的标签向量。如此，能够提升标签向量获取的效率。

参见图13，图13是本申请实施例提供的邮件识别方法的又一个可选的流程示意图；如图13所示，在本申请实施例中，S704还可通过S7043实现；也就是说，邮件识别设备基于标签向量序列，对待识别邮件的邮件类型进行识别，包括S7043，下面对该步骤进行说明。

S7043、采用标签识别模型，识别页面标签特征，以对待识别邮件的邮件类型进行识别。

需要说明的是，邮件识别设备可以通过网络模型识别待识别邮件的邮件类型；这里，邮件识别设备中预先存储有标签识别模型，或者，邮件识别设备能够从其他设备中获取到标签识别模型，该标签识别模型用于基于页面标签特征预测待识别邮件对应的邮件类型的概率值。

可以理解的是，通过网络模型对页面标签特征进行识别，所识别出的邮件类型概率值的准确度较高，且能够提升获取邮件类型概率值的效率。

在本申请实施例中，S7043之前还包括S7044-S7046；也就是说，邮件识别设备采用标签识别模型，识别页面标签特征之前，该邮件识别方法还包括S7044-S7046，下面对各步骤分别进行说明。

S7044、获取模型训练样本。

需要说明的是，模型训练样本包括邮件样本和识别结果标注信息；并且，邮件样本包括正邮件样本和负邮件样本。比如，在广告邮件的识别场景中，正邮件样本可以是广告类型的电子邮件，负邮件样本可以是个人类型的电子邮件。

S7045、采用待训练标签识别模型，对邮件样本的邮件类型进行识别，获得识别结果预测信息。

需要说明的是，待训练标签识别模型为待训练的用于识别电子邮件类型的模型；比如，文本卷积神经网络、BERT等分类模型。这里，识别结果预测信息为采用待训练标签识别模型识别出的邮件样本所属的邮件类型。另外，邮件识别设备采用待训练标签识别模型对邮件样本的邮件类型进行识别时，与对待识别邮件的处理过程类似，同样是获取邮件样本的各个页面标签，进而基于邮件样本的各个页面标签对应的各个标签向量进行邮件类型的识别。

S7046、基于识别结果预测信息与识别结果标注信息之间的差异，训练待训练标签识别模型，获得标签识别模型。

需要说明的是，邮件识别设备获得了识别结果预测信息与识别结果标注信息之后，为了确定待训练标签识别模型的识别效果，获取识别结果预测信息与识别结果标注信息之间的差异；易知，识别结果预测信息与识别结果标注信息之间的差异在一定程度上表征了待训练标签识别模型的预测准确度，在识别结果预测信息与识别结果标注信息之间的差异大于差异阈值时，对待训练标签识别模型进行迭代训练，直到满足训练结束条件(识别结果预测信息与识别结果标注信息之间的差异小于或等于差异阈值，或者达到训练次数等)，结束训练，也就获得了标签识别模型。

在本申请实施例中，S7046之后，该邮件识别方法还包括S7047和S7048；也就是说，邮件识别设备获得标签识别模型之后，该邮件识别方法还包括S7047和S7048，下面对各步骤分别进行说明。

S7047、获取新的模型训练样本。

需要说明的是，新的模型训练样本是在模型训练样本之后获得的。

S7048、基于新的模型训练样本，优化标签识别模型。

需要说明的是，邮件识别设备基于新的模型训练样本优化标签识别模型的过程，与基于模型训练样本训练待训练标签识别模型的过程类似，本申请实施例在此不再赘述。

相应地，在本申请实施例中，S7043中邮件识别设备采用标签识别模型，对页面标签特征进行识别，包括S70431，下面对该步骤进行说明。

S70431、采用优化后的标签识别模型，对页面标签特征进行识别。

需要说明的是，邮件识别设备完成对标签识别模型的优化，并获得了优化后的标签识别模型之后，部署该优化后的标签识别模型，以基于该优化后的标签识别模型对页面标签特征进行识别。

可以理解的是，在获得了标签识别模型之后，再次获取新的模型训练样本对标签识别模型进行训练，达到了优化标签识别模型的效果，能够提升优化后的标签识别模型的泛化能力，进而能够提升邮件识别的准确度。

参见图14，图14是本申请实施例提供的邮件识别方法的再一个可选的流程示意图；如图14所示，在本申请实施例中，S701可通过S7011实现；也就是说，邮件识别设备获取待识别邮件，包括S7011，下面对该步骤进行说明，S7011、响应于接收端设备发送的邮件识别请求，获取待识别邮件。

需要说明的是，接收对象通过接收端设备登录电子邮箱客户端，当接收对象接收到电子邮件时，接收端设备生成邮件识别请求，并将接收到的电子邮件作为待识别邮件携带在邮件识别请求中，以及向邮件识别设备发送该邮件识别请求；此时，邮件识别设备也就接收到了该邮件识别请求，并能够响应于该邮件识别请求，获取到待识别邮件。这里，接收端设备对应于接收对象，邮件识别请求为接收端设备接收到待识别邮件时生成的。

继续参见图14，相应地，在本申请实施例中，S705之后还包括S711；也就是说，邮件识别设备确定待识别邮件对应的邮件识别结果之后，该邮件识别方法还包括S711，下面对该步骤进行说明。

S711、将邮件识别结果发送至接收端设备。

需要说明的是，邮件识别设备获得了邮件识别结果之后，将邮件识别结果发送至接收端设备，以完成对邮件识别请求的响应；从而以使接收端设备针对待识别邮件，执行与邮件识别结果适配的处理。

示例性地，当邮件识别结果为待识别邮件为广告邮件时，与邮件识别结果适配的处理为将待识别邮件放入广告夹的处理；当邮件识别结果为账单类型的电子邮件时，与邮件识别结果适配的处理为基于待识别邮件进行账单还款等处理；当邮件识别结果为***类型的电子邮件时，与邮件识别结果适配的处理为***信息的绑定处理等；当邮件识别结果为火车票预定等订单类型的电子邮件时，与邮件识别结果适配的处理为发送天气提醒信息的处理等。

在本申请实施例中，邮件识别设备还可以是接收对象登录电子邮箱的设备，此时，邮件识别设备获得了邮件识别结果之后，由邮件识别设备针对待识别邮件，执行与邮件识别结果适配的处理。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用。

参见图15，图15是本申请实施例提供的一种示例性的待识别邮件的示意图；如图15所示，邮件页面15-1所显示的待识别邮件15-2为接收到的电子邮件。

当针对图15中的待识别邮件15-2进行邮件识别时，参见图16，图16是本申请实施例提供的一种示例性的邮件识别方法的流程实现示意图；如图16所示，首先，一方面，针对待识别邮件15-2，获取对应的邮件主题和邮件正文(内容信息)16-11，并针对邮件主题和邮件正文16-11采用不同的文本分类模型(至少一种识别方式，比如，朴素贝叶斯、SVM、LDA、“fast text”、文本卷积神经网络、BERT、“xlnet”、“GPT 3”等模型)进行分类，获得不同的内容分类标签16-21(至少一种识别概率值)，接着对不同的内容分类标签16-21进行拼接，获取内容分类标签16-31(邮件识别概率值)。

另一方面，针对待识别邮件15-2，获取对应的发件IP、发件对象、发件邮箱域名、发件IP网段等发件实体(邮件发送实体)对应的实时评分(实体评分信息)，收件人(接收对象)的用户画像对应的兴趣标签，以及收件人与发件人的关系链；并针对实时评分、兴趣标签和关系链16-12，采用不同的行为分类模型(至少一种识别方式，逻辑回归、“XGBoost”等)进行分类，获得不同的行为分类标签16-22(至少一种识别概率值)，接着对不同的行为分类标签16-22进行拼接，获取行为分类标签16-32(邮件识别概率值)。

再一方面，针对待识别邮件15-2，获取对应的附件信息16-13，针对附件信息16-13，采用不同的附件分类模型(至少一种识别方式)进行分类，获得不同的附件分类标签16-23(至少一种识别概率值)，接着对不同的内容分类标签16-23进行拼接，获取附件分类标签16-33(邮件识别概率值)。这里，当附件信息16-13为文档类型的信息(文档信息)时，不同的附件分类模型比如，朴素贝叶斯、SVM、LDA、“fast text”、文本卷积神经网络、BERT、“xlnet”、“GPT 3”等模型；当附件信息16-13为图片(图像信息)时，不同的附件分类模型比如，不同的CNN模型。

又一方面，针对待识别邮件15-2，获取对应的HTML页面，提取HTML页面的HTML标签序列16-141，并获取HTML标签序列16-141的向量表示，获得HTML标签向量序列16-142(标签向量序列)，对HTML标签向量序列16-142进行求平均处理，得到HTML标签向量16-143(待识别页面标签特征)，采用文本卷积神经网络、BERT等分类模型进行分类，获得不同的页面分类标签16-24，接着对不同的页面分类标签16-24进行拼接，获取页面分类标签16-34(邮件类型概率值)。

然后，利用全连接层拼接内容分类标签16-31、行为分类标签16-32、附件分类标签16-33和页面分类标签16-34，获得数字向量16-4(待识别邮件类型特征)。

最后，利用“softmax”或“XGBoost”等分类模型16-5，对数字向量16-4进行分类，获得广告类型对应的概率值，进而基于广告类型对应的概率值确定分类结果16-6(邮件识别结果)：待识别邮件15-2所属的邮件类型为广告类型。

可以理解的是，通过结合内容信息、行为、HTML标签和附件的分类结果，获得最终的分类结果，能够大幅度的提高邮件识别的覆盖率和准确率，进而提升电子邮件的处理效率，以及电子邮箱的使用效率。

下面继续说明本申请实施例提供的邮件识别装置255的实施为软件模块的示例性结构，在一些实施例中，如图6所示，存储在存储器250的邮件识别装置255中的软件模块可以包括：

邮件获取模块2551，用于获取待识别邮件，其中，所述待识别邮件为接收对象接收到的电子邮件；

标签获取模块2552，用于获取所述待识别邮件的页面标签序列，其中，所述页面标签序列用于显示所述待识别邮件；

向量获取模块2553，用于获取所述页面标签序列中的每个页面标签的标签向量，从而获得与所述页面标签序列对应的标签向量序列；

邮件识别模块2554，用于基于所述标签向量序列，对所述待识别邮件的邮件类型进行识别；

结果确定模块2555，用于基于识别出的邮件类型概率值，确定所述待识别邮件对应的邮件识别结果，其中，所述邮件识别结果为所述待识别邮件所属的邮件类型。

在本申请实施例中，所述邮件识别装置255还包括辅助识别模块2556，用于获取所述待识别邮件的至少一种邮件信息，其中，所述至少一种邮件信息包括内容信息、附件信息和行为信息中的一种或多种；基于所述至少一种邮件信息，对所述待识别邮件的邮件类型进行识别，获得待结合邮件类型概率值。

在本申请实施例中，所述结果确定模块2555，还用于结合所述邮件类型概率值和待结合邮件类型概率值，确定所述待识别邮件对应的所述邮件识别结果。

在本申请实施例中，所述结果确定模块2555，还用于针对所述至少一种邮件信息中的每种邮件信息，对所述待识别邮件的邮件类型进行至少一种方式的识别，获得至少一种识别概率值；拼接所述至少一种识别概率值，获得所述每种邮件信息对应的邮件识别概率值，从而获得与所述至少一种邮件信息对应的至少一种邮件识别概率值；拼接所述至少一种邮件识别概率值，获得所述待结合邮件类型概率值。

在本申请实施例中，所述至少一种邮件信息包括所述行为信息时，所述结果确定模块2555，还用于获取所述待识别邮件的邮件发送主体，其中，所述邮件发送主体包括邮件发送网址信息、发送对象和邮箱域名中的一种或多种；基于所述邮件发送实体对应的历史邮件类型，确定实体评分信息；获取所述接收对象的对象画像信息；基于所述对象画像信息确定兴趣标签；获取所述接收对象与所述邮件发送主体之间的关系链；将所述实体评分信息、所述兴趣标签信息和所述关系链中的一种或多种，确定为所述至少一种邮件信息中的所述行为信息。

在本申请实施例中，所述至少一种邮件信息包括所述附件信息，所述附件信息为文档信息和图像信息中的一种或两种时，所述结果确定模块2555，还用于当所述附件信息为所述文档信息时，获取所述文档信息中的每个文本字符串的字符串向量，从而获得与所述文档信息对应的字符串向量序列，并基于所述字符串向量序列对所述待识别邮件的邮件类型进行识别；当所述附件信息为所述图像信息时，提取所述图像信息的特征，并基于提取的特征对所述待识别邮件的邮件类型进行识别，其中，所述提取的特征为所述图像信息的文本特征和所述图像信息的图像特征中一种或两种。

在本申请实施例中，所述结果确定模块2555，还用于拼接所述邮件类型概率值和待结合邮件类型概率值，获得待识别邮件类型特征；基于所述待识别邮件类型特征，对所述待识别邮件的邮件类型进行识别，获得所述邮件识别结果。

在本申请实施例中，所述邮件识别装置255还包括归一化模块2557，用于对所述标签向量序列进行归一化处理，获得待识别页面标签特征；基于所述待识别页面标签特征，对所述待识别邮件的邮件类型进行识别。

在本申请实施例中，所述邮件识别装置255还包括向量模型训练模块2558，用于获取邮件样本；获取所述邮件样本对应的页面标签序列样本集合；将所述页面标签序列样本集合作为语料库，训练出标签向量模型。

在本申请实施例中，所述向量获取模块2553，还用于采用所述词向量模型，获取所述页面标签序列中的所述每个页面标签的所述标签向量。

在本申请实施例中，所述邮件识别模块2554，还用于采用标签识别模型，识别所述页面标签特征，以对所述待识别邮件的邮件类型进行识别，其中，所述标签识别模型用于基于页面标签特征预测待识别邮件对应的邮件类型的概率值。

在本申请实施例中，所述邮件识别装置255还包括识别模型训练模块2559，用于获取模型训练样本，其中，所述模型训练样本包括邮件样本和识别结果标注信息；采用待训练标签识别模型，对所述邮件样本的邮件类型进行识别，获得识别结果预测信息，其中，所述待训练标签识别模型为待训练的用于识别电子邮件类型的模型；基于所述识别结果预测信息与所述识别结果标注信息之间的差异，训练所述待训练标签识别模型，获得所述标签识别模型。

在本申请实施例中，所述邮件识别装置255还包括模型优化模块25510，用于获取新的模型训练样本，其中，所述新的模型训练样本是在所述模型训练样本之后获得的；基于所述新的模型训练样本，优化所述标签识别模型。

在本申请实施例中，所述邮件识别模块2554，还用于采用优化后的标签识别模型，对所述页面标签特征进行识别。

在本申请实施例中，所述邮件获取模块2551，还用于响应于接收端设备发送的邮件识别请求，获取所述待识别邮件，其中，所述接收端设备对应于所述接收对象，所述邮件识别请求为所述接收端设备接收到所述待识别邮件时生成的。

在本申请实施例中，所述邮件识别装置255还包括结果发送模块25511，用于将所述邮件识别结果发送至所述接收端设备，以使所述接收端设备针对所述待识别邮件，执行与所述邮件识别结果适配的处理。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例上述的邮件识别方法。

本申请实施例提供一种存储有可执行指令的计算机可读存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的邮件识别方法，例如，如图7示出的邮件识别方法。

在一些实施例中，计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件***中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

综上所述，通过本申请实施例，由于不同类型的电子邮件在内容的显示上存在着较大的差异；因此，当通过待识别邮件的页面标签序列所对应的特征，确定待识别邮件所属邮件类型的结果时，即使待识别邮件为不包括文本信息或包括的文本信息较少的电子邮件，也能够准确地识别出待识别邮件所属的邮件类型；从而，能够提升电子邮件的邮件类型的识别准确度和覆盖率。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种邮件识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取待识别邮件之后，以及所述基于识别出的邮件类型概率值，确定所述待识别邮件对应的邮件识别结果之前，所述方法还包括：

获取所述待识别邮件的至少一种邮件信息，其中，所述至少一种邮件信息包括内容信息、附件信息和行为信息中的一种或多种；

基于所述至少一种邮件信息，对所述待识别邮件的邮件类型进行识别，获得待结合邮件类型概率值；

所述基于识别出的邮件类型概率值，确定所述待识别邮件对应的邮件识别结果，包括：

结合所述邮件类型概率值和待结合邮件类型概率值，确定所述待识别邮件对应的所述邮件识别结果。

3.根据权利要求2所述的方法，其特征在于，所述基于所述至少一种邮件信息，对所述待识别邮件的邮件类型进行识别，获得待结合邮件类型概率值，包括：

针对所述至少一种邮件信息中的每种邮件信息，对所述待识别邮件的邮件类型进行至少一种方式的识别，获得至少一种识别概率值；

拼接所述至少一种识别概率值，获得所述每种邮件信息对应的邮件识别概率值，从而获得与所述至少一种邮件信息对应的至少一种邮件识别概率值；

拼接所述至少一种邮件识别概率值，获得所述待结合邮件类型概率值。

4.根据权利要求2所述的方法，其特征在于，所述至少一种邮件信息包括所述行为信息时，所述获取所述待识别邮件的至少一种邮件信息，包括：

获取所述待识别邮件的邮件发送主体，其中，所述邮件发送主体包括邮件发送网址信息、发送对象和邮箱域名中的一种或多种；

基于所述邮件发送实体对应的历史邮件类型，确定实体评分信息；

获取所述接收对象的对象画像信息；

基于所述对象画像信息确定兴趣标签；

获取所述接收对象与所述邮件发送主体之间的关系链；

将所述实体评分信息、所述兴趣标签信息和所述关系链中的一种或多种，确定为所述至少一种邮件信息中的所述行为信息。

5.根据权利要求2所述的方法，其特征在于，所述至少一种邮件信息包括所述附件信息，所述附件信息为文档信息和图像信息中的一种或两种时，所述基于所述至少一种邮件信息，对所述待识别邮件的邮件类型进行识别，包括：

当所述附件信息为所述文档信息时，获取所述文档信息中的每个文本字符串的字符串向量，从而获得与所述文档信息对应的字符串向量序列，并基于所述字符串向量序列对所述待识别邮件的邮件类型进行识别；

当所述附件信息为所述图像信息时，提取所述图像信息的特征，并基于提取的特征对所述待识别邮件的邮件类型进行识别，其中，所述提取的特征为所述图像信息的文本特征和所述图像信息的图像特征中一种或两种。

6.根据权利要求2至5任一项所述的方法，其特征在于，所述结合所述邮件类型概率值和待结合邮件类型概率值，确定所述待识别邮件对应的所述邮件识别结果，包括：

拼接所述邮件类型概率值和待结合邮件类型概率值，获得待识别邮件类型特征；

基于所述待识别邮件类型特征，对所述待识别邮件的邮件类型进行识别，获得所述邮件识别结果。

7.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述标签向量序列，对所述待识别邮件的邮件类型进行识别，包括：

对所述标签向量序列进行归一化处理，获得待识别页面标签特征；

基于所述待识别页面标签特征，对所述待识别邮件的邮件类型进行识别。

8.根据权利要求1至5任一项所述的方法，其特征在于，所述获取所述页面标签序列中的每个页面标签的标签向量之前，所述方法还包括：

获取邮件样本；

获取所述邮件样本对应的页面标签序列样本集合；

将所述页面标签序列样本集合作为语料库，训练出标签向量模型；

所述获取所述页面标签序列中的每个页面标签的标签向量，包括：

采用所述词向量模型，获取所述页面标签序列中的所述每个页面标签的所述标签向量。

9.根据权利要求1至5任一项所述的方法，其特征在于，所述基于所述标签向量序列，对所述待识别邮件的邮件类型进行识别，包括：

采用标签识别模型，识别所述页面标签特征，以对所述待识别邮件的邮件类型进行识别，其中，所述标签识别模型用于基于页面标签特征预测待识别邮件对应的邮件类型的概率值。

10.根据权利要求9所述的方法，其特征在于，所述采用标签识别模型，识别所述页面标签特征之前，所述方法还包括：

获取模型训练样本，其中，所述模型训练样本包括邮件样本和识别结果标注信息；

采用待训练标签识别模型，对所述邮件样本的邮件类型进行识别，获得识别结果预测信息，其中，所述待训练标签识别模型为待训练的用于识别电子邮件类型的模型；

基于所述识别结果预测信息与所述识别结果标注信息之间的差异，训练所述待训练标签识别模型，获得所述标签识别模型。

11.根据权利要求10所述的方法，其特征在于，所述获得所述标签识别模型之后，所述方法还包括：

获取新的模型训练样本，其中，所述新的模型训练样本是在所述模型训练样本之后获得的；

基于所述新的模型训练样本，优化所述标签识别模型；

所述采用标签识别模型，对所述页面标签特征进行识别，包括：

采用优化后的标签识别模型，对所述页面标签特征进行识别。

12.根据权利要求1至5任一项所述的方法，其特征在于，所述获取待识别邮件，包括：

响应于接收端设备发送的邮件识别请求，获取所述待识别邮件，其中，所述接收端设备对应于所述接收对象，所述邮件识别请求为所述接收端设备接收到所述待识别邮件时生成的；

所述确定所述待识别邮件对应的邮件识别结果之后，所述方法还包括：

将所述邮件识别结果发送至所述接收端设备，以使所述接收端设备

针对所述待识别邮件，执行与所述邮件识别结果适配的处理。

13.一种邮件识别装置，其特征在于，包括：

14.一种邮件识别设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至12任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，存储有可执行指令，用于被处理器执行时，实现权利要求1至12任一项所述的方法。