CN114971504A

CN114971504A - 一种实体类型确定方法和相关装置

Info

Publication number: CN114971504A
Application number: CN202110201593.8A
Authority: CN
Inventors: 张珅嘉; 杨坤; 刘晓明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Guangzhou Tencent Technology Co Ltd
Priority date: 2021-02-23
Filing date: 2021-02-23
Publication date: 2022-08-30

Abstract

本申请实施例公开了一种实体类型确定方法和相关装置，利用人工智能模型中的聚类分析，获取邮箱***中实体的第一行为数据，第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为；根据第一行为数据确定多个初始行为模式；获取邮箱***中目标实体的第二行为数据，第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为，目标实体为在第二时段中邮箱使用行为发生变化的实体，第二时段晚于第一时段；根据第二行为数据和初始行为模式，确定目标实体在第二时段内与初始行为模式不同的目标行为模式；根据目标行为模式的对应的行为类型，确定目标实体的实体类型。由于行为模式的数量相对有限，执行目标实体识别时更为迅速。

Description

一种实体类型确定方法和相关装置

技术领域

本申请涉及数据处理领域，特别是涉及一种实体类型确定方法和相关装置。

背景技术

用户可以通过电子邮箱收发邮件，实现便利的信息交流，目前电子邮箱广泛应用于人们的生活、工作、学习当中。相应的，垃圾邮件也应运而生，一些用户通过批量、重复发送垃圾邮件进行不良信息的散播，私密信息的窃取等，对电子邮箱的使用产生不好的影响。

为了能够从用户中识别出上述散播垃圾邮件的恶意实体，目前的邮箱自动反垃圾体系中，会自动针对实体进行黑名单识别。现有的自动识别方案为图聚类：将电子邮箱***中的用户作为实体，并基于实体关系构造关系图，再通过社区划分算法(例如FastUnfolding with density这类基于密度的社区划分算法)进行聚类，并针对聚成的实体簇进行行为整合，批量评价、识别恶意实体。

但是由于构造关系图需要丰富的关系、足够多的实体以及连边，导致构建的关系图数据量很大(如发件人实体构图节点数亿级别，连边十亿级别)，更新周期长，这就使整个图聚类的流程执行缓慢，而且难以发现新出现的恶意实体。

发明内容

为了解决上述技术问题，本申请提供了一种实体类型确定方法和相关装置，不仅能够提高识别实体类型的流程的执行速度，还能够发现新出现的恶意实体。

本申请实施例公开了如下技术方案：

一方面，本申请提供一种实体类型确定方法，所述方法包括：

获取邮箱***中实体的第一行为数据，所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为；

根据所述第一行为数据确定多个初始行为模式；

获取所述邮箱***中目标实体的第二行为数据，所述第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为，所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体，所述第二时段晚于所述第一时段；

根据所述第二行为数据和所述初始行为模式，确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式；

根据所述目标行为模式对应的行为类型，确定所述目标实体的实体类型。

另一方面，本申请提供一种实体类型确定装置，所述装置包括：获取单元和确定单元；

所述获取单元，用于获取邮箱***中实体的第一行为数据，所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为；

所述确定单元，用于根据所述第一行为数据确定多个初始行为模式；

所述获取单元，还用于获取所述邮箱***中目标实体的第二行为数据，所述第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为，所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体，所述第二时段晚于所述第一时段；

所述确定单元，还用于根据所述第二行为数据和所述初始行为模式，确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式；根据所述目标行为模式对应的行为类型，确定所述目标实体的实体类型。

另一方面，本申请提供一种计算机设备，所述设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行上述方面所述的方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面所述的方法。

由上述技术方案可以看出，针对邮箱***中的实体，获取实体在第一时段内的邮箱使用行为对应的第一行为数据，基于第一行为数据中所体现邮箱使用行为之间相似性和特点可以确定多个初始行为模式，由于第一行为数据覆盖邮箱***中实体的数量较多，获得的初始行为模式比较丰富全面，故可以作为后续确定目标行为模式的基础，而且将数量较多的第一行为数据转化为数量较少的初始行为模式，基于数量较少的初始行为模式确定目标行为模式降低了计算量，提高了后续实体类型的模型速度。获取目标实体在第二时段内的邮箱使用行为对应的第二行为数据，其中，目标实体是第二时段内邮箱使用行为发生变化的实体，目标实体数量较少，故相比于所有实体在第二时段内的行为数据，第二行为数据的数量较少，基于较少数量的第二行为数据确定目标行为模式降低了计算量，可以提高后续实体类型的识别速度。根据第二行为数据和初始行为模式，确定目标实体在第二时段内与初始行为模式不同的目标行为模式。由于第二时段晚于第一时段，通过目标实体在新时段内的新行为数据，可以发现初始行为模式中不包含的新行为模式，通过目标行为模式作为初始行为模式的一种补充，提高了对新增行为模式的识别时效性。在确定了目标行为模式的行为类型后，可以基于目标实体属于何种行为类型快速确定邮箱***中目标实体的实体类型。由于行为模式的数量相对有限，一般远小于相关技术所使用关系图中的实体节点数量，执行目标实体识别时更为迅速，且通过目标行为模式，使得行为模式的涵盖范围全面，也能够保证总体识别精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的实体类型确定方法的应用场景示意图；

图2为本申请实施例提供的一种实体类型确定方法的流程示意图；

图3为本申请实施例提供的一种跳表的示意图；

图4为本申请实施例提供的一种HNSW算法的示意图；

图5a为本申请实施例提供的一种待定特征向量分布的示意图；

图5b为本申请实施例提供的一种待定特征向量分布的示意图；

图6为本申请实施例提供的一种层次聚类树状图的示意图；

图7为本申请实施例提供的一种确定簇间距离的示意图；

图8为本申请实施例提供的一种初始行为模式的确定方式的示意图；

图9为本申请实施例提供的一种实体类型确定方法的场景示意图；

图10为本申请实施例提供的一种确定目标行为模式的流程图；

图11为本申请实施例提供的一种实体类型确定装置的示意图；

图12为本申请实施例提供的服务器的结构示意图；

图13为本申请实施例提供的终端设备的结构示意图。

具体实施方式

下面结合附图，对本申请的实施例进行描述。

鉴于相关技术中基于实体关系数据构造关系图所需数据量大，导致图聚类的流程执行缓慢，难以发现新出现的恶意实体。本申请实施例提出一种实体类型确定方法和相关装置，基于实体行为数据确定实体类型，不仅提高了实体类型的识别速度，还能够保证实体类型的识别精度。

本申请实施例提供的实体类型确定方法是基于人工智能实现的，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

在本申请实施例中，主要涉及的人工智能软件技术包括上述自然语言处理、机器学习等方向。例如，可以涉及自然语言处理(Nature Language processing, NLP)中的文本预处理(Text preprocessing)、语义理解(Semantic understanding)，也可以涉及机器学习(Machine learning，ML)中的聚类分析(Cluster analysis) 等。

本申请提供的实体类型确定方法可以应用于具有数据处理能力的实体类型确定设备，如终端设备、服务器。其中，终端设备具体可以为智能手机、台式计算机、笔记本电脑、平板电脑、智能音箱、智能手表等，但并不局限于此等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式***，还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该实体类型确定设备可以具备实施自然语言处理的能力，自然语言处理 (NatureLanguage processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。在本申请实施例中，文本处理设备可以通过自然语言处理中的文本预处理、语义理解等技术对文本进行处理。

该实体类型确定设备可以具备机器学习能力。机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。

在本申请实施例提供的实体类型确定方法中采用的人工智能模型主要涉及对聚类分析的应用，通过聚类方式从第一行为数据和第二行为数据中对应获取初始行为模式和目标行为模式。

为了便于理解本申请的技术方案，下面结合实际应用场景，对本申请实施例提供的实体类型确定方法进行介绍。邮箱***是一种支持用户之间通讯的***，例如，用户通过电子邮件、发送短信、利用应用程序发送信息等方式实现通讯，实体为邮箱***的用户，如发件人等，在实体使用邮箱的过程中会产生大量的行为数据，行为数据标识实体在对应时间内的邮箱使用行为，例如，发邮件的频率、累积发邮件的数量、邮件中是否携带病毒链接等。

参见图1，图1为本申请实施例提供的实体类型确定方法的应用场景示意图。在图1所示的应用场景中，前述实体类型确定设备为服务器100，用于确定邮箱***中实体的实体类型，例如，实体是否为恶意实体，恶意实体会不断发送垃圾邮件给邮箱***中的其他实体，影响其他实体的使用感。

为了识别实体的实体类型，获取实体在第一时段内的邮箱使用行为对应的第一行为数据，基于第一行为数据中所体现邮箱使用行为之间相似性和特点可以确定多个初始行为模式，由于第一行为数据覆盖邮箱***中实体的数量较多，获得的初始行为模式比较丰富全面，故可以作为后续确定目标行为模式的基础，而且将数量较多的第一行为数据转化为数量较少的初始行为模式，降低了基于初始行为模式确定目标行为模式的计算量，提高了后续实体类型的识别速度。例如，在图1所示的场景中，通过3天内的第一行为数据可以确定出n个初始行为模式。n个初始行为模式代表3天内的第一行为数据中n类行为特点，n个初始行为模式的数量小于第一行为数据的数量。由此，基于较少数量的行为模式可以提高后续实体类型的识别速度。

获取目标实体在第二时段内的邮箱使用行为对应的第二行为数据，其中，目标实体为在第二时段中邮箱使用行为发生变化的实体，目标实体数量较少，故相比于所有实体在第二时段内的行为数据，第二行为数据的数量较少，基于较少数量的第二行为数据确定目标行为模式可以降低计算量，提高后续实体类型的识别速度。

根据第二行为数据和初始行为模式，确定目标实体在第二时段内与初始行为模式不同的目标行为模式。由于第二时段晚于第一时段，通过目标实体在新时段内的新行为数据，可以发现初始行为模式中不包含的新行为模式。例如，目标实体在第一时段内一直未发送邮件，却在第二时段内发送持续发送邮件，目标实体的这种发送邮件的方式可以被视为一种行为模式，若该种行为模式与初始行为模式不同，则该种行为模式可能是一种新出现的行为模式，可以作为目标行为模式，从而通过将目标行为模式作为初始行为模式的一种补充，提高了对新增行为模式的识别时效性。

本申请实施例不具体限定第二时段，例如，第二时段所标识的时长与第一时段所标识的时长相近，以便行为数据确定的行为模式的参考性更高。在图1所示的场景中，第二时段所标识的时长为3天。

在确定目标行为模式之后，可以基于目标行为模式的行为类型，通过目标实体的行为数据属于何种行为类型快速确定邮箱***中目标实体的实体类型，从而快速分辨出目标实体是否为恶意实体，以便拦截恶意实体发送的邮件，降低邮箱***中其他实体收到垃圾邮件的数量，提升其他实体的使用感。

下面结合附图，以服务器作为实体类型确定设备，对本申请实施例提供的一种实体类型确定方法进行介绍。

参见图2，图2为本申请实施例提供的一种实体类型确定方法的流程示意图。如图2所示，该实体类型确定方法包括以下步骤：

S201：获取邮箱***中实体的第一行为数据。

为了识别出邮箱***中的恶意实体，相关技术中通过图聚类的方式识别实体是否为恶意实体，拦截恶意实体发送的邮件可以减少邮箱***中其他实体接收到的垃圾邮件的数量，从而提升用户的体验感。

但是，图聚类方式利用实体关系构造关系图，关系图的节点表示实体，节点之间的连边表示连边对应的两个实体发件情况，由此构造的关系图数据量很大，运行一次该关系图进行实体识别会消耗较多的时间，使得识别实体类型的识别速度慢。同时，由于关系图数据量庞大，当需要将新增的实体及其发件情况添加到关系图中，更新一次关系图所需的时间久，更新周期长，难以快速发现新增的恶意实体。

基于此，本申请实施例从实体的行为数据的角度进行分析，通过行为数据之间相似性和特点可以分析出实体的多个行为模式，从而将数量较多的行为数据转化为数量较少的行为模式，基于较少数量的行为模式进行实体识别消耗的时间较少，提高后续实体类型的识别速度。

由此，获取邮箱***中实体的第一行为数据，例如，从邮箱***中发送的邮件中抽取实体，分别按照不同的实体对应累计行为数据，如实体在当天发邮件的数量等。将累计的行为数据放在一个集合中，如行为数据表。

为了方便后续分析，可以选取与恶意程度强相关的行为数据构造行为向量，并进行归一化。

S202：根据第一行为数据确定多个初始行为模式。

第一行为数据标识所对应实体在第一时段内的邮箱使用行为，根据第一行为数据中所体现邮箱使用行为的相似性和特点可以确定多个初始行为模式，一个初始行为模式表征具有相似性和特点的一类第一行为数据，由此，可以将数量相对较多的第一行为数据转化为数量相对较少的初始行为模式。

其中，第一时段是相对于后续出现的第二时段之前的一段时间。例如，第一时段可以为从2020年1月1日1起至2020年1月10日。又如，第一时间可以为从2020年1月10日1起至2020年1月30日等。对应第一时段的第一行为数据覆盖邮箱***中实体的数量较多，获得的初始行为模式比较丰富全面，故可以作为后续确定目标行为模式的基础，而且将数量较多的第一行为数据转化为数量较少的初始行为模式，基于初始行为模式确定目标行为模式降低了计算量，提高了后续实体类型的识别速度。

本申请实施例可以基于需求调整第一时段。例如，随着第一时段所标识的时长的增加，第一行为数据的数据量增加，可以获得更多的初始行为模式。

为了在保证准确性的前提下，还可以保证实体类型识别的速度，可以对第一行为数据进行离线处理获得初始行为模式，使用初始行为模式直接进行后续的分析。

本申请实施例不具体限定初始行为模式的确定方式，例如，通过聚类算法从第一行为数据中分析出初始行为模式。聚类算法例如可以为k-means++ 算法、基于密度的带有噪声的空间聚类(Density-Based Spatial Clustering of Applications with Noise，DBSCAN)算法、利用层次方法的平衡迭代规约和聚类(Balanced Iterative Reducing andClustering Using Hierarchies，BIRCH) 算法等。后续以k-means++算法为例进行说明，具体参见S2021-S2023，在此不再赘述。

S203：获取邮箱***中目标实体的第二行为数据。

恶意实体为了发送给其他实体的垃圾邮件不被拦截，会不断增加新的行为模式，以便不被邮箱***识别出来，仅通过初始行为模式去识别恶意实体，可能无法识别出不断新增的行为模式，从而可能会无法及时发现甚至新出现的恶意实体，甚至是无法发现新增的恶意实体。例如，半小时之前首次出现的恶意实体，不能及时发现该恶意实体，半小时后该恶意实体会再次发送垃圾邮件。

由此，可以对初始行为模式进行补充，以便扩大行为模式的覆盖范围，使其不仅能够快速识别出新增的行为模式，还可以使得识别出的行为模式更加准确等。

获取邮箱***中的第二行为数据，第二行为数据用于标识目标实体在第二时段内的邮箱使用行为，第二时段晚于第一时段，第二时段标识的时长与第一时段标识的时长相近，作为一种可能的实现方式，第二时段标识的时长等于第一时段标识的时长，由此通过相同时段的行为数据确定的行为模式的参考性更高，提高实体类型识别的准确性。例如，若第一时段为从2020年1 月1日1起至2020年1月10日，第二时段可以为从2020年1月11日起至2020年1月20日，又或者第二时段可以为从2020年1月2日起至2020年1 月11日。

其中，目标实体为在第二时段中邮箱使用行为发生变化的实体，在第一时段后的时段，实体的邮箱使用行为发生变化，则通过该实体的行为数据确定的行为模式更可能为与初始行为模式不同，即新增的行为模式，且相比于邮箱***中的所有实体，目标实体数量较少，故相比于所有实体在第二时段内的行为数据，第二行为数据的数量较少，基于较少数量的第二行为数据确定目标行为模式降低了计算量，可以提高后续实体类型的识别速度。

例如，若目标实体是第二时段内新出现的实体，即没有历史行为累积，第二行为数据体现该实体在较短时长内的邮箱使用习惯。新增的行为模式可能是第二时段新出现的实体体现的，还可能第一时段具有行为数据的实体体现的。

作为一种可能的实现方式，可以先确定第三时段中邮箱使用行为发生变化的实体，确定为目标实体，其中，第三时段为第二时段中的一段时间，第三时段所标识的时长小于第二时段所标识的时长。然后获取目标实体在第二时段内的第二行为数据。例如，第一时段为从2020年1月1日1起至2020 年1月10日，第三时段为从2020年1月11日0时起至2020年1月11日2 时，第二时段可以为从2020年1月11日0时起至2020年1月20日24时。由此，可以通过较短的第三时段快速确定目标实体，以便可以提高后续实体类型的识别速度。

S204：根据第二行为数据和初始行为模式，确定目标实体在第二时段内与初始行为模式不同的目标行为模式。

根据第二行为数据中所体现邮箱使用行为的相似性和特点，以及初始行为模式体现的邮箱使用行为的相似性和特点，可以确定目标行为模式，目标行为模式与初始行为模式表征不同的行为模式，可以作为初始行为模式的补充，从而扩大行为模式的覆盖范围。目标行为模式的数量可以为一个，也可以为多个，本申请对此不做具体限定。

随着时间的推移，可能会不断出现新的行为模式，为了快速补充随着时间新增的行为模式，第二时段可以为第一时段之后出现的时间段。且可以通过不断调整第二时段，例如，若第一时段可以为1月1日至1月30日之间累积的邮箱使用行为，第二时段可以为2月1日至3月2日累积的邮箱使用行为，然后第二时段可以调整为3月1日至3月30日累积的邮箱使用行为等。通过不断调整第二时段，可以不断调整第二行为数据，从而可以不断发现新出现的行为模式。

通过第二行为数据和初始行为模式确定目标行为模式，从而通过目标行为模式不断发现随着时间推移新增的行为模式，且第二行为数据的数据量一般少于第一行为数据的数据量，相比于不断通过较长时段的行为数据发现新增的行为模式的方式，通过第二行为数据发现新增的行为模式速度更快。

S205：根据目标行为模式的对应的行为类型，确定目标实体的实体类型。

相比于初始行为模式，目标行为模式为目标实体不断新增的行为模式，更多的行为模式可以被识别出来，使得行为模式的覆盖范围较为全面。相比于关系图结构对应的庞大的数据量，目标行为模式对应的行为类型数量较少，通过目标行为模式识别目标实体的行为类型，运行一次的时间较短，识别速度更快。

可以理解的是，邮箱***中只有少量的实体是恶意实体，大量的实体均是非恶意实体，恶意实体与非恶意实体在行为模式上不同，由此可以将行为类型划分为正常和异常等。若一个实体的行为模式对应的行为类型为异常行为类型，则该实体为恶意实体，可以拦截该恶意实体发送的邮件，以便降低邮箱***中其他实体收到垃圾邮件的数量，提升其他实体的使用感。

若仅针对单个目标实体的行为数据对目标行为模式进行行为类型的评价，可能会由于单个目标实体的行为数据的数量较少(例如目标实体仅是偶尔发送一封邮件)而无法获得对应的行为类型。

基于此，可以获取多个目标实体的行为数据，根据多个目标实体的行为数据对应的行为模式对应的特征向量聚成向量簇，即向量簇中包括多个目标实体的行为数据的叠加，相比于单个目标实体的行为数据，多个目标实体的行为数据更为丰富，从而提高了对行为类型评价的准确性。

由此，作为一种可能的实现方式，S205可以通过S2051-S2052实现，具体如下所示。

S2051：根据目标行为模式所对应第二向量簇对应的第二行为数据，确定目标行为模式的行为类型。

S2052：将行为类型为恶意类型的恶意行为模式所对应第二向量簇中关联的目标实体确定为恶意实体。

第二向量簇中对应多个目标实体所对应的第二行为数据，综合多个目标实体的行为数据确定行为类型，行为类型可以为恶意类型、非恶意类型和中性类型等。

本申请实施例不具体限定评价实体类型的方式，例如，可以通过评分模型对第二向量簇内所有目标实体的行为数据进行评分，若该簇的评分超过阈值，则认为该簇是一个“坏簇”，其表征的行为模式为恶意类型，簇内所有的实体均为恶意实体。

若采用相关技术中基于实体关系数据进行聚类，同一实体可能发多封邮件，其行为在不断变化，因此该实体可能会不断变换为不同的簇，这给后续基于簇评价实体类型造成困难，只有簇评价和非恶意实体剔除只有做到足够快，才能够保证恶意实体识别的准确性。但采用本申请实施例基于实体行为数据进行聚类，无需要求簇评价和非恶意实体剔除的速度，方便实体类型的识别。

本申请实施例不具体限定评分模型的形式，例如，评分模型为逻辑回归(logistic regression)等二分类模型，训练数据基于邮箱***中的用户举报，客服人员的审核数据以及预先构建的样本库。训练模型后，通过模型计算样本的评分，但不通过逻辑函数(logistic function)进行变换。

本申请实施例不具体限定S204中目标行为模式的确定方式，下面结合分层可导小世界(Hierarchical Navigable Small World，HNSW)算法以一种实现方式进行说明，参见S2041-S2044。可以理解的是，本申请还可以采用其他聚类算法实现，对此不具体进行限定。

以下先介绍HNSW算法，说明在本申请实施例所示的场景中选择HNSW 算法确定目标行为模式的原因，然后再结合HNSW算法对S204中目标行为模式的确定方式进行说明。

HNSW算法是基于可导小世界(Navigable Small World，NSW)算法改进的算法，属于近似最近邻搜索算法中的一种，从控制节点的平均度(即友点的个数)入手，通过一个常数限制节点度的上限，并将NSW算法的结构分层，利用跳表的思想提高搜索的效率，实现真正的O(logN)搜索时间复杂度。

为了更好的理解HNSW算法，下面先介绍跳表思想，然后介绍结合了跳表思想的HNSW算法。

假设原始链表一共有N个元素，并且每两个元素抽出一个元素作为上一级的索引，那么跳表中第一级索引保留N/2个元素，第二级索引保留N/4个元素，第k级索引保留N/2^k个元素，直到顶级索引保留2个元素，即索引层高度 h＝log(N)-1。则跳表的总高度为原始链表层加索引层，等于log(N)。搜索总体的时间复杂度为每层索引的元素遍历数和索引高度的乘积。

参见图3，该图为本申请实施例提供的一种跳表的示意图。在该跳表中包括8个元素，以查找元素5为例，首先在第二级索引中遍历元素1和7，发现 1<5<7，则在元素1的位置下降至第一级索引，再遍历4和7，当遍历到7时发现4<5<7，因此从元素7的位置下降到原始链表层，再遍历元素5，即可找到要找的元素。

从上边的例子可以看出，建立跳表时每两个元素抽一个元素作为上层索引的建表规则，使得在查找时每层索引遍历的元素数不超过3。因此最终的查询时间复杂度为O(logN)。

下面结合图4介绍将跳表思想融入到NSW算法中形成的HNSW算法。

跳表的索引可以通过不断抽取下层索引的方式完成构建，在融入的过程中需要确定每一层有哪些元素，在建图过程中，针对每一个新***的元素， HNSW都会预先计算一个层级数L，作为该元素能够达到的最高层级，然后从 HNSW的第L层开始***该点，直到底层(第0层)。其中L是通过一个指数衰减的概率分布随机挑选的，参见公式(1)：

L＝-ln(unif(0..1))·m_L (1)

其中，unif(0..1)表示从0到1的均匀分布中随机选取一个数，m_L表示归一化因子，可视为一常数。

在每层***新的元素(以下称为查询点)时，会通过贪心算法计算该层中与***点最近邻的n个点并进行连接。参见图4，该图为本申请实施例提供的一种HNSW算法的示意图。该HNSW算法包括第0层、第1层和第2层，即 L＝2。

从任意一点H出发，查找查询点D的最近邻点过程为，在第二层选择H 点的友点中与D点最近的点A，再下降到第一层，通过计算A点的友点与D 点的距离，选择距离最近的点C。再下降到0层，重复上次操作，最终发现查询点D的最近邻点即为D点本身。

以上是对HNSW算法的介绍，基于此，选择HNSW算法识别目标行为模式的原因是，其搜索速度快，能够提高目标行为模式的识别效率，从而提高实体类型的识别速度。

下面结合HNSW算法具体说明S204中目标行为模式的确定方式。

S2041：获得第二行为数据之后，根据第二行为数据确定邮箱***中目标实体分别对应的第二特征向量。

S2042：确定第二特征向量与初始行为模式对应特征向量间的向量距离，将向量距离大于距离阈值的第二特征向量作为待定特征向量。

在特征空间中，通过特征向量之间的向量距离，可以分析出特征向量之间是否相似，具体地，若第二特征向量与初始行为模式对应的特征向量之间的向量距离越小，则表示第二特征向量对应的行为模式与初始行为模式越相似；若第二特征向量与初始行为模式对应的特征向量之间的向量距离越大，则表示第二特征向量对应的行为模式与初始行为模式越不相似。

为了发现与初始行为模式不同的目标行为模式，可以获取目标实体对应的第二特征向量，确定第二特征向量与初始行为模式对应特征向量间的向量距离，将向量距离大于距离阈值的第二特征向量作为待定特征向量，通过待定特征向量分析出目标行为模式。

以HNSW算法为例，当使用HNSW算法对第二特征行为向量进行聚类后，能够得到每个第二特征向量到其近似最近邻索引，即初始行为模式对应的特征向量的欧式距离，如果该欧式大于距离阈值，则认为该第二特征行为向量可能代表一种新的行为模式，将该第二特征向量作为待定特征向量。也就是说，通过HNSW算法可以获得初始行为模式对应的特征向量的近似最近邻点，即聚集在初始行为模式对应的特征向量附近的第二特征向量，从而快速确定待定特征向量。

待定特征向量在很大程度上会表征与初始行为模式不同的行为模式，通过距离阈值可以快速从第二特征向量中筛选出待定特征向量，从而提高目标行为模式的确定速度，进而提高实体类型的识别速度。

本申请实施例不具体限定前述确定待定行为模式时所使用的距离阈值的设定方式，下面介绍一种距离阈值的确定方式，参见步骤1-步骤3。

步骤1：确定第二特征向量与目标向量间的待定向量距离。

目标向量为初始行为模式所对应簇特征向量中的一个，可以通过采样初始行为模式对应的向量簇中的特征向量，即簇特征向量获得，一个目标向量可以表征所对应向量簇的初始行为模式。将第二特征向量与目标向量进行匹配，匹配的过程为近似最近邻搜索的过程，即搜索目标向量的近似最近邻点，一个目标向量的近似最近邻点会聚集在该目标向量附近，即命中同一目标向量的第二特征向量被视为聚到同一个簇中。

特别地，针对单个簇A分析，该簇A中的第二特征向量与目标向量间距离为待定向量距离。

步骤2：根据从大到小排列的阈值序列，依次确定待定向量距离满足阈值序列中待定阈值的第二特征向量的向量个数。

预先设置一个从大到小排列的阈值序列，阈值序列中的每个阈值为待定阈值。例如，阈值序列可以为{20，15，10}，其中，15为第2个待定阈值。依次确定待定向量距离满足阈值序列中待定阈值的第二特征向量的向量个数。例如，若前述确定的簇A中第二特征向量有100个，确定待定向量距离小于待定阈值20的第二特征向量有100个，待定向量距离小于待定阈值15的第二特征向量有90个，待定向量距离小于待定阈值10的第二特征向量有5个。

步骤3：若处于第i个待定阈值的向量个数与处于第i+1个待定阈值的向量个数间数量差达到预定条件，根据第i个待定阈值确定距离阈值。

在特征空间中，以目标向量为中心，以待定阈值为半径画圆，从大圆逐渐缩小，即以目标向量为中心的圆的半径按照阈值序列逐渐减小，从第i个待定阈值变为第i+1待定阈值。若圆内的第二特征向量的数量突然减少，且减少数量达到预定条件，则说明第二特征向量聚集在被缩小的范围内，其有可能聚集在目标向量所在的向量簇中，与目标向量表征同一种行为模式。由此，可以将第i待定阈值作为距离阈值。

继续以步骤2中的例子为例，处于第2个待定阈值15的向量个数与第3 个待定阈值10的向量个数的差值为85，该差值达到了预设条件，则将待定阈值15作为距离阈值。

针对多个簇分别按照步骤一到三进行计算，取多个簇的平均距离阈值作为识别待定特征向量的距离阈值。

由此，通过上述方式即可确定待定行为模式时所使用的距离阈值，通过该距离阈值可以筛选出待定特征向量，下面继续说明根据待定特征向量得到第二向量簇。

S2043：通过对待定特征向量进行向量聚类，得到至少一个第二向量簇。

由前述可知，待定特征向量可能表征与初始行为模式不同的行为模式。但是，只有当待定特征向量聚集在一起，即待定特征向量聚集得到至少一个第二向量簇，该第二向量簇表征同一种行为模式，说明该种行为模式是一种有价值的行为模式，例如，批量爆发的恶意实体对应的行为模式等。

参见图5a，该图为本申请实施例提供的一种待定特征向量分布的示意图。在图5a中，实心圆点A、B、C和D表示四种初始行为模式分别对应的目标向量，空白圆点和条纹圆点表示第二特征向量，其中条纹圆点E、F、G和H 距离其最近邻的目标向量的向量距离大于距离阈值，则条纹圆点E、F、G和H表示四个待定特征向量，可能表示新增的行为模式。条纹圆点E、F、G和 H聚集在一起，表示该四个待定特征向量可能表示一种新的行为模式。参见图5b，该图为本申请实施例提供的一种待定特征向量分布的示意图。与图5a 不同的是，条纹圆点E、F、G和H分散开来，没有聚集在一起，不会形成向量簇，其对应的行为模式价值较低，需要被排除。

若待定特征向量的数量较多，很大程度上说明恶意实体在活动，批量发送垃圾邮件等，此时对于同一种行为模式存在大量的冗余数据，为例降低数据量，缩短计算时间，可以对待定特征向量进行均匀采样，得到采样特征向量，由于采样特征向量是从待定特征向量中均匀采样出来的，其数量会少于待定特征向量的数量。在特征空间中，采样特征向量组成的图案相当于将待定特征向量组成的图案等比例进行缩小，没有损失信息，还能够识别出对应的行为模式。由此，通过均匀采样方式可以在保证准确度的前提下，减少了冗余数据的无用计算，缩短了计算时间。之后可以根据采样特征向量进行向量聚类，得到至少一个第二向量簇。

本申请实施例不具体限定待定特征向量进行向量聚类的方式，下面以层次聚类为例进行说明。

层次聚类分为“自底向上”和“自顶向下”两种聚类方式。“自底向上”即初始时将每个点都视为一个簇，每次循环合并距离最近的簇，以簇间距离为分支高度构建树状图，最后通过预设的簇间最大距离，即前述距离阈值在相应高度将树状图横向“一刀切”，即通过切分形成若干个簇。“自顶向下”则与之相反，在此不再赘述。下面结合图6对“自底向上”为例进行说明。

参见图6，该图为本申请实施例提供的一种层次聚类树状图的示意图。在图6中，以包括11个第二特征向量为例，初始时，每个第二特征向量均可以视为一个簇，每次循环合并距离最近的簇，以簇间距离为分支高度构建树状图，最后通过预设的簇间最大距离在相应高度将树状图横向切分，形成三个簇。通过层次聚类方式无需预先指定簇的个数。

本申请实施例不具体限定簇间距离的设置方式，例如，可以为单连接 (Singlelinkage)方式、全连接(Complete linkage)方式、均值连接(Average linkage)方式等。

参见图7，该图为本申请实施例提供的一种确定簇间距离的示意图。如图 7左侧所示为单连接方式，单连接方式以两个簇中最近点的距离作为簇间距离，这样形成的簇较为松散，且易受异常值影响。如图7中间所示为全连接方式，全连接方式以两个簇最远点距离作为簇间距离，形成的簇较为紧密，但成簇条件较为严格，不易成簇，同时也易受异常值影响。如图7右侧所示为均值连接方式，均值连接方式是二者的折中，以两个簇中各个点距离均值作为簇间距离，计算量较大但不易受异常值影响。

由此，本申请实施例可以选用均值连接方式作为簇间距离计算方式，通过“自底向上”方式聚类，簇间最大距离的设置方式可以参见前述距离阈值的设置方式，参见步骤1-步骤3，在此不再赘述。

S2044：根据第二向量簇包括的待定特征向量，确定目标行为模式。

如图5a所示，条纹圆点E、F、G和H聚集成一个第二向量簇，该第二向量簇与实心圆点A、B、C和D分别所在的向量簇不同，即目标行为模式与初始行为模式不同，目标行为模式可以表示新增的行为模式，作为初始行为模式的补充，扩大行为模式的覆盖范围。

需要说明的是，可以在第二向量簇中，针对每个第二向量簇采样少量待定特征向量作为目标行为模式。

在确定目标行为模式之后，可以采用如前述S2051-S2052的方式确定目标实体的实体类型。具体地，根据与第二向量簇对应的第二行为数据，确定目标行为模式的行为类型，若从目标行为模式中确定出行为类型为恶意类型的恶意行为模式，将恶意行为模式所对应第二向量簇中关联的目标实体确定为恶意实体。

通过上述说明可知，HNSW算法可以用于快速查询近似最近邻点，可以被应用于聚类的场景中：当给定一批查询点，分别查询与这些点最相似的索引，那么命中同一索引的查询点就可以聚到一个簇中。

在本申请实施例提供的邮箱***的场景中，第二行为数据可以看作上述查询点，通过HNSW可以快速找到第二行为数据的近似最近邻点，即通过第二行为数据对应的第二特征向量与初始行为模式对应的特征向量之间的距离，可以确定与第二行为数据相似的初始行为模式，命中同一初始行为模式的第二特征向量会被划分到同一个簇中。

由此，在使用HNSW算法确定目标行为模式时，HNSW算法中所需的初始索引的选取会影响后续实体类型识别的准确性。为了保证HNSW算法中所需的初始索引的准确性，下面说明一种确定HNSW算法中所需的初始索引的方式，即S202中初始行为模式的确定可以通过如S2021-S2023的方式实现，具体如下所示。

S2021：根据第一行为数据确定邮箱***中实体分别对应的第一特征向量。

S2022：通过对第一特征向量进行向量聚类，得到多个第一向量簇。

本申请实施例不具体限定聚类算法，下面以用k-means++算法为例进行说明。

为了防止通过随机选择初始聚类中心、根据经验设置簇的个数，导致的聚类效果差的问题，本申请实施例采用k-means++算法和基于轮廓系数通过手肘法进行改进，下面具体进行介绍。

首先，通过k-means++算法防止采用传统k-means算法随机选择初始聚类中心，具体地，依次选取距离尽可能远的第一特征向量作为初始聚类中心解决随机选择初始聚类中心，如果距离过近，影响聚类效果的问题。

其次，关于簇的个数的选取可以基于轮廓系数通过手肘法确定。

(一)轮廓系数。

轮廓系数S(i)的确定方式参见公式(2)：

其中，b(i)表示第一特征向量i到距离其最近的一个簇内所有第一特征向的平均距离；a(i)表示第一特征向量i到其所在簇内所有第一特征向的平均距离。

轮廓系数S(i)的取值范围为[-1，1]，越接近1表示簇内紧密，簇间分离程度高，聚类效果越好。

(二)手肘法。

手肘法是按一定步长选取簇个数序列，如[2000,4000,6000,8000,10000]，分别针对这些簇个数，采用k-means++算法进行聚类，再针对聚类结果计算轮廓系数，寻找“拐点”，其特点为：在“拐点”附近，随簇个数的增加，轮廓系数的变化突然放缓，即增加簇个数已经不能带来较大的轮廓系数增益。即通过轮廓系数和手肘法确定出的簇个数不会太多，也不会太少，提高了聚类的效果，能够较为准确的体现第一行为数据中包括的初始行为模式的个数。

S2023：根据第一向量簇包括的第一特征向量，确定与多个第一向量簇一一对应的多个初始行为模式。

通过聚类的方式将邮箱***中实体分别对应的第一特征向量进行分类，即划分为多个第一向量簇，每个第一向量簇表征一种初始行为模式，同时第一向量簇中的每个第一特征向量均可以表征对应的行为模式。

需要说明的是，在根据初始行为模式和第二行为数据确定目标行为模式之后，确定的目标行为模式还可以作为HNSW算法中的初始索引，以便增加初始索引的准确性，然后根据新确定的初始索引和第二行为数据不断迭代确定新增的目标行为模式，从而快速识别出新的行为模式，扩大行为模式的覆盖范围，提高实体类型识别的准确性。

为了降低后续HNSW算法的计算量，提高实体类型的识别速度，可以从第一向量簇中采样少量的第一特征向量，采样得到的第一特征向量可以确定出所在第一向量簇的簇特征向量，其代表所在第一向量簇的初始行为模式。由此，将多个第一向量簇分别对应的簇特征向量确定为多个初始行为模式的特征向量，从而组成HNSW算法中所需的初始索引。

参见图8，该图为本申请实施例提供的一种初始行为模式的确定方式的示意图。可以选取邮箱***中实体多天累计的第一行为数据。然后采用聚类方式获得多个第一向量簇，针对每个第一向量簇进行采样，由此获得多个初始行为模式。

虽然通过前述确定的目标行为模式可以不断补充初始行为模式，使得实体对应的行为模式涵盖范围更广，随着行为模式的不断增加，会导致实体类型的识别速度降低。由此，可以将长期没有命中的初始行为模式和/或目标行为模式进行剔除，以便当初始行为模式和/或目标行为模式可以作为HNSW算法的初始索引时，在保证初始索引的正确性的前提下，降低初始索引的数量，从而提高实体类型的识别速度。例如，可以将目标行为模式和初始行为模式加入到数据库中，通过数据表记录目标行为模式和初始行为模式入库时间和累积命中次数等信息，如果初始行为模式和/或目标行为模式长时间没有被命中，或者入库时间比较久远但命中次数较少，均可以进行剔除。

作为一种可能的实现方式，在根据目标行为模式对应的行为类型，确定目标实体的实体类型之后，还可以根据所确定的实体类型更新邮箱***的实体黑名单。更新方式包括增加、删除等，本申请对此不做具体限定。

例如，通过初始行为模式和/或目标行为模式不断的更新，即以较高的频率滚动速度不断确定初始行为模式和/或目标行为模式，可以将实体类型为恶意类型的恶意实体不断加入到实体黑名单中，从而根据实体黑名单的记载拦截恶意实体发送的邮件。实体黑名单可以为数据库，本申请对此不做具体限定。

又如，为了进一步避免误拦截，可以根据实体的行为数据，如实时行为数据、实体的反馈数据新增自动化的黑名单剔除机制。若出现存在实体在一段时间内批量发垃圾，但是后来开始发正常邮件(如实体的邮箱被盗)等现象。自动剔除的机制可以及时将实体类型不再为恶意类型的实体进行剔除，使得实体黑名单中记载的实体随着时间的推移不断变化，从而使得实体类型的识别更加稳定。

为了更好的理解本申请实施例提供的实体类型确定方法，下面以帮助邮箱***在线识别实体是否为恶意实体的场景为例，对本申请实施例提供的实体类型确定方法进行说明。其中，本申请实施例涉及到的聚类方式为 k-means++算法、层次聚类算法和HNSW算法为聚类。

参见图9，该图为本申请实施例提供的一种实体类型确定方法的场景示意图。在图9所示场景中，以服务器作为实体类型确定设备，邮箱***中会有作为发件人的实体发送大量的邮件。

S901：获取批量邮件。

S902：抽取对应的发件人。

将发件人对应的行为数据记录在行为数据表中。

S903：将行为数据构造为行为向量。

从行为数据表中获取1月份三十天内的第一行为数据，以及3月份30天的第二行为数据。

S904：对行为向量进行聚类。

通过HNSW算法，基于目标行为模式和初始行为模式对第二行为数据进行聚类，获得20个第二向量簇。后续结合图10，对确定目标行为模式进行说明，在此不再赘述。

其中，初始行为模式通过k-means++聚类确定，具体步骤参考S2021-S2023 和图8。得到初始行为模式后，还需要周期性地识别添加新行为模式，即目标行为模式，具体方法参考S2041-S2044和图10。此外，还可以定时剔除无用行为模式。S903和S904为从行为数据中分析行为模式的过程。

S905：评估簇。

具体可以参见S2051-S2052，对20个第二向量簇进行簇评分，其中，有 10个第二向量簇的评分高于阈值，则该10个第二向量簇均为“坏簇”。

S906：识别恶意实体。

根据10个“坏簇”对应的行为类型，若出现发件人在发送邮件的行为模式命中了上述10个行为模式，则该发件人为恶意实体，需要对其加入到恶意实体黑名单中，拦截其发送的邮件。

由此，从实体行为侧入手，通过选取与实体恶意程度强相关的行为数据构造特征向量、再通过时间复杂度logN的HNSW算法聚类。具有以下三方面优点：

(1)时效性方面：恶意实体(如恶意发件人)的自动化识别频率相比于图聚类方式中以小时为单位变为以分钟为单位，使得自动化识别频率至少提升12倍。

(2)恶意实体黑名单覆盖方面：加入HNSW聚类后，相比于图聚类方式，单日平均识别各种新增恶意实体量提升12％-60％不等。

(3)垃圾邮件拦截方面:应用HNSW聚类后，恶意实体单日平均新增拦截垃圾邮件量提升30％，其中，新增拦截量指只被恶意实体识别拦截而没有被其他策略覆盖的拦截邮件数。平均整体拦截提升15％，识别拉黑恶意实体后进行延后处理，单日平均延后进垃圾箱30万。不仅使得用户收到垃圾邮件变少，体验变好，还降低恶意实体复用率，恶意实体对抗难度增大，提升了恶意实体的对抗成本。

下面结合图10对获取S904中的目标行为模式进行说明。参见图10，该图为本申请实施例提供的一种确定目标行为模式的流程图。

S1001：获取第二行为数据的第二特征向量。

从行为数据表中获取的3月份30天的第二行为数据，获取第二行为数据对应的第二特征向量，具体参见S2041。

S1002：利用HNSW算法进行查询。

通过HNSW算法获得向量距离，向量距离为第二行为数据对应的第二特征向量与目标向量之间的欧式距离，具体参见S2042。

S1003：判断向量距离是否大于距离阈值。

若否，则执行S1004；若是，则执行S1005。

S1004：获得HNSW聚类结果。

此时，第二特征向量均聚集在目标向量附近，没有出现离群点。

S1005：判断待定特征向量的数量是否大于数量阈值。

此时，第二特征向量均并未全部聚集在目标向量附近，大于距离阈值的第二特征向量为待定特征向量。

若是，则执行S1006，若否，则执行S1007。

S1006：采样待定特征向量。

均匀采样待定特征向量。从而减少待定特征向量的数量。

S1007：进行层次聚类。

对S1005中待定特征向量或S1007中均匀采样后的待定特征向量进行层次聚类。

S1008：过滤簇。

S1009：采样簇。

S1010：更新索引库。

确定目标行为模式，将目标行为模式添加到初始行为模式所在的索引库中，以便S1002通过HNSW算法查询。

由此，HNSW查询得到聚类结果，这个聚类结果就是用第二特征向量和索引库通过HNSW查询得到的。为了批量发现恶意实体，还可以对这个聚类结果进行簇评估。通过HNSW的周期性查询、聚类、簇评估、发现恶意实体这一周期为实体聚类周期，这个实体聚类周期比较短，如10分钟。也就是说每10分钟便可进行一次恶意实体的批量发现和拉黑。

针对上述实施例提供的实体类型确定方法，本申请实施例还提供了一种实体类型确定装置。

参见图11，该图为本申请实施例提供的一种实体类型确定装置的示意图。如图11所示，该实体类型确定装置1100包括：获取单元1101和确定单元1102；

所述获取单元1101，用于获取邮箱***中实体的第一行为数据，所述第一行为数据用于标识所对应实体在第一时段内的邮箱使用行为；

所述确定单元1102，用于根据所述第一行为数据确定多个初始行为模式；

所述获取单元1101，还用于获取所述邮箱***中目标实体的第二行为数据，所述第二行为数据用于标识所对应目标实体在第二时段内的邮箱使用行为，所述目标实体为在所述第二时段中邮箱使用行为发生变化的实体，所述第二时段晚于所述第一时段；

所述确定单元1102，还用于根据所述第二行为数据和所述初始行为模式，确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式；根据所述目标行为模式的对应的行为类型，确定所述目标实体的实体类型。

作为一种可能的实现方式，所述确定单元1102，用于：

根据所述第二行为数据确定所述目标实体分别对应的第二特征向量；

确定所述第二特征向量与所述初始行为模式对应特征向量间的向量距离，将所述向量距离大于距离阈值的第二特征向量作为待定特征向量；

通过对所述待定特征向量进行向量聚类，得到至少一个第二向量簇；

根据所述第二向量簇包括的待定特征向量，确定所述目标行为模式。

作为一种可能的实现方式，所述确定单元1102，用于：

根据与所述第二向量簇对应的第二行为数据，确定所述目标行为模式的行为类型；

若从所述目标行为模式中确定出行为类型为恶意类型的恶意行为模式，将所述恶意行为模式所对应第二向量簇中关联的目标实体确定为恶意实体。

作为一种可能的实现方式，所述确定单元1102，用于：

对所述待定特征向量进行均匀采样，得到采样特征向量，所述采样特征向量的数量小于所述待定特征向量的数量；

根据所述采样特征向量进行向量聚类，得到至少一个第二向量簇。

作为一种可能的实现方式，目标向量为所述初始行为模式所对应簇特征向量中的一个，所述距离阈值通过如下方式确定：

确定所述第二特征向量与所述目标向量间的待定向量距离；

根据从大到小排列的阈值序列，依次确定所述待定向量距离满足所述阈值序列中待定阈值的第二特征向量的向量个数；

若处于第i个待定阈值的向量个数与处于第i+1个待定阈值的向量个数间数量差达到预定条件，根据所述第i个待定阈值确定所述距离阈值。

作为一种可能的实现方式，所述确定单元1102，用于：

根据所述第一行为数据确定所述邮箱***中实体分别对应的第一特征向量；

通过对所述第一特征向量进行向量聚类，得到多个第一向量簇；

根据所述第一向量簇包括的第一特征向量，确定与所述多个第一向量簇一一对应的多个初始行为模式。

作为一种可能的实现方式，所述确定单元1102，用于：

从所述第一向量簇包括的第一特征向量中进行向量采样，根据采样得到的第一特征向量确定簇特征向量；

将所述多个第一向量簇分别对应的簇特征向量确定为所述多个初始行为模式的特征向量。

作为一种可能的实现方式，所述第二时段所标识的时长等于所述第一时段所标识的时长。

作为一种可能的实现方式，待定行为模式为任意一个所述初始行为模式或任意一个所述目标行为模式，在所述根据所述第二行为数据和所述初始行为模式，确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式的过程中，所述装置1100，还用于：

若所述待定行为模式与所述第二行为数据的匹配频率低于频率阈值，将所述待定行为模式删除。

作为一种可能的实现方式，在所述根据所述目标行为模式对应的行为类型，确定所述目标实体的实体类型之后，所述装置1100，还用于：

根据所确定的实体类型更新所述邮箱***的实体黑名单。

本申请提供实体类型确定装置，针对邮箱***中的实体，获取实体在第一时段内的邮箱使用行为对应的第一行为数据，基于第一行为数据中所体现邮箱使用行为之间相似性和特点可以确定多个初始行为模式，由于第一行为数据覆盖邮箱***中实体的数量较多，获得的初始行为模式比较丰富全面，故可以作为后续确定目标行为模式的基础，而且将数量较多的第一行为数据转化为数量较少的初始行为模式，基于数量较少的初始行为模式确定目标行为模式降低了计算量，提高了后续实体类型的模型速度。获取目标实体在第二时段内的邮箱使用行为对应的第二行为数据，其中，目标实体是第二时段内邮箱使用行为发生变化的实体，目标实体数量较少，故相比于所有实体在第二时段内的行为数据，第二行为数据的数量较少，基于较少数量的第二行为数据确定目标行为模式降低了计算量，可以提高后续实体类型的识别速度。根据第二行为数据和初始行为模式，确定目标实体在第二时段内与初始行为模式不同的目标行为模式。由于第二时段晚于第一时段，通过目标实体在新时段内的新行为数据，可以发现初始行为模式中不包含的新行为模式，通过目标行为模式作为初始行为模式的一种补充，提高了对新增行为模式的识别时效性。在确定了目标行为模式的行为类型后，可以基于目标实体属于何种行为类型快速确定邮箱***中目标实体的实体类型。由于行为模式的数量相对有限，一般远小于相关技术所使用关系图中的实体节点数量，执行目标实体识别时更为迅速，且通过目标行为模式，使得行为模式的涵盖范围全面，也能够保证总体识别精度。

前述所述的实体类型确定设备可以为一种计算机设备，该计算机设备可以为服务器，还可以为终端设备，下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中，图12所示为服务器的结构示意图，图 13所示为终端设备的结构示意图。

参见图12，图12是本申请实施例提供的一种服务器结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以***处理器(centralprocessing units，CPU)1422(例如，一个或一个以上处理器)和存储器1432，一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中，存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器1422可以设置为与存储介质1430 通信，在服务器1400上执行存储介质1430中的一系列指令操作。

服务器1400还可以包括一个或一个以上电源1426，一个或一个以上有线或无线网络接口1450，一个或一个以上输入输出接口1458，和/或，一个或一个以上操作***1441，例如Windows ServerTM，Mac OS XTM，UnixTM, LinuxTM，FreeBSDTM等等。

上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。

其中，CPU 1422用于执行如下步骤：

根据所述第一行为数据确定多个初始行为模式；

根据所述目标行为模式对应的行为类型，确定所述目标实体的实体类型。可选的，CPU 1422还可以执行本申请实施例中实体类型确定方法任一具体实现方式的方法步骤。

参见图13，图13为本申请实施例提供的一种终端设备的结构示意图。示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图，参考图13，该智能手机包括：射频(Radio Frequency，简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity，简称WiFi)模块1570、处理器1580、以及电源 1590等部件。本领域技术人员可以理解，图13中示出的智能手机结构并不构成对智能手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图13对智能手机的各个构成部件进行具体的介绍：

RF电路1510可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器1580处理；另外，将设计上行的数据发送给基站。通常，RF电路1510包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(Low NoiseAmplifier，简称LNA)、双工器等。此外，RF电路1510还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯***(Global System of Mobile communication，简称GSM)、通用分组无线服务 (GeneralPacket Radio Service，简称GPRS)、码分多址(Code Division Multiple Access，简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access，简称WCDMA)、长期演进(Long Term Evolution，简称LTE)、电子邮件、短消息服务(Short Messaging Service，简称SMS)等。

存储器1520可用于存储软件程序以及模块，处理器1580通过运行存储在存储器1520的软件程序以及模块，从而实现智能手机的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作***、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据智能手机的使用所创建的数据 (比如音频数据、电话本等)等。此外，存储器1520可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元1530可用于接收输入的数字或字符信息，以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1531上或在触控面板1531附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板1531可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1580，并能接收处理器1580发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板1531。除了触控面板1531，输入单元1530还可以包括其他输入设备1532。具体地，其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541，可选的，可以采用液晶显示器(LiquidCrystal Display，简称LCD)、有机发光二极管(Organic Light-Emitting Diode，简称OLED)等形式来配置显示面板1541。进一步的，触控面板1531可覆盖显示面板1541，当触控面板1531检测到在其上或附近的触摸操作后，传送给处理器1580以确定触摸事件的类型，随后处理器1580 根据触摸事件的类型在显示面板1541上提供相应的视觉输出。虽然在图13 中，触控面板1531与显示面板1541是作为两个独立的部件来实现智能手机的输入和输入功能，但是在某些实施例中，可以将触控面板1531与显示面板 1541集成而实现智能手机的输入和输出功能。

智能手机还可包括至少一种传感器1550，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1541的亮度，接近传感器可在智能手机移动到耳边时，关闭显示面板1541和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别智能手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1560、扬声器1561，传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号，传输到扬声器1561，由扬声器1561转换为声音信号输出；另一方面，传声器1562 将收集的声音信号转换为电信号，由音频电路1560接收后转换为音频数据，再将音频数据输出处理器1580处理后，经RF电路1510以发送给比如另一智能手机，或者将音频数据输出至存储器1520以便进一步处理。

WiFi属于短距离无线传输技术，智能手机通过WiFi模块1570可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1570，但是可以理解的是，其并不属于智能手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1580是智能手机的控制中心，利用各种接口和线路连接整个智能手机的各个部分，通过运行或执行存储在存储器1520内的软件程序和/或模块，以及调用存储在存储器1520内的数据，执行智能手机的各种功能和处理数据，从而对智能手机进行整体监控。可选的，处理器1580可包括一个或多个处理单元；优选的，处理器1580可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作***、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器 1580中。

智能手机还包括给各个部件供电的电源1590(比如电池)，优选的，电源可以通过电源管理***与处理器1580逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。

尽管未示出，智能手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该智能手机所包括的存储器1520可以存储程序代码，并将所述程序代码传输给所述处理器。

该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的实体类型确定方法。

本申请实施例还提供一种计算机可读存储介质，用于存储计算机程序，该计算机程序用于执行上述实施例提供的实体类型确定方法。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的实体类型确定方法。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质可以是下述介质中的至少一种：只读存储器(英文：read-only memory，缩写：ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备及***实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的设备及***实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述，仅为本申请的一种具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种实体类型确定方法，其特征在于，所述方法包括：

根据所述第一行为数据确定多个初始行为模式；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第二行为数据和所述初始行为模式，确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述目标行为模式对应的行为类型，确定所述目标实体的实体类型，包括：

4.根据权利要求2所述的方法，其特征在于，所述通过对所述待定特征向量进行向量聚类，得到至少一个第二向量簇，包括：

5.根据权利要求2所述的方法，其特征在于，目标向量为所述初始行为模式所对应簇特征向量中的一个，所述距离阈值通过如下方式确定：

确定所述第二特征向量与所述目标向量间的待定向量距离；

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一行为数据确定多个初始行为模式，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一向量簇包括的第一特征向量，确定与所述多个第一向量簇一一对应的多个初始行为模式，包括：

8.根据权利要求1-7任意一项所述的方法，其特征在于，所述第二时段所标识的时长等于所述第一时段所标识的时长。

9.根据权利要求1-7任意一项所述的方法，其特征在于，待定行为模式为任意一个所述初始行为模式或任意一个所述目标行为模式，在所述根据所述第二行为数据和所述初始行为模式，确定所述目标实体在所述第二时段内与所述初始行为模式不同的目标行为模式的过程中，所述方法还包括：

10.根据权利要求1-7任意一项所述的方法，其特征在于，在所述根据所述目标行为模式对应的行为类型，确定所述目标实体的实体类型之后，所述方法还包括：

根据所确定的实体类型更新所述邮箱***的实体黑名单。

11.一种实体类型确定装置，其特征在于，所述装置包括：获取单元和确定单元；

12.根据权利要求11所述的装置，其特征在于，所述确定单元，用于：

13.根据权利要求12所述的方法，其特征在于，所述确定单元，用于：

14.一种计算机设备，其特征在于，所述设备包括处理器以及存储器：

所述处理器用于根据所述程序代码中的指令执行权利要求1-10任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序用于执行权利要求1-10任意一项所述的方法。