CN114928496A

CN114928496A - 异常行为检测方法及装置

Info

Publication number: CN114928496A
Application number: CN202210612891.0A
Authority: CN
Inventors: 孟雷
Original assignee: Alibaba Cloud Computing Ltd
Current assignee: Alibaba Cloud Computing Ltd
Priority date: 2022-05-31
Filing date: 2022-05-31
Publication date: 2022-08-19

Abstract

本说明书提供一种异常行为检测方法及装置，通过获取由多个待检测对象的访问行为数据样本构成的数据集，基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，并基于检测结果对所述多个待检测对象进行第一风险评分；基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，并基于检测结果对所述多个待检测对象中相对于其所属的所述对象群体进行第二风险评分；将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行融合，得到与所述各个待检测对象对应的融合风险评分，并基于所述融合风险评分从所述多个待检测对象中确定访问行为异常的目标检测对象。

Description

异常行为检测方法及装置

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种异常行为检测方法及装置。

背景技术

随着信息化快速发展，有关用户个人信息安全、数据安全的问题越来越得到重视。其中，数据泄露等数据安全问题通常是由企业内部人员利用权限便利窃取敏感数据导致。因此，如何高效准确的检测企业内部人员针对应用层的访问行为是否合规成为亟待解决的问题。

发明内容

有鉴于此，本说明书一个或多个实施例提供一种异常行为检测方法及装置，以解决相关技术中存在的问题。

为实现上述目的，本说明书一个或多个实施例提供技术方案如下：

根据本说明书一个或多个实施例的第一方面，提出了一种异常行为检测方法，所述方法包括：

获取由多个待检测对象的访问行为数据样本构成的数据集；其中，所述多个待检测对象包括访问行为相似的至少一个对象群体；

基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，并基于检测结果分别对所述多个待检测对象进行风险评分，得到所述多个待检测对象的第一风险评分；

基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，并基于检测结果分别对所述多个待检测对象相对于其所属的所述对象群体进行风险评分，得到所述多个待检测对象的第二风险评分；

分别将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行融合，得到与所述各个待检测对象对应的融合风险评分，并基于所述融合风险评分从所述多个待检测对象中确定访问行为异常的目标检测对象。

根据本说明书一个或多个实施例的第二方面，提出了一种异常行为检测装置，所述装置包括：

数据获取单元，用于获取由多个待检测对象的访问行为数据样本构成的数据集；其中，所述多个待检测对象包括访问行为相似的至少一个对象群体；

个体检测单元，用于基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，并基于检测结果分别对所述多个待检测对象进行风险评分，得到与所述多个待检测对象对应的第一风险评分；

群体检测单元，用于基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，并基于检测结果分别对所述多个待检测对象相对于其所属的所述对象群体进行风险评分，得到与所述多个待检测对象对应的第二风险评分；

评分融合单元，分别将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行融合，得到与所述各个待检测对象对应的融合风险评分，并基于所述融合风险评分从所述多个待检测对象中确定访问行为异常的目标检测对象。

根据本说明书一个或多个实施例的第三方面，提出了一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如第一方面所述的方法。

根据本说明书一个或多个实施例的第四方面，提出了一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如第一方面所述方法的步骤。

本申请的有益效果：

本申请通过多个待检测对象的访问行为数据样本构成的数据集，从待检测对象自身，以及待检测对象所属的对象群体多个维度对待检测对象的访问行为进行异常行为检测，可以解决单一维度的异常行为检测出现的漏报误报等问题。本申请还基于多个维度的异常行为检测的检测结果对出现访问行为异常的待检测进行风险评分，并将多维度的风险评分进行融合，基于融合风险评分确定访问行为异常的待检测对象，可以有效提高异常行为检测的准确率，从而提高异常行为检测的效率。

附图说明

图1是一示例性实施例提供的一种异常行为检测方法的***架构示意图。

图2是一示例性实施例提供的一种异常行为检测方法的流程图。

图3是一示例性实施例提供的一种电子设备的示意结构图。

图4是一示例性实施例提供的一种异常行为检测装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。

需要说明的是：在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中，其方法所包括的步骤可以比本说明书所描述的更多或更少。此外，本说明书中所描述的单个步骤，在其他实施例中可能被分解为多个步骤进行描述；而本说明书中所描述的多个步骤，在其他实施例中也可能被合并为单个步骤进行描述。

随着信息化快速发展，有关用户个人信息安全、数据安全的问题越来越得到重视。其中，数据泄露等数据安全问题通常是由企业内部人员利用权限便利窃取敏感数据导致。因此，需要检测企业内部人员针对应用层的访问行为是否合规。例如，某企业内销售人员在无工单的情况下通过网页浏览客户电话号码信息、某企业员工利用权限查询客户信息并通过网络传输客户信息均属于不合规行为。

而传统的数据风控平台对企业内部人员针对应用层的访问行为检测是基于单一维度规则的检测，虽然可以检测出上述不合规行为，产生的异常行为告警数量很大，而且多为无效告警。例如，上述某企业内销售人员可能因为临时任务而正常访问敏感信息而被误检出，而内部人员低频的数据窃取访问可能会绕过单一维度的规则。而且，由于产生的异常行为告警数量很大，而且多为无效告警，而产生的大量告警导致无法逐一进行人工审核，仍然可能出现数据泄露等风险。

有鉴于此，本说明提出一种异常行为检测方法，从多个维度针对待检测对象进行异常行为检测，并对检测结果进行评分，基于融合评分确定待检测对象中的访问行为异常的目标检测对象。

在实现时，获取由多个待检测对象的访问行为数据样本构成的数据集；其中，所述多个待检测对象包括访问行为相似的至少一个对象群体；

图1是一示例性实施例提供的一种异常行为检测方法的***架构示意图。如图1所示，该***可以包括网络10、服务器11、若干电子设备，如手机12、手机13和手机14等。

服务器11可以为包含一独立主机的物理服务器，或者该服务器11可以为主机集群承载的虚拟服务器、云服务器等。手机12-14只是用户可以使用的一种类型的电子设备。实际上，用户显然还可以使用诸如下述类型的电子设备：平板设备、笔记本电脑、掌上电脑(PDAs，Personal Digital Assistants)、可穿戴设备(如智能眼镜、智能手表等)等，本说明书一个或多个实施例并不对此进行限制。网络10可以包括多种类型的有线或无线网络。

在一实施例中，服务器11可以与手机12-14进行配合；其中，可由手机12-14进行访问行为数据采集，并将采集到的访问行为数据通过网络10上传至服务器11，然后由服务器11基于本说明书的异常行为检测方法对接收到的访问行为数据进行异常行为检测。在另一实施例中，手机12-14可以独立实现本说明书的异常行为检测方法；其中，由手机12-14进行访问行为数据采集，并基于本说明书的异常行为检测方法对接收到的访问行为数据进行异常行为检测。

下面结合附图对本说明书的异常行为检测方法进行详细说明。

图2是一示例性实施例提供的一种异常行为检测方法的流程图。如图2所示，该方法应用于检测设备，该检测设备例如可以为图1所示的服务器11或手机12-14等。该方法可以包括以下步骤：

步骤202，获取由多个待检测对象的访问行为数据样本构成的数据集；其中，所述多个待检测对象包括访问行为相似的至少一个对象群体。

在本说明书所述的待检测对象可以是指具有访问行为的用户，例如，XX企业内具有敏感数据访问行为的员工等；也可以是具体的某一应用层接口，还可以是用户针对于某一具体应用接口的访问行为，本说明书并不对此进行限制。

在本说明书中，访问行为数据具体可以包括，应用层的访问描述数据，待检测对象的基本信息数据，识别出的包含敏感数据的应用层的访问数据，发起访问的设备信息数据等等。

其中，应用层的访问描述数据可以包括用户在应用层的访问行为信息，访问时间段，访问次数等等数据，用户在应用层的访问行为具体可以包括浏览、查询、下载等等行为。以企业内的员工为例，待检测对象的基本信息数据可以包括用户类型，在职状态、账号信息、访问权限信息等等。识别出的包含敏感数据的应用层的访问数据可以包括敏感数据的访问量、敏感接口的访问量、各类敏感数据量。其中，以企业内的员工为例敏感数据具体可以包括手机号码信息、银行***码信息、邮件信息等等。发起访问的设备信息数据可以包括发起访问的客户端信息、发起访问的IP信息、用于访问的账号信息等等。

在本说明书中，多个待检测对象的访问行为数据样本构成的数据集基于待检测对象的各种访问行为数据进行构建。其中待检测对象的各种访问行为数据可以从待检测对象使用的电子设备自动采集，也可以从其他设备获取访问行为数据通过网络上传至检测设备，由检测设备根据访问行为数据提取出数据样本构成数据集，还可以由其他设备获取访问行为数据直接提取出数据样本构成数据集，并将数据集通过网络上传至检测设备，本说明书对此不作限制。

在本说明书中，所述多个待检测对象还包括访问行为相似的至少一个对象群体，其中构建对象群体的具体步骤在下文详细描述，此处不再赘述。

步骤204，基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，并基于检测结果分别对所述多个待检测对象进行风险评分，得到所述多个待检测对象的第一风险评分。

在本说明书中，异常行为检测是指针对多个待检测对象的访问行为数据进行检测，确定待检测对象的访问行为是否出现异常。具体的，可以根据上述数据集，检测待检测对象的应用层访问行为，以及识别出的包含敏感数据的应用层的访问数据，结合待检测对象的基本信息和发起访问的设备信息综合判断待检测对象的访问行为是否出现异常。

基于上述获取的待检测对象的数据集，可以对多个待检测对象分别进行异常行为检测，并基于检测结果对多个待检测对象进行风险评分，得到与待检测对象对应的第一风险评分。其中，对待检测对象进行风险评分，具体可以根据访问行为的异常程度，访问行为次数进行量化，根据量化结果对待检测对象进行风险评分。

在一种实施例中，上述多个待检测对象的访问行为数据样本构成的数据集可以包括多个待检测对象在历史时段内的访问行为数据样本和多个待检测对象在待检测时段内的访问行为数据样本。其中，待检测对象在历史时段内的访问行为数据样本可以是待检测对象在预设的历史区间内的全部访问行为数据，需要说明的是，本领域技术人员根据需求，可以预先设置历史区间，例如可以是三个月，六个月等等。而待检测对象在待检测时段内的访问行为数据样本可以是由用户预先设定的待检测时段内的全部访问行为数据，例如可以是十二小时，六小时等等。

上述基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，具体可以基于所述多个待检测对象在历史时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于所述待检测对象自身的历史访问行为的异常行为检测，并基于检测结果对所述多个待检测对象中相对于所述待检测对象自身的历史访问行为进行风险评分，得到与所述待检测对象对应的第三风险评分。

也可以基于所述多个待检测对象在待检测时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于在在待检测时段内发起了访问行为的所有其他待检测对象的异常行为检测，并基于检测结果对所述多个待检测对象中相对于在待检测时段内发起了访问行为的所有其他待检测对象进行风险评分，得到与所述待检测对象对应的第四风险评分。需要说明的是，上述第一风险评分可以由第三风险评分和第四风险评分组合而成。

以上述基于多个待检测对象自身在历史时段内的访问行为数据样本，对多个待检测对象分别进行相对于所述待检测对象自身的历史访问行为的异常行为检测为例。具体的，可以根据上述待检测对象在历史时段内的访问行为数据样本分析上述待检测对象的历史访问行为，异常行为检测可以通过待检测对象的访问行为与自身历史访问行为进行比较，如果待检测对象的访问行为相对于自身历史访问行为出现异常，那么异常行为检测结果则会提示出现异常，相应的，该待检测对象的第三风险评分也会提高。例如，某企业员工在历史三个月内访问A账户为每天两次，而某天访问A账户达到十次，此时异常行为检测可以检测到该员工的异常行为，并基于异常行为检测的检测结果对该企业员工进行风险评分，得到与该企业员工对应的第三风险评分。

在一实施例中，可以获取基于所述待检测对象自身在历史时段内的访问行为数据样本训练出的历史访问行为基线特征；基于所述历史访问行为基线特征，针对所述多个待检测对象分别进行相对于所述待检测对象自身的历史访问行为的异常行为检测。需要说明的是，可以预先根据待检测对象自身在历史时段内的访问行为数据样本训练历史访问行为基线特征，也可以在获取到待检测对象自身在历史时段内的访问行为数据样本后，再训练历史访问行为基线特征，本说明书对此不作限制。

上述历史访问行为基线特征，基于待检测对象自身在历史时段内的访问行为数据样本训练，可以作为待检测对象历史访问行为的标准，用于检测待检测对象的访问行为是否出现异常。可以使用OCSVM(One Class SVM)，一类SVM算法训练历史访问行为基线特征，需要说明的是，训练上述历史访问行为基线特征，可以参考相关机器学习领域训练基线特征的技术，本说明书对此不作限制。

在一实施例中，训练上述历史访问行为基线特征时，由于待检测对象的历史行为中可能会出现异常行为，可能会对历史访问行为基线特征造成影响，因此可以先过滤待检测对象在历史时段内的访问行为数据样本中的异常值。具体的，可以使用箱线图算法检测出待检测对象在历史时段内的访问行为数据样本中的异常值，并把检测出的异常值过滤。需要说明的是，也可以使用其他统计分析算法检测历史访问行为数据样本中异常值，本发明对此不作限定。

在实际应用中，由于待检测对象可能较多，可能会同时对多个待检测对象训练历史访问行为基线特征，因此可以对待检测对象的历史访问行为样本进行降维处理，以降低训练后的历史访问行为基线特征的复杂度，提升多个待检测对象同时训练历史访问行为基线特征的效率。具体的，可以使用PCA(Principle Compoent Analysis)，主元成分分析算法对待检测对象在历史时段内的访问行为数据样本进行降为处理。需要说明的是，也可以使用其他降维算法对历史访问行为数据样本进行降维，本发明对此不作限定。

在一实施例中，基于所述历史访问行为基线特征，针对所述多个待检测对象分别进行相对于所述待检测对象自身的历史访问行为的异常行为检测之后，会出现多个离散的异常点，其中包括高于基线特征的上限异常，以及低于基线特征的下限异常。其中，低于基线的下限异常是由于待检测对象的访问行为特征低于历史行为基线特征，并不是需要关注的异常行为，因此进行特征值检测计算，以确定偏离基线特征范围下限的异常特征点。同时，还可以针对历史访问行为基线特征进行时序异常行为检测计算，确定偏离基线特征范围的高危异常特征点，提升检测的准确性。

具体的，可以使用3-sigma算法，针对上述历史访问行为基线特征中的特征点进行特征值检测计算，以确定偏离基线特征范围下限的异常特征点；也可以使用kalman算法和时序行为波峰异常检测算法，针对上述历史访问行为基线特征进行时序检测计算，以确定偏离基线特征范围的高危异常特征点。

其中，上述3-sigma算法以及kalman算法可以参考机器学习领域相关技术，上述时序行为波峰异常检测算法具体可以计算上述历史访问行为基线特征对应的特征曲线中包含的波峰；将波峰之间的距离作为估计参数进行优化估计，以估计出位于波峰上的异常特征点。

需要说明的是，在以上示出的实施例中，关于计算历史访问行为基线特征中的异常特征点的具体实现方式，仅仅是一种示例性的说明，并不对本说明书做出特殊限定。

基于上述实施例，可以基于待检测对象自身在历史时段内的访问行为数据样本训练出的历史访问行为基线特征，对多个待检测对象进行异常行为检测，检测出待检测对象相对于自身的历史访问行为是否出现异常。

在一实施例中，还可以从上述访问行为数据中提取出与待检测对象的多个维度的访问行为特征，上述异常行为的检测结果，包括从多个维度的访问行为特征中确定出的异常访问行为特征。其中，访问行为特征具体可以包括以下示出的一种或多种特征：对象基本特征、访问IP特征、访问时间段特征、敏感数据特征等等。例如，对象基本特征可以表征待检测对象的基本信息，访问IP特征表征待检测对象发起访问行为的IP地址，访问时间段特征表征待检测对象发起访问行为的时间段等等，敏感数据特征表征待检测对象访问的敏感数据等等。

基于上述异常行为检测的结果，可以对所述多个待检测对象的历史访问行为特征中的异常访问行为特征进行统计分析计算，其中，统计分析计算可以使用箱线图算法，也可以使用其他统计分析算法，本说明书对此不作限制。可以基于统计分析计算的结果确定风险评分，得到第三风险评分。

例如，通过上述异常行为检测，检测出某企业员工在历史三个月内每天早上8-9点访问A账户信息，而某天访问晚上9-10点访问A账户信息。因此异常行为的检测结果，包括出现异常的访问时间段特征。基于该异常的访问时间段特征，可以进行统计分析计算，并基于计算结果确定第三风险评分。

以上述基于多个待检测对象在待检测时段内的访问行为数据样本，针对多个待检测对象分别进行相对于在待检测时段内发起了访问行为的所有其他待检测对象的异常行为检测为例。具体的，可以根据上述待检测对象的在待检测时段内的访问行为数据样本，与在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据样本，将上述待检测对象在待检测时段内的访问行为与其他所有待检测对象在待检测时段内的访问行为进行比较，如果待检测对象在待检测时段内的访问行为相对于其他所有待检测对象在待检测时段内的访问行为出现异常，那么异常行为检测结果会提示出现异常，相应的，该待检测对象的第四风险评分也会提高。例如，某企业员工在十个小时内访问A账户十次，而该企业员工的同组成员在十个小时内均访问A账户两次，此时异常行为检测可以检测到该员工的异常行为，并基于异常行为的检测结果对该企业员工进行风险评分，得到与该企业员工对应的第四风险评分。

在一实施例中，可以针对上述多个待检测对象在待检测时段内的访问行为数据样本，以及在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据样本进行无监督离群检测；基于无监督离群检测的检测结果，针对多个待检测对象分别进行相对于在待检测时段内发起了访问行为的所有其他待检测对象的异常行为检测。具体的，可以使用孤立森林算法，针对上述多个待检测对象在待检测时段内的访问行为数据样本，以及在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据样本，可以发现数据样本中的孤立点，其中，数据样本中的孤立点即为待检测对象中的异常对象，可以确认该待检测对象出现异常行为。基于该离群检测的检测结果，可以发现在待检测时段内，多个待检测对象中相对于所有其他待检测对象出现访问行为异常的待检测对象，相应的，该待检测对象的对应的第四风险评分也会提高。

需要说明的是，在以上示出的实施例中，关于针对多个待检测对象在待检测时段内的访问行为数据样本，以及在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据样本进行无监督离群检测的具体实现方式，仅仅是一种示例性的说明，并不对本说明书做出特殊限定。

基于上述实施例，可以基于多个待检测对象在待检测时段内的访问行为数据样本，以及在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据，对待检测对象进行异常行为检测，检测出待检测对象相对于在待检测时段内发起了访问行为的所有其他待检测对象是否出现异常。

基于上述异常行为检测的结果，可以对多个待检测对象在待检测时段内的访问行为特征中的异常访问行为特征进行统计分析计算，其中，统计分析计算可以使用箱线图算法，也可以使用其他统计分析算法，本说明书对此不作限制。可以基于统计分析计算的结果确定风险评分，得到第四风险评分。

例如，通过上述异常行为检测，检测出某企业员工在十个小时内使用某IP地址访问B账户多次，而该企业员工的同组成员在十个小时内均使用企业内部IP访问B账户。因此该异常行为的检测结果，包括出现异常的访问IP特征。基于该异常的访问IP特征，可以进行统计分析计算，并基于计算结果确定第四风险评分。

步骤206，基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，并基于检测结果分别对所述多个待检测对象相对于其所属的所述对象群体进行风险评分，得到所述多个待检测对象的第二风险评分。

在本说明书中，还可以针对多个待检测对象分别进行相对于其所属的对象群体的异常行为检测。具体的，可以根据上述多个待检测对象的访问行为数据样本，发现与待检测对象具有相似行为的对象群体。异常行为检测可以通过待检测对象的访问行为与其所属的对象群体的访问行为进行比较，如果待检测对象的访问行为相对于其所属的对象群体的访问行为出现异常，那么异常行为检测结果则会提示出现异常，相应的，该待检测对应的的第二风险评分也会提高。

例如，某企业员工为销售专员，每天下午5点访问C账户进行销售金额汇总，相应的，该企业同为销售专员的员工均需要每天下午5点访问C账户，因此，该企业的销售专员可以构成一个对象群体。如果某销售专员某天下午6点访问C账户，此时异常行为检测可以检测到该销售专员相对于其所属群体的异常行为，可以基于异常行为检测的检测结果对该销售专员进行风险评分，得到与该销售专员对应的第二风险评分。

在一实施例中，可以基于无监督聚类算法，对多个待检测对象进行无监督聚类，并根据聚类结果将所述多个待检测对象划分为访问行为相似的至少一个对象群体。具体的，可以使用图聚类算法，对多个待检测对象进行无监督聚类。可以基于多个待检测对象的访问行为数据样本，构建待检测对象对应的二分图，然后将待检测对象对应的二分图转为邻接矩阵，通过邻接矩阵进行计算，可以进一步得到每个待检测对象之间的距离，基于待检测对象之间的距离可以生成待检测对象的主体关系网络图，根据待检测对象的主体关系网络图，可以生成多个待检测对象之间的无向图，使用图标签传播算法即可对多个待检测对象进行聚类，从而将多个待检测对象划分为访问行为相似的至少一个对象群体。

需要说明的是，在以上示出的实施例中，关于对将多个待检测对象划分为访问行为相似的至少一个对象群体的具体实现方式，仅仅是一种示例性的说明，并不对本说明书做出特殊限定。

在一实施例中，可以获取基于所述对象群体中的各个待检测对象在历史时段内的访问行为数据样本，构建的所述对象群体的群体历史访问行为基线特征；基于所述群体历史访问行为基线特征，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测。需要说明的是，可以预先根据对象群体中的各个待检测对象在历史时段内的访问行为数据样本训练群体历史访问行为基线特征，也可以在获取到对象群体中的各个待检测对象在历史时段内的访问行为数据样本后，再训练群体历史访问行为基线特征，本说明书对此不作限制。

上述群体历史访问行为基线特征，基于对象群体中的各个待检测对象在历史时段内的访问行为数据样本训练，可以作为待检测对象所属群体的历史访问行为的标准，用于检测待检测对象相对于其所属的群体，访问行为是否出现异常。可以使用OCSVM(One ClassSVM)，一类SVM算法训练上述群体历史访问行为基线特征，需要说明的是，训练上述群体历史访问行为基线特征，可以参考相关机器学习领域训练基线特征的技术，本说明书对此不作限制。

针对上述群体历史访问行为基线特征的实现方法，与上述历史访问行为基线特征的实现方法相似，在此不再赘述。

基于上述实施例，可以基于待检测对象所属的对象群体的访问行为数据样本训练出的群体历史访问行为基线特征，对多个待检测对象进行异常行为检测，检测出待检测对象相对于其所属群体的历史访问行为是否出现异常。

基于上述异常行为检测的结果，可以从上述访问行为相似的至少一个对象群体中筛选出至少一个与所述待检测对象行为相似的对象。然后可以对所述至少一个与所述多个待检测对象行为相似的对象的所有历史访问行为特征中的异常访问行为特征进行统计分析计算，并基于统计分析计算的结果确定风险评分，得到第二风险评分。

例如，通过上述异常行为检测，检测出某企业销售专员某天下午6点访问C账户，而同为销售专员均为每天下午5点访问C账户。因此异常行为检测的结果，包括出现异常的访问时间段特征。因此可以从销售专员这个对象群体中选出至少一个出现异常的访问时间段特征的销售专员，基于这些异常的访问时间段特征，可以进行统计分析计算，并基于计算结果确定第二风险评分。

步骤208，分别将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行融合，得到与所述各个待检测对象对应的融合风险评分，并基于所述融合风险评分从所述多个待检测对象中确定访问行为异常的目标检测对象。

在本说明书中，通过上述异常行为检测方法，可以获得各个待检测对象的第一风险评分和第二风险评分。需要说明的是，通过上述异常检测后，各个待检测对象有可能有第一风险评分，也有可能有第二风险评分，也可能同时都有第一风险评分和第二风险评分，也可能同时都没有第一风险评分和第二风险评分。为了提升异常行为检测的准确率，可以对第一风险评分和第二风险评分进行融合，得到各个待检测对象的融合风险评分。如果待检测对象的融合风险评分高于预先设定风险评分阈值，那么可以确定该待检测对象的访问行为异常。

在一实施例中，可以通过加权计算的方式，将各个待检测对象的第一风险评分和第二风险评分进行融合。其中，各个风险评分的权重，可以根据风险评分所占的比例设定，也可以根据待检测对象的实际情况自由设定，本发明对此不做限定。需要说明的是，由于第一风险评分由第三风险评分和第四风险评分，因此第一风险评分也可以由第三风险评分和第四风险评分进行加权计算获得。

在一种实施方式中，可以将上述待检测对象对应的融合风险评分与待检测维度对象的多个维度的行为特征数据，通过预设的可视化界面进行输出关联展示。例如，通过上述多个维度的异常行为检测，可以检测某企业员工访问IP特征、访问时间段特征均出现异常，基于异常行为检测结果可以确定其融合风险评分为80分，超过预先设定的风险评分阈值60分，可以确定该企业员工的异常访问行为。由此，可以通过web界面或是终端界面，将该企业员工的融合风险评分与其对应的行为特征数据进行关联展示，以便解决出现的异常访问行为。

在一种实施例中，还可以针对多个待检测对象的融合风险评分进行统计分析计算，得到与多个待检测对象对应的至少一项风险指标，将其中至少一项风险指标项用户通过预设的可视化界面进行输出展示。其中，在获得上述多个待检测对象的融合风险评分后，可以直观看到哪些待检测对象出现了异常访问行为。由此，可以对多个待检测对象的融合风险评分进行统计分析，得到与多个待检测对象对应的至少一项风险指标。其中，风险指标可以包括以下示出的一种或多种，多个待检测对象对应的敏感数据的泄漏率、某接口泄露信息的容量、某接口异常访问行为出现几率等等。计算出上述风险指标后，可以将其通过预设的可视化界面进行展示。通过上述风险指标，可以快速确定哪些待检测人员以及哪些接口容易出现异常访问行为，以便快速解决异常访问行为的问题。

通过上述实施例，可以从多个维度进行异常行为检测，并基于多个维度的异常行为检测的检测结果对出现访问行为异常的待检测进行风险评分，并将多维度的风险评分进行融合，基于融合风险评分确定访问行为异常的待检测对象，可以有效提高异常行为检测的准确率，从而提高异常行为检测的效率。

图3是一示例性实施例提供的一种电子设备的示意结构图。请参考图3，在硬件层面，该设备包括处理器302、内部总线304、网络接口306、内存308以及非易失性存储器310，当然还可能包括其他任务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现，比如由处理器302从非易失性存储器310中读取对应的计算机程序到内存308中然后运行。当然，除了软件实现方式之外，本说明书一个或多个实施例并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

请参考图4，图4是一示例性实施例提供的一种异常行为检测装置的框图。

数据获取单元402，用于获取由多个待检测对象的访问行为数据样本构成的数据集；其中，所述多个待检测对象包括访问行为相似的至少一个对象群体；

个体检测单元404，用于基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，并基于检测结果分别对所述多个待检测对象进行风险评分，得到与所述多个待检测对象对应的第一风险评分；

群体检测单元406，用于基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，并基于检测结果分别对所述多个待检测对象相对于其所属的所述对象群体进行风险评分，得到与所述多个待检测对象对应的第二风险评分；

评分融合单元408，分别将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行融合，得到与所述各个待检测对象对应的融合风险评分，并基于所述融合风险评分从所述多个待检测对象中确定访问行为异常的目标检测对象。

可选的，所述数据集包括待检测对象在历史时段内的访问行为数据样本和待检测对象在待检测时段内的访问行为数据样本；

所述个体检测单元404，具体用于，基于所述多个待检测对象的在历史时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于所述待检测对象自身在历史时段内的访问行为的异常行为检测，并基于检测结果对所述多个待检测对象相对于所述待检测对象自身在历史时段内的访问行为进行风险评分，得到所述多个待检测对象的第三风险评分；以及，

基于所述多个待检测对象在待检测时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于在待检测时段内发起了访问行为的所有其他待检测对象的异常行为检测，并基于检测结果对所述多个待检测对象中相对于在待检测时段内发起了访问行为的所有其他待检测对象进行风险评分，得到所述多个待检测对象的第四风险评分。

可选的，所述个体检测单元404，具体用于分别获取基于所述待检测对象自身在历史时段内的访问行为数据样本训练出的历史访问行为基线特征；

基于所述历史访问行为基线特征，针对所述多个待检测对象分别进行相对于所述待检测对象自身的历史访问行为的异常行为检测。

可选的，所述个体检测单元404，具体用于针对所述多个待检测对象在待检测时段内的访问行为数据样本，以及在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据样本进行无监督离群检测；

基于所述离群检测的检测结果，针对所述多个待检测对象分别进行相对于在待检测时段内发起了访问行为的所有其他待检测对象的异常行为检测。

可选的，所述进行无监督离群检测采用的算法为孤立森林算法。

可选的，所述装置还包括群体划分单元：基于无监督聚类算法，对多个待检测对象进行无监督聚类，并根据聚类结果将所述多个待检测对象划分为访问行为相似的至少一个对象群体。

可选的，所述数据集包括所述对象群体中的各个待检测对象在历史时段内的访问行为数据样本。所述群体检测单元406，具体用于基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，包括：

获取基于所述对象群体中的各个待检测对象在历史时段内的访问行为数据样本，构建的所述对象群体的群体历史访问行为基线特征；

基于所述群体历史访问行为基线特征，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测。

可选的，所述装置还包括基线优化单元：用于计算所述历史访问行为基线特征中的异常特征点，并过滤所述历史访问行为基线特征的异常特征点。

可选的，进行特征值检测计算所采用的特征值检测算法为3-sigma算法；进行时序异常行为检测计算所采用的异常行为检测算法包括kalman算法和时序行为波峰异常检测算法。

可选的，所述基线优化单元：具体用于计算所述历史访问行为基线特征对应的特征曲线中包含的波峰；

将所述波峰之间的距离作为估计参数进行优化估计，估计出位于所述波峰上的异常特征点。

可选的，述访问行为数据样本包括从访问行为数据中提取出的多个维度的访问行为特征；所述检测结果包括从所述多个维度的访问行为特征中确定出的异常访问行为特征；

所述评分融合单元408，具体用于对所述多个待检测对象的在历史时段内的访问行为特征中的异常访问行为特征进行统计分析计算，并基于统计分析计算的结果确定风险评分；对所述多个待检测对象在待检测时段内的访问行为特征中的异常访问行为特征进行统计分析计算，并基于统计分析计算的结果确定风险评分；从所述访问行为相似的至少一个对象群体分别筛选出至少一个与所述多个待检测对象行为相似的对象；

对所述至少一个与所述多个待检测对象行为相似的对象的在历史时段内的访问行为特征中的异常访问行为特征进行统计分析计算，并基于统计分析计算的结果确定风险评分。

可选的，所述访问行为数据包括应用层的访问行为数据；

所述访问行为数据包括以下示出的任一或者多个的组合：

应用层的访问描述数据；待检测对象的基本信息数据；识别出的包含敏感数据的应用层的访问数据；发起访问的设备信息数据。

可选的，进行所述统计分析计算所采用的统计分析算法包括箱线图算法。

可选的，所述装置还包括输出展示单元：用于将所述风险评分与所述待检测对象的多个维度的行为特征数据，通过预设的可视化界面进行输出关联展示。

可选的，所述评分融合单元408，具体用于将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行加权计算。

可选的，所述评分融合单元408，具体用于针对所述待检测对象的融合风险评分进行统计分析计算，得到与所述待检测对象对应的至少一项风险指标；

将所述至少一项风险指标向用户通过预设的可视化界面进行输出展示。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种异常行为检测方法，所述方法包括：

2.根据权利要求1所述的方法，所述数据集包括每个待检测对象在历史时段内的访问行为数据样本和每个待检测对象在待检测时段内的访问行为数据样本；

所述基于所述数据集，针对所述多个待检测对象分别进行异常行为检测，并基于检测结果分别对所述多个待检测对象进行风险评分，得到所述待检测对象的第一风险评分，包括：

基于所述多个待检测对象的在历史时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于所述待检测对象自身在历史时段内的访问行为的异常行为检测，并基于检测结果对所述多个待检测对象相对于所述待检测对象自身在历史时段内的访问行为进行风险评分，得到所述多个待检测对象的第三风险评分；以及，

3.根据权利要求2所述的方法，所述基于所述多个待检测对象的在历史时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于所述待检测对象自身在历史时段内的访问行为的异常行为检测，包括：

分别获取基于所述待检测对象自身的在历史时段内的访问行为数据样本训练出的历史访问行为基线特征；

基于所述历史访问行为基线特征，针对所述多个待检测对象分别进行相对于所述待检测对象自身在历史时段内的访问行为的异常行为检测。

4.根据权利要求2所述的方法，基于所述多个待检测对象在待检测时段内的访问行为数据样本，针对所述多个待检测对象分别进行相对于在待检测时段内发起了访问行为的所有其他待检测对象的异常行为检测，包括：

针对所述多个待检测对象在待检测时段内的访问行为数据样本，以及在待检测时段内发起了访问行为的所有其他待检测对象的访问行为数据样本进行无监督离群检测；

基于所述离群检测的检测结果，针对所述多个待检测对象分别进行相对于在待检测时段内的发起了访问行为的所有其他待检测对象的异常行为检测。

5.根据权利要求1所述的方法，所述方法还包括：

对所述多个待检测对象进行无监督聚类，并根据聚类结果将所述多个待检测对象划分为访问行为相似的至少一个对象群体。

6.根据权利要求1所述的方法，所述数据集包括所述对象群体中的各个待检测对象在历史时段内的访问行为数据样本；

基于所述数据集，针对所述多个待检测对象分别进行相对于其所属的所述对象群体的异常行为检测，包括：

7.根据权利要求3或6所述的方法，基于历史访问行为基线特征，针对所述多个待检测对象分别进行异常行为检测之后，所述方法还包括：

计算所述历史访问行为基线特征中的异常特征点，并过滤所述历史访问行为基线特征的异常特征点。

8.根据权利要求2所述的方法，所述访问行为数据样本包括从访问行为数据中提取出的多个维度的访问行为特征；所述检测结果包括从所述多个维度的访问行为特征中确定出的异常访问行为特征；

基于检测结果对所述多个待检测对象相对于所述待检测对象自身在历史时段内的访问行为进行风险评分，包括：

对所述多个待检测对象的在历史时段内的访问行为特征中的异常访问行为特征进行统计分析计算，并基于统计分析计算的结果确定风险评分；

基于检测结果对所述多个待检测对象中相对于在待检测时段内发起了访问行为的所有其他待检测对象进行风险评分，包括：

对所述多个待检测对象在待检测时段内的访问行为特征中的异常访问行为特征进行统计分析计算，并基于统计分析计算的结果确定风险评分；

基于检测结果分别对所述多个待检测对象相对于其所属的所述对象群体进行风险评分，包括：

从所述访问行为相似的至少一个对象群体分别筛选出至少一个与所述多个待检测对象行为相似的对象；

9.根据权利要求8所述的方法，所述访问行为数据包括应用层的访问行为数据；

所述访问行为数据包括以下示出的任一或者多个的组合：

应用层的访问描述数据；

待检测对象的基本信息数据；

识别出的包含敏感数据的应用层的访问数据；

发起访问的设备信息数据。

10.根据权利要求1所述的方法，分别将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行融合，包括：

分别将所述多个待检测对象中的各个待检测对象的所述第一风险评分和所述第二风险评分进行加权计算。

11.根据权利要求1所述的方法，所述方法还包括：

针对所述多个待检测对象的融合风险评分进行统计分析计算，得到与所述多个待检测对象对应的至少一项风险指标；

12.一种异常行为检测装置，所述装置包括：

13.一种电子设备，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器通过运行所述可执行指令以实现如权利要求1-11中任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-11中任一项所述方法的步骤。