CN109274639A

CN109274639A - 开放平台异常数据访问的识别方法和装置

Info

Publication number: CN109274639A
Application number: CN201810719083.8A
Authority: CN
Inventors: 许志凯; 张鸿翔; 侯辉超
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2018-07-03
Filing date: 2018-07-03
Publication date: 2019-01-25

Abstract

说明书披露一种开放平台异常数据访问的识别方法和装置。所述开放平台向第三方业务提供数据访问接口，所述方法包括：针对所述第三方业务，获取其目标数据访问行为的原始访问信息，所述目标数据访问行为包括用户基于所述第三方业务进行数据访问的访问行为；将所述原始访问信息量化为多个维度的目标访问特征参数；将所述多个维度的目标访问特征参数作为入参输入已训练的识别模型；根据所述识别模型的输出结果判断所述目标数据访问行为是否异常。

Description

开放平台异常数据访问的识别方法和装置

技术领域

本说明书涉及互联网技术领域，尤其涉及一种开放平台异常数据访问的识别方法和装置。

背景技术

随着互联网技术的快速发展，开放平台已经成为很多公司的战略发展方向。开放平台可以向企业、政府等第三方机构开放数据访问接口，以供相关机构进行数据调用、实现第三方业务。

发明内容

有鉴于此，本说明书提供一种开放平台异常数据访问的识别方法和装置。

具体地，本说明书是通过如下技术方案实现的：

一种开放平台异常数据访问的识别方法，所述开放平台向第三方业务提供数据访问接口，所述方法包括：

针对所述第三方业务，获取其目标数据访问行为的原始访问信息，所述目标数据访问行为包括用户基于所述第三方业务进行数据访问的访问行为；

将所述原始访问信息量化为多个维度的目标访问特征参数；

将所述多个维度的目标访问特征参数作为入参输入已训练的识别模型；

根据所述识别模型的输出结果判断所述目标数据访问行为是否异常。

一种开放平台异常数据访问的识别装置，所述开放平台向第三方业务提供数据访问接口，所述装置包括：

获取单元，针对所述第三方业务，获取其目标数据访问行为的原始访问信息，所述目标数据访问行为包括用户基于所述第三方业务进行数据访问的访问行为；

量化单元，将所述原始访问信息量化为多个维度的目标访问特征参数；

输入单元，将所述多个维度的目标访问特征参数作为入参输入已训练的识别模型；

判断单元，根据所述识别模型的输出结果判断所述目标数据访问行为是否异常。

处理器；

用于存储机器可执行指令的存储器；

其中，通过读取并执行所述存储器存储的与开放平台异常数据访问的识别逻辑对应的机器可执行指令，所述处理器被促使：

将所述原始访问信息量化为多个维度的目标访问特征参数；

由以上描述可以看出，本说明书结合访问用户的访问信息对第三方业务的数据访问行为进行识别，可大大提高异常数据访问行为识别的准确率。

附图说明

图1是本说明书一示例性实施例示出的一种开放平台异常数据访问的识别方法的流程示意图。

图2是本说明书一示例性实施例示出的一种用于开放平台异常数据访问的识别装置的一结构示意图。

图3是本说明书一示例性实施例示出的一种开放平台异常数据访问的识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

所述开放平台异常数据访问的识别方法可以应用在开放平台，所述开放平台的物理载体通常是服务器或服务器集群。

所述开放平台对外提供有数据访问接口，企业、商户、政府等第三方机构可通过所述数据访问接口接入所述开放平台。

从业务实现的角度来看，一方面，第三方机构可通过所述开放平台向用户提供第三方业务，例如，开放平台可在其客户端中提供第三方业务入口，用户可通过该第三方业务入口实现第三方业务。

另一方面，第三方机构可从所述开放平台获取用户数据，例如，获取业务操作用户的身份信息，以对用户进行身份验证等。

举例来说，假设第三方机构是某医院，该医院通过开放平台的数据访问接口接入。开放平台可在其客户端中提供医院业务入口，通过该入口用户可实现线上挂号、缴费、查看化验结果等医院相关业务。在用户实现上述业务的过程中，医院可利用开放平台中用户的身份证号、手机号等信息，对用户进行身份验证。

从数据流向的角度来看，对于开放平台而言，用户在实现第三方业务的过程中对开放平台的数据访问也是基于第三方业务接入开放平台所使用的数据访问接口。换言之，对于开放平台而言，第三方业务的数据访问行为包括第三方业务本身的数据访问行为，也包括用户通过第三方业务所进行的数据访问行为。

请参考图1，所述开放平台异常数据访问的识别方法可包括以下步骤：

步骤102，针对第三方业务，获取其目标数据访问行为的原始访问信息，所述目标数据访问行为包括用户基于所述第三方业务进行数据访问的访问行为。

在本实施例中，在判断第三方业务的目标数据访问行为是否是异常数据访问行为时，可以获取其目标数据访问行为的原始访问信息。

其中，所述目标数据访问行为是否是异常数据访问行为的判断时机可以预先设置，例如：可依据24小时、48小时等判断周期进行判断，也可以在接收到管理员下发的判断指令时进行判断，本说明书对此不作特殊限制。

所述原始访问信息可以包括：访问时间点、访问数据量、访问用户登录名、访问用户常住地等。

步骤104，将所述原始访问信息量化为多个维度的目标访问特征参数。

基于前述步骤102，在获取到所述原始访问信息后，可以基于预设的维度，将所述原始访问信息量化为多个维度的访问特征参数，为便于区分，在本说明书中，可将该访问特征参数称为目标访问特征参数。

其中，所述预设的维度可以由开发人员预先进行设置，例如，所述预设的维度可以包括：数据访问维度、业务操作维度、访问用户特征维度等。

步骤106，将所述多个维度的目标访问特征参数作为入参输入已训练的识别模型。

步骤108，根据所述识别模型的输出结果判断所述目标数据访问行为是否异常。

在本实施例中，所述识别模型可以为有监督模型，例如，神经网络模型等。所述识别模型也可以为无监督模型，例如，Isolation Forest(孤立点检测算法)模型、聚类模型等。

在本实施例中，基于不同的识别模型，所述输出结果的判断方式也不相同，例如，若采用Isolation Forest模型，可判断输出的评分是否大于阈值，若大于阈值，可确定目标数据访问行为异常。本领域技术人员可以依据识别模型的特点进行判断，本说明书在此不再一一赘述。

由以上描述可以看出，本实施例结合访问用户的访问信息对第三方业务的数据访问行为进行识别，可大大提高异常数据访问行为识别的准确率。

下面分别从识别模型的训练、已训练的识别模型的应用两个方面来描述本说明书的具体实现过程。

一、识别模型的训练

在本实施例中，在训练识别模型时，可先选择原始识别模型。所述原始识别模型可以为有监督模型，也可以为无监督模型，下面以无监督模型为例进行描述。

在本实施例中，可先获取一段时间内不同第三方业务的历史访问信息。所述历史访问信息是各第三方业务历史上调用数据访问接口进行数据访问的访问信息，可包括：访问时间点、访问数据量、访问数据的所属地、访问用户的登录名、访问用户的年龄等。其中，所述访问用户是基于开放平台登录访问第三方业务的用户。

在获取到所述历史访问信息后，可以将所述历史访问信息量化为多个维度的历史访问特征参数。

所述历史访问特征参数的维度可以由开发人员根据业务特点预先进行设置，后续也可以根据业务特点再进行增加、调整等，本说明书对此不作特殊限制。

在一个例子中，所述多个维度的目标访问特征参数可包括以下一种或多种：

1、数据访问参数。所述数据访问参数可以包括：数据访问总量、敏感数据访问量比例、异常时段访问量比例等。

其中，所述数据访问总量可以为访问数据的总条数。假设某第三方业务访问了5万条数据，则数据访问总量是5万。

所述敏感数据访问量比例是访问的数据中敏感数据量与数据访问总量的比值。所述敏感数据通常指包括有用户隐私信息的数据，例如身份证号、手机号等。

仍假设数据访问总量是5万，若这5万条数据中有1万条敏感数据，则敏感数据访问量比例是1/5。

可以理解的是，敏感数据访问量比例越高，说明数据访问行为是异常访问的可能性越大，例如黑产通过第三方业务的漏洞从开放平台窃取用户隐私数据等。

异常时段访问量比例是访问的数据中异常时段访问的数据量与数据访问总量的比值。所述异常时段可以预先设置。

以第三方业务是医院业务为例，其数据访问行为多集中在工作时间，若非工作时间的数据访问量激增，则通常是异常的数据访问。

假设0时-6时、18时-24时是异常时段，数据访问总量是5万，若0时-6时的访问量是1万，18时-24时的访问量是2万，则异常时段访问量比例分别是1/5和2/5。当然，也可以将这两个异常访问时段合并计算，则异常时段访问量比例是3/5。

在本实施例中，所述数据访问参数还可以是单位时间内的数据访问量等其他与访问量相关的参数，本说明书对此不作特殊限制。

2、业务操作参数。所述业务操作参数包括：数据访问量与访问用户的业务操作量的比对参数，例如比值等。其中，所述访问用户的业务操作量可以是所述访问用户访问第三方业务链接的数量。

仍以第三方业务是医院业务为例，正常的访问用户在进行线上挂号等操作时，通常还会访问其他链接，例如访问科室介绍链接、访问医生简介链接等。若黑产盗用合法用户的账号登录，则通常会直接访问用户的隐私数据，而不会访问第三方业务链接，或较少访问第三方业务链接。

由此，本实施例可将数据访问量与访问用户的业务操作量的比对参数作为异常数据访问行为的判断依据之一。

假设，访问用户在开放平台的数据访问量是100，而访问用户访问第三方业务链接的数量是1000，则所述业务操作参数为100/1000，即1/10。若访问用户访问第三方业务链接的数量是200，则所述业务操作参数为1/2。可以理解的是，所述业务操作参数越大，数据访问行为是异常访问的可能性就会越大。

3、访问用户特征参数。所述访问用户特征参数可以包括：相似登录名比例、年龄分布参数、常住地分布参数、登录地分布参数、活跃用户比例、聚集性登录比例、注册时间分布参数等。

1)相似登录名比例

所述相似登录名比例可以是相似登录名访问用户的数量与访问用户总数量的比值。

在本实施例中，可以通过语义识别等方式判断访问用户的登录名是否相似，然后统计相似登录名访问用户的数量，再计算相似登录名访问用户的数量与访问用户总数量的比值。

举例来说，黑产注册大量的垃圾账号进行登录，登录名分别为“[email protected]、[email protected]、[email protected]...”，通过对登录名语义的识别，可计算出相似登录名的访问用户数量是200，而访问用户总数量是300，则相似登录名比例是2/3。可以理解的是，相似登录名比例越高，数据访问行为是异常访问的可能性就会越大。

2)年龄分布参数

在本实施例中，所述年龄分布参数可以为不同年龄段访问用户的数量与访问用户总数量的比值。

例如，访问用户总数量是1000，0-24岁访问用户的数量是100，24-45岁访问用户数量是700，45岁以上访问用户的数量是200，则所述年龄分布参数为：1/10、7/10、2/10。

在本实施例中，可以理解的是，若某个年龄段的访问用户数量激增，则可能是黑产非法购买用户账号进行聚集性登录，例如，黑产购买了一批大学生的账号，然后集中登录盗取用户隐私数据。

3)常住地分布参数

第三方业务通常具有区域属性，例如，位于杭州的医院主要服务常住地是浙江省的用户，北京公积金查询业务所面向的用户的常住地是北京市。

在本实施例中，可以以省为单位，先确定使用第三方业务较多的前N个用户常住省份，然后可计算这N个省份的访问用户数量比例。在正常的情况下，该比例数值较大，较为稳定。

举例来说，假设第三方业务是杭州市一家医院，N的取值是2，使用该医院线上业务的前两个用户常住省份分别是浙江省、江苏省。正常情况下，访问用户常住地是浙江省和江苏省的比例是80％。若访问用户常住地是浙江省和江苏省的比例是20％，那么极有可能存在异常数据访问行为。例如，有大量青海用户在使用。

当然，还可以采用其他计算方式确定所述常住地分布参数，本说明书对此不作特殊限制。

4)登录地分布参数

与常住地分布参数类似，在正常情况下，第三方业务访问用户的登录地通常与第三方业务所在地相同，例如，浙江医院的访问用户的登录地大部分都是浙江省。

在本实施例中，可以计算异地登录的访问用户的比例作为所述登录地分布参数。举例来说，假设某浙江医院的访问用户总量是1000人，登录地是浙江省的访问用户数量是100人，则该登录地分布参数是9/10，存在异常数据访问行为的概率较大。

5)活跃用户比例

所述活跃用户比例是访问用户中活跃用户的比例。可以理解的是，活跃用户比例越小，数据访问行为是异常访问的可能性就会越大。

6)聚集性登录比例

所述聚集性登录比例是相同登录环境的访问用户比例。

在本实施例中，可获取访问用户的登录环境，在正常情况下，相同登录环境的访问用户数量较少，比例较低。若比例较高，说明存在大量登录环境相同的访问用户，存在异常数据访问行为的概率较高。

所述登录环境可以包括：登录设备ID、登录设备SSID(Service Set Identifier，服务集标识)等，本说明书对此不作特殊限制。

7)注册时间分布参数

与常住地分布参数类似，可以预先将注册时间划分为几个区间，确定使用第三方业务较多的前M个注册时间区间，然后可计算这M个注册时间区间的访问用户数量比例，本说明书在此不再一一赘述。

在本实施例中，在将历史访问信息量化为多个维度的历史访问特征参数后，可以使用该历史访问特征参数对原始识别模型进行训练，得到训练后的识别模型。

在本实施例中，采用无监督模型作为原始识别模型，无需对作为样本的历史访问信息进行标注，节省了大量处理资源，同时还可有效避免冷启动问题。

在一个例子中，为确保识别模型的准确性，在对识别模型进行训练后，可以人工对训练后的识别模型进行检测。

在另一个例子中，为确保识别模型的准确性，在又累积一定量的历史访问信息后，还可以重新对识别模型进行训练，本说明书对此不作特殊限制。

二、已训练的识别模型的应用

在一个例子中，可以依据24小时的时间周期获取各个第三方业务的数据访问行为的访问信息，为便于描述，可将该访问信息称为原始访问信息。

其中，所述原始访问信息可以包括：访问时间点、访问数据量、访问用户登录名、访问用户常住地等。

上述时间周期也可以为48小时、36小时等，本说明书对此不作特殊限制。

在本实施例中，在获取到所述原始访问信息后，可将所述原始访问信息量化为多个维度的目标访问特征参数。所述目标访问特征参数的维度以及量化规则可以参考前述识别模型的训练过程，本说明书在此不再一一赘述。

在本实施例中，可将量化后的所述多个维度的目标访问特征参数作为入参输入已训练的识别模型，并根据识别模型的输出结果判断所述目标数据访问行为是否异常。

举例来说，可每天零时获取前一天(24小时)各医院的原始访问信息，针对每个医院的原始访问信息，可以将其量化为多个维度的目标访问特征参数，并可将所述多个维度的目标访问特征参数作为入参输入已训练的识别模型，然后可根据识别模型的输出结果判断该医院在前一天的数据访问行为是否异常。若异常，则可提示管理员进行排查。

与前述开放平台异常数据访问的识别方法的实施例相对应，本说明书还提供了开放平台异常数据访问的识别装置的实施例。

本说明书开放平台异常数据访问的识别装置的实施例可以应用在服务器上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在服务器的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图2所示，为本说明书开放平台异常数据访问的识别装置所在服务器的一种硬件结构图，除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的服务器通常根据该服务器的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图3，所述开放平台异常数据访问的识别装置200可以应用在前述图2所示的服务器中，包括有：获取单元201、量化单元202、输入单元203以及判断单元204。

其中，获取单元201，针对所述第三方业务，获取其目标数据访问行为的原始访问信息，所述目标数据访问行为包括用户基于所述第三方业务进行数据访问的访问行为；

量化单元202，将所述原始访问信息量化为多个维度的目标访问特征参数；

输入单元203，将所述多个维度的目标访问特征参数作为入参输入已训练的识别模型；

判断单元204，根据所述识别模型的输出结果判断所述目标数据访问行为是否异常。

可选的，所述识别模型的训练过程，包括：

获取各第三方业务历史数据访问行为的历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

根据所述历史访问特征参数对原始识别模型进行训练，得到已训练的识别模型。

可选的，所述识别模型是无监督模型。

可选的，所述多个维度的目标访问特征参数包括以下一种或多种：

所述目标数据访问行为的数据访问参数；

所述目标数据访问行为的业务操作参数；

所述目标数据访问行为的访问用户特征参数。

可选的，所述数据访问参数包括以下一种或多种：

数据访问总量、敏感数据访问量比例、异常时段访问量比例。

可选的，所述业务操作参数包括：数据访问量与访问用户的业务操作量的比对参数；

所述业务操作量是所述访问用户访问第三方业务链接的数量。

可选的，所述访问用户特征参数包括以下一种或多种：

相似登录名比例、年龄分布参数、常住地分布参数、登录地分布参数、活跃用户比例、聚集性登录比例、注册时间分布参数。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

与前述开放平台异常数据访问的识别方法的实施例相对应，本说明书还提供一种开放平台异常数据访问的识别装置，该装置包括：处理器以及用于存储机器可执行指令的存储器。其中，处理器和存储器通常借由内部总线相互连接。在其他可能的实现方式中，所述设备还可能包括外部接口，以能够与其他设备或者部件进行通信。

在本实施例中，通过读取并执行所述存储器存储的与开放平台异常数据访问的识别逻辑对应的机器可执行指令，所述处理器被促使：

将所述原始访问信息量化为多个维度的目标访问特征参数；

可选的，所述识别模型的训练过程，包括：

获取各第三方业务历史数据访问行为的历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

可选的，所述识别模型是无监督模型。

所述目标数据访问行为的数据访问参数；

所述目标数据访问行为的业务操作参数；

所述目标数据访问行为的访问用户特征参数。

可选的，所述数据访问参数包括以下一种或多种：

可选的，所述访问用户特征参数包括以下一种或多种：

与前述开放平台异常数据访问的识别方法的实施例相对应，本说明书还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该程序被处理器执行时实现以下步骤：

将所述原始访问信息量化为多个维度的目标访问特征参数；

可选的，所述识别模型的训练过程，包括：

获取各第三方业务历史数据访问行为的历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

可选的，所述识别模型是无监督模型。

所述目标数据访问行为的数据访问参数；

所述目标数据访问行为的业务操作参数；

所述目标数据访问行为的访问用户特征参数。

可选的，所述数据访问参数包括以下一种或多种：

可选的，所述访问用户特征参数包括以下一种或多种：

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种开放平台异常数据访问的识别方法，所述开放平台向第三方业务提供数据访问接口，所述方法包括：

将所述原始访问信息量化为多个维度的目标访问特征参数；

2.根据权利要求1所述的方法，所述识别模型的训练过程，包括：

获取各第三方业务历史数据访问行为的历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

3.根据权利要求1所述的方法，

所述识别模型是无监督模型。

4.根据权利要求1所述的方法，所述多个维度的目标访问特征参数包括以下一种或多种：

所述目标数据访问行为的数据访问参数；

所述目标数据访问行为的业务操作参数；

所述目标数据访问行为的访问用户特征参数。

5.根据权利要求4所述的方法，所述数据访问参数包括以下一种或多种：

6.根据权利要求4所述的方法，

所述业务操作参数包括：数据访问量与访问用户的业务操作量的比对参数；

7.根据权利要求4所述的方法，所述访问用户特征参数包括以下一种或多种：

8.一种开放平台异常数据访问的识别装置，所述开放平台向第三方业务提供数据访问接口，所述装置包括：

9.根据权利要求8所述的装置，所述识别模型的训练过程，包括：

获取各第三方业务历史数据访问行为的历史访问信息；

将所述历史访问信息量化为多个维度的历史访问特征参数；

10.根据权利要求8所述的装置，

所述识别模型是无监督模型。

11.根据权利要求8所述的装置，所述多个维度的目标访问特征参数包括以下一种或多种：

所述目标数据访问行为的数据访问参数；

所述目标数据访问行为的业务操作参数；

所述目标数据访问行为的访问用户特征参数。

12.根据权利要求11所述的装置，所述数据访问参数包括以下一种或多种：

13.根据权利要求11所述的装置，

14.根据权利要求11所述的装置，所述访问用户特征参数包括以下一种或多种：

15.一种开放平台异常数据访问的识别装置，所述开放平台向第三方业务提供数据访问接口，所述装置包括：

处理器；

用于存储机器可执行指令的存储器；

将所述原始访问信息量化为多个维度的目标访问特征参数；