CN112165456B

CN112165456B - 一种劫持流量识别方法、装置及电子设备

Info

Publication number: CN112165456B
Application number: CN202010922264.8A
Authority: CN
Inventors: 陆逊
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-09-04
Filing date: 2020-09-04
Publication date: 2022-05-06
Anticipated expiration: 2040-09-04
Also published as: CN112165456A

Abstract

本说明书实施例公开了一种劫持流量识别方法、装置及电子设备，其中，所述方法可以在接收到待识别流量后，获取与待识别流量相关的多个第一访问主体在第一历史时段内的访问数据并进行统计，以确定这多个第一访问主体下的至少一个统计指标在预设周期内的值按时间顺序排列而成的时间序列，得到多个时间序列；基于这多个时间序列构建待识别流量的特征矩阵并输入预设卷积神经网络，得到待识别流量是否属于劫持流量的评价参数，其中，预设卷积神经网络是基于样本流量的特征矩阵训练得到的，样本流量的特征矩阵的构建方式与待识别流量的特征矩阵的构建方式一致；最后基于所述评价参数，可以识别所述待识别流量是否属于劫持流量。

Description

一种劫持流量识别方法、装置及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种劫持流量识别方法、装置及电子设备。

背景技术

随着网络技术和终端技术的发展，越来越多的用户通过访问流量主获取信息，使得一些流量主掌握了大量的流量，这吸引了大批网络内容主通过这些流量主向用户投放相关网络内容(如广告主通过流量主向用户投放广告)，以得到期望的转化，同时流量主也能获得相应的收益。

但是，为了经济利益，一些流量主会采用流量劫持等作弊方式伪造流量，从而欺骗网络内容生产者以获得更多收益，如黑客或开发者通过病毒、恶意软件控制肉鸡设备点击、访问广告以套取广告费用，这对网络内容生产者来说会造成很大的损失。因此，需要对访问相关网络内容的流量是否属于劫持流量进行准确识别，以及时采取措施进行止损。

发明内容

本说明书实施例提供了一种劫持流量识别方法、装置及电子设备，以准确识别访问目标网络内容的流量是否属于劫持流量。

为解决上述技术问题，本说明书实施例是这样实现的：

第一方面，提出了一种劫持流量识别方法，包括：

在接收到待识别流量后，获取与所述待识别流量相关的多个第一访问主体在第一历史时段内的访问数据；

对所述访问数据进行统计，确定所述多个第一访问主体下的至少一个统计指标的时间序列，得到多个时间序列，其中，一个时间序列由一个第一访问主体下的一个统计指标在预设周期内的值按时间顺序排列而成，所述第一历史时段的长度大于或等于多个所述预设周期；

基于所述多个时间序列构建所述待识别流量的特征矩阵；

将所述待识别流量的特征矩阵输入预设卷积神经网络，得到所述待识别流量是否属于劫持流量的评价参数，其中，所述预设卷积神经网络是基于样本流量的特征矩阵训练得到的，所述样本流量的特征矩阵的构建方式与所述待识别流量的特征矩阵的构建方式一致；

基于所述评价参数，识别所述待识别流量是否属于劫持流量。

第二方面，提出了一种劫持流量识别装置，包括：

第一数据获取模块，在接收到待识别流量后，获取与所述待识别流量相关的多个第一访问主体在第一历史时段内的访问数据；

第一数据统计模块，对所述访问数据进行统计，确定所述多个第一访问主体下的至少一个统计指标的时间序列，得到多个时间序列，其中，一个时间序列由一个第一访问主体下的一个统计指标在预设周期内的值按时间顺序排列而成，所述第一历史时段的长度大于或等于多个所述预设周期；

第一矩阵构建模块，基于所述多个时间序列构建所述待识别流量的特征矩阵；

第一输入模块，将所述待识别流量的特征矩阵输入预设卷积神经网络，得到所述待识别流量是否属于劫持流量的评价参数，其中，所述预设卷积神经网络是基于样本流量的特征矩阵训练得到的，所述样本流量的特征矩阵的构建方式与所述待识别流量的特征矩阵的构建方式一致；

识别模块，基于所述评价参数，识别所述待识别流量是否属于劫持流量。

第三方面，提出了一种电子设备，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：

基于所述多个时间序列构建所述待识别流量的特征矩阵；

第四方面，提出了一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

基于所述多个时间序列构建所述待识别流量的特征矩阵；

由以上本说明书实施例提供的技术方案可见，本说明书实施例提供的方案至少具备如下一种技术效果：由于流量劫持通常是由代码批量操作的，这些批量操作往往会使得不同访问主体的访问流量异于正常访问行为的访问流量，因此通过构建与待识别流量相关的多个访问主体下的至少一个统计指标的时间序列得到多个时间序列，然后根据多个时间序列构建待识别流量的多维特征矩阵，可以很好地刻画流量劫持的批量操作带来的异常特征，并通过预设卷积神经网络提取多维特征矩阵的深层信息，可以得到准确评价待识别流量是否属于劫持流量的评价参数，从而根据该评价参数准确地识别出这类作弊行为，以消除由于正常用户的访问被劫持而带来的负面影响。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本说明书的一个实施例提供的一种劫持流量识别方法的流程示意图。

图2是本说明书的一个实施例提供的卷积神经网络的结构示意图。

图3是本说明书的另一实施例提供的一种劫持流量识别方法的流程示意图。

图4是本说明书实施例提供的一种电子设备的结构示意图。

图5是本说明书的一个实施例提供的一种劫持流量识别装置的结构示意图。

图6是本说明书的另一实施例提供的一种劫持流量识别装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了准确地识别出访问相关网络内容的流量是否被劫，本说明书实施例提供一种劫持流量识别方法和装置，该方法及装置可以由电子设备执行，例如服务端设备。换言之，所述方法可以由安装服务端设备的软件或硬件来执行。所述服务端包括但不限于：单台服务器、服务器集群、云端服务器或云端服务器集群等。

由于流量劫持通常是由代码批量操作的，申请人发现这些批量操作往往会使得不同访问主体的访问流量异于正常访问行为的访问流量，因此，本说明书实施例通过构建多个访问主体下的至少一个统计指标的时间序列来刻画这些异常，进一步地，为了使用时间序列来识别流量是否属于劫持流量，本说明书实施例还引入了TSCNN，通过捕捉劫持流量在时间序列上的异常特征来识别流量劫持行为。

需要说明的是，在本说明书实施例中，时间序列是指将同一统计指标的数值按照其先后顺序排列而成的数列(Time Series，记为TS)，CNN是卷积神经网络(Convolutionalneural network)的缩写，TSCNN泛指使用CNN模型来对时间序列建模的网络架构。

下面先对本说明书实施例提供的一种劫持流量识别方法进行说明。

图1是本说明书的一个实施例提供的劫持流量识别方法的实现流程示意图。如图1所示，该方法可以包括如下步骤。

步骤102、在接收到待识别流量后，获取与所述待识别流量相关的多个第一访问主体在第一历史时段内的访问数据。

待识别流量可以是当前时刻接收到的访问目标网络内容的流量，其中，目标网络内容是指需要监测其访问流量是否属于劫持流量的任意网络内容，这些网络内容可以包括但不限于通过流量主传播的广告、文本、图片和视频等等。

第一历史时段是待识别流量的接收时刻之前的一段时间，也就是说，待识别流量的接收时刻在第一历史时段之后，例如，假设待识别流量是当前时刻接收到的流量，那么第一历史时段可以是当前时刻之前的一段时间，如当前时刻之前的一小时、一天或一周等。一般而言，待识别流量的接收时刻与第一历史时段的时间间隔是固定的，可选地，待识别流量的接收时刻与第一历史时间的时间间隔小于预设时间间隔。

访问主体是指可以访问网络内容的行为主体，例如流量主、用户、流量的来源渠道(比如wap\web)、IP地址(用户使用什么IP地址访问的)和设备(用户使用什么设备访问的，如手机或PC)等。与待识别流量相关的多个第一访问主体是指产生待识别流量的相关访问主体，例如，产生待识别流量的用户、流量主、来源渠道、IP地址和设备等。也就是说，上述与待识别流量相关的多个第一访问主体可以包括待识别流量的流量主、用户、来源渠道、IP地址和设备中的至少两个。

举例来说，假设目标网络内容为某一第三方支付平台投放在某一短视频APP的视频广告，用户A通过手机在该短视频APP中点击该视频广告后跳转至第三方支付平台产生一条流量，那么，该短视频APP即为一个流量主，第三方支付平台即为目标网络内容的网络内容主，该条流量可以作为一条待识别流量，用户A、该短视频APP、渠道wap、用户A使用的IP地址、用户的手机则可以分别作为与该条待识别流量相关的第一访问主体。

与待识别流量相关的多个第一访问主体在第一历史时段内的访问数据可以包括但不限于：这多个第一访问主体在第一历史时段内访问目标网络内容的流量记录构成的集合，以及这多个第一访问主体在第一历史时段内的其他相关访问数据，例如，假如第一访问主体为流量主，那么第一访问主体在第一历史时段内的被投诉次数、页面平均访问时间和用户数等，也可以包含在第一访问主体在第一历史时段内访问数据中。其中，一条流量记录中包含上述多个第一访问主体的信息，可选地，访问数据中还记录了流量记录的时间信息，以便于后面统计确定时间序列。

需要说明的是，在本说明书实施例中，上述第一访问主体以及下文中述及的第二访问主体可以包括但不限于流量主、用户、来源渠道、IP地址和设备中的至少两个，第一访问主体下的统计指标可以包括但不限于访问次数、投诉次数等。

步骤104、对所述访问数据进行统计，确定所述多个第一访问主体下的至少一个统计指标的时间序列，得到多个时间序列，其中，一个时间序列由一个第一访问主体下的一个统计指标在预设周期内的值按时间顺序排列而成，所述第一历史时段的长度大于或等于多个所述预设周期。

一个第一访问主体下的统计指标可依据该第一访问主体的特点来确定，不同第一访问主体下的统计指标可以相同也可以不同，下面举例说明。

假设，与待识别流量相关的上述多个第一访问主体包括待识别流量的流量主、用户、流量的来源渠道、IP地址和设备，则需要分别统计确定流量主、用户、流量的来源渠道、IP地址和设备这五个访问主体下的至少一个统计指标的时间序列。以第一访问主体为待识别流量的流量主为例，可以分别统计确定该流量主每小时的访问量、该流量主每小时的投诉次数、该流量主每小时的页面平均访问时间和该流量主每小时的用户数这四项统计指标的数值的时间序列，其中，每小时即为上述预设周期，如果上述第一历史时段为过去24h，那么统计得到的时间序列的长度为24(含24个数值)。再以第一访问主体为待识别流量的用户为例，可以统计该用户在第一历史时段内的每天/每小时/每半个小时(预设周期)等的访问次数，得到一个时间序列。

不难理解，一个时间序列通常包含3个要素：统计指标的值(序列中的元素)、时间周期(预设周期)和长度(序列中的元素个数)，统计指标在预设周期内的数值按照时间先后排成的数列即为时间序列。具体的，以第一访问主体为待识别流量的用户为例，其对应的一个时间序列可以这样构造：

假设，统计指标的值为：访问次数；时间周期：每天；长度：5(共5天)。那么，根据“访问次数+每天+长度5”的三要素组合，可以得到一个长度为5的访问次数的时间序列：{25，12，30，23，21}。其他的访问主体下的统计指标的时间序列的构造与此类似，不再赘述。

一般而言，在与待识别流量相关的第一访问主体对应的一个时间序列中，统计指标的值的个数(该时间序列的长度)与第一历史时段包含上述预设周期的个数相同。也就是说，一般情况下，待识别流量的特征矩阵中的一个时间序列中包含的统计指标值的个数，与上述第一历史时段包含预设周期的个数相同。

步骤106、基于所述多个时间序列构建待识别流量的特征矩阵。

作为一个例子，可以将所述多个时间序列中的一个时间序列作为矩阵中的一行，将所述多个时间序列作为矩阵中的多行，构建所述待识别流量的特征矩阵，并且，同一第一访问主体下的时间序列属于同一维度，不同第一访问主体下的时间序列属于不同维度，构建得到的待识别流量的特征矩阵为多维矩阵，可以看作是一个三维以上的矩阵，而非二维的平面矩阵。

由于CNN最初是用来解决图像分类问题的，它的输入是图像的像素矩阵，而且可以是RGB三通道(三维)的，可以称为feature-map。因此，在本说明书实施例中，要想利用CNN解决流量劫持问题，需要将CNN的输入构造成类似于像素矩阵的格式(feature-map)，我们将一个时间序列作为矩阵中的一行，将不同第一访问主体作为不同的通道(维度)，可以构造得到多通道多指标下的时间序列构成的多维特征矩阵(feature-map)，作为CNN的输入。

步骤108、将待识别流量的特征矩阵输入预设卷积神经网络，得到待识别流量是否属于劫持流量的评价参数，其中，预设卷积神经网络是基于样本流量的特征矩阵训练得到的，样本流量的特征矩阵的构建方式与待识别流量的特征矩阵的构建方式一致。

样本流量的特征矩阵的构建以及基于样本流量的特征矩阵训练预设CNN的具体过程将在下一实施例中详细说明，此处暂不赘述。下面先结合图2对本说明书涉及的CNN模型(预设CNN)的结构进行说明。

CCN模型是一种特殊结构的神经网络，是一种图片领域当中有效的方法，被广泛应用在图片分类场景中。如图2所示，CNN模型包括输入层21、至少一个卷积层22、全局平均池化操作和输出层23，下面进行详细说明。

(1)输入层21

输入层21是一个全连接层，在图片处理领域，输入为一张图片的像素矩阵，在本说明书实施例中，输入为由多通道多统计指标的值的时间序列构成的特征矩阵(feature-map)。具体的，如图2所示，输入输入层21的可以是由通道一211下的多个时间序列、通道二212下的多个时间序列以及通道三213下的多个时间序列构成的特征矩阵。

(2)卷积层22

CNN模型主要的结构是卷积层22，一个CNN模型可以由多个卷积层堆叠得到(就像多层神经网络)，卷积层22的结构主要由滤波器(filter)进行卷积操作和池化(pooling)操作两个部分。

其中，滤波器的作用是：选取一个给定宽度和高度的小块，这个小块可以沿着图片上的横轴移动，每移动一个步长就得到图片上的一小块，这样的操作称为滤波器。

其中，卷积操作是：对滤波器提取的小块图片的卷积操作。卷积是两个函数的内聚，其定义如下：

其中，f(τ)为第一个函数，g(x-τ)为第二个函数，τ为自变量。

在图像上的卷积操作就是一个滤波器提取的小块图片的像素与一个相同大小的参数矩阵的对应元素相乘之和，卷积操作能够提取深层的纹理、轮廓等特征。图像上的卷积操作如下：

其中，p是卷积核的大小；w是卷积核的参数，具体是一个p*p的矩阵；v是滤波器在feature-map上取的一个p*p的矩阵；i是下标，w_i表示参数矩阵w的第i个值；v_i表示滤波器取到的v的第i个值。

其中，池化操作是一种降采样操作，将卷积之后的图片进行采样，其目的是降低feature-map的特征空间，减少模型的复杂度。样本的池化操作包括下述一种：(1)最大池化：取小块区域内的最大值保留；(2)平均池化：取小块区域内的平均值保留；(3)L2池化：取小块区域内的均方值保留。

(3)GAP和输出层

GAP是全局平均池化操作(Global Average Pool的缩写)，将最后一个卷积层的输出结果在整个时间维度上取平均(对于一个feature map矩阵，一个维度是时间长度，另一维度是不同的序列，这里取的是不同序列在时间维度上的平均值)，最大保留时间序列的时间特性，使得后续分类过程能够辨别时间序列的哪个区域对分类最有效。经过GAP操作之后得出的向量作为输出层的输入，输出层是一个全连接网络。

在本说明书实施例的一个例子中，输出层的输出结果为一条流量(如待识别流量)是否属于劫持流量的概率。具体的，输出层是一个softmax层，输出向量长度是2，输出向量的第一个值表示这条流量是正常流量的概率值，输出向量的第二个值表示这条流量是劫持流量的概率值，如果向量的第二个值大于第一个值，则表示这条流量是劫持流量，反之，表示这个流量是正常流量，第一个值和第二个值的和等于1。

在此基础上，可以理解，上述预设卷积神经网络包括输入层、至少一个卷积层、全局平均池化操作和输出层，上述步骤108可以包括：将所述待识别流量的特征矩阵输入所述输入层；基于所述至少一个卷积层对所述待识别流量的特征矩阵进行卷积操作和池化操作，并将最后一个卷积层的输出结果在时间维度上进行全局平均池化操作得到一个向量输入所述输出层；将所述输出层的输出作为所述评价参数。

需要说明的是，在本说明书实施例中CNN模型的结构可以是任意卷积层的堆叠，本说明书对此不做限制。

步骤110、基于所述评价参数，识别待识别流量是否属于劫持流量。

沿用步骤108中的例子，如果所述输出层的输出为所述待识别流量是否属于劫持流量的概率，则步骤110可以包括：基于所述概率识别所述待识别流量是否属于劫持流量。具体的，可以基于所述评价参数，识别所述待识别流量是否被所述待识别流量的流量主劫持。

更为具体的，如果输出层是一个softmax层，输出向量长度是2，输出向量的第一个值表示这条流量是正常流量的概率值，输出向量的第二个值表示这条流量是劫持流量的概率值，那么，当该向量的第二个值大于第一个值，则确定待识别流量是劫持流量(被劫持)，反之，则确定待识别流量是正常流量(未被劫持)。

可选地，在基于所述评价参数，识别所述待识别流量是否被所述待识别流量的流量主劫持之后，本说明书实施例提供的一种劫持流量识别方法，还可以包括：对所述待识别流量所访问的目标网络内容的网络内容主做出提示，以使目标网络内容的网络内容及时制止此种不良行为，进行止损。其中，对目标网络内容的网络内容主进行提示的方式包括但不限于发送提示消息，如发送短信或邮件等。

本说明书实施例提供的一种劫持流量识别方法，由于流量劫持通常是由代码批量操作的，这些批量操作往往会使得不同访问主体的访问流量异于正常访问行为的访问流量，因此通过构建与待识别流量相关的多个访问主体下的至少一个统计指标的时间序列得到多个时间序列，然后根据多个时间序列构建待识别流量的多维特征矩阵，可以很好地刻画流量劫持的批量操作带来的异常特征，并通过预设卷积神经网络提取多维特征矩阵的深层信息，可以得到准确评价待识别流量是否属于劫持流量的评价参数，从而根据该评价参数准确地识别出这类作弊行为，以消除由于正常用户的访问被劫持而带来的负面影响。

如图3所示，在另一实施例中，本说明书提供的一种劫持流量识别方法，在步骤102之前，还可以包括(预设CNN的训练过程)：

步骤112、确定多条样本流量，并获取与所述样本流量相关的多个第二访问主体在第二历史时段内的访问数据，得到多组访问数据，其中，一条样本流量对应得到一组访问数据，所述多个第二访问主体的类型与所述多个第一访问主体的类型一致，第二历史时段的长度与第一历史时段的长度相同。

可以理解，同上一实施例中描述的与待识别流量相关的多个第一访问主体在第一历史时段内的访问数据一致，与一条样本流量相关的多个第二访问主体在相应的第二历史时段内的访问数据也可以包括但不限于：这多个第二访问主体在第一历史时段内访问目标网络内容的流量记录构成的集合，以及这多个第二访问主体在相应的第二历史时段内其他相关访问数据。以及同待识别流量的接收时刻在第一历史时段之后一致，一条样本流量的接收时刻在对应的第二历史时段之后。

一般而言，第二历史时段早于第一历史时段，多条样本流量是用于训练预设CNN的一批样本流量，样本流量的接收时刻与相应的第二历史时段的时间间隔也是固定的，可选地，样本流量的接收时刻与相应的第二历史时间的时间间隔小于预设时间间隔。可选地，这些样本流量是否属于劫持流量是已知的。

可选地，还可以在下述步骤118之前，确定上述多个样本流量的标签，以有监督地训练预设CNN。具体的，可以分别基于所述多条样本流量是否属于劫持流量，对应确定所述多条样本流量的标签。如上一实施例所述，由于识别一条流量是否属于劫持流量属于二分类问题，所以同预设CNN的输出一样，一条样本流量的标签也可以是长度为2的向量，该向量中的第一个值表示一条样本流量属于正常流量的概率，该向量的第二个值表示一条样本流量属于劫持流量的概率，可以理解，作为标签，第一个值和第二个值中的一个为1，另一个为0。

步骤114、对所述多组访问数据分别进行统计，确定所述多个第二访问主体下的所述至少一个统计指标的时间序列，以针对所述多组访问数据得到多组时间序列，其中，一组访问数据对应得到一组时间序列，一组时间序列中含多个时间序列。

同样的，样本流量的特征矩阵中的一个时间序列中包含的统计指标值的个数，与第二历史时段包含所述预设周期的个数相同。

步骤116、基于所述多组时间序列构建所述多条样本流量对应的多个特征矩阵。

样本流量、第二历史时段、多个第二访问主体、访问数据、时间序列及特征矩阵的对应关系如表1所示。

表1

从表1可以看出，一条样本流量对应一个第二历史时段和一组访问数据，对一条样本流量对应的一组访问数据经过统计后，可以得到该条样本流量对应的一组时间序列，根据该组时间序列可以对应构建出一个特征矩阵，该特征矩阵即为该条样本流量的特征矩阵。

步骤118、基于所述多个特征矩阵训练预设卷积神经网络。

作为一个例子，如果是有监督训练，则步骤118可以包括：基于所述多个特征矩阵和所述多条样本流量的标签，训练所述预设卷积神经网络。

在预设CNN的训练过程中，可以以交叉熵计算损失(loss)，并采用损失反向迭代更新模型参数。作为一个例子，损失函数可以为：

其中，因为判断一条流量是否属于劫持流量是一个二分类任务，所以训练样本的标签是一个2维向量，输出层也是2维向量。y_i表示标签向量中的第i个值，p_i表示输出向量中的第i个值，

是一个字符，用来表示损失。

进一步地，在训练预设CNN时，可以以下述条件中的一种或多种作为训练终止(迭代终止)条件：(1)计算得到的损失不再发生明显的变化；(2)达到预先设定的最大迭代次数。一般会先设定一个最大迭代次数，然后观察损失的变化，如果在达到最大迭代次数后，损失还有明显下降，则下一次增大最大迭代次数后再次训练模型。

可以理解，本说明书实施例，由于可以构建与多个样本流量相关的多个访问主体下的至少一个统计指标的时间序列得到多个时间序列，然后根据多个时间序列构建出很好地刻画样本流量的特征的多维特征矩阵，并据此训练出可以提取多维特征矩阵的深层信息以对样本流量是否属于劫持流量进行正确分类的预设卷积神经网络，从而为准确地识别出流量劫持这类作弊行为做好准备，因此可以以消除由于正常用户的访问被劫持而带来的负面影响。

以上是对本说明书提供的方法实施例的说明，下面对本说明书提供的电子设备进行介绍。

图4是本说明书的一个实施例提供的电子设备的结构示意图。请参考图4，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成劫持流量识别装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

基于所述多个时间序列构建所述待识别流量的特征矩阵；

上述如本说明书图1或图3所示实施例揭示的劫持流量识别方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书一个或多个实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书一个或多个实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

该电子设备还可执行图1或图3所示的实施例例提供的劫持流量识别方法，本说明书在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

基于所述多个时间序列构建所述待识别流量的特征矩阵；

下面对本说明书提供的劫持流量识别装置进行说明。

如图5所示，本说明书的一个实施例提供了一种劫持流量识别装置，在一种软件实施方式中，该劫持流量识别装置500可包括：第一数据获取模块501、第一数据统计模块502、第一矩阵构建模块503、第一输入模块504和识别模块505。

第一数据获取模块501，在接收到待识别流量后，获取与所述待识别流量相关的多个第一访问主体在第一历史时段内的访问数据。

第一数据统计模块502，对所述访问数据进行统计，确定所述多个第一访问主体下的至少一个统计指标的时间序列，得到多个时间序列，其中，一个时间序列由一个第一访问主体下的一个统计指标在预设周期内的值按时间顺序排列而成，所述第一历史时段的长度大于或等于多个所述预设周期。

第一矩阵构建模块503，基于所述多个时间序列构建所述待识别流量的特征矩阵。

第一输入模块504，将所述待识别流量的特征矩阵输入预设卷积神经网络，得到所述待识别流量是否属于劫持流量的评价参数，其中，所述预设卷积神经网络是基于样本流量的特征矩阵训练得到的，所述样本流量的特征矩阵的构建方式与所述待识别流量的特征矩阵的构建方式一致。

作为一个例子，上述预设卷积神经网络包括输入层、至少一个卷积层、全局平均池化操作和输出层，第一输入模块504，可以将所述待识别流量的特征矩阵输入所述输入层；基于所述至少一个卷积层对所述待识别流量的特征矩阵进行卷积操作和池化操作，并将最后一个卷积层的输出结果在时间维度上进行全局平均池化操作得到一个向量输入所述输出层；将所述输出层的输出作为所述评价参数。

识别模块505，基于所述评价参数，识别所述待识别流量是否属于劫持流量。

作为一个例子，如果所述输出层的输出为所述待识别流量是否属于劫持流量的概率，上述识别模块505，可以基于所述概率识别所述待识别流量是否属于劫持流量。具体的，可以基于所述评价参数，识别所述待识别流量是否被所述待识别流量的流量主劫持。

可选地，本说明书实施例提供的一种劫持流量识别装置500，还可以包括：提示模块，在基于所述评价参数，识别所述待识别流量是否被所述待识别流量的流量主劫持之后，对所述待识别流量所访问的目标网络内容的网络内容主做出提示，以使目标网络内容的网络内容及时制止此种不良行为，进行止损。其中，对目标网络内容的网络内容主进行提示的方式包括但不限于发送提示消息，如发送短信或邮件等。

图5所示的实施例提供的一种劫持流量识别装置，由于流量劫持通常是由代码批量操作的，这些批量操作往往会使得不同访问主体的访问流量异于正常访问行为的访问流量，因此通过构建与待识别流量相关的多个访问主体下的至少一个统计指标的时间序列得到多个时间序列，然后根据多个时间序列构建待识别流量的多维特征矩阵，可以很好地刻画流量劫持的批量操作带来的异常特征，并通过预设卷积神经网络提取多维特征矩阵的深层信息，可以得到准确评价待识别流量是否属于劫持流量的评价参数，从而根据该评价参数准确地识别出这类作弊行为，以消除由于正常用户的访问被劫持而带来的负面影响。

需要说明的是，图5所示的劫持流量识别装置500能够实现图1的方法实施例的方法，具体可参考图1所示实施例的劫持流量识别方法，不再赘述。

如图6所示，在另一实施例中，本说明书提供的一种劫持流量识别装置，还可以包括：第二数据获取模块506、第二数据统计模块507、第二矩阵构建模块508和训练模块510，以在第一输入模块504将所述待识别流量的特征矩阵输入预设卷积神经网络，得到所述待识别流量是否属于劫持流量的评价参数之前，训练的得到预设卷积神经网络。

可选地，还可以在训练模块510基于所述多个特征矩阵训练预设卷积神经网络之前，确定上述多个样本流量的标签，以有监督地训练预设CNN。具体的，可以分别基于所述多条样本流量是否属于劫持流量，对应确定所述多条样本流量的标签。

第二数据获取模块506，确定多条样本流量，并获取与所述样本流量相关的多个第二访问主体在第二历史时段内的访问数据，得到多组访问数据，其中，一条样本流量对应得到一组访问数据，所述多个第二访问主体的类型与所述多个第一访问主体的类型一致，第二历史时段的长度与第一历史时段的长度相同。

第二数据统计模块507，对所述多组访问数据分别进行统计，确定所述多个第二访问主体下的所述至少一个统计指标的时间序列，以针对所述多组访问数据得到多组时间序列，其中，一组访问数据对应得到一组时间序列，一组时间序列中含多个时间序列。

第二矩阵构建模块508，基于所述多组时间序列构建所述多条样本流量对应的多个特征矩阵。

训练模块510，基于所述多个特征矩阵训练预设卷积神经网络。

需要说明的是，图6所示的劫持流量识别装置500能够实现图3的方法实施例的方法，具体可参考图3所示实施例的劫持流量识别方法，不再赘述。

上述对本说明书特定实施例进行了描述，其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书一个或多个实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例的保护范围之内。

上述实施例阐明的***、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制时，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于***实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种劫持流量识别方法，包括：

基于所述多个时间序列构建所述待识别流量的特征矩阵；

2.根据权利要求1所述的方法，其中，所述基于所述多个时间序列构建所述待识别流量的特征矩阵，包括：

将所述多个时间序列中的一个时间序列作为矩阵中的一行，将所述多个时间序列作为矩阵中的多行，构建所述待识别流量的特征矩阵，其中，同一第一访问主体下的时间序列属于同一维度，不同第一访问主体下的时间序列属于不同维度，所述待识别流量的特征矩阵为多维矩阵。

3.根据权利要求1所述的方法，在所述将所述待识别流量的特征矩阵输入预设卷积神经网络之前，所述方法还包括：

确定多条样本流量，并获取与所述样本流量相关的多个第二访问主体在第二历史时段内的访问数据，得到多组访问数据，其中，一条样本流量对应得到一组访问数据，所述多个第二访问主体的类型与所述多个第一访问主体的类型一致，所述第二历史时段的长度与所述第一历史时段的长度相同；

对所述多组访问数据分别进行统计，确定所述多个第二访问主体下的所述至少一个统计指标的时间序列，以针对所述多组访问数据得到多组时间序列，其中，一组访问数据对应得到一组时间序列，一组时间序列中含多个时间序列；

基于所述多组时间序列构建所述多条样本流量对应的多个特征矩阵；

基于所述多个特征矩阵训练所述预设卷积神经网络。

4.根据权利要求3所述的方法，在所述基于所述多个特征矩阵训练所述预设卷积神经网络前，所述方法还包括：

分别确定所述多条样本流量的标签；

其中，所述基于所述多个特征矩阵训练所述预设卷积神经网络，包括：

基于所述多个特征矩阵和所述多条样本流量的标签，训练所述预设卷积神经网络。

5.根据权利要求4所述的方法，其中，所述分别确定所述多条样本流量的标签，包括：

分别基于所述多条样本流量是否属于劫持流量，对应确定所述多条样本流量的标签。

6.根据权利要求5所述的方法，

一条所述样本流量的接收时刻在对应的第二历史时段之后；

所述待识别流量的接收时刻在所述第一历史时段之后。

7.根据权利要求1-6中任一项所述的方法，所述预设卷积神经网络包括输入层、至少一个卷积层、全局平均池化操作和输出层，其中，所述将所述待识别流量的特征矩阵输入预设卷积神经网络，得到所述待识别流量是否属于劫持流量的评价参数，包括：

将所述待识别流量的特征矩阵输入所述输入层；

基于所述至少一个卷积层对所述待识别流量的特征矩阵进行卷积操作和池化操作，并将最后一个卷积层的输出结果在时间维度上进行全局平均池化操作得到一个向量输入所述输出层；

将所述输出层的输出作为所述评价参数。

8.根据权利要求7所述的方法，基于所述输出层的输出为所述待识别流量是否属于劫持流量的概率，其中，所述基于所述评价参数，识别所述待识别流量是否属于劫持流量，包括：

基于所述概率识别所述待识别流量是否属于劫持流量。

9.根据权利要求1-6中任一项所述的方法，

所述多个第一访问主体包括所述待识别流量的流量主、用户、来源渠道、IP地址和设备中的至少两个。

10.根据权利要求9所述的方法，其中，所述基于所述评价参数，识别所述待识别流量是否属于劫持流量，包括：

基于所述评价参数，识别所述待识别流量是否被所述待识别流量的流量主劫持。

11.根据权利要求10所述的方法，还包括：

在基于所述评价参数，识别出所述待识别流量被所述待识别流量的流量主劫持后，对所述待识别流量所访问的目标网络内容的网络内容主做出提示。

12.根据权利要求3-6中任一项所述的方法，

所述待识别流量的特征矩阵中的一个时间序列中包含的统计指标值的个数，与所述第一历史时段包含所述预设周期的个数相同；

所述样本流量的特征矩阵中的一个时间序列中包含的统计指标值的个数，与所述第二历史时段包含所述预设周期的个数相同。

13.一种劫持流量识别装置，包括：

14.一种电子设备，包括：

处理器；以及

基于所述多个时间序列构建所述待识别流量的特征矩阵；

15.一种计算机可读存储介质，所述计算机可读存储介质存储一个或多个程序，所述一个或多个程序当被包括多个应用程序的电子设备执行时，使得所述电子设备执行以下操作：

基于所述多个时间序列构建所述待识别流量的特征矩阵；