CN111314161B - 一种流量识别方法和装置 - Google Patents

一种流量识别方法和装置 Download PDF

Info

Publication number
CN111314161B
CN111314161B CN201911059598.0A CN201911059598A CN111314161B CN 111314161 B CN111314161 B CN 111314161B CN 201911059598 A CN201911059598 A CN 201911059598A CN 111314161 B CN111314161 B CN 111314161B
Authority
CN
China
Prior art keywords
space
time trajectory
identification
flow
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911059598.0A
Other languages
English (en)
Other versions
CN111314161A (zh
Inventor
肖圣龙
武金
刁士涵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Three Cloud Computing Co ltd
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201911059598.0A priority Critical patent/CN111314161B/zh
Publication of CN111314161A publication Critical patent/CN111314161A/zh
Application granted granted Critical
Publication of CN111314161B publication Critical patent/CN111314161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • H04L43/045Processing captured monitoring data, e.g. for logfile generation for graphical visualisation of monitoring data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/069Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Traffic Control Systems (AREA)

Abstract

本申请公开了一种流量识别方法和装置。所述方法包括:根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。有益效果在于,通过流量日志及接口访问时间等特征构建时空轨迹坐标系,生成时空轨迹图,最后根据时空轨迹图实现从图像层面获取到更显著的识别特征,提高了流量识别能力和识别结果的准确性,降低了识别失误率,改善了用户体验的同时兼具良好的识别效果。且流量识别模型不依赖业务数据,具有较高的识别效率、较强的泛化能力、较长的生命周期和通用性,识别效果较好。

Description

一种流量识别方法和装置
技术领域
本申请涉及识别算法领域,具体涉及一种流量识别方法和装置。
背景技术
网站平台在运行中可能会遇到用户的持续的非正常使用的行为,例如爬取数据、流量攻击等。所以,准确且快速的识别出异常流量对于网站平台提高监控和预警水平、完善用户体验具有重要意义。而现有技术虽然存在多种识别技术方案,但是各方法中都存在一定缺陷,无法保障识别的效果。例如,频次累计方法下,对于暴力攻击有较好的防御效果,但是易于被攻击方利用,识别过程也容易出现遗漏。异常参数识别法下,无法适应攻击和防御不断升级和进化的特点,而且易被破解,可能对正常用户造成不好的使用体验。利用鼠标、键盘等对外交互设备进行轨迹识别的方法下,虽然具有较好的效果,但是部署较为复杂,难以在手持终端app上应用。滑块轨迹异常识别法下,虽然这一方法较为成熟,也具有较好的识别效果,但是识别过程中只能提取到时间和空间的距离和位移信息,未反映出图像像素点的信息,因而也存在一定不足。
发明内容
鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种流量识别方法和装置。
依据本申请的一个方面,提供了一种流量识别方法,包括:
根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;
将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。
可选地,该方法还包括:
从样本流量日志数据中提取出正常数据集和异常数据集;
为所述正常数据集和所述异常数据集中的各条流量日志数据,分别依据所述时空轨迹坐标系生成时空轨迹图,得到样本时空轨迹图集合;
根据所述样本时空轨迹图集合训练得到所述流量识别模型。
可选地,所述从样本流量日志数据中提取出正常数据集和异常数据集包括:
根据流量请求的内容,将包含预设的正常行为的流量日志数据作为正常数据,将包含预设的异常行为的流量日志数据作为异常数据。
可选地,所述根据所述样本时空轨迹图集合训练得到所述流量识别模型包括:
基于预设的卷积神经网络基础模型和所述样本时空轨迹图集合训练得到所述流量识别模型;其中,所述预设的卷积神经网络基础模型包括三层卷积层、三层池化层和三层全连接层。
可选地,所述根据所述样本时空轨迹图集合训练得到所述流量识别模型包括:
将所述样本时空轨迹图集合中的各时空轨迹图进行乱序处理,不重复抽样所述样本时空轨迹图中第一比例的时空轨迹图作为训练集、第二比例的时空轨迹图作为验证集、第三比例的时空轨迹图作为测试集;所述第一比例、第二比例和第三比例的总和为100%。
可选地,该方法还包括:
根据所述正常数据集生成接口词向量;
根据所述接口词向量确定各接口的接口索引标识。
可选地,如上述任一项所述的方法,所述时空轨迹图的尺寸是预设的。
依据本申请的另一方面,提供了一种异常流量识别装置,包括:
时空轨迹图生成单元,用于根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;
识别单元,用于将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。
可选地,所述时空轨迹图生成单元,还用于从样本流量日志数据中提取出正常数据集和异常数据集;
为所述正常数据集和所述异常数据集中的各条流量日志数据,分别依据所述时空轨迹坐标系生成时空轨迹图,得到样本时空轨迹图集合;
根据所述样本时空轨迹图集合训练得到所述流量识别模型。
可选地,所述时空轨迹图生成单元,用于根据流量请求的内容,将包含预设的正常行为的流量日志数据作为正常数据,将包含预设的异常行为的流量日志数据作为异常数据。
可选地,所述时空轨迹图生成单元,用于基于预设的卷积神经网络基础模型和所述样本时空轨迹图集合训练得到所述流量识别模型;其中,所述预设的卷积神经网络基础模型包括三层卷积层、三层池化层和三层全连接层。
可选地,所述时空轨迹图生成单元,用于将所述样本时空轨迹图集合中的各时空轨迹图进行乱序处理,不重复抽样所述样本时空轨迹图中第一比例的时空轨迹图作为训练集、第二比例的时空轨迹图作为验证集、第三比例的时空轨迹图作为测试集;所述第一比例、第二比例和第三比例的总和为100%。
可选地,所述时空轨迹图生成单元,还用于根据所述正常数据集生成接口词向量;
根据所述接口词向量确定各接口的接口索引标识。
可选地,如上述任一项所述装置,所述时空轨迹图的尺寸是预设的。
依据本申请的又一方面,提供了一种电子设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如上述任一所述的方法。
依据本申请的再一方面,提供了一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如上述任一所述的方法。
由上述可知,本申请的技术方案,根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。有益效果在于,通过流量日志及接口访问时间等特征构建时空轨迹坐标系,生成时空轨迹图,最后根据时空轨迹图实现从图像层面获取到更显著的识别特征,提高了流量识别能力和识别结果的准确性,降低了识别失误率,改善了用户体验的同时兼具良好的识别效果。且流量识别模型不依赖业务数据,具有较高的识别效率、较强的泛化能力、较长的生命周期和通用性,识别效果较好。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本申请一个实施例的一种流量识别方法的流程示意图;
图2示出了根据本申请一个实施例的一种流量识别装置的结构示意图;
图3a示出了根据本申请一个实施例的正常行为流量请求的时空轨迹图;
图3b示出了根据本申请一个实施例的异常行为流量请求的时空轨迹图;
图4示出了根据本申请一个实施例的流量识别模型的深度学习网络架构示意图;
图5示出了根据本申请一个实施例的电子设备的结构示意图;
图6示出了根据本申请一个实施例的计算机可读存储介质的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
图1示出了根据本申请一个实施例的一种流量识别方法的流程示意图。如图1所示,该方法包括:
步骤S110,根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,时空轨迹坐标系的横坐标为接口访问时间,时空轨迹坐标系的纵坐标为接口索引标识。
用户访问网站平台后,流量日志数据中会留下相应的记录信息。这些流量日志数据可以包含有网站用户数量、用户访问时间以及用户所浏览的网页数量等指标。通过对网站流量日志数据中各指标进行细致分析,可以发现用户的行为特征进而将其用图像的形式描述出来。如图3a所示,根据接口访问时间特征和接口特征建立平面的时空轨迹坐标系,其中坐标系的横轴X为访问的时间线,单位为秒,横坐标为接口访问时间,用户第一次访问接口的时间作为开始时间,后续访问的时间与开始接口的时间差作为横坐标X的具体值,形式为X=(0,time2–time1,time3-time2,timeN-timeN-1)。坐标系纵轴为Y轴,纵坐标为接口索引标识。形式为Y={indexurlVector(url1),inexurlVector(url2),……,indexurlVector(urlN)}。将待识别流量的流量日志数据输入到时空轨迹坐标系中,由此生成一一对应的时空轨迹点,形成时空轨迹图。轨迹图的横轴和纵轴分别对应图像的长度和宽度。图像时空轨迹点的灰度值对应在一秒单位内访问同一接口的数量值,数量越多则时空轨迹点图像越白。对于正常行为来说,访问的接口类型较多,没有明显的规律特征,因而时空轨迹点难以形成明显轨迹。但是对于异常行为则恰恰相反,如图3b所示,可以形成具有较为明显特征的时空轨迹图。这样,就根据流量日志数据依据接口访问时间特征和接口索引标识建立起了时空轨迹坐标系,并进一步转化为直观的时空轨迹图像,使隐藏于文本信息中的抽象特征转化为清晰直观的图像特征,使得从图像层面获取到了更显著的识别特征,为提高了流量识别能力和识别结果的准确性奠定了基础。
步骤S120,将时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。
预先对流量识别模型进行大量深度训练,然后根据实际需求,将时空轨迹图输入到已经训练好的流量识别模型中进行识别操作,最终判断出是否为异常流量。这样,借助深度学习的方法对流量识别模型进行大量训练,通过流量识别模型完成异常流量的识别工作,具有较高的工作效率和识别准确性。
可见如图1所示的方法,可以通过流量日志及接口访问时间等特征构建时空轨迹坐标系,生成时空轨迹图,最后根据时空轨迹图实现从图像层面获取到更显著的识别特征,提高了流量识别能力和识别结果的准确性,降低了识别失误率,改善了用户体验的同时兼具良好的识别效果。且流量识别模型不依赖业务数据,具有较高的识别效率、较强的泛化能力、较长的生命周期和通用性,识别效果较好。
在本发明的一个实施例中,上述方法还包括:从样本流量日志数据中提取出正常数据集和异常数据集;为正常数据集和异常数据集中的各条流量日志数据,分别依据时空轨迹坐标系生成时空轨迹图,得到样本时空轨迹图集合;根据样本时空轨迹图集合训练得到流量识别模型。
流量日志数据中的信息是丰富的,连同正常行为和异常行为的流量日志都包含在内。因此为了更好的模型训练效果和训练效率,可以将样本流量日志数据预先进行分类,将正常行为与异常行为的流量日志记录区分为不同的数据集,形成正常数据集和异常数据集。然后分别针对正常数据集和异常数据集分别依据时空轨迹坐标系生成时空轨迹图,最终得到样本中正常数据集的时空轨迹图集和异常数据集的时空轨迹集。对流量模型进行预先训练时,可以有针对性使用相应的时空轨迹图作为训练数据。这样,将杂乱的用户流量日志数据进行归类处理并形成对应时空轨迹图集,可以根据具体需要的不同,有针对性地选取相应地时空轨迹图集对流量识别模型进行训练,提高了模型训练地灵活性和训练效率,具有更好地训练效果。
在本发明的一个实施例中,上述方法中,从样本流量日志数据中提取出正常数据集和异常数据集包括:根据流量请求的内容,将包含预设的正常行为的流量日志数据作为正常数据,将包含预设的异常行为的流量日志数据作为异常数据。
判断用户行为是否为异常行为,可以根据用户流量请求的内容进行确定。根据用户流量请求地内容,例如针对同一网页短时间内多次进行请求,大量异常下载,恶意扫描或者符合具有攻击性特征的病毒等特征作为预设条件,也可以以自定义方式对异常行为特征作为预先条件来确定是否属于异常行为数据。这样,就根据一定地预设条件实现了对样本流量日志数据进一步区分为正常数据和异常数据。
在本发明的一个实施例中,上述方法中,根据样本时空轨迹图集合训练得到流量识别模型包括:基于预设的卷积神经网络基础模型和样本时空轨迹图集合训练得到流量识别模型;其中,预设的卷积神经网络基础模型包括三层卷积层、三层池化层和三层全连接层。
卷积神经网络是人工神经网络的一种,属于前馈神经网络,人工神经元可以响应周围单元,主要用来识别位移、缩放及其他形式扭曲不变性的二维图形进行大型图像处理。卷积网络较一般神经网络在图像处理方面存在许多优点,如输入图像和网络的拓扑结构能很好的吻合;特征提取和模式分类同时进行,并同时在训练中产生;权重共享可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强等诸多优点,因此被广泛应用。使用卷积神经网络和样本时空轨迹图集对流量识别模型进行大量训练,降低了网络模型的复杂度,减少了权值的数量,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。图4示出了根据本申请一个实施例的流量识别模型的深度学习网络架构示意图,包括三层卷积层,三层池化层,三层全连接层。其中卷积层负责提取特征,池化层负责特征选择,全连接层负责分类。输入的时空轨迹图,像素大小为500*500,首先进入输入层,然后以5*5的像素值大小进行卷积得到C1,即32个特征分片,像素值大小为500*500;然后进入池化层以像素值为5*5的大小进行池化,得到S2,即32的特征分片,像素值大小为100*100;然后进入卷积层以像素值为5*5的大小进行卷积,得到C3,即64个特征分片,像素值大小为100*100;然后进入池化层以像素值为5*5的大小进行池化,得到S4,即64个特征分片,像素值大小为20*20;然后进入卷积层以像素值为3*3的大小进行卷积,得到C5,即32个特征分片,像素值大小为20*20;然后进入池化层以像素值为3*3的大小进行池化,得到S6,即32个特征分片,像素值大小为6*6;最后进入全连接层F7,得到1152个分类,再进入全连接层F8,得到128个分类、最后进入输出层F9得到2个分类。
在本发明的一个实施例中,上述方法中,根据样本时空轨迹图集合训练得到流量识别模型包括:将样本时空轨迹图集合中的各时空轨迹图进行乱序处理,不重复抽样样本时空轨迹图中第一比例的时空轨迹图作为训练集、第二比例的时空轨迹图作为验证集、第三比例的时空轨迹图作为测试集;第一比例、第二比例和第三比例的总和为100%。
将样本中的正常数据集和异常数据集进行混合并对次序进行打乱处理,得到不重复抽样样本时空轨迹图集。为了进一步提升流量识别模型的训练效果可以对不重复抽样样本时空轨迹图集的数据数量构成按照功能的不同划分为不同的比例,例如将不重复抽样样本时空轨迹图集中80%的数据作为训练集,10%的数据作为验证集、10%的数据作出测试集,三者总和为100%。这样,利用划分好一定比例构成的不重复抽样样本时空轨迹图集作为流量识别模型的训练数据,可以更灵活和有针对性的对流量识别模型进行训练,达到更好的训练效率和训练效果。
在本发明的一个实施例中,上述方法还包括:根据正常数据集生成接口词向量;根据接口词向量确定各接口的接口索引标识。
异常用户在流量请求时可能是针对于特定几个接口进行持续请求的,如反复针对页面图片、登陆界面等接口持续请求。为了更完整的获取到接口数据情况,在获取接口词向量时可以根据正常数据集进行获取,再根据获取的接口词向量确定各接口的接口索引标识。这样,可以完整的确定出时空轨迹坐标坐标系的纵轴的数据。
在本发明的一个实施例中,如上述任一项的方法中,时空轨迹图的尺寸是预设的。
为了后续更好的对时空轨迹图通过模型进行识别,每一幅轨迹图的长度和宽度可以设置为相同规格。这样,可以提升流量识别模型的识别效果和识别效率。
图2示出了根据本申请一个实施例的一种流量识别装置的结构示意图。如图2所示,流量识别装置200包括:
时空轨迹图生成单元210,用于根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,时空轨迹坐标系的横坐标为接口访问时间,时空轨迹坐标系的纵坐标为接口索引标识。
用户访问网站平台后,流量日志数据中会留下相应的记录信息。这些流量日志数据可以包含有网站用户数量、用户访问时间以及用户所浏览的网页数量等指标。通过对网站流量日志数据中各指标进行细致分析,可以发现用户的行为特征进而将其用图像的形式描述出来。如图3a所示,根据接口访问时间特征和接口特征建立平面的时空轨迹坐标系,其中坐标系的横轴X为访问的时间线,单位为秒,横坐标为接口访问时间,用户第一次访问接口的时间作为开始时间,后续访问的时间与开始接口的时间差作为横坐标X的具体值,形式为X=(0,time2–time1,time3-time2,timeN-timeN-1)。坐标系纵轴为Y轴,纵坐标为接口索引标识。形式为Y={indexurlVector(url1),inexurlVector(url2),……,indexurlVector(urlN)}。将待识别流量的流量日志数据输入到时空轨迹坐标系中,由此生成一一对应的时空轨迹点,形成时空轨迹图。轨迹图的横轴和纵轴分别对应图像的长度和宽度。图像时空轨迹点的灰度值对应在一秒单位内访问同一接口的数量值,数量越多则时空轨迹点图像越白。对于正常行为来说,访问的接口类型较多,没有明显的规律特征,因而时空轨迹点难以形成明显轨迹。但是对于异常行为则恰恰相反,如图3b所示,可以形成具有较为明显特征的时空轨迹图。这样,就根据流量日志数据依据接口访问时间特征和接口索引标识建立起了时空轨迹坐标系,并进一步转化为直观的时空轨迹图像,使隐藏于文本信息中的抽象特征转化为清晰直观的图像特征,使得从图像层面获取到了更显著的识别特征,为提高了流量识别能力和识别结果的准确性奠定了基础。
识别单元220,用于将时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。
预先对流量识别模型进行大量深度训练,然后根据实际需求,将时空轨迹图输入到已经训练好的流量识别模型中进行识别操作,最终判断出是否为异常流量。这样,借助深度学习的方法对流量识别模型进行大量训练,通过流量识别模型完成异常流量的识别工作,具有较高的工作效率和识别准确性。
可见如图2所示的装置,可以通过流量日志及接口访问时间等特征构建时空轨迹坐标系,生成时空轨迹图,最后根据时空轨迹图实现从图像层面获取到更显著的识别特征,提高了流量识别能力和识别结果的准确性,降低了识别失误率,改善了用户体验的同时兼具良好的识别效果。且流量识别模型不依赖业务数据,具有较高的识别效率、较强的泛化能力、较长的生命周期和通用性,识别效果较好。
在本发明的一个实施例中,上述装置中,时空轨迹图生成单元210,还用于从样本流量日志数据中提取出正常数据集和异常数据集;为正常数据集和异常数据集中的各条流量日志数据,分别依据时空轨迹坐标系生成时空轨迹图,得到样本时空轨迹图集合;根据样本时空轨迹图集合训练得到流量识别模型。
流量日志数据中的信息是丰富的,连同正常行为和异常行为的流量日志都包含在内。因此为了更好的模型训练效果和训练效率,可以将样本流量日志数据预先进行分类,将正常行为与异常行为的流量日志记录区分为不同的数据集,形成正常数据集和异常数据集。然后分别针对正常数据集和异常数据集分别依据时空轨迹坐标系生成时空轨迹图,最终得到样本中正常数据集的时空轨迹图集和异常数据集的时空轨迹集。对流量模型进行预先训练时,可以有针对性使用相应的时空轨迹图作为训练数据。这样,将杂乱的用户流量日志数据进行归类处理并形成对应时空轨迹图集,可以根据具体需要的不同,有针对性地选取相应地时空轨迹图集对流量识别模型进行训练,提高了模型训练地灵活性和训练效率,具有更好地训练效果。
在本发明的一个实施例中,上述装置中,时空轨迹图生成单元210,用于根据流量请求的内容,将包含预设的正常行为的流量日志数据作为正常数据,将包含预设的异常行为的流量日志数据作为异常数据。
判断用户行为是否为异常行为,可以根据用户流量请求的内容进行确定。根据用户流量请求地内容,例如针对同一网页短时间内多次进行请求,大量异常下载,恶意扫描或者符合具有攻击性特征的病毒等特征作为预设条件,也可以以自定义方式对异常行为特征作为预先条件来确定是否属于异常行为数据。这样,就根据一定地预设条件实现了对样本流量日志数据进一步区分为正常数据和异常数据。
在本发明的一个实施例中,上述装置中,时空轨迹图生成单元210,用于基于预设的卷积神经网络基础模型和样本时空轨迹图集合训练得到流量识别模型;其中,预设的卷积神经网络基础模型包括三层卷积层、三层池化层和三层全连接层。
卷积神经网络是人工神经网络的一种,属于前馈神经网络,人工神经元可以响应周围单元,主要用来识别位移、缩放及其他形式扭曲不变性的二维图形进行大型图像处理。卷积网络较一般神经网络在图像处理方面存在许多优点,如输入图像和网络的拓扑结构能很好的吻合;特征提取和模式分类同时进行,并同时在训练中产生;权重共享可以减少网络的训练参数,使神经网络结构变得更简单,适应性更强等诸多优点,因此被广泛应用。使用卷积神经网络和样本时空轨迹图集对流量识别模型进行大量训练,降低了网络模型的复杂度,减少了权值的数量,使图像可以直接作为网络的输入,避免了传统识别算法中复杂的特征提取和数据重建过程。
在本发明的一个实施例中,上述装置中,时空轨迹图生成单元210,用于将样本时空轨迹图集合中的各时空轨迹图进行乱序处理,不重复抽样样本时空轨迹图中第一比例的时空轨迹图作为训练集、第二比例的时空轨迹图作为验证集、第三比例的时空轨迹图作为测试集;第一比例、第二比例和第三比例的总和为100%。
将样本中的正常数据集和异常数据集进行混合并对次序进行打乱处理,得到不重复抽样样本时空轨迹图集。为了进一步提升流量识别模型的训练效果可以对不重复抽样样本时空轨迹图集的数据数量构成按照功能的不同划分为不同的比例,例如将不重复抽样样本时空轨迹图集中80%的数据作为训练集,10%的数据作为验证集、10%的数据作出测试集,三者总和为100%。这样,利用划分好一定比例构成的不重复抽样样本时空轨迹图集作为流量识别模型的训练数据,可以更灵活和有针对性的对流量识别模型进行训练,达到更好的训练效率和训练效果。
在本发明的一个实施例中,上述装置中,时空轨迹图生成单元210,还用于根据正常数据集生成接口词向量;根据接口词向量确定各接口的接口索引标识。
异常用户在流量请求时可能是针对于特定几个接口进行持续请求的,如反复针对页面图片、登陆界面等接口持续请求。为了更完整的获取到接口数据情况,在获取接口词向量时可以根据正常数据集进行获取,再根据获取的接口词向量确定各接口的接口索引标识。这样,可以完整的确定出时空轨迹坐标坐标系的纵轴的数据。
在本发明的一个实施例中,上述装置中,时空轨迹图的尺寸是预设的。
为了后续更好的对时空轨迹图通过模型进行识别,每一幅轨迹图的长度和宽度可以设置为相同规格。这样,可以提升流量识别模型的识别效果和识别效率。
综上所述,本申请的技术方案,根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果。有益效果在于,通过流量日志及接口访问时间等特征构建时空轨迹坐标系,生成时空轨迹图,最后根据时空轨迹图实现从图像层面获取到更显著的识别特征,提高了流量识别能力和识别结果的准确性,降低了识别失误率,改善了用户体验的同时兼具良好的识别效果。且流量识别模型不依赖业务数据,具有较高的识别效率、较强的泛化能力、较长的生命周期和通用性,识别效果较好。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的流量识别装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图5示出了根据本申请一个实施例的电子设备的结构示意图。该电子设备500包括处理器510和被安排成存储计算机可执行指令(计算机可读程序代码)的存储器520。存储器520可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器520具有存储用于执行上述方法中的任何方法步骤的计算机可读程序代码531的存储空间530。例如,用于存储计算机可读程序代码的存储空间530可以包括分别用于实现上面的方法中的各种步骤的各个计算机可读程序代码531。计算机可读程序代码531可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为例如图6所述的计算机可读存储介质。图6示出了根据本申请一个实施例的一种计算机可读存储介质的结构示意图。该计算机可读存储介质600存储有用于执行根据本申请的方法步骤的计算机可读程序代码531,可以被电子设备500的处理器510读取,当计算机可读程序代码531由电子设备500运行时,导致该电子设备500执行上面所描述的方法中的各个步骤,具体来说,该计算机可读存储介质存储的计算机可读程序代码531可以执行上述任一实施例中示出的方法。计算机可读程序代码531可以以适当形式进行压缩。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (9)

1.一种流量识别方法,其特征在于,该方法包括:
根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;
将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果;
该方法还包括:
从样本流量日志数据中提取出正常数据集和异常数据集;
为所述正常数据集和所述异常数据集中的各条流量日志数据,分别依据所述时空轨迹坐标系生成时空轨迹图,得到样本时空轨迹图集合;
根据所述样本时空轨迹图集合训练得到所述流量识别模型。
2.如权利要求1所述的方法,其特征在于,所述从样本流量日志数据中提取出正常数据集和异常数据集包括:
根据流量请求的内容,将包含预设的正常行为的流量日志数据作为正常数据,将包含预设的异常行为的流量日志数据作为异常数据。
3.如权利要求1所述的方法,其特征在于,所述根据所述样本时空轨迹图集合训练得到所述流量识别模型包括:
基于预设的卷积神经网络基础模型和所述样本时空轨迹图集合训练得到所述流量识别模型;其中,所述预设的卷积神经网络基础模型包括三层卷积层、三层池化层和三层全连接层。
4.如权利要求1所述的方法,其特征在于,所述根据所述样本时空轨迹图集合训练得到所述流量识别模型包括:
将所述样本时空轨迹图集合中的各时空轨迹图进行乱序处理,不重复抽样所述样本时空轨迹图中第一比例的时空轨迹图作为训练集、第二比例的时空轨迹图作为验证集、第三比例的时空轨迹图作为测试集;所述第一比例、第二比例和第三比例的总和为100%。
5.如权利要求1所述的方法,其特征在于,该方法还包括:
根据所述正常数据集生成接口词向量;
根据所述接口词向量确定各接口的接口索引标识。
6.如权利要求1-5中任一项所述的方法,其特征在于,所述时空轨迹图的尺寸是预设的。
7.一种异常流量识别装置,其特征在于,该装置包括:
时空轨迹图生成单元,用于根据待识别流量的流量日志数据和时空轨迹坐标系生成时空轨迹图;其中,所述时空轨迹坐标系的横坐标为接口访问时间,所述时空轨迹坐标系的纵坐标为接口索引标识;
识别单元,用于将所述时空轨迹图输入流量识别模型进行识别,得到输出的识别结果;
所述时空轨迹图生成单元,还用于从样本流量日志数据中提取出正常数据集和异常数据集;
为所述正常数据集和所述异常数据集中的各条流量日志数据,分别依据所述时空轨迹坐标系生成时空轨迹图,得到样本时空轨迹图集合;
根据所述样本时空轨迹图集合训练得到所述流量识别模型。
8.一种电子设备,其中,该电子设备包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行如权利要求1-6中任一项所述的方法。
9.一种计算机可读存储介质,其中,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被处理器执行时,实现如权利要求1-6中任一项所述的方法。
CN201911059598.0A 2019-11-01 2019-11-01 一种流量识别方法和装置 Active CN111314161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911059598.0A CN111314161B (zh) 2019-11-01 2019-11-01 一种流量识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911059598.0A CN111314161B (zh) 2019-11-01 2019-11-01 一种流量识别方法和装置

Publications (2)

Publication Number Publication Date
CN111314161A CN111314161A (zh) 2020-06-19
CN111314161B true CN111314161B (zh) 2022-01-28

Family

ID=71159637

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911059598.0A Active CN111314161B (zh) 2019-11-01 2019-11-01 一种流量识别方法和装置

Country Status (1)

Country Link
CN (1) CN111314161B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113992349B (zh) * 2021-09-23 2023-05-19 云南财经大学 恶意流量识别方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790019A (zh) * 2016-12-14 2017-05-31 北京天融信网络安全技术有限公司 基于特征自学习的加密流量识别方法及装置
CN107819745A (zh) * 2017-10-25 2018-03-20 北京京东尚科信息技术有限公司 异常流量的防御方法和装置
CN109995601A (zh) * 2017-12-29 2019-07-09 ***通信集团上海有限公司 一种网络流量识别方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018200757A1 (en) * 2017-04-25 2018-11-01 Nutanix, Inc. Systems and methods for networked microservice modeling

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106790019A (zh) * 2016-12-14 2017-05-31 北京天融信网络安全技术有限公司 基于特征自学习的加密流量识别方法及装置
CN107819745A (zh) * 2017-10-25 2018-03-20 北京京东尚科信息技术有限公司 异常流量的防御方法和装置
CN109995601A (zh) * 2017-12-29 2019-07-09 ***通信集团上海有限公司 一种网络流量识别方法及装置

Also Published As

Publication number Publication date
CN111314161A (zh) 2020-06-19

Similar Documents

Publication Publication Date Title
CN103530365B (zh) 获取资源的下载链接的方法及***
CN109492395B (zh) 一种检测恶意程序的方法、装置及存储介质
CN107360137A (zh) 用于验证码识别的神经网络模型的构建方法和装置
CN107844794A (zh) 图像识别方法和装置
CN110263680B (zh) 图像处理方法、装置和***及存储介质
CN103618696B (zh) 对cookie信息进行处理的方法和服务器
CN106650433A (zh) 一种异常行为检测方法及***
CN110365691B (zh) 基于深度学习的钓鱼网站判别方法及装置
CN104202291A (zh) 基于多因素综合评定方法的反钓鱼方法
CN111859234A (zh) 一种非法内容识别方法、装置、电子设备及存储介质
CN106651973A (zh) 图像结构化方法及装置
CN108235122A (zh) 视频广告的监测方法及装置
CN108875517A (zh) 视频处理方法、装置和***及存储介质
CN109784059B (zh) 一种木马文件溯源方法、***及设备
CN113268641B (zh) 基于大数据的用户数据处理方法及大数据服务器
CN107888606A (zh) 一种域名信誉度评估方法及***
CN111160797A (zh) 风控模型的构建方法、装置、存储介质及终端
CN111314161B (zh) 一种流量识别方法和装置
CN107992402A (zh) 日志管理方法及日志管理装置
CN103605670B (zh) 一种用于确定网络资源点的抓取频率的方法和装置
CN110427971A (zh) 用户及ip的识别方法、装置、服务器和存储介质
CN108171053B (zh) 一种规则发现的方法以及***
US11716350B2 (en) Systems and methods of detecting anomalous websites
CN106326419B (zh) 网络自动机处理方法及装置
CN106446687B (zh) 恶意样本的检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221018

Address after: 100102 Room 01, Floor 3, Room 01, Building 2 to 4, Yard 6, Wangjing East Road, Chaoyang District, Beijing

Patentee after: Beijing three cloud computing Co.,Ltd.

Patentee after: BEIJING SANKUAI ONLINE TECHNOLOGY Co.,Ltd.

Address before: 2106-030, No.9, Beisihuan West Road, Haidian District, Beijing 100190

Patentee before: BEIJING SANKUAI ONLINE TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right