CN114638633A - 异常流量检测的方法和装置、电子设备和存储介质 - Google Patents

异常流量检测的方法和装置、电子设备和存储介质 Download PDF

Info

Publication number
CN114638633A
CN114638633A CN202210187308.6A CN202210187308A CN114638633A CN 114638633 A CN114638633 A CN 114638633A CN 202210187308 A CN202210187308 A CN 202210187308A CN 114638633 A CN114638633 A CN 114638633A
Authority
CN
China
Prior art keywords
data
target
image
model
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210187308.6A
Other languages
English (en)
Inventor
姜娜
王硕
杨康
孙泽懿
徐凯波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN202210187308.6A priority Critical patent/CN114638633A/zh
Publication of CN114638633A publication Critical patent/CN114638633A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0207Discounts or incentives, e.g. coupons or rebates
    • G06Q30/0225Avoiding frauds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2441Traffic characterised by specific attributes, e.g. priority or QoS relying on flow classification, e.g. using integrated services [IntServ]

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种异常流量检测的方法和装置、电子设备和存储介质,其中,该方法包括:获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像;将目标图像进行预处理得到目标数据;将目标数据输入第一模型内,得到检测的分类结果;根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测。通过本申请,解决了相关技术中存在的过于依赖序列数据,会出现由于时序数据的位置关系导致提取特征存在局限性,致使异常流量检测结果不够准确的问题。

Description

异常流量检测的方法和装置、电子设备和存储介质
技术领域
本申请涉及数据检测领域,尤其涉及一种异常流量检测的方法和装置、电子设备和存储介质。
背景技术
目前,互联网广告流量持续增长,随之而来的是,不同类型、不同行业营销渠道的流量造假现象也日渐盛行,广告异常流量涨幅严重。巨大的利益促使广告流量作假产业链日趋成熟,广告欺诈技术层出不穷、迭代加快,传统基于规则的广告异常流量检测方法显然不能胜任于更为复杂的异常流量检测工作,及时且准确地鉴别流量的真实性已然成为广告营销行业的巨大挑战。同时,随着大数据技术与人工智能技术的快速发展,基于数据建模与机器学习技术的广告流量异常检测方法为复杂异常流量检测提供了可能,逐渐受到业内人士的关注,成为近年来研究的热点。
相关技术在检测异常流量时主要基于在数字广告领域总结出来的异常流量业务规则,比如明显异常的高速、连续或重复请求流量等规则来作为异常流量业务的判断,其在流程数据样本的采集方面过于依赖序列数据,会出现由于时序数据的位置问题导致提取特征的局限性,致使不能准确地检测广告流量的异常行为。
因此,相关技术中存在过于依赖序列数据,会出现由于时序数据的位置关系导致提取特征存在局限性,致使异常流量检测结果不够准确的问题。
发明内容
本申请提供了一种异常流量检测的方法和装置、电子设备和存储介质,以至少解决相关技术中存在过于依赖序列数据,会出现由于时序数据的位置关系导致提取特征存在局限性,致使异常流量检测结果不够准确的问题。
根据本申请实施例的一个方面,提供了一种异常流量检测的方法,该方法包括:
获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
将所述时序流量数据转换为图像数据,并对所述图像数据按照预设格式生成目标图像;
将所述目标图像进行预处理得到目标数据;
将所述目标数据输入所述第一模型内,得到检测的分类结果,其中,所述分类结果用于指示所述目标数据属于异常数据的概率或正常数据的概率;
根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型,利用所述目标模型对待检测的流量数据进行异常流量的检测,其中,所述标签信息用于指示所述目标图像属于异常数据的概率或正常数据的概率。
根据本申请实施例的另一个方面,还提供了一种异常流量检测的装置,该装置包括:
第一生成单元,用于获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
转换单元,用于将所述时序流量数据转换为图像数据,并对所述图像数据按照预设格式生成目标图像;
处理单元,用于将所述目标图像进行预处理得到目标数据;
得到单元,用于将所述目标数据输入所述第一模型内,得到检测的分类结果,其中,所述分类结果用于指示所述目标数据属于异常数据的概率或正常数据的概率;
优化单元,用于根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型,利用所述目标模型对待检测的流量数据进行异常流量的检测,其中,所述标签信息用于指示所述目标图像属于异常数据的概率或正常数据的概率。
可选地,所述时序流量数据包括多个时间点以及每个所述时间点对应的变量值,所述变量值的数量为多个,所述多个时间点组成所述预设时长,转换单元包括:
第一生成模块,用于根据所述时序流量数据,生成曲线变化图像,其中,所述曲线变化图像由多个时间点和多个变量值生成的;
第二生成模块,用于根据所述时序流量数据和所述预设时间段,生成热图图像,其中,所述热图图像用于表征所述变量值在所述预设时长内间隔所述预设时间段所对应的图像;
第三生成模块,用于将所述曲线变化图像和所述热图图像,生成满足所述预设格式的所述目标图像。
可选地,该装置还包括:
获取单元,用于在所述根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型之前,获取到所述目标图像对应的时间点的历史正常频率和历史异常频率;
第二生成单元,用于根据所述历史正常频率和所述历史异常频率,生成在所述预设时长范围内的所述目标图像的所述标签信息。
可选地,所述预处理用于将所述目标图像转换为第一模型可识别的数据,处理单元包括:
转换模块,用于对所述目标图像进行图像像素点数值的转换;
处理模块,用于对转换后的图像像素点数值进行归一化处理,得到所述目标数据。
可选地,优化单元包括:
评估模块,用于利用目标算法和评估指标评估调整模型参数之后的第一模型;
得到模块,用于在确定调整模型参数之后的第一模型的性能满足所述评估指标的情况下,得到所述目标模型。
可选地,第一生成模块包括:
第一生成子单元,用于将所述时序流量数据中的所述多个时间点作为横坐标,将所述时序流量数据中的所述多个变量值作为纵坐标,生成所述曲线变化图像。
可选地,第二生成模块包括:
第二生成子单元,用于将所述时序流量数据中的所述多个时间点作为横坐标,将所述预设时长包含的所述多个预设时间段为纵坐标,以所述变量值发生的统计量为单元,生成所述热图图像。
根据本申请实施例的又一个方面,还提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;其中,存储器,用于存储计算机程序;处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。
根据本申请实施例的又一个方面,还提供了一种计算机可读的存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。
本申请实施例可以应用于数据能力领域进行数据挖掘,本申请实施例中采集的数据样本以目标对象为观测对象,获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像;将目标图像进行预处理得到目标数据;将目标数据输入第一模型内,得到检测的分类结果,其中,分类结果用于指示目标数据属于异常数据的概率或正常数据的概率;根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测,其中,标签信息用于指示目标图像属于异常数据的概率或正常数据的概率。本申请实施例由于将流量时序数据转换为图像数据,后续采用确定的目标模型去自动提取局部特征,节省了人工选择与提取特征的时间与劳动力,避免了有用信息的丢失,一定程度克服了由于特征在时序上的位置问题所导致提取特征的局限性,提高了异常流量检测的准确性,进而解决了相关技术中存在的过于依赖序列数据,会出现由于时序数据的位置关系致使异常流量检测结果不够准确的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种可选的异常流量检测的方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的异常流量检测的方法的流程示意图;
图3是根据本申请实施例的一种基于卷积神经网络的广告异常流量检测方法架构图;
图4是根据本申请实施例的一种可选的异常流量检测的装置的结构框图;
图5是根据本申请实施例的一种可选的电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种异常流量检测的方法。可选地,在本实施例中,上述异常流量检测的方法可以应用于如图1所示的硬件环境中。如图1所示,终端102中可以包含有存储器104、处理器106和显示器108(可选部件)。终端102可以通过网络110与服务器112进行通信连接,该服务器112可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器112上或独立于服务器112设置数据库114,用于为服务器112提供数据存储服务。此外,服务器112中可以运行有处理引擎116,该处理引擎116可以用于执行由服务器112所执行的步骤。
可选地,终端102可以但不限于为可以计算数据的终端,如移动终端(例如手机、平板电脑)、笔记本电脑、PC(Personal Computer,个人计算机)机等终端上,上述网络可以包括但不限于无线网络或有线网络。其中,该无线网络包括:蓝牙、WIFI(Wireless Fidelity,无线保真)及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器112可以包括但不限于任何可以进行计算的硬件设备。
此外,在本实施例中,上述异常流量检测的方法还可以但不限于应用于处理能力较强大的独立的处理设备中,而无需进行数据交互。例如,该处理设备可以但不限于为处理能力较强大的终端设备,即,上述异常流量检测的方法中的各个操作可以集成在一个独立的处理设备中。上述仅是一种示例,本实施例中对此不作任何限定。
可选地,在本实施例中,上述异常流量检测的方法可以由服务器112来执行,也可以由终端102来执行,还可以是由服务器112和终端102共同执行。其中,终端102执行本申请实施例的异常流量检测的方法也可以是由安装在其上的客户端来执行。
以运行在服务器为例,图2是根据本申请实施例的一种可选的异常流量检测的方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S201,获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据。
可选地,在本申请实施例中,以某一用户或者IP地址为观测对象,即目标对象,以广告异常流量检测为应用场景。服务器首先获取到在一预设时长如24小时内目标对象访问广告所产生的流量,这时以预设时间段如10分钟为临界值,获取每10分钟内所对应产生的流量,并按照时序排列,生成时序流量数据。比如,以10分钟为采样时间,得到24小时内的多变量时间序列数据。
步骤S202,将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像。
可选地,本申请实施例首先构造图像数据集,将原二维数据转换为图像数据,然后将图像数据按照预设格式,比如画布大小均为3x4、分辨率为72dpi的格式生成目标图像进行保存。
步骤S203,将目标图像进行预处理得到目标数据。
可选地,由于目标图像不能被模型识别,这时需要对目标图像进行预处理,然后将预处理后得到的目标数据作为输入模型内的样本数据。这里的模型即为第一模型,其可以是卷积神经网络模型。
需要解释的是,卷积神经网络(Convolutional Neural Networks,CNN)是一种带有卷积结构的、能够处理类网格结构数据的神经网络模型,目前已成为最重要、最流行的深度学习网络之一。卷积神经网络主要包括:卷积层,激活层,池化层和全连接层。若干卷积层、激活层、池化层与全连接层相互叠加,组成了CNN模型。
CNN模型的局部连接、权值共享、降采样、平移不变等特性,能够实现卷积网络特定局部区域内的稀疏交互,缩减网络的参数量,在保持原始输入数据结构信息的前提下,提取重要的特征信息,从而提高模型的训练效率与准确性。
本申请实施例采用卷积神经网络自动提取广告异常流量的重要特征,以更加准确地检测广告流量的异常行为,从而高效预防广告欺诈。
步骤S204,将目标数据输入第一模型内,得到检测的分类结果,其中,分类结果用于指示目标数据属于异常数据的概率或正常数据的概率。
可选地,在得到目标数据后,将目标数据输入第一模型内,即可得到检测的分类结果,其中,分类结果通常是一组概率值,其表征了目标数据属于正常数据或异常数据的概率。
更具体地,本申请实施例的第一模型在是卷积神经网络的情况下,构建基于卷积神经网络的异常检测模型。该模型主要包括特征提取与分类器两部分:(a)特征提取部分主要由卷积层、最大池化层以及全局平均池化层组成,该部分主要通过卷积操作与池化操作,将多通道二维图像数据映射到高维空间,最终表示成一维向量型数据,其中输入数据通道数等于变量个数;(b)分类器部分主要包括全联接层与逻辑回归层,最终由分类器输出每条样本属于正常流量概率与异常流量概率,这样即可确定鉴别结果。
步骤S205,根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测,其中,标签信息用于指示目标图像属于异常数据的概率或正常数据的概率。
可选地,在收集时序流量数据时,其已经对这些流量进行了标注,比如该条样本出现异常曝光、异常点击、正常曝光、正常点击的次数,同时携带有相应的标签信息,该标签信息用于指示目标图像属于异常数据的概率或正常数据的概率,然后将上述第一模型输出的分类结果与标签信息进行比较,若与标签信息并不一致,则调整第一模型的模型参数,进而优化第一模型,得到目标模型。
以上就是模型的训练过程,其为了生成目标模型,使得后续利用目标模型对新输入的待检测的流量数据进行异常流量的检测,得到准确的检测结果。
本申请实施例中采集的数据样本以目标对象为观测对象,获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像;将目标图像进行预处理得到目标数据;将目标数据输入第一模型内,得到检测的分类结果,其中,分类结果用于指示目标数据属于异常数据的概率或正常数据的概率;根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测,其中,标签信息用于指示目标图像属于异常数据的概率或正常数据的概率。本申请实施例由于将流量时序数据转换为图像数据,后续采用确定的目标模型去自动提取局部特征,节省了人工选择与提取特征的时间与劳动力,避免了有用信息的丢失,一定程度克服了由于特征在时序上的位置问题所导致提取特征的局限性,提高了异常流量检测的准确性,进而解决了相关技术中存在的过于依赖序列数据,会出现由于时序数据的位置关系致使异常流量检测结果不够准确的问题。
作为一种可选实施例,时序流量数据包括多个时间点以及每个时间点对应的变量值,变量值的数量为多个,多个时间点组成预设时长,将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像包括:
根据时序流量数据,生成曲线变化图像,其中,曲线变化图像由多个时间点和多个变量值生成的;
根据时序流量数据和预设时间段,生成热图图像,其中,热图图像用于表征变量值在预设时长内间隔预设时间段所对应的图像;
将曲线变化图像和热图图像,生成满足预设格式的目标图像。
可选地,该时序流量数据可以包括多个时间点,比如24个时间点,这些时间点与预设时长的关系是,这些时长组成了预设时长,如24个时间点组成的预设时长就是24小时,然后这些时间点分别对应了不同的变量值。
这时,在将原二维的时序流量数据转换为图像数据时,需要将时序流量数据中的多个时间点作为横坐标,将时序流量数据中的多个变量值作为纵坐标,生成变量曲线变化图像。
可以参见图3中的图像数据集与标签集构建,以及图像转化中的位于左侧的曲线图。由图3可以得出,本申请实施例的曲线变化图像的个数为多个。
以时序流量数据中的多个时间点作为横坐标,将预设时长包含的多个预设时间段为纵坐标,如以小时为横坐标(1-24共24个点)、一个小时内的时间点为纵坐标(10-60共6个点)、各变量发生的统计量为单元值,画出各变量一天(即预设时长24小时)单位采样间隔内的热图图像,其中,热图图像用于表征变量值在预设时长内间隔预设时间段所对应的图像。
可以参见图3中的图像数据集与标签集构建,以及图像转化中的位于右侧的热图图像。由图3可以得出,本申请实施例的热图图像的个数为多个。其中,图3中的图像数据集就是上述实施例的得到的流量数据(也可以理解为历史流量数据),标签集将在后续实施例中展开说明。
然后将上述得到的曲线变化图像和热图图像均以画布大小均为3x4、分辨率为72dpi的预设格式进行保存,以得到目标图像。可以理解的是,如果曲线变化图像和热图图像的个数均为多个的情况下,那对应生成的目标图像也将是多个,其目标图像作为在选取样本中的训练样本集,其中可以选取80%作为训练集,20%作为测试集。
在本申请实施例中,通过将广告流量时序数据转换为图像数据,这样在后续采用卷积神经网络自动提取局部特征,节省了人工选择与提取特征的时间与劳动力,避免了有用信息的丢失,一定程度克服了由于位置问题所导致提取特征的局限性。
作为一种可选实施例,在根据分类结果和目标图像的标签信息优化第一模型获得目标模型之前,方法还包括:
获取到目标图像对应的时间点的历史正常频率和历史异常频率;
根据历史正常频率和历史异常频率,生成在预设时长范围内的目标图像的标签信息。
可选地,本申请实施例采用概率值的形式对目标图像样本进行标记(历史正常流量概率Pn与历史异常流量概率Pv):(a)基于式(1)与式(2)计算单位间隔(即10分钟)内的可疑值:
Figure BDA0003524104580000121
Figure BDA0003524104580000122
其中,P(n_u)与P(v_u)分别为第u个时间点的时间序列正常的频率与异常的频率,fimp_n、fclick_n、fimp_v、fclick_v分别为对应间隔内目标对象正常曝光、正常点击、异常曝光、异常点击的次数。需要说明的是,目标对象正常曝光、正常点击、异常曝光、异常点击的次数都是已知的。
(b)基于式(3)与式(4)综合24小时内的可疑值:
Figure BDA0003524104580000131
Figure BDA0003524104580000132
其中,144=24*6(一个小时6个点,一共24小时,所以就是144个时间点)。
基于上述Pn和Pv的概率值,确定出目标图像属于异常数据还是正常数据,进而得到对应的标签信息。其中,满足Pn+Pv=1(5)。
以上述的方法可以生成每个目标图像的标签信息,生成一标签集。
作为一种可选实施例,预处理用于将目标图像转换为第一模型可识别的数据,将目标图像进行预处理得到目标数据包括:
对目标图像进行图像像素点数值的转换;
对转换后的图像像素点数值进行归一化处理,得到目标数据。
可选地,本申请实施例需要将目标图像转换为第一模型可识别的数据,因此需要对目标图像进行数据转换的预处理。该预处理部分主要包括图像像素点转换与归一化处理两部分:(a)图像像素点转化是采用相应图像读取函数,将图像数据转换为可以用模型训练的像素点数值;(b)数据归一化采用最大最小归一化方法,将图像像素点数值统一归一化到[0,1]的范围内,然后得到目标数据。
其中,最大最小归一化:假设x与x'为原始数据与归一化的数据,xmin与xmax分别为原始数据集的最小值与最大值,则采用公式(6)可以将数据转换到[0,1]范围内:
Figure BDA0003524104580000133
在本申请实施例中,在进行训练前,对数据集进行数据预处理,统一成标准化的目标数据,有利于对目标数据的统一处理,节省时间。
作为一种可选实施例,根据分类结果和目标图像的标签信息优化第一模型获得目标模型还包括:
利用目标算法和评估指标评估调整模型参数之后的第一模型;
在确定调整模型参数之后的第一模型的性能满足评估指标的情况下,得到目标模型。
可选地,本申请实施例在对第一模型进行训练的过程中,主要分为超参数的选取与参数的训练,超参数采用网格搜索的方法进行选取,其中,超参数定义了第一模型的层数、卷积核数等;模型参数的训练采用Adam优化算法进行训练,其中,模型参数表示的是网络权重等。
模型在训练集上的性能采用目标算法例如K折交叉算法的方法进行评估,以F1分数为评估指标,根据评估指标的大小评价每次训练所得模型参数的优劣,并保存表现性能最好的模型用于后续测试集的验证与新广告流量数据的检测。
其中,在评估到调整模型参数之后的第一模型的性能满足评估指标的情况下,就直接将该模型作为目标模型即可。
需要解释一下,K折交叉验证是指:在机器学***均值作为模型最终的性能评估结果。
F1分数(F1 Score),是统计学中用来衡量二分类模型精确度的一种指标,公式如下:
Figure BDA0003524104580000151
Figure BDA0003524104580000152
Figure BDA0003524104580000153
其中,P表示查准率,R表示召回率,TP表示如果一个实例是正类,且被预测为正类;FP表示如果一个实例是负类,被预测为正类,为假正类;FN表示为TP被预测为负类,称为假负类。该部分是现有技术,不再过多赘述。
在本申请实施例中,以F1分数与AUC为评估指标,在测试集上对上述模型进行评估,同样取得了突出的性能。
后续,出现新广告流量数据的异常检测时,该部分的流程参照上述各个实施例以及图3,其主要为:(a)新流量数据图像转化;(b)数据预处理;(c)基于异常检测模型(即目标模型)对新采集的流量进行异常检测。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例的方法。
根据本申请实施例的另一个方面,还提供了一种用于实施上述异常流量检测的方法的异常流量检测的装置。图4是根据本申请实施例的一种可选的异常流量检测的装置的结构框图,如图4所示,该装置可以包括:
第一生成单元401,用于获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
转换单元402,与第一生成单元401相连,用于将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像;
处理单元403,与转换单元402相连,用于将目标图像进行预处理得到目标数据;
得到单元404,与处理单元403相连,用于将目标数据输入第一模型内,得到检测的分类结果,其中,分类结果用于指示目标数据属于异常数据的概率或正常数据的概率;
优化单元405,与得到单元404相连,用于根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测,其中,标签信息用于指示目标图像属于异常数据的概率或正常数据的概率。
需要说明的是,该实施例中的第一生成单元401可以用于执行上述步骤S201,该实施例中的转换单元402可以用于执行上述步骤S202,该实施例中的处理单元403可以用于执行上述步骤S203,该实施例中的得到单元404可以用于执行上述步骤S204,该实施例中的优化单元405可以用于执行上述步骤S205。
通过上述模块,本申请实施例由于将流量时序数据转换为图像数据,后续采用确定的目标模型去自动提取局部特征,节省了人工选择与提取特征的时间与劳动力,避免了有用信息的丢失,一定程度克服了由于特征在时序上的位置问题所导致提取特征的局限性,提高了异常流量检测的准确性,进而解决了相关技术中存在的过于依赖序列数据,会出现由于时序数据的位置关系致使异常流量检测结果不够准确的问题。
作为一种可选的实施例,时序流量数据包括多个时间点以及每个时间点对应的变量值,变量值的数量为多个,多个时间点组成预设时长,转换单元包括:
第一生成模块,用于根据时序流量数据,生成曲线变化图像,其中,曲线变化图像由多个时间点和多个变量值生成的;
第二生成模块,用于根据时序流量数据和预设时间段,生成热图图像,其中,热图图像用于表征变量值在预设时长内间隔预设时间段所对应的图像;
第三生成模块,用于将曲线变化图像和热图图像,生成满足预设格式的目标图像。
作为一种可选的实施例,该装置还包括:
获取单元,用于在根据分类结果和目标图像的标签信息优化第一模型获得目标模型之前,获取到目标图像对应的时间点的历史正常频率和历史异常频率;
第二生成单元,用于根据历史正常频率和历史异常频率,生成在预设时长范围内的目标图像的标签信息。
作为一种可选的实施例,预处理用于将目标图像转换为第一模型可识别的数据,处理单元包括:
转换模块,用于对目标图像进行图像像素点数值的转换;
处理模块,用于对转换后的图像像素点数值进行归一化处理,得到目标数据。
作为一种可选的实施例,优化单元包括:
评估模块,用于利用目标算法和评估指标评估调整模型参数之后的第一模型;
得到模块,用于在确定调整模型参数之后的第一模型的性能满足评估指标的情况下,得到目标模型。
作为一种可选的实施例,第一生成模块包括:
第一生成子单元,用于将时序流量数据中的多个时间点作为横坐标,将时序流量数据中的多个变量值作为纵坐标,生成曲线变化图像。
作为一种可选的实施例,第二生成模块包括:
第二生成子单元,用于将时序流量数据中的多个时间点作为横坐标,将预设时长包含的多个预设时间段为纵坐标,以变量值发生的统计量为单元,生成热图图像。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种用于实施上述异常流量检测的方法的电子设备,该电子设备可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子设备的结构框图,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501、通信接口502和存储器503通过通信总线504完成相互间的通信,其中,
存储器503,用于存储计算机程序;
处理器501,用于执行存储器503上所存放的计算机程序时,实现如下步骤:
获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像;
将目标图像进行预处理得到目标数据;
将目标数据输入第一模型内,得到检测的分类结果,其中,分类结果用于指示目标数据属于异常数据的概率或正常数据的概率;
根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测,其中,标签信息用于指示目标图像属于异常数据的概率或正常数据的概率。
可选地,在本实施例中,上述的通信总线可以是PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线、或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,如图5所示,上述存储器503中可以但不限于包括上述异常流量检测的装置中的第一生成单元401、转换单元402、处理单元403、得到单元404以及优化单元405。此外,还可以包括但不限于上述异常流量检测的装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
此外,上述电子设备还包括:显示器,用于显示异常流量检测的结果。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述异常流量检测的方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子设备的结构造成限定。例如,终端设备还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行异常流量检测的方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
将时序流量数据转换为图像数据,并对图像数据按照预设格式生成目标图像;
将目标图像进行预处理得到目标数据;
将目标数据输入第一模型内,得到检测的分类结果,其中,分类结果用于指示目标数据属于异常数据的概率或正常数据的概率;
根据分类结果和目标图像的标签信息优化第一模型获得目标模型,利用目标模型对待检测的流量数据进行异常流量的检测,其中,标签信息用于指示目标图像属于异常数据的概率或正常数据的概率。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述任一个实施例中的异常流量检测的方法步骤。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例异常流量检测的方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种异常流量检测的方法,其特征在于,所述方法包括:
获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
将所述时序流量数据转换为图像数据,并对所述图像数据按照预设格式生成目标图像;
将所述目标图像进行预处理得到目标数据;
将所述目标数据输入第一模型内,得到检测的分类结果,其中,所述分类结果用于指示所述目标数据属于异常数据的概率或正常数据的概率;
根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型,利用所述目标模型对待检测的流量数据进行异常流量的检测,其中,所述标签信息用于指示所述目标图像属于异常数据的概率或正常数据的概率。
2.根据权利要求1所述的方法,其特征在于,所述时序流量数据包括多个时间点以及每个所述时间点对应的变量值,所述变量值的数量为多个,所述多个时间点组成所述预设时长,所述将所述时序流量数据转换为图像数据,并对所述图像数据按照预设格式生成目标图像包括:
根据所述时序流量数据,生成曲线变化图像,其中,所述曲线变化图像由多个时间点和多个变量值生成的;
根据所述时序流量数据和所述预设时间段,生成热图图像,其中,所述热图图像用于表征所述变量值在所述预设时长内间隔所述预设时间段所对应的图像;
将所述曲线变化图像和所述热图图像,生成满足所述预设格式的所述目标图像。
3.根据权利要求1或2所述的方法,其特征在于,在所述根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型之前,所述方法还包括:
获取到所述目标图像对应的时间点的历史正常频率和历史异常频率;
根据所述历史正常频率和所述历史异常频率,生成在所述预设时长范围内的所述目标图像的所述标签信息。
4.根据权利要求1或2所述的方法,其特征在于,所述预处理用于将所述目标图像转换为第一模型可识别的数据,所述将所述目标图像进行预处理得到目标数据包括:
对所述目标图像进行图像像素点数值的转换;
对转换后的图像像素点数值进行归一化处理,得到所述目标数据。
5.根据权利要求1所述的方法,其特征在于,所述根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型还包括:
利用目标算法和评估指标评估调整模型参数之后的第一模型;
在确定调整模型参数之后的第一模型的性能满足所述评估指标的情况下,得到所述目标模型。
6.根据权利要求2所述的方法,其特征在于,所述根据所述时序流量数据,生成曲线变化图像包括:
将所述时序流量数据中的所述多个时间点作为横坐标,将所述时序流量数据中的所述多个变量值作为纵坐标,生成所述曲线变化图像。
7.根据权利要求2或6所述的方法,其特征在于,所述根据所述时序流量数据和所述预设时间段,生成热图图像包括:
将所述时序流量数据中的所述多个时间点作为横坐标,将所述预设时长包含的多个预设时间段为纵坐标,以所述变量值发生的统计量为单元,生成所述热图图像。
8.一种异常流量检测的装置,其特征在于,所述装置包括:
第一生成单元,用于获取目标对象在预设时长的每预设时间段内所对应产生的流量,生成时序流量数据;
转换单元,用于将所述时序流量数据转换为图像数据,并对所述图像数据按照预设格式生成目标图像;
处理单元,用于将所述目标图像进行预处理得到目标数据;
得到单元,用于将所述目标数据输入第一模型内,得到检测的分类结果,其中,所述分类结果用于指示所述目标数据属于异常数据的概率或正常数据的概率;
优化单元,用于根据所述分类结果和所述目标图像的标签信息优化所述第一模型获得目标模型,利用所述目标模型对待检测的流量数据进行异常流量的检测,其中,所述标签信息用于指示所述目标图像属于异常数据的概率或正常数据的概率。
9.一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信,其特征在于,
所述存储器,用于存储计算机程序;
所述处理器,用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至7中任一项所述的方法步骤。
10.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至7中任一项中所述的方法步骤。
CN202210187308.6A 2022-02-28 2022-02-28 异常流量检测的方法和装置、电子设备和存储介质 Pending CN114638633A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210187308.6A CN114638633A (zh) 2022-02-28 2022-02-28 异常流量检测的方法和装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210187308.6A CN114638633A (zh) 2022-02-28 2022-02-28 异常流量检测的方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN114638633A true CN114638633A (zh) 2022-06-17

Family

ID=81948755

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210187308.6A Pending CN114638633A (zh) 2022-02-28 2022-02-28 异常流量检测的方法和装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN114638633A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314240A (zh) * 2022-06-22 2022-11-08 国家计算机网络与信息安全管理中心 面向加密异常流量识别的数据处理方法
CN115964620A (zh) * 2023-03-15 2023-04-14 阿里巴巴(中国)有限公司 数据处理方法、存储介质和电子设备
CN116405278A (zh) * 2023-03-30 2023-07-07 华能信息技术有限公司 一种恶意攻击加密流量检测方法
CN116832385A (zh) * 2023-08-04 2023-10-03 贝滨(广东)科技有限公司 一种基于物联网的消防栓用水监控***

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115314240A (zh) * 2022-06-22 2022-11-08 国家计算机网络与信息安全管理中心 面向加密异常流量识别的数据处理方法
CN115964620A (zh) * 2023-03-15 2023-04-14 阿里巴巴(中国)有限公司 数据处理方法、存储介质和电子设备
CN115964620B (zh) * 2023-03-15 2023-12-12 阿里巴巴(中国)有限公司 数据处理方法、存储介质和电子设备
CN116405278A (zh) * 2023-03-30 2023-07-07 华能信息技术有限公司 一种恶意攻击加密流量检测方法
CN116832385A (zh) * 2023-08-04 2023-10-03 贝滨(广东)科技有限公司 一种基于物联网的消防栓用水监控***

Similar Documents

Publication Publication Date Title
CN111614690B (zh) 一种异常行为检测方法及装置
CN114638633A (zh) 异常流量检测的方法和装置、电子设备和存储介质
CN112365171B (zh) 基于知识图谱的风险预测方法、装置、设备及存储介质
CN110929785B (zh) 数据分类方法、装置、终端设备及可读存储介质
CN110336838B (zh) 账号异常检测方法、装置、终端及存储介质
CN110781379A (zh) 信息推荐方法、装置、计算机设备和存储介质
CN112785441B (zh) 数据处理方法、装置、终端设备及存储介质
CN111914159B (zh) 一种信息推荐方法及终端
CN112995414B (zh) 基于语音通话的行为质检方法、装置、设备及存储介质
CN112819073A (zh) 分类网络训练、图像分类方法、装置和电子设备
CN114399321A (zh) 一种业务***稳定性分析方法、装置和设备
CN117036843A (zh) 目标检测模型训练方法、目标检测方法和装置
CN117113159A (zh) 基于深度学习的电力用户侧负荷分类方法及***
CN111325255B (zh) 特定人群圈定方法、装置、电子设备及存储介质
CN117391257A (zh) 一种道路拥堵情况的预测方法及装置
CN113010705A (zh) 标签预测方法、装置、设备及存储介质
CN112115984A (zh) 基于深度学习的茶园异常数据校正方法、***和存储介质
CN116451081A (zh) 数据漂移的检测方法、装置、终端及存储介质
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
CN112463964B (zh) 文本分类及模型训练方法、装置、设备及存储介质
CN115314239A (zh) 基于多模型融合的隐匿恶意行为的分析方法和相关设备
CN116861226A (zh) 一种数据处理的方法以及相关装置
CN113744081B (zh) 窃电行为分析方法
CN111581640A (zh) 一种恶意软件检测方法、装置及设备、存储介质
CN116993307B (zh) 一种具有人工智能学习能力的协同办公方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination