CN111737371A - 可动态预测的数据流量检测分类方法及装置 - Google Patents

可动态预测的数据流量检测分类方法及装置 Download PDF

Info

Publication number
CN111737371A
CN111737371A CN202010855720.1A CN202010855720A CN111737371A CN 111737371 A CN111737371 A CN 111737371A CN 202010855720 A CN202010855720 A CN 202010855720A CN 111737371 A CN111737371 A CN 111737371A
Authority
CN
China
Prior art keywords
training sample
training
data
metadata
data traffic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010855720.1A
Other languages
English (en)
Other versions
CN111737371B (zh
Inventor
杨贻宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feiqi Network Technology Co ltd
Original Assignee
Shanghai Feiqi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feiqi Network Technology Co ltd filed Critical Shanghai Feiqi Network Technology Co ltd
Priority to CN202010855720.1A priority Critical patent/CN111737371B/zh
Publication of CN111737371A publication Critical patent/CN111737371A/zh
Application granted granted Critical
Publication of CN111737371B publication Critical patent/CN111737371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种可动态预测的数据流量检测分类方法及装置,通过对多源异构大数据进行分析获得训练样本。然后,对训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量。通过流会话特征矢量和回归模型预测矢量混合深度学习,从而考虑到多源异构数据的数据特点,能够针对多源异构数据流进行智能识别与精细化分类,为大数据服务与应用聚合提供能力支撑,实现大数据价值的深度挖掘。

Description

可动态预测的数据流量检测分类方法及装置
技术领域
本申请涉及数据流量检测分类技术领域,具体而言,涉及一种可动态预测的数据流量检测分类方法及装置。
背景技术
当前,面向多源异构海量数据的实时分析应用场景已经越来越普遍,如何对未知的多源数据流进行智能识别与精细化分类,从而对后续的业务运营提供实时大数据的分析处理,是本领域的一大难题。在传统方案中,通常仅能针对单一来源的数据流进行智能识别与精细化分类,难以针对多源数据流进行智能识别与精细化分类,从而限制了业务运行的场景。
发明内容
有鉴于此,本申请的目的在于提供一种可动态预测的数据流量检测分类方法及装置,能够针对多源数据流进行智能识别与精细化分类,为大数据服务与应用聚合提供能力支撑,实现大数据价值的深度挖掘。
根据本申请的第一方面,提供一种可动态预测的数据流量检测分类方法,应用于服务器,所述方法包括:
获取用于数据流量检测分类的多源异构大数据,并对所述多源异构大数据进行分析,获得训练样本;
对所述训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量;
将所述每个训练样本的流会话特征矢量、回归模型预测矢量和标签输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型;
根据所述目标数据流量检测分类模型对待分类多源异构数据流量进行检测分类。
在第一方面的一种可能的实现方式中,获取用于数据流量检测分类的多源异构大数据,并对所述多源异构大数据进行分析,获得训练样本的步骤,包括:
获取用于数据流量检测分类的多源异构大数据;
对所述多源异构大数据的有向带权图进行建模,通过所述有向带权图的顶点表示实体属性,通过所述有向带权图的边表示实体属性之间的关系,所述实体属性用于表示所述多源异构大数据中每个数据节点的元数据对象,所述实体属性之间的关系用于表示元数据关系,每个所述元数据对象作为关系型数据库中的一个数据字段;
将所述有向带权图生成的元数据对象作为元数据对象词典,将所述有向带权图中每个元数据对象的前驱关系和后继关系未关联于所述元数据对象词典中的候选元数据关系进行剔除,获得合法元数据关系;
将所述有向带权图生成的每个元数据对象和每个元数据对象对应的合法元数据关系作为所述训练样本。
在第一方面的一种可能的实现方式中,将所述有向带权图中每个元数据对象的未关联于所述元数据对象词典中的候选元数据关系的前驱关系和后继关系进行剔除,获得合法元数据关系的步骤,包括:
判断所述有向带权图中每个元数据对象的前驱关系和后继关系是否所述元数据对象词典中的至少一个候选元数据关系匹配;
当任意一个元数据对象的前驱关系和后继关系不与所述元数据对象词典中的至少一个候选元数据关系匹配时,剔除该元数据对象的前驱关系和后继关系,获得合法元数据关系。
在第一方面的一种可能的实现方式中,计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量的步骤,包括:
计算分流后的每个训练样本的状态转移表列,对所述每个训练样本的状态转移表列进行空间压缩,将所述状态转移表列划分成多个互不相交的子集,针对每一个子集使用不同的字母表重编码进行编码操作,得到每一个子集的编码特征信息;
通过所述标签类型对应的状态转移边对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量;
对分流后的每个训练样本的流会话特征矢量进行回归模型分析,得到分流后的每个训练样本的回归模型预测矢量。
在第一方面的一种可能的实现方式中,通过所述标签类型对应的状态转移边对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量的步骤,包括:
通过所述标签类型对应的状态转移边识别所述每一个子集的编码特征信息中的状态转移矩阵;
获取存在相同状态转移参数的目标状态转移矩阵,并将所述目标状态转移矩阵所对应的编码特征信息确定为相似的编码特征信息;
对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量。
在第一方面的一种可能的实现方式中,将所述每个训练样本的流会话特征矢量、回归模型预测矢量和标签输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型的步骤,包括:
针对所述每个训练样本的流会话特征矢量和回归模型预测矢量分别建立对应的第一初始化权重和第二初始化权重;
将所述第一初始化权重和第二初始化权重输入到数据流量检测分类模型中,训练弱回归算子,并根据所述标签类型,利用所述弱回归算子评估所述每个训练样本所属的标签的训练误差;
按照所述训练误差选择对应的误差系数对所述弱回归算子进行调整,并重新更新所述每个训练样本中的权重分布;
判断重新更新的所述每个训练样本中的权重分布是否满足训练结束条件,当未满足所述训练结束条件时,迭代上述训练过程,直到满足训练结束条件时,得到所述弱回归算子对于每个训练样本的输出结果,所述输出结果包括均方误差值、逆信噪比值和最大误差值;
根据所述均方误差值、逆信噪比值和最大误差值更新所述数据流量检测分类模型的网络参数,得到训练后的目标数据流量检测分类模型。
根据本申请的另一方面,还提供一种可动态预测的数据流量检测分类装置,应用于服务器,所述装置包括:
获取模块,用于获取用于数据流量检测分类的多源异构大数据,并对所述多源异构大数据进行分析,获得训练样本;
分流计算模块,用于对所述训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量;
训练模块,用于将所述每个训练样本的流会话特征矢量、回归模型预测矢量和标签类型输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型;
分类模块,用于根据所述目标数据流量检测分类模型对待分类多源异构数据流量进行检测分类。
基于上述任一方面,本申请通过对多源异构大数据进行分析获得训练样本,然后对训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量。通过考虑到流会话特征矢量和回归模型预测矢量进行深度学习,从而考虑到多源异构数据的数据特点,能够针对多源数据流进行智能识别与精细化分类,为大数据服务与应用聚合提供能力支撑,实现大数据价值的深度挖掘。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的数据流量检测分类***的应用场景示意图;
图2示出了本申请实施例所提供的可动态预测的数据流量检测分类方法的流程示意图;
图3示出了本申请实施例所提供的有向带权图的示意图;
图4示出了本申请实施例所提供的可动态预测的数据流量检测分类装置的功能模块示意图;
图5示出了本申请实施例所提供的用于执行上述的可动态预测的数据流量检测分类方法的服务器的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。
图1示出了本申请实施例所提供的数据流量检测分类***10的应用场景示意图。本实施例中,数据流量检测分类***10可以包括服务器100以及与服务器100通信连接的用户终端200。
用户终端200可以包括但不限于移动设备、平板计算机、膝上型计算机,或其任意两种以上组合。
在其它可行的实施例中,该数据流量检测分类***10也可以仅包括图1所示组成部分的其中一部分或者还可以包括其它的组成部分。
例如,服务器100可以是单个服务器,也可以是一个服务器组。服务器组可以是集中式的,也可以是分布式的(例如,服务器100可以是分布式***)。
图2示出了本申请实施例提供的可动态预测的数据流量检测分类方法的流程示意图,本实施例中,该可动态预测的数据流量检测分类方法可以由图1中所示的服务器100执行。应当理解,在其它实施例中,本实施例的可动态预测的数据流量检测分类方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该可动态预测的数据流量检测分类方法的详细步骤介绍如下。
步骤S110,获取用于数据流量检测分类的多源异构大数据,并对多源异构大数据进行分析,获得训练样本。
步骤S120,对训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量。
步骤S130,将每个训练样本的流会话特征矢量、回归模型预测矢量和标签类型输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型。
步骤S140,根据目标数据流量检测分类模型对待分类多源异构数据流量进行检测分类。
本实施例中,由于不同业务***建设和实施数据管理***的阶段性、技术性以及其它人为等因素影响,可能积累了大量采用不同存储方式的业务数据,包括采用的数据管理方式、数据读取方式等也大不相同,这些不同存储方式、不同数据管理方式、不同数据读取方式等构成了异构数据源。本实施例中,首先可以从这些异构数据源中获取用于数据流量检测分类的多源异构大数据。
发明人经过长期研究发现,对于这些多源异构大数据而言,其关键的特征部分在于流会话特征矢量以及回归模型预测矢量,因此本实施例通过对多源异构大数据进行分析获得训练样本,然后对训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量。通过考虑到流会话特征矢量和回归模型预测矢量混合深度学习,从而考虑到多源异构数据的数据特点,能够针对多源数据流进行智能识别与精细化分类,为大数据服务与应用聚合提供能力支撑,实现大数据价值的深度挖掘。
在一种可能的实现方式中,针对步骤S110,在大规模的分布式***中,数据往往分布在多个数据源中,这些数据源采用的数据存储方式并不相同,每个数据源由不同的组件和服务对数据源中的数据进行读取、使用、更新、维护和分析等。也就是说,在大规模***中的同一个实体相关的数据是相对分布、异构的。当进行元数据管理时,对于某一个实体来说,需要从多个数据源中收集该实体相关的元数据,克服异构数据源带来的复杂性。在后续针对多源异构数据提取特征进行训练之前,对于存在关系的多个实体来说,需要收集与这些实体所有相关的元数据并成功地捕获实体之间的关联关系。
由于数据存在多源、异构特点,数据质量管理等任务难以掌握数据完整的信息,利用数据之间的关联关系,解决数据之间的冲突,保证数据的正确性和一致性。发明人在研究过程中发现,按照传统的思路而言可以建立全局唯一的数据源,该数据源从原始***中收集所有数据源的数据,将这些数据转换为标准形式,存储在该数据源中。从该数据源中发现元数据,同时数据验证和数据清洗等任务均可以从该数据源获取数据。但是,实际的大规模***中,数据规模大(例如通常是PB级甚至EB级)、数据更新速度快(通常每天增长TB级数据),单独的数据源难以存储这个数据级的数据并同时提供访问能力,无法处理如此快速的数据增长,且难以找到一个包含所有异构形式的表现式来描述原始数据。因此,以下将对步骤S110进行示例性描述,从而对多源异构大数据进行元数据的发现以获得训练样本。详细地,步骤S110可以通过以下示例性子步骤S111-S114具体实现,详细描述如下。
子步骤S111,获取用于数据流量检测分类的多源异构大数据。
子步骤S112,对多源异构大数据的有向带权图进行建模,通过有向带权图的顶点表示实体属性,通过有向带权图的边表示实体属性之间的关系。
子步骤S113,将有向带权图生成的元数据对象作为元数据对象词典,将有向带权图中每个元数据对象的前驱关系和后继关系未关联于元数据对象词典中的候选元数据关系进行剔除,获得合法元数据关系。
子步骤S114,将有向带权图生成的每个元数据对象和每个元数据对象对应的合法元数据关系作为训练样本。
本实施例中,实体属性用于表示多源异构大数据中每个数据节点的元数据对象,实体属性之间的关系用于表示元数据关系,每个元数据对象作为数据库中的一个数据字段。其中,参见图3所示,P1-P11可以理解为一个实体属性,P1与P5、P2与P5、P5与P7、P7与P9、P3与P6等之间的边可以理解为P1与P5、P2与P5、P5与P7、P7与P9、P3与P6等之间的关系。其中,箭头的方向可以表示关系的方向。元数据对象之间的关系可以是多对多的,即同一个元数据对象经过某些处理可以得到多个元数据对象,同一个元数据对象也可能由多个元数据对象经过公共处理得到。元数据关系是单向的,即某个元数据对象无法经过有限次处理后得到原始的元数据对象。
在子步骤S112中,本实施例可以判断有向带权图中每个元数据对象的前驱关系和后继关系是否与元数据对象词典中的至少一个候选元数据关系匹配。当任意一个元数据对象的前驱关系和后继关系不与元数据对象词典中的至少一个候选元数据关系匹配时,剔除该元数据对象的前驱关系和后继关系,获得合法元数据关系。例如,元数据对象A的数据属性1经过某种处理得到数据属性2,则数据属性1和数据属性2间存在元数据关系R,数据属性1称为元数据对象A的前驱关系,数据属性2称为元数据对象A的后继关系。
这样,可以将有向带权图生成的每个元数据对象和每个元数据对象对应的合法元数据关系作为训练样本,从而对多源异构大数据进行元数据的发掘以获得训练样本。
在一种可能的实现方式中,为了实现高效的样本训练流量,从而快速对海量的训练样本数据进行深度识别,针对步骤S120,可以通过以下示例性子步骤S121-子步骤S123具体实现,详细描述如下。
子步骤S121,计算分流后的每个训练样本的状态转移表列,对每个训练样本的状态转移表列进行空间压缩,将状态转移表列划分成多个互不相交的子集,针对每一个子集使用不同的字母表重编码进行编码操作,得到每一个子集的编码特征信息。
本实施例中,状态转移表列可以看作一个二维的矩阵,矩阵的行表示每个训练样本的状态,矩阵的列表示输入的字母表重编码,也即状态转移表列可以表示每个训练样本的状态与输入的字母表重编码之间的对应映射关系。示例性地,每个训练样本的状态可以是指但不限于该训练样本的会话状态,例如在每次发起流会话时的会话状态(如视频会话状态、语音会话状态、文本会话状态等,但不限制于此)。
子步骤S122,通过标签类型对应的状态转移边对每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量。
子步骤S123,对分流后的每个训练样本的流会话特征矢量进行回归模型分析,得到分流后的每个训练样本的回归模型预测矢量。
示例性地,在子步骤S122中,可以通过标签类型对应的状态转移边识别每一个子集的编码特征信息中的状态转移矩阵,然后获取存在相同状态转移参数的目标状态转移矩阵,并将目标状态转移矩阵所对应的编码特征信息确定为相似的编码特征信息,从而可以对每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量。
示例性地,在通过标签类型对应的状态转移边识别每一个子集的编码特征信息中的状态转移矩阵的过程中,标签类型可以是指前述训练样本中用户预先标注的标签类型,用于体现该训练样本的分类标签,状态转3边与分类标签一一对应,具体可以表示该分类标签的状态转移起点和状态转移终点所构成的边,例如状态转移起点和状态转移终点可以分别表示该分类标签可以允许的转移前的状态业务(例如文本业务)和转移后的状态业务(例如视频业务)。在上述步骤中,具体可以是:通过标签类型对应的状态转移边的状态转移起点和状态转移终点,去匹配每一个子集的编码特征信息中的与该状态转移边匹配的节点,并将这些匹配的节点按状态业务的分类分别排列成状态转移矩阵。
在一种可能的实现方式中,针对步骤S130,可以通过以下示例的子步骤S131-子步骤S135具体实现,详细描述如下。
子步骤S131,针对每个训练样本的流会话特征矢量和回归模型预测矢量分别建立对应的第一初始化权重和第二初始化权重。
例如,可以通过数据流量检测分类模型中针对流会话特征矢量和回归模型预测矢量的网络单元分别根据每个训练样本的流会话特征矢量的矢量值和回归模型预测矢量的矢量值建立对应的第一初始化权重和第二初始化权重。
子步骤S132,将第一初始化权重和第二初始化权重输入到数据流量检测分类模型中,训练弱回归算子,并根据标签类型,利用弱回归算子评估每个训练样本所属的标签类型的训练误差。
子步骤S133,按照训练误差选择对应的误差系数对弱回归算子进行调整,并重新更新每个训练样本中的权重分布。
子步骤S134,判断重新更新的每个训练样本中的权重分布是否满足训练结束条件,当未满足训练结束条件时,迭代上述训练过程,直到满足训练结束条件时,得到弱回归算子对于每个训练样本的输出结果。其中,输出结果可以包括均方误差值、逆信噪比值和最大误差值。
子步骤S135,根据均方误差值、逆信噪比值和最大误差值更新数据流量检测分类模型的网络参数,得到训练后的目标数据流量检测分类模型。
例如,可以通过随机梯度下降的方式根据均方误差值、逆信噪比值和最大误差值对数据流量检测分类模型进行反向传播训练,从而更新数据流量检测分类模型的网络参数。
基于同一发明构思,请参阅图4,示出了本申请实施例提供的可动态预测的数据流量检测分类装置110的功能模块示意图,本实施例可以根据上述方法实施例对可动态预测的数据流量检测分类装置110进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图4示出的可动态预测的数据流量检测分类装置110只是一种装置示意图。其中,可动态预测的数据流量检测分类装置110可以包括获取模块111、分流计算模块112、训练模块113以及分类模块114,下面分别对该可动态预测的数据流量检测分类装置110的各个功能模块的功能进行详细阐述。
获取模块111,用于获取用于数据流量检测分类的多源异构大数据,并对多源异构大数据进行分析,获得训练样本。可以理解,该获取模块111可以用于执行上述步骤S110,关于该获取模块111的详细实现方式可以参照上述对步骤S110有关的内容。
分流计算模块112,用于对训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量。可以理解,该分流计算模块112可以用于执行上述步骤S120,关于该分流计算模块112的详细实现方式可以参照上述对步骤S120有关的内容。
训练模块113,用于将每个训练样本的流会话特征矢量、回归模型预测矢量和标签类型输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型。可以理解,该训练模块113可以用于执行上述步骤S130,关于该训练模块113的详细实现方式可以参照上述对步骤S130有关的内容。
分类模块114,用于根据目标数据流量检测分类模型对待分类多源异构数据流量进行检测分类。可以理解,该分类模块114可以用于执行上述步骤S140,关于该分类模块114的详细实现方式可以参照上述对步骤S140有关的内容。
在一种可能的实施方式中,获取模块111具体用于:
获取用于数据流量检测分类的多源异构大数据。
对多源异构大数据的有向带权图进行建模,通过有向带权图的顶点表示实体属性,通过有向带权图的边表示实体属性之间的关系,实体属性用于表示多源异构大数据中每个数据节点的元数据对象,实体属性之间的关系用于表示元数据关系,每个元数据对象作为数据库中的一个数据字段。
将有向带权图生成的元数据对象作为元数据对象词典,将有向带权图中每个元数据对象的前驱关系和后继关系未关联于元数据对象词典中的候选元数据关系进行剔除,获得合法元数据关系。
将有向带权图生成的每个元数据对象和每个元数据对象对应的合法元数据关系作为训练样本。
在一种可能的实施方式中,获取模块111具体用于:
判断有向带权图中每个元数据对象的前驱关系和后继关系是否元数据对象词典中的至少一个候选元数据关系匹配。
当任意一个元数据对象的前驱关系和后继关系不与元数据对象词典中的至少一个候选元数据关系匹配时,剔除该元数据对象的前驱关系和后继关系,获得合法元数据关系。
在一种可能的实施方式中,分流计算模块112具体用于:
计算分流后的每个训练样本的状态转移表列,对每个训练样本的状态转移表列进行空间压缩,将状态转移表列划分成多个互不相交的子集,针对每一个子集使用不同的字母表重编码进行编码操作,得到每一个子集的编码特征信息。
通过标签类型对应的状态转移边对每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量。
对分流后的每个训练样本的流会话特征矢量进行回归模型分析,得到分流后的每个训练样本的回归模型预测矢量。
在一种可能的实施方式中,分流计算模块112具体用于:
通过标签类型对应的状态转移边识别每一个子集的编码特征信息中的状态转移矩阵。
获取存在相同状态转移参数的目标状态转移矩阵,并将目标状态转移矩阵所对应的编码特征信息确定为相似的编码特征信息。
对每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量。
在一种可能的实施方式中,训练模块113具体用于:
针对每个训练样本的流会话特征矢量和回归模型预测矢量分别建立对应的第一初始化权重和第二初始化权重。
将第一初始化权重和第二初始化权重输入到数据流量检测分类模型中,训练弱回归算子,并根据标签类型,利用弱回归算子评估每个训练样本所属的标签的训练误差。
按照训练误差选择对应的误差系数对弱回归算子进行调整,并重新更新每个训练样本中的权重分布。
判断重新更新的每个训练样本中的权重分布是否满足训练结束条件,当未满足训练结束条件时,迭代上述训练过程,直到满足训练结束条件时,得到弱回归算子对于每个训练样本的输出结果,输出结果包括均方误差值、逆信噪比值和最大误差值。
根据均方误差值、逆信噪比值和最大误差值更新数据流量检测分类模型的网络参数,得到训练后的目标数据流量检测分类模型。
基于同一发明构思,请参阅图5,示出了本申请实施例提供的用于执行上述可动态预测的数据流量检测分类方法的服务器100的结构示意框图,该服务器100可以包括可动态预测的数据流量检测分类装置110、机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
可动态预测的数据流量检测分类装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图4中所示的获取模块111、分流计算模块112、训练模块113以及分类模块114),当处理器130执行可动态预测的数据流量检测分类装置110中的软件功能模块时,以实现前述方法实施例提供的可动态预测的数据流量检测分类方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的可动态预测的数据流量检测分类方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种可动态预测的数据流量检测分类方法,其特征在于,应用于服务器,所述方法包括:
获取用于数据流量检测分类的多源异构大数据,并对所述多源异构大数据进行分析,获得训练样本;
对所述训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量;
将所述每个训练样本的流会话特征矢量、回归模型预测矢量和标签输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型;
根据所述目标数据流量检测分类模型对待分类多源异构数据流量进行检测分类。
2.根据权利要求1所述的可动态预测的数据流量检测分类方法,其特征在于,获取用于数据流量检测分类的多源异构大数据,并对所述多源异构大数据进行分析,获得训练样本的步骤,包括:
获取用于数据流量检测分类的多源异构大数据;
对所述多源异构大数据的有向带权图进行建模,通过所述有向带权图的顶点表示实体属性,通过所述有向带权图的边表示实体属性之间的关系,所述实体属性用于表示所述多源异构大数据中每个数据节点的元数据对象,所述实体属性之间的关系用于表示元数据关系,每个所述元数据对象作为数据库中的一个数据字段;
将所述有向带权图生成的元数据对象作为元数据对象词典,将所述有向带权图中每个元数据对象的前驱关系和后继关系未关联于所述元数据对象词典中的候选元数据关系进行剔除,获得合法元数据关系;
将所述有向带权图生成的每个元数据对象和每个元数据对象对应的合法元数据关系作为所述训练样本。
3.根据权利要求2所述的可动态预测的数据流量检测分类方法,其特征在于,将所述有向带权图中每个元数据对象的未关联于所述元数据对象词典中的候选元数据关系的前驱关系和后继关系进行剔除,获得合法元数据关系的步骤,包括:
判断所述有向带权图中每个元数据对象的前驱关系和后继关系是否所述元数据对象词典中的至少一个候选元数据关系匹配;
当任意一个元数据对象的前驱关系和后继关系不与所述元数据对象词典中的至少一个候选元数据关系匹配时,剔除该元数据对象的前驱关系和后继关系,获得合法元数据关系。
4.根据权利要求1所述的可动态预测的数据流量检测分类方法,其特征在于,计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量的步骤,包括:
计算分流后的每个训练样本的状态转移表列,对所述每个训练样本的状态转移表列进行空间压缩,将所述状态转移表列划分成多个互不相交的子集,针对每一个子集使用不同的字母表重编码进行编码操作,得到每一个子集的编码特征信息;
通过所述标签类型对应的状态转移边对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量;
对分流后的每个训练样本的流会话特征矢量进行回归模型分析,得到分流后的每个训练样本的回归模型预测矢量。
5.根据权利要求4所述的可动态预测的数据流量检测分类方法,其特征在于,通过所述标签类型对应的状态转移边对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量的步骤,包括:
通过所述标签类型对应的状态转移边识别所述每一个子集的编码特征信息中的状态转移矩阵;
获取存在相同状态转移参数的目标状态转移矩阵,并将所述目标状态转移矩阵所对应的编码特征信息确定为相似的编码特征信息;
对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量。
6.根据权利要求1-5中任意一项所述的可动态预测的数据流量检测分类方法,其特征在于,将所述每个训练样本的流会话特征矢量、回归模型预测矢量和标签类型输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型的步骤,包括:
针对所述每个训练样本的流会话特征矢量和回归模型预测矢量分别建立对应的第一初始化权重和第二初始化权重;
将所述第一初始化权重和第二初始化权重输入到数据流量检测分类模型中,训练弱回归算子,并根据所述标签类型,利用所述弱回归算子评估所述每个训练样本所属的标签的训练误差;
按照所述训练误差选择对应的误差系数对所述弱回归算子进行调整,并重新更新所述每个训练样本中的权重分布;
判断重新更新的所述每个训练样本中的权重分布是否满足训练结束条件,当未满足所述训练结束条件时,迭代上述训练过程,直到满足训练结束条件时,得到所述弱回归算子对于每个训练样本的输出结果,所述输出结果包括均方误差值、逆信噪比值和最大误差值;
根据所述均方误差值、逆信噪比值和最大误差值更新所述数据流量检测分类模型的网络参数,得到训练后的目标数据流量检测分类模型。
7.一种可动态预测的数据流量检测分类装置,其特征在于,应用于服务器,所述装置包括:
获取模块,用于获取用于数据流量检测分类的多源异构大数据,并对所述多源异构大数据进行分析,获得训练样本;
分流计算模块,用于对所述训练样本按照标签类型进行分流,并计算分流后的每个训练样本的流会话特征矢量以及回归模型预测矢量;
训练模块,用于将所述每个训练样本的流会话特征矢量、回归模型预测矢量和标签类型输入到数据流量检测分类模型中进行训练,得到训练后的目标数据流量检测分类模型;
分类模块,用于根据所述目标数据流量检测分类模型对待分类多源异构数据流量进行检测分类。
8.根据权利要求7所述的可动态预测的数据流量检测分类装置,其特征在于,获取模块具体用于:
获取用于数据流量检测分类的多源异构大数据;
对所述多源异构大数据的有向带权图进行建模,通过所述有向带权图的顶点表示实体属性,通过所述有向带权图的边表示实体属性之间的关系,所述实体属性用于表示所述多源异构大数据中每个数据节点的元数据对象,所述实体属性之间的关系用于表示元数据关系,每个所述元数据对象作为数据库中的一个数据字段;
将所述有向带权图生成的元数据对象作为元数据对象词典,将所述有向带权图中每个元数据对象的前驱关系和后继关系未关联于所述元数据对象词典中的候选元数据关系进行剔除,获得合法元数据关系;
将所述有向带权图生成的每个元数据对象和每个元数据对象对应的合法元数据关系作为所述训练样本。
9.根据权利要求7所述的可动态预测的数据流量检测分类装置,其特征在于,分流计算模块具体用于:
计算分流后的每个训练样本的状态转移表列,对所述每个训练样本的状态转移表列进行空间压缩,将所述状态转移表列划分成多个互不相交的子集,针对每一个子集使用不同的字母表重编码进行编码操作,得到每一个子集的编码特征信息;
通过所述标签类型对应的状态转移边对所述每一个子集的编码特征信息中相似的编码特征信息进行合并,得到分流后的每个训练样本的流会话特征矢量;
对分流后的每个训练样本的流会话特征矢量进行回归模型分析,得到分流后的每个训练样本的回归模型预测矢量。
10.根据权利要求7所述的可动态预测的数据流量检测分类装置,其特征在于,训练模块具体用于:
针对所述每个训练样本的流会话特征矢量和回归模型预测矢量分别建立对应的第一初始化权重和第二初始化权重;
将所述第一初始化权重和第二初始化权重输入到数据流量检测分类模型中,训练弱回归算子,并根据所述标签类型,利用所述弱回归算子评估所述每个训练样本所属的标签的训练误差;
按照所述训练误差选择对应的误差系数对所述弱回归算子进行调整,并重新更新所述每个训练样本中的权重分布;
判断重新更新的所述每个训练样本中的权重分布是否满足训练结束条件,当未满足所述训练结束条件时,迭代上述训练过程,直到满足训练结束条件时,得到所述弱回归算子对于每个训练样本的输出结果,所述输出结果包括均方误差值、逆信噪比值和最大误差值;
根据所述均方误差值、逆信噪比值和最大误差值更新所述数据流量检测分类模型的网络参数,得到训练后的目标数据流量检测分类模型。
CN202010855720.1A 2020-08-24 2020-08-24 可动态预测的数据流量检测分类方法及装置 Active CN111737371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010855720.1A CN111737371B (zh) 2020-08-24 2020-08-24 可动态预测的数据流量检测分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010855720.1A CN111737371B (zh) 2020-08-24 2020-08-24 可动态预测的数据流量检测分类方法及装置

Publications (2)

Publication Number Publication Date
CN111737371A true CN111737371A (zh) 2020-10-02
CN111737371B CN111737371B (zh) 2020-11-13

Family

ID=72658710

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010855720.1A Active CN111737371B (zh) 2020-08-24 2020-08-24 可动态预测的数据流量检测分类方法及装置

Country Status (1)

Country Link
CN (1) CN111737371B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666398A (zh) * 2020-12-07 2022-06-24 深信服科技股份有限公司 应用分类方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105379204A (zh) * 2014-01-14 2016-03-02 华为技术有限公司 用于选择数据路由的资源的方法和***
US20160203337A1 (en) * 2015-01-08 2016-07-14 Jumpshot, Inc. Identifying private information from data streams
CN108062551A (zh) * 2017-06-28 2018-05-22 浙江大学 一种基于邻接矩阵的图特征提取***、图分类***和方法
CN110612513A (zh) * 2017-03-29 2019-12-24 起元技术有限责任公司 用于使用可变级并行执行数据处理操作的***和方法
CN111130942A (zh) * 2019-12-27 2020-05-08 国网山西省电力公司信息通信分公司 一种基于消息大小分析的应用流量识别方法
CN111563560A (zh) * 2020-05-19 2020-08-21 上海飞旗网络技术股份有限公司 基于时序特征学习的数据流分类方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105379204A (zh) * 2014-01-14 2016-03-02 华为技术有限公司 用于选择数据路由的资源的方法和***
US20160203337A1 (en) * 2015-01-08 2016-07-14 Jumpshot, Inc. Identifying private information from data streams
CN110612513A (zh) * 2017-03-29 2019-12-24 起元技术有限责任公司 用于使用可变级并行执行数据处理操作的***和方法
CN108062551A (zh) * 2017-06-28 2018-05-22 浙江大学 一种基于邻接矩阵的图特征提取***、图分类***和方法
CN111130942A (zh) * 2019-12-27 2020-05-08 国网山西省电力公司信息通信分公司 一种基于消息大小分析的应用流量识别方法
CN111563560A (zh) * 2020-05-19 2020-08-21 上海飞旗网络技术股份有限公司 基于时序特征学习的数据流分类方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
任钊婷: "含有限类标数据的数据流分类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
杨贻宏: "面向嵌入式实时数据库***的并发控制策略的探讨", 《网络安全技术与应用》 *
由欣等: "基于有向图构造的数据流预测算法", 《微电子学与计算机》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114666398A (zh) * 2020-12-07 2022-06-24 深信服科技股份有限公司 应用分类方法、装置、设备及存储介质
CN114666398B (zh) * 2020-12-07 2024-02-23 深信服科技股份有限公司 应用分类方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111737371B (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
US11694094B2 (en) Inferring digital twins from captured data
WO2022105129A1 (zh) 内容数据推荐方法、装置、计算机设备及存储介质
CN111178380A (zh) 数据分类方法、装置及电子设备
CN113610239A (zh) 针对机器学习的特征处理方法及特征处理***
EP3852007B1 (en) Method, apparatus, electronic device, readable storage medium and program for classifying video
CN111931809A (zh) 数据的处理方法、装置、存储介质及电子设备
WO2020056968A1 (zh) 数据降噪方法、装置、计算机设备和存储介质
CN113037783B (zh) 一种异常行为检测方法及***
CN111768242A (zh) 下单率预测方法、设备及可读存储介质
CN111062431A (zh) 图像聚类方法、图像聚类装置、电子设备及存储介质
CN111639230B (zh) 一种相似视频的筛选方法、装置、设备和存储介质
CN114492601A (zh) 资源分类模型的训练方法、装置、电子设备及存储介质
CN111814759A (zh) 人脸质量标签值的获取方法、装置、服务器及存储介质
CN116662817A (zh) 物联网设备的资产识别方法及***
CN116662875A (zh) 接口测绘方法及装置
CN115098679A (zh) 文本分类标注样本的异常检测方法、装置、设备及介质
CN111444362A (zh) 恶意图片拦截方法、装置、设备和存储介质
CN111737371B (zh) 可动态预测的数据流量检测分类方法及装置
CN111784402A (zh) 基于多通路的下单率预测方法、设备及可读存储介质
CN116737373A (zh) 负载均衡方法、装置、计算机设备、存储介质
JP2023152270A (ja) 人工知能によるデータラベリング方法、装置、電子デバイス、記憶媒体、及びプログラム
CN115185768A (zh) ***的故障识别方法、***、电子设备和存储介质
CN110704153B (zh) 界面逻辑解析方法、装置、设备及可读存储介质
CN115587297A (zh) 构建图像识别模型和图像识别的方法、装置、设备及介质
CN112182413A (zh) 一种基于教学大数据的智能推荐方法及服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant