CN114422271B - 数据处理方法、装置、设备及可读存储介质 - Google Patents

数据处理方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114422271B
CN114422271B CN202210310556.5A CN202210310556A CN114422271B CN 114422271 B CN114422271 B CN 114422271B CN 202210310556 A CN202210310556 A CN 202210310556A CN 114422271 B CN114422271 B CN 114422271B
Authority
CN
China
Prior art keywords
vulnerability
data
feature
target
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210310556.5A
Other languages
English (en)
Other versions
CN114422271A (zh
Inventor
颜波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202210310556.5A priority Critical patent/CN114422271B/zh
Publication of CN114422271A publication Critical patent/CN114422271A/zh
Application granted granted Critical
Publication of CN114422271B publication Critical patent/CN114422271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1433Vulnerability analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法、装置、设备及可读存储介质,涉及人工智能领域的深度学习技术,该方法包括:获取k个特征维度分别与漏洞属性类别的预测关联度,基于预测关联度,从k个特征维度中获取N个目标特征维度;获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;基于目标样本预测结果及获取的目标样本漏洞数据的目标样本标签对初始漏洞检测模型进行参数调整,得到漏洞检测模型。采用本申请,可以更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。

Description

数据处理方法、装置、设备及可读存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种数据处理方法、装置、设备及可读存储介质。
背景技术
随着数字化时代的来临,越来越多的场合会应用到信息数据传输技术,人们对于数据传输的安全性有着越来越高的要求。数据安全性检测一般基于已知流量攻击进行检测规则的建立、积累与匹配等。常用的安全性检测有依靠规则叠加而组成数据库的防火墙技术等。
这些依靠规则积累的安全检测技术,具有较低的学习成本。这些规则积累技术的规则数量越来越多,规则之间的相似规则无法被识别,规则之间存在冗余,这些安全检测技术的规则数量通常较多,这些技术中较多的规则数量会导致规则之间互相影响,提升了添加规则与修正规则的人力维护成本,降低了模型检测的效率。
发明内容
本申请实施例提供一种数据处理方法、装置、设备及可读存储介质,可以更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。
本申请实施例一方面提供了一种数据处理方法,包括:
获取k个特征维度分别与漏洞属性类别的预测关联度,基于预测关联度,从k个特征维度中获取N个目标特征维度;预测关联度用于表征对应的特征维度的变化,对漏洞属性类别的预测结果的影响程度;
获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;
获取目标样本漏洞数据的目标样本标签,基于目标样本预测结果及目标样本标签对初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
进一步地,获取k个特征维度分别与漏洞属性类别的预测关联度,包括:
获取d个样本漏洞数据及每个样本漏洞数据分别对应的样本标签;d个样本漏洞数据包括目标样本漏洞数据;d为正整数;
基于d个样本漏洞数据分别对应的样本标签,获取漏洞属性类别的类别比例,基于漏洞属性类别的类别比例确定漏洞属性类别的类别信息量;
根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量;i为小于或等于k的正整数;第i个特征维度下的特征状态用于表征d个样本漏洞数据分别在第i个特征维度下的特征的分布情况;
基于漏洞属性类别的类别信息量与在第i个特征维度下的漏洞属性类别的维度信息量,确定第i个特征维度与漏洞属性类别的预测关联度。
进一步地,特征状态包括第一特征状态及第二特征状态;漏洞属性类别的数量为m;m为正整数;根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量,包括:
在第i个特征维度的第一特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第一样本标签数量,基于m个第一样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第一特征状态下的第一特征概率;
在第i个特征维度的第二特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第二样本标签数量,基于m个第二样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第二特征状态下的第二特征概率;
对m个第一特征概率及m个第二特征概率进行概率整合处理,得到在第i个特征维度下的漏洞属性类别的维度信息量。
进一步地,获取k个特征维度分别与漏洞属性类别的预测关联度,包括:
获取样本漏洞数据在k个特征维度下分别对应的k个维度待测特征;
对k个维度待测特征进行维度转换,得到k个特征维度分别对应的k个漏洞集合特征;
将k个漏洞集合特征分别输入初始漏洞检测模型进行预测,得到k个漏洞集合特征分别针对漏洞属性类别的维度类别概率;
根据k个漏洞集合特征分别针对漏洞属性类别的维度类别概率,与样本漏洞数据对应的样本标签之间的差异数据,确定k个特征维度分别与漏洞属性类别的预测关联度。
进一步地,基于预测关联度,从k个特征维度中获取N个目标特征维度,包括:
获取预测关联度阈值;
在k个特征维度中,对小于预测关联度阈值的特征维度,进行聚类处理,得到第一共性维度;
在第一共性维度,以及大于或等于预测关联度阈值的特征维度之中,确定N个目标特征维度。
进一步地,获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,包括:
获取目标样本漏洞数据的样本数据类型,获取样本数据类型所对应的漏洞信息;
基于漏洞信息,从目标样本漏洞数据中获取漏洞关键字;
在N个目标特征维度下,对漏洞关键字进行特征提取处理,得到目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征。
本申请实施例一方面提供了另一种数据处理方法,包括:
获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从k个特征维度中确定的;
将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果。
进一步地,漏洞属性类别的数量为m;m为正整数;将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果,包括:
获取m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于预测概率,从m个漏洞属性类别中确定目标检测结果。
数据处理方法,还包括:
若目标检测结果为m个漏洞属性类别中的异常检测类别,则对异常检测类别对应的目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。
本申请实施例一方面提供了一种数据处理装置,包括:
关联度获取模块,用于获取k个特征维度分别与漏洞属性类别的预测关联度;
维度获取模块,用于基于预测关联度,从k个特征维度中获取N个目标特征维度;预测关联度用于表征对应的特征维度的变化,对漏洞属性类别的预测结果的影响程度;
特征获取模块,用于获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征;
特征输入模块,用于将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;
标签获取模块,用于获取目标样本漏洞数据的目标样本标签,基于目标样本预测结果及目标样本标签对初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
其中,关联度获取模块包括:
数据获取单元,用于获取d个样本漏洞数据及每个样本漏洞数据分别对应的样本标签;d个样本漏洞数据包括目标样本漏洞数据;d为正整数;
比例获取单元,用于基于d个样本漏洞数据分别对应的样本标签,获取漏洞属性类别的类别比例,基于漏洞属性类别的类别比例确定漏洞属性类别的类别信息量;
信息量确定单元,用于根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量;i为小于或等于k的正整数;第i个特征维度下的特征状态用于表征d个样本漏洞数据分别在第i个特征维度下的特征的分布情况;
第一关联度确定单元,用于基于漏洞属性类别的类别信息量与在第i个特征维度下的漏洞属性类别的维度信息量,确定第i个特征维度与漏洞属性类别的预测关联度。
其中,特征状态包括第一特征状态及第二特征状态;漏洞属性类别的数量为m;m为正整数;
信息量确定单元包括:
第一概率确定子单元,用于在第i个特征维度的第一特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第一样本标签数量,基于m个第一样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第一特征状态下的第一特征概率;
第二概率确定子单元,用于在第i个特征维度的第二特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第二样本标签数量,基于m个第二样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第二特征状态下的第二特征概率;
概率整合子单元,用于对m个第一特征概率及m个第二特征概率进行概率整合处理,得到在第i个特征维度下的漏洞属性类别的维度信息量。
其中,关联度获取模块,还包括:
特征获取单元,用于获取样本漏洞数据在k个特征维度下分别对应的k个维度待测特征;
维度转换单元,用于对k个维度待测特征进行维度转换,得到k个特征维度分别对应的k个漏洞集合特征;
特征检测单元,用于将k个漏洞集合特征分别输入初始漏洞检测模型进行预测,得到k个漏洞集合特征分别针对漏洞属性类别的维度类别概率;
第二关联度确定单元,用于根据k个漏洞集合特征分别针对漏洞属性类别的维度类别概率,与样本漏洞数据对应的样本标签之间的差异数据,确定k个特征维度分别与漏洞属性类别的预测关联度。
其中,维度获取模块,包括:
阈值获取单元,用于获取预测关联度阈值;
维度聚类单元,用于在k个特征维度中,对小于预测关联度阈值的特征维度,进行聚类处理,得到第一共性维度;
维度确定单元,用于在第一共性维度,以及大于或等于预测关联度阈值的特征维度之中,确定N个目标特征维度。
其中,特征获取模块包括:
信息获取单元,用于获取目标样本漏洞数据的样本数据类型,获取样本数据类型所对应的漏洞信息;
关键字获取单元,用于基于漏洞信息,从目标样本漏洞数据中获取漏洞关键字;
特征提取单元,用于在N个目标特征维度下,对漏洞关键字进行特征提取处理,得到目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征。
本申请实施例一方面提供了一种数据处理装置,包括:
数据获取模块,用于获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从k个特征维度中确定的;
漏洞检测模块,用于将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果。
其中,漏洞属性类别的数量为m;m为正整数;
漏洞检测模块,具体用于获取m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于预测概率,从m个漏洞属性类别中确定目标检测结果。
数据处理装置还包括:
数据隔离模块,用于若目标检测结果为m个漏洞属性类别中的异常检测类别,则对异常检测类别对应的目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。
本申请一方面提供了一种计算机设备,包括:处理器、存储器、网络接口;
上述处理器与上述存储器、上述网络接口相连,其中,上述网络接口用于提供数据通信功能,上述存储器用于存储计算机程序,上述处理器用于调用上述计算机程序,以使得计算机设备执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机可读存储介质,上述计算机可读存储介质中存储有计算机程序,上述计算机程序适于由处理器加载并执行本申请实施例中的方法。
本申请实施例一方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中;计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例中的方法。
本申请实施例中,获取k个特征维度分别与漏洞属性类别的预测关联度,基于预测关联度,从k个特征维度中获取N个目标特征维度;预测关联度用于表征对应的特征维度的变化,对漏洞属性类别的预测结果的影响程度;获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;获取目标样本漏洞数据的目标样本标签,基于目标样本预测结果及目标样本标签对初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。本申请实施例引入了根据k个特征维度分别与漏洞属性类别的预测关联度,对k个特征维度进行特征选择,根据初始漏洞检测模型对漏洞特征进行预测,得到针对漏洞属性类别的预测结果。随着特征维度的减少,可以减少运算量,更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种***架构示意图;
图2a是本申请实施例提供的一种用于分类对象数据的场景示意图;
图2b是本申请实施例提供的一种用于分类对象数据的场景示意图;
图3是本申请实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例提供的一种漏洞检测模型训练过程的结构示意图;
图5是本申请实施例提供的一种关于对象数据分类的流程示意图;
图6是本申请实施例提供的另一种数据处理方法的流程示意图;
图7a是本申请实施例提供的一种用于特征选择的结构示意图;
图7b是本申请实施例提供的一种用于攻击响应的流程示意图;
图8是本申请实施例提供的一种数据处理装置的结构示意图;
图9是本申请实施例提供的一种数据处理装置的结构示意图;
图10是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
其中,本申请涉及人工智能领域的深度学习技术,通过该深度学习技术,实现对对象实体与对象实体之间的关联关系的预测,以及对关系预测模型的训练等。
其中,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用***。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互***、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning)是一门专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能的学科。
深度学习(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。深度学习是学习样本数据的内在规律和表示层次,这些学习过程中获得的信息对诸如文字,图像和声音等数据的解释有很大的帮助。它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。深度学习是一个复杂的机器学习算法,在语音和图像识别方面取得的效果,远远超过先前相关技术。深度学习在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体学习,语音,推荐和个性化技术,以及其他相关领域都取得了很多成果。深度学习使机器模仿视听和思考等人类的活动,解决了很多复杂的模式识别难题,使得人工智能相关技术取得了很大进步。
请参见图1,图1是本申请实施例提供的一种***架构示意图。如图1所示,该***可以包括计算机设备100以及终端集群,终端集群可以包括:终端设备200a、终端设备200b、终端设备200c、…、终端设备200n,可以理解的是,上述***可以包括一个或者多个终端设备,本申请不对终端设备的数量进行限制。其中,以上所提及的终端设备可以是一种电子设备,包括但不限于手机、平板电脑、台式电脑、笔记本电脑、掌上电脑、车载设备、增强现实/虚拟现实(Augmented Reality/Virtual Reality,AR/VR)设备、头盔显示器、智能电视、可穿戴设备、智能音箱、数码相机、摄像头及其他具备网络接入能力的移动互联网设备(mobile internet device,MID),或者火车、轮船、飞行等场景下的终端设备等。
其中,本申请中所提及的计算机设备可以是服务器或终端设备,也可以是由服务器和终端设备所组成的***。
其中,终端集群之间可以存在通信连接,例如终端设备200a与终端设备200b之间存在通信连接,终端设备200a与终端设备200c之间存在通信连接。同时,终端集群中的任一终端设备可以与业务服务器100存在通信连接,例如终端设备200a与业务服务器100之间存在通信连接,其中,上述通信连接不限定连接方式,可以通过有线通信方式进行直接或间接地连接,也可以通过无线通信方式进行直接或间接地连接,还可以通过其它方式,本申请在此不做限制。
应当理解,如图1所示的终端集群中的每个终端设备均可以安装有传输对象数据功能的应用客户端,当该应用客户端运行于各终端设备中时,可以分别与上述图1所示的计算机设备100之间进行数据交互,即上述的通信连接。其中,该应用客户端可以为短视频应用、视频应用、直播应用、社交应用、即时通信应用、游戏应用、音乐应用、购物应用、小说应用、浏览器等具有对象数据传输功能的应用客户端。其中,该应用客户端可以为独立的客户端,也可以为集成在某客户端(例如,社交客户端、教育客户端以及多媒体客户端等)中的嵌入式子客户端,在此不做限定。
其中,对象数据可以是待检测数据,对象数据也可以是用于进行模型训练的样本漏洞数据,对象数据还可以是用于进行业务交互的其他业务数据等,计算机设备可以从任意一个终端设备或计算机设备自身中获取需要检测的待检测数据,对待检测数据进行检测,确定该待检测数据中是否存在漏洞;或者,从任意一个终端设备或计算机设备自身中获取用于进行模型训练的样本漏洞数据,基于获取到的样本漏洞数据进行模型训练,得到漏洞检测模型。
为便于后续理解和说明,请一并参见图2a,图2a是本申请实施例提供的一种用于分类对象数据的场景示意图。在图2a中,计算机设备300可以对样本漏洞数据进行检测,可以基于样本漏洞数据进行初始漏洞检测模型训练,得到漏洞检测模型。具体的,计算机设备300可以搭建测试环境,在测试环境中获取测试模拟数据,测试模拟数据指的是在测试环境中产生的数据,测试模拟数据可以是在测试环境中,通过模拟攻击所产生的数据,还可以既包括产生模拟攻击的数据,也包括没有产生模拟攻击的数据,可以将产生模拟攻击产生的数据确定为正样本,将没有产生模拟攻击的数据确定为负样本;将获取的测试模拟数据确定为样本漏洞数据。可选的,可以获取在实际网络环境中所产生的历史漏洞数据,将历史漏洞数据确定为样本漏洞数据,对样本漏洞数据进行特征选择提取,得到样本漏洞特征。基于这些样本漏洞特征对初始漏洞检测模型进行模型训练,得到用于进行待检测数据分类的漏洞检测模型。
进一步的,在图2a中,计算机设备300可以获取待检测数据,基于漏洞检测模型对待检测数据进行漏洞分类处理。计算机设备300可以获取待检测数据,基于漏洞检测模型对待检测数据进行检测,确定检测结果,若检测结果中包括漏洞数据,则可以对待检测数据进行隔离处理。
为便于后续理解和说明,请一并参见图2b,图2b是本申请实施例提供的一种用于分类对象数据的场景示意图。在图2b中,计算机设备300可以通过测试模拟环境与实际网络环境进行待检测数据的收集。将对象数据输入漏洞检查模型进行对象数据分类检测处理,若检测结果中包括漏洞数据,则可以对包括漏洞数据的检测结果进行隔离处理。
可以理解的是,本申请实施例提供的方法可以由计算机设备执行,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云数据库、云服务、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。其中,终端设备和计算机设备可以通过有线或无线方式进行直接或间接地连接,本申请实施例在此不做限制。
可以理解的是,上述***架构可适用于搜索***以及知识图谱的构建等场景,这里将不对具体的业务场景进行一一列举。
进一步地,请参见图3,图3是本申请实施例提供的一种数据处理方法的流程示意图。如图3所示,该数据处理方法至少可以包括以下步骤S101-步骤S103。
步骤S101,获取k个特征维度分别与漏洞属性类别的预测关联度,基于预测关联度,从k个特征维度中获取N个目标特征维度;预测关联度用于表征对应的特征维度的变化,对漏洞属性类别的预测结果的影响程度。
具体的,特征维度可以是指对象数据所对应的特征属性的数量,可以基于特征属性,提取出对象数据在每个特征属性下的特征,该特征属性是由对象数据的数据类型所确定的,例如,在本申请中,该对象数据是漏洞相关数据,则该特征属性可以包括但不限于漏洞位置属性、漏洞类型属性及漏洞内容属性等。也就是说,每个漏洞数据对应k个特征属性,每个特征属性可以表示一个特征维度,k为正整数;例如,假定k为3,k个特征属性分别为漏洞位置属性、漏洞类型属性及漏洞内容属性,基于k个特征属性对漏洞数据1进行特征提取,可以得到漏洞特征1(S1,S2,S3),则该S1是指漏洞数据1在漏洞位置属性下所提取的特征,对应特征维度1;该S2是指漏洞数据1在漏洞类型属性下所提取的特征,对应特征维度2;该S3是指漏洞数据1在漏洞内容属性下所提取的特征,对应特征维度3;其中,S1、S2及S3的顺序并不限于上述所示的顺序,即,k个特征维度之间的相对位置不做限定。对象数据的k个特征维度分别与漏洞属性类别的预测关联度可以表示k个特征维度分别对对象数据的漏洞属性类别的影响程度。基于k个特征维度分别对对象数据的漏洞属性类别的影响程度可以从k个特征维度中获取N个目标特征维度。特征维度可以用Th表示,k为正整数,且h小于等于k。例如,k可以为4,则k个特征维度可以表示为T1、T2、T3、T4
其中,漏洞可以是存在于硬件***、软件***和协议***等方面的缺陷,这种缺陷可以被发现在具体实现过程中或***安全策略中。在未授权的情况下,漏洞可以协助攻击者访问***或者破坏***。漏洞可以是对计算机网络***的组成结构和数据内容进行损害的多种因素。漏洞属性类别可以包括m个漏洞类型,其中,m为正整数,例如,当m为2时,可以认为漏洞属性类别包括恶意属性类别和正常属性类别,其中,恶意属性类别可以对应恶意对象数据,正常属性类别可以对应正常对象数据;例如,m为1时,可以认为漏洞属性类别包括漏洞状态,该漏洞状态的值用于表示存在漏洞或不存在漏洞;例如,m个漏洞属性类别可以包括(m-1)个漏洞类型及正常属性类别等。其中,可能会存在高危漏洞,高危漏洞可以是在软件***中出现的严重漏洞,高危漏洞可以通过病毒或木马等方式被黑客驱使,侵入软件***后,盗取重要数据(如对象数据相关信息和密码等);高危漏洞甚至可以致使软件***崩溃,进而发生整个软件***无法被使用的情况。因此,也可以通过本申请实现对高危漏洞的检测,例如,获取与高危漏洞相关的样本漏洞数据进行模型训练,即,获取到的样本漏洞数据中存在由高危漏洞得到的样本,以得到漏洞检查模型。
一种预测关联度获取方式下,获取d个样本漏洞数据及每个样本漏洞数据分别对应的样本标签;d个样本漏洞数据包括目标样本漏洞数据;d为正整数。基于d个样本漏洞数据分别对应的样本标签,获取漏洞属性类别的类别比例,基于漏洞属性类别的类别比例确定漏洞属性类别的类别信息量。根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量;i为小于或等于k的正整数;第i个特征维度下的特征状态用于表征d个样本漏洞数据分别在第i个特征维度下的特征的分布情况。基于漏洞属性类别的类别信息量与在第i个特征维度下的漏洞属性类别的维度信息量,确定第i个特征维度与漏洞属性类别的预测关联度。
具体的,根据d个样本漏洞数据分别对应的样本标签,可以获取每个漏洞属性类别所对应的样本标签,在d个样本漏洞数据中关联的样本漏洞数据的样本数量,基于各个漏洞属性类别的样本数量在d个样本漏洞数据中的占比,确定各个漏洞属性类别的类别比例。根据漏洞属性类别的类别比例,可以得到漏洞属性类别的类别信息量的表达式,可以得到漏洞属性类别的类别信息量。例如,假定漏洞属性类别的种类为2,包括漏洞属性类别1与漏洞属性类别2,其中,d个样本漏洞数据中存在 d1个样本漏洞数据,d1个样本漏洞数据的样本标签是漏洞属性类别1,d个样本漏洞数据中存在d2个样本漏洞数据,d2个样本漏洞数据的样本标签是漏洞属性类别2,则漏洞属性类别1的类别比例就是d1/(d1+d2),漏洞属性类别2的类别比例就是d2/(d1+d2),d1为小于或等于d的正整数,d2为小于或等于d的正整数。
其中,样本标签可以是某一种漏洞属性类别。样本漏洞数据可以是从对象数据中选取的样本标签内容为某一种漏洞属性类别的样本。样本漏洞数据可以是从计算机设备300的数据库中获取的数据,可以将计算机设备300的数据库中的数据作为样本漏洞数据的正样本;也可以是搭建测试环境模拟攻击时所产生的数据,可以将测试模拟数据作为样本漏洞数据的正样本;还可以是获取到的历史漏洞数据,将历史漏洞数据作为样本漏洞数据的正样本。可选的,可以选取一些常规数据,作为样本漏洞数据中的负样本。漏洞属性类别的类别比例可以是漏洞属性类别的发生概率。进一步地,计算机设备可以获取漏洞属性类别的类别比例所对应的比例对数,对所述漏洞属性类型的类别比例及该类别比例所对应的比例对数进行数据融合,得到子信息量。其中,若漏洞属性类别的数量为1,则将该漏洞属性类别对应的子信息量确定为类别信息量;若漏洞属性类别的数量不为1,则将漏洞属性类别对应的子信息量进行融合,得到类别信息量。例如,漏洞属性类别的类别比例可以记作P(y),第e个漏洞属性类别的类别比例可以记作P(ye),可以将第e个漏洞属性类别的类别比例进行转换,得到m个漏洞属性类别的类别比例分别对应的类别比例关联信息,对m个类别比例关联信息进行求和处理,e为正整数,且e小于等于m,则漏洞属性类别的类别信息量可以参见公式①所示:
Figure 950298DEST_PATH_IMAGE001
可选的,可以获取每个漏洞属性类别的类别权重,基于类别权重对各个漏洞属性类别分别对应的子信息量进行加权求和处理,得到类别信息量。可选的,该类别信息量的生成过程可以参见公式②所示:
Figure 133018DEST_PATH_IMAGE002
在公式②中,P(ye)可以表示第e个漏洞属性类别的类别比例,
Figure 381597DEST_PATH_IMAGE003
可以表示在e个 漏洞属性类别的下的类别权重,
Figure 980068DEST_PATH_IMAGE004
可以表示类别信息量。
可以理解的是,第i个特征维度下的特征状态是根据d个样本漏洞数据分别在第i个特征维度下所对应的特征得到的,第i个特征维度下的特征状态用于表征所述d个样本漏洞数据分别在所述第i个特征维度下的特征的分布情况,可选的,若样本漏洞数据j存在第i个特征维度下的特征,则可以认为该样本漏洞数据j在第i个特征维度下的特征状态为第一特征状态;若样本漏洞数据j不存在第i个特征维度下的特征,则可以认为该样本漏洞数据j在第i个特征维度下的特征状态为第二特征状态。其中,样本漏洞数据j是d个样本漏洞数据中的任意一个样本漏洞数据,j为小于或等于d的正整数。根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,可以得到特征状态与样本标签的二维对应关系,根据二维对应关系,可以确定在第i个特征维度下的漏洞属性类别的维度信息量。
具体的,特征状态包括第一特征状态及第二特征状态;漏洞属性类别的数量为m;m为正整数;在第i个特征维度的第一特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第一样本标签数量,其中,第一样本标签数量所统计的样本漏洞数据,在第i个特征维度下的特征状态为第一特征状态。基于m个第一样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第一特征状态下的第一特征概率。例如,获取到的第一样本标签数量为6,则表示这6个样本漏洞数据在第i个特征维度下的特征状态均为第一特征状态。在第i个特征维度的第二特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第二样本标签数量,基于m个第二样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第二特征状态下的第二特征概率;对m个第一特征概率及m个第二特征概率进行概率整合处理,得到在第i个特征维度下的漏洞属性类别的维度信息量。例如,一种特征概率的获取方式下,可以将m个在第i个特征维度的第f个特征状态下,第e个漏洞属性类别的特征概率进行转换,得到m个分别对应的概率关联信息,对m个概率关联信息进行求和处理,得到第i个特征维度下的维度信息量,f为正整数,e为正整数,具体可以参见公式③所示:
Figure 263282DEST_PATH_IMAGE005
在公式③中,xf可以表示在i个特征维度下处于第f个特征状态,P(ye|xf)可以表示 在第i个特征维度的第f个特征状态下,第e个漏洞属性类别的特征概率。
Figure 351324DEST_PATH_IMAGE006
可以表示在第i个特征维度的第f个特征状态下,第e个漏洞属 性类别的特征概率对应的概率关联信息,
Figure 87199DEST_PATH_IMAGE007
可以表示第i 个特征维度下的维度信息量。
可选的,一种特征概率的获取方式下,可以将m个在第i个特征维度的第f个特征状态下,第e个漏洞属性类别的特征概率进行转换,得到m个漏洞属性类别的特征概率分别对应的概率关联信息,将第e个漏洞属性类别下数据占比作为相关权重,根据相关权重对m个概率关联信息进行求和处理,得到第i个特征维度下的维度信息量,具体可以参见公式④所示:
Figure 486432DEST_PATH_IMAGE008
在公式④中,xf可以表示在i个特征维度下处于第f个特征状态,P(ye|xf)可以表示 在第i个特征维度的第f个特征状态下,第e个漏洞属性类别的特征概率。P(xe)可以表示在e 个漏洞属性类别的下的数据占比,
Figure 420890DEST_PATH_IMAGE009
可以表示在第i个特征维度 的第f个特征状态下,第e个漏洞属性类别的特征概率对应的概率关联信息,
Figure 883095DEST_PATH_IMAGE010
可以表示第i个特征维度下的维度信息量。
再例如,样本漏洞数据的数量d可以是12,第i个特征维度的第一特征状态可以是0,代表样本漏洞数据不包含第i个特征维度,第i个特征维度的第二特征状态可以是1,代表样本漏洞数据包含第i个特征维度。漏洞属性类别的数量m可以是2,A可以代表恶意属性类别,B可以代表正常属性类别,12个样本漏洞数据中可以有6个恶意样本集Ag与6个正常样本集Bg,g为正整数,且g小于等于d。若恶意样本集Ag中,有0个为第一特征状态,有6个为第二特征状态;正常样本集Bg中,有4个为第一特征状态,有2个为第二特征状态;则第一特征概率可以包括恶意样本集的样本漏洞数据占第一特征状态的样本漏洞数据比例的第一特征概率,与正常样本集的样本漏洞数据占第一特征状态的样本漏洞数据比例的第一特征概率,即0/4与4/4;第二特征概率可以包括恶意样本集的样本漏洞数据占第二特征状态的样本漏洞数据比例的第二特征概率,与正常样本集的样本漏洞数据占第二特征状态的样本漏洞数据比例的第二特征概率,即6/8与2/8;则对2个第一特征概率及2个第二特征概率进行概率整合处理,得到在第i个特征维度下的漏洞属性类别的维度信息量,具体可以参见公式⑤所示:
Figure 840687DEST_PATH_IMAGE011
在公式⑤中,假设Si=0表示在第i个特征维度下的第一特征状态,H(Y=A丨Si=0)可以表示在第i个特征维度的第一特征状态下,漏洞属性类别为A的维度信息量,H(Y=B丨Si=0)可以表示在第i个特征维度的第一特征状态下,漏洞属性类别为B的维度信息量;假设Si=1表示在第i个特征维度下的第二特征状态,H(Y=A丨Si=1)可以表示在第i个特征维度的第二特征状态下,漏洞属性类别为A的维度信息量,H(Y=B丨Si=1)可以表示在第i个特征维度的第二特征状态下,漏洞属性类别为B的维度信息量。
进一步的,基于漏洞属性类别的类别信息量与在第i个特征维度下的漏洞属性类别的维度信息量,确定第i个特征维度与漏洞属性类别的预测关联度。
一种预测关联度获取方式下,获取样本漏洞数据在k个特征维度下分别对应的k个维度待测特征;对k个维度待测特征进行维度转换,得到k个特征维度分别对应的k个漏洞集合特征;将k个漏洞集合特征分别输入初始漏洞检测模型进行预测,得到k个漏洞集合特征分别针对漏洞属性类别的维度类别概率;根据k个漏洞集合特征分别针对漏洞属性类别的维度类别概率,与样本漏洞数据对应的样本标签之间的差异数据,确定k个特征维度分别与漏洞属性类别的预测关联度。
具体的,对k个维度待测特征进行维度转换,得到的k个漏洞集合特征可以符合初始漏洞检测模型的输入标准;将k个漏洞集合特征输入初始漏洞检测模型进行检测可以得到k个漏洞集合特征分别针对漏洞属性类别的维度类别概率;根据k个漏洞集合特征与k个维度待测特征之间的对应关系,可以得到k个维度待测特征分别针对漏洞属性类别的维度待测概率;根据k个维度待测特征与k个特征维度的对应关系,可以得到k个特征维度分别针对漏洞属性类别的特征概率;根据k个特征维度分别针对漏洞属性类别的特征概率,与样本漏洞数据对应的样本标签之间的差异数据,确定k个特征维度分别与漏洞属性类别的预测关联度。
例如,k可以是4,4个维度下的待检测特征可以是S1、S2、S3、S4,则将待检测特征进行维度转换,得到的4个漏洞集合特征可以是,根据初始漏洞检测模型的输入格式,对待检测特征进行填补标准值的处理。其中,标准值可以是0,则4个漏洞集合特征可以是{ S1,0,0,0}、{0,S2,0,0}、{0,0,S3,0}、{0,0,0,S4}。
进一步的,获取预测关联度阈值;在k个特征维度中,对小于预测关联度阈值的特征维度,进行聚类处理,得到第一共性维度;在第一共性维度,以及大于或等于预测关联度阈值的特征维度之中,确定N个目标特征维度。
可选的,可以将k个特征维度进行聚类处理,提取共性维度,得到第二共性维度,将第二共性维度确定为N个目标特征维度。
可选的,可以获取大于或等于预测关联度阈值的特征维度,将大于或等于预测关联度阈值的特征维度,确定为N个目标特征维度。或者,将大于或等于预测关联度阈值的特征维度记作质量维度,从质量维度中获取N个目标特征维度。可选的,可以基于预测关联度阈值对k个特征维度进行排序处理,从排序后的k个特征维度中获取位于前N个的特征维度,将位于前N个的特征维度确定为N个目标特征维度。
步骤S102,获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;
具体的,样本漏洞数据可以包括目标样本漏洞数据,N个目标特征维度可以是Tu,u为正整数,且u小于等于N;对目标样本漏洞数据进行在N个目标特征维度下的特征提取,得到的N个目标特征维度下分别对应的目标样本漏洞特征可以是Su。将Su输入初始漏洞检测模型中进行预测,可以得到针对漏洞属性类别的目标样本预测结果。
若N个目标特征维度中包括第一共性维度或第二共性维度,则执行该过程,将第一共性维度或第二共性维度记作目标特征维度,在大于或等于预测关联度阈值的特征维度之中选取特征维度,与第一共性维度或第二共性维度共同组成N个目标特征维度,提取目标样本漏洞数据在目标特征维度下的样本漏洞特征。具体的,训练过程中,获取N个目标特征维度过程可以是:将预测关联度大于或等于预测关联度阈值的特征维度记作质量维度,获取质量维度对应的质量维度特征。获取样本的特征维度中,小于预测关联度阈值的特征维度,获取在具有共性的特征维度下的样本漏洞特征,对具有共性的样本漏洞特征进行特征融合,得到漏洞共性特征。将质量维度特征与漏洞共性特征,确定为样本在N个目标特征维度下分别对应的样本漏洞特征。
可以理解的是,获取目标样本漏洞数据的样本数据类型,获取样本数据类型所对应的漏洞信息;基于漏洞信息,从目标样本漏洞数据中获取漏洞关键字;在N个目标特征维度下,对漏洞关键字进行特征提取处理,得到目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征。
其中,不同的漏洞属性类别拥有不同的漏洞信息,不同的漏洞信息可以对应不同的漏洞关键字漏洞位置及漏洞标识等。在样本漏洞数据获取时,计算机设备300可以搭建一个存在漏洞的可攻击环境,在漏洞被攻击时,可以得到样本漏洞数据,例如,可攻击环境可以是超文本预处理器(Hypertext Preprocessor,PHP)开发框架(thinkphp)版本5.0.0-5.0.12或thinkphp版本5.0.13-5.0.23中的任一版本环境。或者,可以直接从公开网络中获取漏洞的原始数据,如漏洞原始代码,概念验证代码(Proof Of Concept,POC),漏洞攻击代码(Exploit,EXP)等,将获取到的漏洞的原始数据确定为样本漏洞数据等。目标样本漏洞数据可以是统一资源定位***(Uniform Resource Locator,URL)网址,根据统一资源定位符,可以获取到样本数据类型是url访问类型。获取漏洞信息,假设url漏洞信息包括“&”符号,则从目标样本漏洞数据中获取“&”符号所指示的漏洞可能出现的位置,获取“&”符号所指示的关键字部分。例如,假设url样本漏洞数据中,“&”符号连接了三个部分,则获取这三个部门,将这三个部分的内容(即三个url参数)确定为url样本漏洞数据对应的漏洞关键字,提取三个部分的漏洞关键字,对漏洞关键字进行特征提取,将提取后的特征进行拼接处理,得到目标样本漏洞特征。
再例如,可攻击环境可以是thinkphp5.0.0-5.0.12或thinkphp5.0.13-thinkphp5.0.23中的任一版本环境。直接从公开网络中获取漏洞的原始数据,如漏洞原始代码,poc(Proof Of Concept,概念验证代码),exp(Exploit,漏洞攻击代码)等。目标样本漏洞数据可以是post网址,根据fliter过滤器,可以获取到样本数据类型是post访问类型。获取漏洞信息,假设post漏洞信息包括“s”变量且fliter过滤器的值为“system”,则从目标样本漏洞数据中获取特殊数据所指示的漏洞可能出现的位置,获取特殊数据所指示的关键字部分。例如,假设post样本漏洞数据中,“post漏洞信息包括“s”变量且fliter过滤器的值为“system”,则获取特殊数据,将特殊数据的内容确定为post样本漏洞数据对应的漏洞关键字,提取post样本漏洞数据对应的漏洞关键字,对漏洞关键字进行特征提取,将提取后的特征进行拼接处理,得到目标样本漏洞特征。
例如,在其中可能的样本数据类型下,在thinkphp5.0.0-5.0.12版本下,可能产生的漏洞关键字可以参见表1,漏洞属性类别与关键字的对应关系可以参见表1:
表1
Figure 843278DEST_PATH_IMAGE012
在其中可能的样本数据类型下,在thinkphp5.0.13- thinkphp5.0.23版本下,漏洞属性类别与关键字的对应关系也可以参见表2:
表2
Figure 835504DEST_PATH_IMAGE013
应该理解的是,表1与表2中列举的漏洞属性类别与关键字的对应关系为部分漏洞属性类别与关键字的对应关系,并不限制其他的漏洞属性类别与关键字的对应关系。
可以理解的是,特征提取过程可以包括对收集到的目标样本漏洞数据进行分析,收集分析后的目标样本漏洞数据的特征,将收集到的分析后的目标样本漏洞数据的特征进行向量化处理,便于从目标样本漏洞数据的k个特征维度中获取N个目标特征维度,得到目标样本漏洞特征。
步骤S103,获取目标样本漏洞数据的目标样本标签,基于目标样本预测结果及目标样本标签对初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
进一步的,请一并参见图4,图4是本申请实施例提供的一种漏洞检测模型训练过程的结构示意图。在图4中,计算机设备可以获取恶意属性类别样本漏洞数据与正常属性类别样本漏洞数据,抽取恶意属性类别样本漏洞数据对应的训练样本漏洞数据与正常属性类别样本漏洞数据对应的训练样本漏洞数据进行特征提取,得到恶意属性类别样本漏洞数据对应的训练样本漏洞特征与正常属性类别样本漏洞数据对应的训练样本漏洞特征。将恶意属性类别样本漏洞数据对应的训练样本漏洞特征与正常属性类别样本漏洞数据对应的训练样本漏洞特征,输入初始漏洞检测模型,得到恶意属性类别训练样本漏洞特征与正常属性类别训练样本漏洞特征分别对应的样本预测结果。根据恶意属性类别训练样本漏洞特征与正常属性类别训练样本漏洞特征分别对应的样本标签,以及恶意属性类别训练样本漏洞特征与正常属性类别训练样本漏洞特征分别对应的样本预测结果进行模型训练以及参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。抽取恶意属性类别样本漏洞数据对应的测试样本漏洞数据与正常属性类别样本漏洞数据对应的测试样本漏洞数据,将恶意属性类别样本漏洞数据对应的测试样本漏洞数据与正常属性类别样本漏洞数据对应的测试样本漏洞数据,输入漏洞检测模型,得到恶意属性类别样本漏洞数据对应的测试样本漏洞数据与正常属性类别样本漏洞数据对应的测试样本漏洞数据的预测结果。
需要说明的是,初始漏洞检测模型的训练可以通过多次有放回的方式从样本漏洞数据(即包括恶意属性类别样本集合与正常属性类别样本集合)中抽取部分样本产生新的样本集合,每个样本集合在后续的模型循环迭代中可以构建成一棵决策树,多棵决策树可以组件随机森林。根据决策树的每棵分类子树的投票统计结果,得到的目标样本检测结果可以保持目标样本检测结果的多样性,目标样本检测结果可以拥有更加广阔的选择范围。
本申请实施例中,获取k个特征维度分别与漏洞属性类别的预测关联度,基于预测关联度,从k个特征维度中获取N个目标特征维度;获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;基于目标样本预测结果及获取的目标样本漏洞数据的目标样本标签对初始漏洞检测模型进行参数调整,得到漏洞检测模型。采用本申请,可以得到根据特征维度的变化,对漏洞属性类别的预测结果的影响程度。采用本申请,可以精选特征维度,可以更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。
进一步的,请一并参见图5,图5是本申请实施例提供的一种关于对象数据分类的流程示意图。在图5中,计算机设备300可以搭建测试环境,进行数据收集。收集到样本漏洞数据后,可以进行特征提取处理。其中,在特征处理的过程中,可以先对样本漏洞数据进行初步的数据分析,可以收集分析到的样本漏洞数据对应的特征,进一步,可以对收集到的样本漏洞数据对应的特征进行特征向量化,得到特征提取后的样本漏洞特征。将提取到的样本漏洞特征进行特征选择处理,得到目标样本漏洞特征。将目标样本漏洞特征输入初始漏洞检测模型,进行漏洞分类处理。
进一步地,请参见图6,图6是本申请实施例提供的一种数据处理方法的流程示意图。如图6所示,该数据处理方法至少可以包括以下步骤S201-步骤S203。
步骤S201,获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从k个特征维度中确定的;
具体的,目标待检测数据可以是未经标记过的陌生对象数据。N个目标特征维度可以是k个特征维度中与漏洞属性类别的预测关联度较高的特征维度,在N个目标特征维度下获取目标待检测数据分别对应的目标待检测特征可以得到精确选择的目标待检测特征。例如,
其中,当N个目标特征维度中包括第一共性维度或第二共性维度时,可以将第一共性维度或第二共性维度,与非第一共性维度且非第二共性维度分开进行待检测特征获取。例如,若k为6,N为4,则k个特征维度对应的特征可以为S1、S2、S3、S4、S5、S6。在k个特征维度中,获取小于预测关联度阈值的特征维度聚类后得到的特征维度(即在图3,步骤S101中的第一共性维度);若S1、S2、S3分别对应的特征维度大于预测关联度阈值,S4、S5、S6分别对应的特征维度小于预测关联度阈值,则S4、S5、S6分别对应的特征维度聚类处理后,得到的第一共性维度可以是S7对应的特征维度。第一共性维度,以及大于或等于预测关联度阈值的特征维度,即为N个目标特征维度,即S1、S2、S3、S7分别对应的特征维度。可选的,可以将k个特征维度进行聚类处理后,得到第二共性维度(即在图3,步骤S101中的第二共性维度),确定为N个目标特征维度,即S1、S2、S3、S4、S5、S6分别对应的特征维度进行聚类处理后,得到的S8、S9、S10、S11分别对应的特征维度,S8、S9、S10、S11分别对应的特征维度即为N个目标特征维度。
步骤S202,获取m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于预测概率,从m个漏洞属性类别中确定目标检测结果;m为正整数。
具体的,将所述N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,漏洞检测模型可以输出m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于预测概率,从m个漏洞属性类别中确定目标检测结果,得到所述目标待检测数据对应的目标检测结果。
步骤S203,若目标检测结果为m个漏洞属性类别中的异常检测类别,则对异常检测类别对应的目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。
其中,异常检测类别可以包括恶意属性类别,如高危漏洞。若目标检测结果为异常检测类别,则表示在软件***中存在安全风险,此时,计算机设备可以向漏洞管理设备发送异常消息,对异常检测类别对应的目标待检测数据进行隔离处理,对整个软件***进行预警,提醒漏洞管理设备进行软件版本检查,计算机设备可以查看是否有更高级别的版本进行更新。
具体的,隔离处理可以是对异常检测类别对应的目标待检测数据启用防火墙处理,防火墙可以对异常检测类别对应的目标待检测数据对应的源互联网协议地址(Internet Protocol Address,IP Address)进行拦截处理,或者将异常检测类别对应的目标待检测数据对应的源互联网协议地址放置进如软件***黑名单等。通过对异常检测类别对应的目标待检测数据启用防火墙处理,可以达到快速检测恶意属性类型的对象数据的效果。
在本申请实施例中,获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征,将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果。若目标检测结果为m个漏洞属性类别中的异常检测类别,则对异常检测类别对应的目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。通过采用本申请,可以将检测到的异常检测类别对应的目标待检测数据进行隔离处理,可以减弱异常检测类别对应的目标待检测数据对于软件***的威胁程度,提升软件***整体的安全性。通过采用本申请,可以向漏洞管理设备发送数据异常消息,漏洞管理设备可以将接收到的数据异常消息在互联网上进行发布,可以极大提升对网络安全环境建设的助益。
由于本申请实施例引入了基于预测关联度对初始漏洞检测模型进行调整,因此使得在训练得到的初始漏洞检测模型可以更好地预测出目标样本漏洞数据的漏洞属性类别,进一步地,可以提高恶意属性类别的对象数据检测效果,漏洞检测模型的使用可以减少人力投入与维护成本,节省下来的资源可以更便捷的扩大资产的保护范围。
请参见图7a,图7a是本申请实施例提供的一种用于特征选择的结构示意图。其中,如图7a所示,将如图3步骤S101中的恶意样本集与正常样本集,进行特征维度提取处理,得到恶意样本集对应的恶意样本维度与正常样本集对应的正常样本维度;基于如图3步骤S101中获取的预测关联度,在k个特征维度(即恶意样本维度加正常样本维度)中进行特征选择,选取N个目标特征维度,基于N个目标特征维度进行特征提取,得到目标样本特征。将目标样本特征输入如图3步骤S102中的初始漏洞检测模型,输出预测结果。
请参见图7b,图7b是本申请实施例提供的一种用于攻击响应的流程示意图。其中,如图7b所示,当计算机设备300检测到实际攻击时,可以通过网关设备进行数据收集,将收集到的数据输入漏洞检测模型,由漏洞检测模型对数据进行分类,输出实际攻击数据的漏洞属性类别,并将分类结果向防火墙发送。防火墙可以对分类结果对应的数据进行拦截或者黑名单处理等。通过该套攻击响应流程可以阻止漏洞数据对软件***的攻击,还可以快速检测实际攻击的漏洞属性类别。
其中,网关设备上的数据收集可以采用具有实时抓包或者镜像处理的软件,通过实时抓包可以获取实际攻击中的漏洞数据,镜像处理可以获取实际攻击中与漏洞数据一样的数据副本。
可选的,在漏洞检测模型输出实际攻击数据的漏洞属性类别之后,计算机设备300可以在互联网上对输出的漏洞属性类别进行搜索处理,获取漏洞属性类型相关的特点以及有效防护措施,将获取到的漏洞属性类型相关的特点以及有效防护措施向防火墙进行发送处理。其中,若漏洞属性模型检测出区别与互联网上的该种漏洞属性类别已知特点的新特点,可以将漏洞属性类别的新特点向互联网发送,可以为更多的软件***提高防护,构建更加健全的安全防护网络环境。
可选的,防火墙可以对分类结果对应数据的对应源地址进行拦截或者黑名单处理,通过对漏洞数据源地址的拦截等处理,可以从根源上对漏洞数据进行帅选,增加软件***的安全性。
在本申请实施例中,获取k个特征维度分别与漏洞属性类别的预测关联度,基于所述预测关联度,从所述k个特征维度中获取N个目标特征维度。通过采用本申请,可以更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。
进一步地,请参见图8,图8是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图8所示,该数据处理装置1可以包括:关联度获取模块11、维度获取模块12、特征获取模块13、特征输入模块14以及标签获取模块15。
关联度获取模块11,用于获取k个特征维度分别与漏洞属性类别的预测关联度;
维度获取模块12,用于基于预测关联度,从k个特征维度中获取N个目标特征维度;预测关联度用于表征对应的特征维度的变化,对漏洞属性类别的预测结果的影响程度;
特征获取模块13,用于获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征;
特征输入模块14,用于将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;
标签获取模块15,用于获取目标样本漏洞数据的目标样本标签,基于目标样本预测结果及目标样本标签对初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
其中,关联度获取模块11、维度获取模块12、特征获取模块13、特征输入模块14以及标签获取模块15的具体功能实现方式可以参见上述图3对应实施例中的步骤S101-步骤S103,这里不再进行赘述。
再请参见图8,其中,关联度获取模块11包括:
数据获取单元111,用于获取d个样本漏洞数据及每个样本漏洞数据分别对应的样本标签;d个样本漏洞数据包括目标样本漏洞数据;d为正整数;
比例获取单元112,用于基于d个样本漏洞数据分别对应的样本标签,获取漏洞属性类别的类别比例,基于漏洞属性类别的类别比例确定漏洞属性类别的类别信息量;
信息量确定单元113,用于根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量;i为小于或等于k的正整数;第i个特征维度下的特征状态用于表征d个样本漏洞数据分别在第i个特征维度下的特征的分布情况;
第一关联度确定单元114,用于基于漏洞属性类别的类别信息量与在第i个特征维度下的漏洞属性类别的维度信息量,确定第i个特征维度与漏洞属性类别的预测关联度。
其中,数据获取单元111、比例获取单元112、信息量确定单元113以及第一关联度确定单元114的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图8,其中,特征状态包括第一特征状态及第二特征状态;漏洞属性类别的数量为m;m为正整数;
信息量确定单元113包括:
第一概率确定子单元1131,用于在第i个特征维度的第一特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第一样本标签数量,基于m个第一样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第一特征状态下的第一特征概率;
第二概率确定子单元1132,用于在第i个特征维度的第二特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第二样本标签数量,基于m个第二样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第二特征状态下的第二特征概率;
概率整合子单元1133,用于对m个第一特征概率及m个第二特征概率进行概率整合处理,得到在第i个特征维度下的漏洞属性类别的维度信息量。
其中,第一概率确定子单元1131、第二概率确定子单元1132以及概率整合子单元1133的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图8,其中,关联度获取模块11,还包括:
特征获取单元115,用于获取样本漏洞数据在k个特征维度下分别对应的k个维度待测特征;
维度转换单元116,用于对k个维度待测特征进行维度转换,得到k个特征维度分别对应的k个漏洞集合特征;
特征检测单元117,用于将k个漏洞集合特征分别输入初始漏洞检测模型进行预测,得到k个漏洞集合特征分别针对漏洞属性类别的维度类别概率;
第二关联度确定单元118,用于根据k个漏洞集合特征分别针对漏洞属性类别的维度类别概率,与样本漏洞数据对应的样本标签之间的差异数据,确定k个特征维度分别与漏洞属性类别的预测关联度。
其中,特征获取单元115、维度转换单元116、特征检测单元117以及第二关联度确定单元118的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图8,其中,维度获取模块12包括:
阈值获取单元121,用于获取预测关联度阈值;
维度聚类单元122,用于在k个特征维度中,对小于预测关联度阈值的特征维度,进行聚类处理,得到第一共性维度;
维度确定单元123,用于在第一共性维度,以及大于或等于预测关联度阈值的特征维度之中,确定N个目标特征维度。
其中,阈值获取单元121、维度聚类单元122以及维度确定单元123的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
再请参见图8,其中,特征获取模块13包括:
信息获取单元131,用于获取目标样本漏洞数据的样本数据类型,获取样本数据类型所对应的漏洞信息;
关键字获取单元132,用于基于漏洞信息,从目标样本漏洞数据中获取漏洞关键字;
特征提取单元133,用于在N个目标特征维度下,对漏洞关键字进行特征提取处理,得到目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征。
其中,信息获取单元131、关键字获取单元132以及特征提取单元133的具体功能实现方式可以参见上述图3对应实施例中的步骤S101,这里不再进行赘述。
在本申请实施例中,通过对模拟的恶意属性类别的对象数据进行特征提取与特征选择,可以更精准更快速的进行恶意属性类别的对象数据检测。本申请可以针对恶意属性类别的攻击路径中的核心节点(即高危漏洞)进行检测,可以减少漏洞检测模型的漏洞属性类别检测范围,降低维护成本。本申请通过漏洞检测模型算法进行分类检测,相比基于已知流量攻击进行检测规则的建立、积累与匹配等方法,可以更加智能的检测未知漏洞属性类型的对象数据,随着漏洞检测模型的参数调整,可以提升漏洞属性类型检测的准确度。通过采用本申请,可以更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。
进一步地,请参见图9,图9是本申请实施例提供的一种数据处理装置的结构示意图。上述数据处理装置可以是运行于计算机设备中的一个计算机程序(包括程序代码),例如该数据处理装置为一个应用软件;该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图9所示,该数据处理装置2可以包括:数据获取模块21、漏洞检测模块22以及数据隔离模块23。
数据获取模块21,用于获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从k个特征维度中确定的;
漏洞检测模块22,用于将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果。
再请参见图9,其中,漏洞属性类别的数量为m;m为正整数;
漏洞检测模块22,具体用于获取m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于预测概率,从m个漏洞属性类别中确定目标检测结果。
数据处理装置2还包括:
数据隔离模块23,用于若目标检测结果为m个漏洞属性类别中的异常检测类别,则对异常检测类别对应的目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。
其中,数据获取模块21、漏洞检测模块22以及数据隔离模块23的具体功能实现方式可以参见上述图6对应实施例中的步骤S201-步骤S203,这里不再进行赘述。
在本申请实施例中,通过对模拟的恶意属性类别的对象数据进行特征提取与特征选择,可以更精准更快速的进行恶意属性类别的对象数据检测。本申请可以针对恶意属性类别的攻击路径中的核心节点(即高危漏洞)进行检测,可以减少漏洞检测模型的漏洞属性类别检测范围,降低维护成本。本申请通过漏洞检测模型算法进行分类检测,相比基于已知流量攻击进行检测规则的建立、积累与匹配等方法,可以更加智能的检测未知漏洞属性类型的对象数据,随着漏洞检测模型的参数调整,可以提升漏洞属性类型检测的准确度。通过采用本申请,可以更加精准的确定漏洞数据与漏洞属性类别之间的关联关系,提高对漏洞数据的漏洞检测效率。
进一步地,请参见图10,图10是本申请实施例提供的一种计算机设备的结构示意图。如图10所示,该计算机设备1000可以包括:至少一个处理器1001,例如CPU,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),网络接口1004可选地可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选地还可以是至少一个位于远离前述处理器1001的存储装置。如图10所示,作为一种计算机存储介质的存储器1005可以包括操作***、网络通信模块、用户接口模块以及设备控制应用程序。
在图10所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取k个特征维度分别与漏洞属性类别的预测关联度,基于预测关联度,从k个特征维度中获取N个目标特征维度;预测关联度用于表征对应的特征维度的变化,对漏洞属性类别的预测结果的影响程度;获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对漏洞属性类别的目标样本预测结果;获取目标样本漏洞数据的目标样本标签,基于目标样本预测结果及目标样本标签对初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
在一个实施例中,处理器1001在将获取k个特征维度分别与漏洞属性类别的预测关联度时,还执行以下步骤:
获取d个样本漏洞数据及每个样本漏洞数据分别对应的样本标签;d个样本漏洞数据包括目标样本漏洞数据;d为正整数;基于d个样本漏洞数据分别对应的样本标签,获取漏洞属性类别的类别比例,基于漏洞属性类别的类别比例确定漏洞属性类别的类别信息量;根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量;i为小于或等于k的正整数;第i个特征维度下的特征状态用于表征d个样本漏洞数据分别在第i个特征维度下的特征的分布情况;基于漏洞属性类别的类别信息量与在第i个特征维度下的漏洞属性类别的维度信息量,确定第i个特征维度与漏洞属性类别的预测关联度。
在一个实施例中,处理器1001在将特征状态包括第一特征状态及第二特征状态;漏洞属性类别的数量为m;m为正整数;
根据第i个特征维度下的特征状态,以及d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量时,还执行以下步骤:
在第i个特征维度的第一特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第一样本标签数量,基于m个第一样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第一特征状态下的第一特征概率;在第i个特征维度的第二特征状态下,基于d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第二样本标签数量,基于m个第二样本标签数量,确定m个漏洞属性类型分别在第i个特征维度的第二特征状态下的第二特征概率;对m个第一特征概率及m个第二特征概率进行概率整合处理,得到在第i个特征维度下的漏洞属性类别的维度信息量。
在一个实施例中,处理器1001在将获取k个特征维度分别与漏洞属性类别的预测关联度时,还执行以下步骤:
获取样本漏洞数据在k个特征维度下分别对应的k个维度待测特征;对k个维度待测特征进行维度转换,得到k个特征维度分别对应的k个漏洞集合特征;将k个漏洞集合特征分别输入初始漏洞检测模型进行预测,得到k个漏洞集合特征分别针对漏洞属性类别的维度类别概率;根据k个漏洞集合特征分别针对漏洞属性类别的维度类别概率,与样本漏洞数据对应的样本标签之间的差异数据,确定k个特征维度分别与漏洞属性类别的预测关联度。
在一个实施例中,处理器1001在将基于预测关联度,从k个特征维度中获取N个目标特征维度时,还执行以下步骤:
获取预测关联度阈值;在k个特征维度中,对小于预测关联度阈值的特征维度,进行聚类处理,得到第一共性维度;在第一共性维度,以及大于或等于预测关联度阈值的特征维度之中,确定N个目标特征维度。
在一个实施例中,处理器1001在将获取目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征时,还执行以下步骤:
获取目标样本漏洞数据的样本数据类型,获取样本数据类型所对应的漏洞信息;基于漏洞信息,从目标样本漏洞数据中获取漏洞关键字;在N个目标特征维度下,对漏洞关键字进行特征提取处理,得到目标样本漏洞数据在N个目标特征维度下分别对应的目标样本漏洞特征。
在一个实施例中,处理器1001获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从k个特征维度中确定的;将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果。
在一个实施例中,处理器1001在将漏洞属性类别的数量为m;m为正整数;
将N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到目标待检测数据对应的目标检测结果时,具体执行以下步骤:
获取m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于预测概率,从m个漏洞属性类别中确定目标检测结果。
在一个实施例中,处理器1001还具体执行以下步骤:
若目标检测结果为m个漏洞属性类别中的异常检测类别,则对异常检测类别对应的目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图2a、图2b、图3、图4、图5、图6、图7a以及图7b所对应实施例中对数据处理方法的描述,也可执行前文图8所对应实施例中对数据处理装置1的描述,也可执行前文图9所对应实施例中对数据处理装置2的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图2a、图2b、图3、图4、图5、图6、图7a以及图7b中各个步骤所提供的数据处理方法,具体可参见上述图2a、图2b、图3、图4、图5、图6、图7a以及图7b各个步骤所提供的实现方式,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
上述计算机可读存储介质可以是前述任一实施例提供的数据处理装置或者上述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备可执行前文图2a、图2b、图3、图4、图5、图6、图7a以及图7b所对应实施例中对数据处理方法的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
本申请实施例的说明书和权利要求书及附图中的术语 “包括”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、装置、产品或设备固有的其他步骤单元。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请实施例提供的方法及相关装置是参照本申请实施例提供的方法流程图和/或结构示意图来描述的,具体可由计算机程序指令实现方法流程图和/或结构示意图的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。这些计算机程序指令可提供到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或结构示意图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或结构示意一个方框或多个方框中指定的功能的步骤。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (12)

1.一种数据处理方法,其特征在于,包括:
获取k个特征维度分别与漏洞属性类别的预测关联度,基于所述预测关联度,从所述k个特征维度中获取N个目标特征维度;所述预测关联度用于表征对应的特征维度,对所述漏洞属性类别的预测结果的影响程度;所述特征维度用于表示漏洞数据的一个特征属性所对应的维度,所述漏洞数据对应k个特征属性,所述漏洞数据的漏洞特征包括所述漏洞数据在所述k个特征属性下的特征,一个特征属性下的特征对应一个特征维度,k为正整数;
获取目标样本漏洞数据在所述N个目标特征维度下分别对应的目标样本漏洞特征,将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对所述漏洞属性类别的目标样本预测结果;所述目标样本漏洞数据是一种漏洞数据;
获取所述目标样本漏洞数据的目标样本标签,基于所述目标样本预测结果及所述目标样本标签对所述初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取k个特征维度分别与漏洞属性类别的预测关联度,包括:
获取d个样本漏洞数据及每个样本漏洞数据分别对应的样本标签;所述d个样本漏洞数据包括所述目标样本漏洞数据;d为正整数;
基于所述d个样本漏洞数据分别对应的样本标签,获取所述漏洞属性类别的类别比例,基于所述漏洞属性类别的类别比例确定所述漏洞属性类别的类别信息量;
根据第i个特征维度下的特征状态,以及所述d个样本漏洞数据分别对应的样本标签,确定在所述第i个特征维度下的漏洞属性类别的维度信息量;i为小于或等于k的正整数;所述第i个特征维度下的特征状态用于表征所述d个样本漏洞数据分别在所述第i个特征维度下的特征的分布情况;
基于所述漏洞属性类别的类别信息量与在所述第i个特征维度下的漏洞属性类别的维度信息量,确定所述第i个特征维度与所述漏洞属性类别的预测关联度。
3.根据权利要求2所述的方法,其特征在于,所述特征状态包括第一特征状态及第二特征状态;所述漏洞属性类别的数量为m;m为正整数;所述根据第i个特征维度下的特征状态,以及所述d个样本漏洞数据分别对应的样本标签,确定在第i个特征维度下的漏洞属性类别的维度信息量,包括:
在所述第i个特征维度的所述第一特征状态下,基于所述d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第一样本标签数量,基于m个第一样本标签数量,确定所述m个漏洞属性类型分别在所述第i个特征维度的所述第一特征状态下的第一特征概率;
在所述第i个特征维度的所述第二特征状态下,基于所述d个样本漏洞数据分别对应的样本标签,确定m个漏洞属性类别分别对应的第二样本标签数量,基于m个第二样本标签数量,确定所述m个漏洞属性类型分别在所述第i个特征维度的所述第二特征状态下的第二特征概率;
对m个第一特征概率及m个第二特征概率进行概率整合处理,得到在所述第i个特征维度下的漏洞属性类别的维度信息量。
4.根据权利要求1所述的方法,其特征在于,所述获取k个特征维度分别与漏洞属性类别的预测关联度,包括:
获取样本漏洞数据在所述k个特征维度下分别对应的k个维度待测特征;
对所述k个维度待测特征进行维度转换,得到所述k个特征维度分别对应的k个漏洞集合特征;
将所述k个漏洞集合特征分别输入所述初始漏洞检测模型进行预测,得到所述k个漏洞集合特征分别针对所述漏洞属性类别的维度类别概率;
根据所述k个漏洞集合特征分别针对所述漏洞属性类别的维度类别概率,与所述样本漏洞数据对应的样本标签之间的差异数据,确定所述k个特征维度分别与所述漏洞属性类别的预测关联度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述预测关联度,从所述k个特征维度中获取N个目标特征维度,包括:
获取预测关联度阈值;
在所述k个特征维度中,对小于所述预测关联度阈值的特征维度,进行聚类处理,得到第一共性维度;
在所述第一共性维度,以及大于或等于所述预测关联度阈值的特征维度之中,确定N个目标特征维度。
6.根据权利要求1所述的方法,其特征在于,所述获取目标样本漏洞数据在所述N个目标特征维度下分别对应的目标样本漏洞特征,包括:
获取所述目标样本漏洞数据的样本数据类型,获取所述样本数据类型所对应的漏洞信息;
基于所述漏洞信息,从所述目标样本漏洞数据中获取漏洞关键字;
在所述N个目标特征维度下,对所述漏洞关键字进行特征提取处理,得到所述目标样本漏洞数据在所述N个目标特征维度下分别对应的目标样本漏洞特征。
7.一种数据处理方法,其特征在于,包括:
获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;所述N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从所述k个特征维度中确定的;所述预测关联度用于表征对应的特征维度,对所述漏洞属性类别的预测结果的影响程度;所述特征维度用于表示漏洞数据的一个特征属性所对应的维度,所述漏洞数据对应k个特征属性,所述漏洞数据的漏洞特征包括所述漏洞数据在所述k个特征属性下的特征,一个特征属性下的特征对应一个特征维度,k为正整数;
将所述N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到所述目标待检测数据对应的目标检测结果;所述漏洞检测模型是基于对N个目标样本漏洞特征的目标样本预测结果,与目标样本漏洞数据的目标样本标签进行训练得到的;所述N个目标样本漏洞特征是所述目标样本漏洞数据在所述N个目标特征维度下分别对应的特征。
8.根据权利要求7所述的方法,其特征在于,所述漏洞属性类别的数量为m;m为正整数;所述将所述N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到所述目标待检测数据对应的目标检测结果,包括:
获取m个漏洞属性类别以及每个漏洞属性类别对应的预测概率,基于所述预测概率,从所述m个漏洞属性类别中确定所述目标检测结果;
所述方法,还包括:
若所述目标检测结果为所述m个漏洞属性类别中的异常检测类别,则对所述异常检测类别对应的所述目标待检测数据进行隔离处理,向漏洞管理设备发送数据异常消息。
9.一种数据处理装置,其特征在于,包括:
关联度获取模块,用于获取k个特征维度分别与漏洞属性类别的预测关联度;
维度获取模块,用于基于所述预测关联度,从所述k个特征维度中获取N个目标特征维度;所述预测关联度用于表征对应的特征维度,对所述漏洞属性类别的预测结果的影响程度;所述特征维度用于表示漏洞数据的一个特征属性所对应的维度,所述漏洞数据对应k个特征属性,所述漏洞数据的漏洞特征包括所述漏洞数据在所述k个特征属性下的特征,一个特征属性下的特征对应一个特征维度,k为正整数;
特征获取模块,用于获取目标样本漏洞数据在所述N个目标特征维度下分别对应的目标样本漏洞特征;
特征输入模块,用于将N个目标样本漏洞特征输入初始漏洞检测模型中进行预测,得到针对所述漏洞属性类别的目标样本预测结果;所述目标样本漏洞数据是一种漏洞数据;
标签获取模块,用于获取所述目标样本漏洞数据的目标样本标签,基于所述目标样本预测结果及所述目标样本标签对所述初始漏洞检测模型进行参数调整,得到用于进行漏洞属性类别检测的漏洞检测模型。
10.一种数据处理装置,其特征在于,包括:
数据获取模块,用于获取目标待检测数据在N个目标特征维度下分别对应的目标待检测特征;所述N个目标特征维度是基于k个特征维度分别与漏洞属性类别的预测关联度,从所述k个特征维度中确定的;所述预测关联度用于表征对应的特征维度,对所述漏洞属性类别的预测结果的影响程度;所述特征维度用于表示漏洞数据的一个特征属性所对应的维度,所述漏洞数据对应k个特征属性,所述漏洞数据的漏洞特征包括所述漏洞数据在所述k个特征属性下的特征,一个特征属性下的特征对应一个特征维度,k为正整数;
漏洞检测模块,用于将所述N个目标特征维度下分别对应的目标待检测特征输入漏洞检测模型进行漏洞检测,得到所述目标待检测数据对应的目标检测结果;所述漏洞检测模型是基于对N个目标样本漏洞特征的目标样本预测结果,与目标样本漏洞数据的目标样本标签进行训练得到的;所述N个目标样本漏洞特征是所述目标样本漏洞数据在所述N个目标特征维度下分别对应的特征。
11.一种计算机设备,其特征在于,包括:处理器、存储器以及网络接口;
所述处理器与所述存储器、所述网络接口相连,其中,所述网络接口用于提供数据通信功能,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行权利要求1-6任一项所述的方法,或者执行权利要求7-8任一项所述的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行权利要求1-6任一项所述的方法,或者执行权利要求7-8任一项所述的方法。
CN202210310556.5A 2022-03-28 2022-03-28 数据处理方法、装置、设备及可读存储介质 Active CN114422271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210310556.5A CN114422271B (zh) 2022-03-28 2022-03-28 数据处理方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210310556.5A CN114422271B (zh) 2022-03-28 2022-03-28 数据处理方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114422271A CN114422271A (zh) 2022-04-29
CN114422271B true CN114422271B (zh) 2022-07-08

Family

ID=81264033

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210310556.5A Active CN114422271B (zh) 2022-03-28 2022-03-28 数据处理方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114422271B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115225336B (zh) * 2022-06-24 2023-08-08 中国人民解放军国防科技大学 一种面向网络环境的漏洞可利用性的计算方法及装置
CN115277198A (zh) * 2022-07-27 2022-11-01 西安热工研究院有限公司 一种工控***网络的漏洞检测方法、装置及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109255241B (zh) * 2018-08-31 2022-04-22 国鼎网络空间安全技术有限公司 基于机器学习的Android权限提升漏洞检测方法及***
US11729198B2 (en) * 2020-05-21 2023-08-15 Tenable, Inc. Mapping a vulnerability to a stage of an attack chain taxonomy
CN111949994A (zh) * 2020-08-19 2020-11-17 北京紫光展锐通信技术有限公司 漏洞分析方法及***、电子设备及存储介质
CN113032792B (zh) * 2021-04-12 2023-09-19 ***通信集团陕西有限公司 ***业务漏洞检测方法、***、设备及存储介质

Also Published As

Publication number Publication date
CN114422271A (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
Wu et al. Network attacks detection methods based on deep learning techniques: a survey
CN114422271B (zh) 数据处理方法、装置、设备及可读存储介质
CN112468520B (zh) 一种数据检测方法、装置、设备及可读存储介质
CN111538929B (zh) 网络链接识别方法、装置、存储介质及电子设备
WO2011032094A1 (en) Extracting information from unstructured data and mapping the information to a structured schema using the naive bayesian probability model
CN105516196A (zh) 基于http报文数据的并行化网络异常检测方法与***
Dash et al. Are ChatGPT and deepfake algorithms endangering the cybersecurity industry? A review
CN112600834B (zh) 内容安全识别方法及装置、存储介质和电子设备
Idrissi et al. An unsupervised generative adversarial network based-host intrusion detection system for internet of things devices
CN114422211B (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN115080756B (zh) 一种面向威胁情报图谱的攻防行为和时空信息抽取方法
CN113704328B (zh) 基于人工智能的用户行为大数据挖掘方法及***
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN112733057A (zh) 网络内容安全检测方法、电子装置和存储介质
CN117454380B (zh) 恶意软件的检测方法、训练方法、装置、设备及介质
Chen et al. Using adversarial examples to bypass deep learning based url detection system
CN117729003A (zh) 基于机器学习的威胁情报可信分析***及方法
CN115378619A (zh) 敏感数据访问方法及电子设备、计算机可读存储介质
CN116800518A (zh) 一种网络防护策略的调整方法及装置
CN116633804A (zh) 网络流量检测模型的建模方法、防护方法及相关设备
CN114328818A (zh) 文本语料处理方法、装置、存储介质及电子设备
CN115410201A (zh) 一种验证码字符处理方法、装置和相关设备
CN115550014B (zh) 应用程序防护方法及相关设备
CN115913688B (zh) 一种网络数据安全监听方法、装置、设备及存储介质
CN117633665B (zh) 一种网络数据监控方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant