CN115001791A - 攻击资源标注方法及装置 - Google Patents

攻击资源标注方法及装置 Download PDF

Info

Publication number
CN115001791A
CN115001791A CN202210592354.4A CN202210592354A CN115001791A CN 115001791 A CN115001791 A CN 115001791A CN 202210592354 A CN202210592354 A CN 202210592354A CN 115001791 A CN115001791 A CN 115001791A
Authority
CN
China
Prior art keywords
attack
entity set
resource
entities
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210592354.4A
Other languages
English (en)
Other versions
CN115001791B (zh
Inventor
鲍青波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202210592354.4A priority Critical patent/CN115001791B/zh
Publication of CN115001791A publication Critical patent/CN115001791A/zh
Application granted granted Critical
Publication of CN115001791B publication Critical patent/CN115001791B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种攻击资源标注方法,涉及大数据与人工智能领域。该方法包括:获取人工标记攻击实体集;根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集;根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集;根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型;根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。采用本方法能够提高对攻击资源进行自动化标注的效率。

Description

攻击资源标注方法及装置
技术领域
本公开涉及大数据与人工智能技术领域,尤其涉及一种攻击资源标注方法、装置、电子设备及可读存储介质。
背景技术
APT(Advanced Persistent Threat,高级可持续威胁)等攻击组织的新型攻击手段层出不穷,这些攻击通过技术手段进行隐蔽、伪装来逃避常规的检测手段,尤其是针对关键基础设施的攻击或重要行业数据进行窃取,危害很大。
针对一些大型或关键目标的攻击往往具有团伙攻击的特点,无论是APT攻击还是勒索攻击等团伙攻击模式,在分析团伙行为时,需要将攻击者基础设施,攻击样本,IP,域名,以及恶意URL等进行全关联分析,发现其攻击模式的相似性或共现性等特点。针对这些关联特征进行分析,从而将多起告警事件进行聚合分析标注,以确定团伙攻击行为。
现有技术,首先获取目标IP的至少一个特征,然后生成该目标IP的特征集,再将目标IP的特征集输入预先训练好的目标识别模型,以此识别目标IP是否为攻击IP。但是当针对一起未知攻击组织的分析时,由于特征是未知的,所以无法使用常用的相似性特征、家族特征等自动分析手段分析,从而无法通过现有技术的手段识别攻击IP,这时通常只能采用人工分析的方法,但是仅靠人工分析标注,效率是很低的。
综上,在人机交互模式下,如何提高对攻击资源进行自动化标注的效率是当前亟需解决的问题。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种攻击资源标注方法,解决了攻击资源标注效率低问题。
为了实现上述目的,本公开实施例提供技术方案如下:
第一方面,本公开的实施例提供一种攻击资源标注方法,所述方法包括:
获取人工标记攻击实体集;
根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集;
根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集;
根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型;
根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。
作为本公开实施例一种可选的实施方式,在获取人工标记攻击实体集之前,所述方法还包括:
构建攻击资源关联图谱;所述攻击资源关联图谱的攻击实体包括:网际互连协议IP、域名、恶意样本文件的唯一标识、统一资源定位符URL中的至少一种实体。
作为本公开实施例一种可选的实施方式,所述获取人工标记攻击实体集,包括:
对所述攻击资源关联图谱中的至少两个攻击实体标注两种标签类型,获取人工标记攻击实体集;
其中,所述攻击实体的标签类型包括:恶意攻击实体以及非恶意攻击实体。
作为本公开实施例一种可选的实施方式,所述根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集,包括:
根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,生成攻击资源标注预测模型;
根据所述攻击资源标注预测模型,获取当前未标注实体的标签类型以及当前未标注实体的标签类型对应的概率;
根据所述当前未标注实体集的标签类型的概率进行排序,获取推荐攻击实体集。
作为本公开实施例一种可选的实施方式,所述根据所述当前未标注实体的标签类型的概率进行排序,获取推荐攻击实体集,包括:
根据所述当前未标注实体的恶意标签类型对应的概率由大到小依次排序,获取推荐攻击实体集。
作为本公开实施例一种可选的实施方式,所述方法还包括:
根据各种攻击实体之间的关联关系和各种攻击实体的属性信息训练所述攻击资源标注预测模型。
作为本公开实施例一种可选的实施方式,所述攻击实体的属性信息包括:
IP的地理信息、IP的C段信息、子域名以及域名信息。
第二方面,本公开实施例提供一种攻击资源标注装置,包括:
获取模块,用于获取人工标记攻击实体集;
推荐模块,用于根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集;
确定模块,用于根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集;
分析模块,用于根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型;
输出模块,用于根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。
作为本公开实施例一种可选的实施方式,所述装置还包括:构建模块,所述构建模块具体用于:
构建攻击资源关联图谱;所述攻击资源关联图谱的攻击实体包括:网际互连协议IP、域名、恶意样本文件的唯一标识、统一资源定位符URL中的至少一种实体。
作为本公开实施例一种可选的实施方式,所述获取模块,具体用于:
对所述攻击资源关联图谱中的至少两个攻击实体标注两种标签类型,获取人工标记攻击实体集;
其中,所述攻击实体的标签类型包括:恶意攻击实体以及非恶意攻击实体。
作为本公开实施例一种可选的实施方式,所述推荐模块,具体用于:
生成单元,用于根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,生成攻击资源标注预测模型;
概率单元,用于根据所述攻击资源标注预测模型,获取当前未标注实体的标签类型以及当前未标注实体的标签类型对应的概率;
排序单元,用于根据所述当前未标注实体集的标签类型的概率进行排序,获取推荐攻击实体集。
作为本公开实施例一种可选的实施方式,所述排序单元,具体用于:
根据所述当前未标注实体的恶意标签类型对应的概率由大到小依次排序,获取推荐攻击实体集。
作为本公开实施例一种可选的实施方式,所述装置还包括训练模块,所述训练模块用于:
根据各种攻击实体之间的关联关系和各种攻击实体的属性信息训练所述攻击资源标注预测模型。
作为本公开实施例一种可选的实施方式,所述攻击实体的属性信息包括:IP的地理信息、IP的C段信息、子域名以及域名信息。
第三方面,本公开实施例提供一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面或第一方面的任一实施方式所述的攻击资源标注方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面或第一方面的任一实施方式所述的攻击资源标注方法。
本公开提供的攻击资源标注方法,首先获取人工标记攻击实体集,然后根据图神经网络算法对人工标记实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集,再根据人工标记实体集和推荐攻击实体集,获取当前标记攻击实体集,接着根据当前已标记攻击实体集以及当前未标记攻击实体集对攻击资源标注模型进行半监督训练,直到满足预设条件为止,将满足预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型,最后根据目标攻击资源标注预测模型,输出所有攻击实体的标注结果。由于本公开仅利用少量人工标记攻击实体,基于半监督机器学习方法,经过多次迭代,对其他未标注的攻击实体进行人机协同分析和标注,因此在获取标注结果的迭代过程中能够结合人工分析和自动化分析两方面的优点,从而不仅提高了对攻击资源进行标注的效率,也提高了标注结果的准确率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一个实施例中攻击资源标注方法的流程示意图;
图2为一个实施例中攻击资源标注方法的攻击资源关联图谱示意图;
图3为另一个实施例中攻击资源标注方法的流程示意图;
图4为一个实施例中攻击资源标注装置的结构示意图;
图5为本公开实施例所述的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
本公开的说明书和权利要求书中的术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
在本公开实施例中,“示例性的”或者“例如”等词是用于表示作例子、例证或说明。本公开实施例中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言,使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。此外,在本公开实施例的描述中,除非另有说明,“多个”的含义是指两个或两个以上。
本公开实施例的整体构思为:本公开在对攻击资源关联图谱进行人机交互分析时,结合人工标注的少量实体及标签,基于半监督机器学习方法,对其它未标注的攻击资源实体进行自动化的学习和标注,提高对攻击资源进行自动化标注的效率。
在一个实施例中,如图1所示,提供一种攻击资源标注方法,包括如下步骤:
S11、获取人工标记攻击实体集。
具体的,在获取人工标记攻击实体集之前,构建攻击资源关联图谱。对于团伙攻击所用的攻击资源,分析的目标是将该攻击资源实体标注为“恶意”类型的标签,找到所有该团伙攻击行为的所有“恶意”标签的攻击资源实体则完成了分析过程。然而,在初始形成攻击资源关联图谱时,图上的每个实体并没有恶意或非恶意的标注,需要依赖人工分析研判打上标签。
在一些实施例中,步骤S11(获取人工标记攻击实体集)的实现方式可以包括:
对所述攻击资源关联图谱中的至少两个攻击实体标注两种标签类型,获取人工标记攻击实体集。
其中,攻击实体的标签类型包括:恶意攻击实体以及非恶意攻击实体。例如,用1代表“恶意”,0代表“非恶意”。
具体的,假设攻击资源关联图谱上的攻击实体共有N个,随机选取其中2个或者多个实体,对其进行人工分析,直到有“1”和“0”两类标签都已有对应实体标注上,则完成人工标注过程。
示例性的,参照图2所示的关联图为例,其上共有7个攻击资源实体及对应的关联关系,其中两个实体已经作好了人工标注,其中domain1被标注为“1”,“1”表示“恶意攻击实体”;IP1被标注为“0”,“0”表示“非恶意攻击实体”。
S12、根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集。
具体的,半监督学习使用的大量的未标记攻击实体,以及同时使用标记攻击实体,对当前未标注的攻击实体进行标注类型划分,即,本公开实施例构建攻击资源标注预测模型,并使用已标记攻击实体和未标记攻击实体进行联合训练,根据对未标注的攻击实体的划分结果进行推荐,例如,针对划分为“恶意”类别的攻击实体,结合其属性信息转化成对应的概率值,根据概率值的大小进行推荐,获取推荐攻击实体集。
由于一个攻击资源关联图谱上的攻击实体通常较多,有上百个甚至多达上千个或者更多,显然对所有实体进行人工打标签是不现实的,效率会非常低。所以结合上一步人工标记的少量实体进行自动化学习标注能提升攻击实体标注的效率。
S13、根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集。
具体的,例如人工标记攻击实体集包含2个攻击实体,推荐攻击实体集包含5个攻击实体,从而得到当前已标记攻击实体集包含7个攻击实体。
S14、根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型。
在一些实施例中,假设开始有2个攻击实体被人工标记,其中一个被标记为“恶意”,一个被标记为“非恶意”,然后利用图神经网络、已标记的攻击实体与未标记的攻击实体进行半监督学习训练,获取其余未标记实体的划分结果,根据未标记实体中被划分为“恶意”类型的攻击实体的概率值的大小排序,获取5个推荐攻击实体,此时这5个攻击实体已经有各自的标签,专家对这5个攻击实体进行分析确认,判断标签是否标注正确。如果标注正确,则利用已标记的7个攻击实体再次对其余攻击实体进行预测,理论上这次输入的标记数据更多,分类标注结果会更准确,再根据概率排序得到5个推荐攻击实体,进行人工确认,然后利用上面12个已标记的攻击实体预测其余攻击实体,直到专家认为继续迭代下去没有意义,此时可以理解为预测模型已经训练达到最优效果,停止迭代。另外,需要说明的是,如果推荐攻击实体集中的攻击实体的预测结果不准确,专家可以人为对预测结果进行修正。
S15、根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。
具体的,经过多轮交互迭代过程,人工分析确认的攻击实体逐步清晰,则可形成最终的分析结果,即,形成目标攻击资源标注预测模型,输出所有攻击资源的标注结果,将标注结果进行反馈或保存,并结束分析阶段。
应该用本公开实施例提供的攻击资源标注方法,首先获取人工标记攻击实体集,然后根据图神经网络算法对人工标记实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集,再根据人工标记实体集和推荐攻击实体集,获取当前标记攻击实体集,接着根据当前已标记攻击实体集以及当前未标记攻击实体集对攻击资源标注模型进行半监督训练,直到满足预设条件为止,将满足预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型,最后根据目标攻击资源标注预测模型,输出所有攻击实体的标注结果。由于本公开仅利用少量人工标记攻击实体,基于半监督机器学习方法,经过多次迭代,对其他未标注的攻击实体进行人机协同分析和标注,因此在获取标注结果的迭代过程中能够结合人工分析和自动化分析两方面的优点,从而不仅提高了对攻击资源进行标注的效率,也提高了标注结果的准确率。
在一些实施例中,参照图3所示,在图1的基础上,执行步骤S11(获取人工标记攻击实体集)之前,还可以执行如下步骤:
S10、构建攻击资源关联图谱。
其中,攻击资源关联图谱的攻击实体包括:网际互连协议IP、域名、恶意样本文件的唯一标识、统一资源定位符URL中的至少一种实体。
具体的,开展攻击资源实体全关联分析时,通常以图谱的形式展示其关联关系,将具有团伙攻击行为的攻击资源实体展示在一张图上,图谱的生成通常由探针上报的事件告警数据进行构建,并结合外部情报或知识数据,关联其他攻击资源实体。
另外,恶意样本文件的唯一标识可以是MD5(Message-Digest Algorithm 5,消息摘要算法第五版)值,MD5为计算机安全领域广泛使用的一种散列函数,用以提供消息的完整性保护。MD5值可以理解为文件的ID,它的值是唯一的。如果文件已被修改,例如被嵌入式病毒、特洛伊木马等攻击,其MD5值将发生变化。例如文件可以是视频文件、音频文件、图像序列帧文件或者其他任何类型的文件。
在一些实施例中,步骤S12(根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集)的实现方式可以包括:
a、根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,生成攻击资源标注预测模型。
b、根据所述攻击资源标注预测模型,获取当前未标注实体的标签类型以及当前未标注实体的标签类型对应的概率。
c、根据所述当前未标注实体集的标签类型的概率进行排序,获取推荐攻击实体集。
其中,推荐攻击实体集包括:预设数量个推荐攻击资源实体。
在一些实施例中,步骤b(根据所述当前未标注实体集的标签类型的概率进行排序,获取推荐攻击实体集)的实现方式可以包括:
根据所述当前未标注实体的恶意标签类型对应的概率由大到小依次排序,获取推荐攻击实体集。
示例性的,全连接层通过函数转换输出多个攻击实体的预测概率值,例如,IP1,90%是恶意攻击实体;domain1,95%是恶意攻击实体;domain2,40%是恶意攻击实体;IP2,88%是恶意攻击实体;IP3,80%是恶意攻击实体;URL1,10%是恶意攻击实体;URL2,85%是恶意攻击实体。按照概率值由大到小依次排序,domain1>IP1>IP2>URL2>IP3>domain2>URL1。因此,假设预设数量是5,那么推荐攻击实体集包含5个推荐攻击实体,分别为:domain1、IP1、IP2、URL2、IP3。
在一些实施例中,还可以执行如下步骤:
根据各种攻击实体之间的关联关系和各种攻击实体的属性信息训练所述攻击资源标注预测模型。
具体的,本公开实施例中采用图神经网络算法(GCN,Graph convolutionNetwork)进行学习标注。GCN是谱图卷积的一阶局部近似,是一个多层的图卷积神经网络,每一个卷积层仅处理一阶邻域信息,通过叠加若干卷积层可以实现多阶邻域的信息传递。攻击资源关联图谱包括多个攻击资源实体及对应的关联关系。例如IP与domain之间的DNS解析关系,domain与URL之间的包含关系,IP与IP之间的同C段关系等。通过运行GCN模型,并设置对应的嵌入层,则可以对攻击实体进行划分,其利用的属性信息包括节点攻击资源类型属性以及在关联图谱上的拓扑特征。
在一些实施例中,攻击实体的属性信息可以包括:
IP的地理信息、IP的C段信息、子域名以及域名信息。
其中,①IP的地理信息包括:国家、地区、城市、邮政编码、纬度、经度等。②IP的C段信息:例如,有一个IP是199.87.232.11,那么199就是A段上面的数字,87是B段上面的数字,232是C段上面的数字,11是D段上面的数字。③子域名用于计算机数据传输时标识计算机的电子方位。例如,对于***.com以及www.***.com是该域名对应的子域名,www是对应的主机头。④域名信息是用来查询域名的IP以及所有者等信息的传输协议。不同的域名后缀的域名信息需要到不同的域名数据库查询,每一个域名或IP的域名信息由对应的管理机构保存。例如,域名信息就是用来查询域名是否已经被注册,以及注册域名的详细信息的数据库。
具体的,IP的地理信息、IP的C段信息、子域名以及域名信息,通过特定的嵌入层参与深度学习过程。
应该用本公开实施例提供的攻击资源标注方法,首先获取人工标记攻击实体集,然后根据图神经网络算法对人工标记实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集,再根据人工标记实体集和推荐攻击实体集,获取当前标记攻击实体集,接着根据当前已标记攻击实体集以及当前未标记攻击实体集对攻击资源标注模型进行半监督训练,直到满足预设条件为止,将满足预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型,最后根据目标攻击资源标注预测模型,输出所有攻击实体的标注结果。由于本公开仅利用少量人工标记攻击实体,基于半监督机器学习方法,经过多次迭代,对其他未标注的攻击实体进行人机协同分析和标注,因此在获取标注结果的迭代过程中能够结合人工分析和自动化分析两方面的优点,从而不仅提高了对攻击资源进行标注的效率,也提高了标注结果的准确率。
在一个实施例中,如图4所示,提供了一种攻击资源标注装置400,包括:
获取模块410,用于获取人工标记攻击实体集;
推荐模块420,用于根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集;
确定模块430,用于根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集;
分析模块440,用于根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型;
输出模块450,用于根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。
作为本公开实施例一种可选的实施方式,所述装置还包括:构建模块,所述构建模块具体用于:
构建攻击资源关联图谱;所述攻击资源关联图谱的攻击实体包括:网际互连协议IP、域名、恶意样本文件的唯一标识、统一资源定位符URL中的至少一种实体。
作为本公开实施例一种可选的实施方式,所述获取模块410,具体用于:
对所述攻击资源关联图谱中的至少两个攻击实体标注两种标签类型,获取人工标记攻击实体集;
其中,所述攻击实体的标签类型包括:恶意攻击实体以及非恶意攻击实体。
作为本公开实施例一种可选的实施方式,所述推荐模块420,具体用于:
生成单元,用于根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,生成攻击资源标注预测模型;
概率单元,用于根据所述攻击资源标注预测模型,获取当前未标注实体的标签类型以及当前未标注实体的标签类型对应的概率;
排序单元,用于根据所述当前未标注实体集的标签类型的概率进行排序,获取推荐攻击实体集。
作为本公开实施例一种可选的实施方式,所述排序单元,具体用于:
根据所述当前未标注实体的恶意标签类型对应的概率由大到小依次排序,获取推荐攻击实体集。
作为本公开实施例一种可选的实施方式,所述装置还包括训练模块,所述训练模块用于:
根据各种攻击实体之间的关联关系和各种攻击实体的属性信息训练所述攻击资源标注预测模型。
作为本公开实施例一种可选的实施方式,所述攻击实体的属性信息包括:IP的地理信息、IP的C段信息、子域名以及域名信息。
应用本公开实施例提供的攻击资源标注装置,首先获取人工标记攻击实体集,然后根据图神经网络算法对人工标记实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集,再根据人工标记实体集和推荐攻击实体集,获取当前标记攻击实体集,接着根据当前已标记攻击实体集以及当前未标记攻击实体集对攻击资源标注模型进行半监督训练,直到满足预设条件为止,将满足预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型,最后根据目标攻击资源标注预测模型,输出所有攻击实体的标注结果。由于本公开仅利用少量人工标记攻击实体,基于半监督机器学习方法,经过多次迭代,对其他未标注的攻击实体进行人机协同分析和标注,因此在获取标注结果的迭代过程中能够结合人工分析和自动化分析两方面的优点,从而不仅提高了对攻击资源进行标注的效率,也提高了标注结果的准确率。
关于攻击资源标注装置的具体限定可以参见上文中对于攻击资源标注方法的限定,在此不再赘述。上述攻击资源标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备的处理器中,也可以软件形式存储于电子设备的处理器中,以便于处理器调用执行以上各个模块对应的操作。
本公开实施例还提供了一种电子设备,图5为本公开实施例提供的电子设备的结构示意图。如图5所示,本实施例提供的电子设备包括:存储器51和处理器52,存储器51用于存储计算机程序;处理器52用于调用计算机程序时执行上述方法实施例提供的攻击资源标注方法中任一实施例所执行的步骤。所述电子设备包括通过***总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,所述电子设备的处理器用于提供计算和控制能力。所述电子设备的存储器包括非易失性存储介质、内存储器。所述非易失性存储介质存储有操作***和计算机程序。所述内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。所述计算机程序被处理器执行时以实现一种攻击资源标注方法。所述电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,所述电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开方案相关的部分结构的框图,并不构成对本公开方案所应用于其上的计算机设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本公开提供的攻击资源标注装置可以实现为一种计算机的形式,计算机程序可以在如图5所示的电子设备上运行。电子设备的存储器中可存储组成该电子设备的攻击资源标注装置的各个程序模块,比如,图4中所示的获取模块410、推荐模块420、确定模块430、分析模块440以及输出模块450。各个程序模块构成的计算机程序使得处理器执行本说明书描述的本公开各个实施例的电子设备的攻击资源标注方法中的步骤。
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述方法实施例提供的攻击资源标注方法。
本领域技术人员应明白,本公开的实施例可提供为方法、***、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。
处理器可以是中央判断单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field-ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动存储介质。存储介质可以由任何方法或技术来实现信息存储,信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。根据本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种攻击资源标注方法,其特征在于,包括:
获取人工标记攻击实体集;
根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集;
根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集;
根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型;
根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。
2.根据权利要求1所述的方法,其特征在于,在获取人工标记攻击实体集之前,所述方法还包括:
构建攻击资源关联图谱;所述攻击资源关联图谱的攻击实体包括:网际互连协议IP、域名、恶意样本文件的唯一标识、统一资源定位符URL中的至少一种实体。
3.根据权利要求2所述的方法,其特征在于,所述获取人工标记攻击实体集,包括:
对所述攻击资源关联图谱中的至少两个攻击实体标注两种标签类型,获取人工标记攻击实体集;
其中,所述攻击实体的标签类型包括:恶意攻击实体以及非恶意攻击实体。
4.根据权利要求1所述的方法,其特征在于,所述根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集,包括:
根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,生成攻击资源标注预测模型;
根据所述攻击资源标注预测模型,获取当前未标注实体的标签类型以及当前未标注实体的标签类型对应的概率;
根据所述当前未标注实体集的标签类型的概率进行排序,获取推荐攻击实体集。
5.根据权利要求4所述的方法,其特征在于,所述根据所述当前未标注实体的标签类型的概率进行排序,获取推荐攻击实体集,包括:
根据所述当前未标注实体的恶意标签类型对应的概率由大到小依次排序,获取推荐攻击实体集。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据各种攻击实体之间的关联关系和各种攻击实体的属性信息训练所述攻击资源标注预测模型。
7.根据权利要求6所述的方法,其特征在于,所述攻击实体的属性信息包括:
IP的地理信息、IP的C段信息、子域名以及域名信息。
8.一种攻击资源标注装置,其特征在于,包括:
获取模块,用于获取人工标记攻击实体集;
推荐模块,用于根据图神经网络算法对所述人工标记攻击实体集以及当前未标记攻击实体集进行半监督学习训练,获取推荐攻击实体集;
确定模块,用于根据所述人工标记攻击实体集和所述推荐攻击实体集,获取当前已标记攻击实体集;
分析模块,用于根据所述当前已标记攻击实体集以及当前未标记攻击实体集对所述攻击资源标注预测模型进行半监督训练,直至满足预设条件为止,将满足所述预设条件时的攻击资源标注预测模型作为目标攻击资源标注预测模型;
输出模块,用于根据所述目标攻击资源标注预测模型,输出所有攻击实体的标注结果。
9.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的攻击资源标注方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,计算机程序被处理器执行时实现权利要求1-7中任一项所述的攻击资源标注方法。
CN202210592354.4A 2022-05-27 2022-05-27 攻击资源标注方法及装置 Active CN115001791B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210592354.4A CN115001791B (zh) 2022-05-27 2022-05-27 攻击资源标注方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210592354.4A CN115001791B (zh) 2022-05-27 2022-05-27 攻击资源标注方法及装置

Publications (2)

Publication Number Publication Date
CN115001791A true CN115001791A (zh) 2022-09-02
CN115001791B CN115001791B (zh) 2024-02-06

Family

ID=83028951

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210592354.4A Active CN115001791B (zh) 2022-05-27 2022-05-27 攻击资源标注方法及装置

Country Status (1)

Country Link
CN (1) CN115001791B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598813A (zh) * 2014-12-09 2015-05-06 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
CN108881294A (zh) * 2018-07-23 2018-11-23 杭州安恒信息技术股份有限公司 基于网络攻击行为的攻击源ip画像生成方法以及装置
CN109818929A (zh) * 2018-12-26 2019-05-28 天翼电子商务有限公司 基于主动自步学习的未知威胁感知方法、***、存储介质、终端
CN110933102A (zh) * 2019-12-11 2020-03-27 支付宝(杭州)信息技术有限公司 基于半监督学习的异常流量检测模型训练方法及装置
CN112543168A (zh) * 2019-09-20 2021-03-23 中移(苏州)软件技术有限公司 网络攻击的检测方法、装置、服务器及存储介质
CN112990295A (zh) * 2021-03-10 2021-06-18 中国互联网络信息中心 一种基于迁移学习和深度学习融合的半监督图表示学习方法及装置
CN113206824A (zh) * 2021-03-23 2021-08-03 中国科学院信息工程研究所 动态网络异常攻击检测方法、装置、电子设备和存储介质
CN113554094A (zh) * 2021-07-23 2021-10-26 清华大学 网络异常检测方法、装置、电子设备及存储介质
US20210400059A1 (en) * 2020-06-22 2021-12-23 Wangsu Science & Technology Co., Ltd. Network attack detection method, system and device based on graph neural network
CN114139604A (zh) * 2021-11-04 2022-03-04 杭州涿溪脑与智能研究所 基于在线学习的电力工控攻击监测方法和装置
CN114168938A (zh) * 2021-10-29 2022-03-11 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法
WO2022063274A1 (zh) * 2020-09-27 2022-03-31 中兴通讯股份有限公司 一种数据标注方法、***和电子设备

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104598813A (zh) * 2014-12-09 2015-05-06 西安电子科技大学 一种基于集成学习和半监督svm的计算机入侵检测方法
CN108881294A (zh) * 2018-07-23 2018-11-23 杭州安恒信息技术股份有限公司 基于网络攻击行为的攻击源ip画像生成方法以及装置
CN109818929A (zh) * 2018-12-26 2019-05-28 天翼电子商务有限公司 基于主动自步学习的未知威胁感知方法、***、存储介质、终端
CN112543168A (zh) * 2019-09-20 2021-03-23 中移(苏州)软件技术有限公司 网络攻击的检测方法、装置、服务器及存储介质
CN114039794A (zh) * 2019-12-11 2022-02-11 支付宝(杭州)信息技术有限公司 基于半监督学习的异常流量检测模型训练方法及装置
CN110933102A (zh) * 2019-12-11 2020-03-27 支付宝(杭州)信息技术有限公司 基于半监督学习的异常流量检测模型训练方法及装置
US20210400059A1 (en) * 2020-06-22 2021-12-23 Wangsu Science & Technology Co., Ltd. Network attack detection method, system and device based on graph neural network
WO2022063274A1 (zh) * 2020-09-27 2022-03-31 中兴通讯股份有限公司 一种数据标注方法、***和电子设备
CN112990295A (zh) * 2021-03-10 2021-06-18 中国互联网络信息中心 一种基于迁移学习和深度学习融合的半监督图表示学习方法及装置
CN113206824A (zh) * 2021-03-23 2021-08-03 中国科学院信息工程研究所 动态网络异常攻击检测方法、装置、电子设备和存储介质
CN113554094A (zh) * 2021-07-23 2021-10-26 清华大学 网络异常检测方法、装置、电子设备及存储介质
CN114168938A (zh) * 2021-10-29 2022-03-11 四川大学 一种基于少量异常标签的半监督sql注入攻击检测方法
CN114139604A (zh) * 2021-11-04 2022-03-04 杭州涿溪脑与智能研究所 基于在线学习的电力工控攻击监测方法和装置

Also Published As

Publication number Publication date
CN115001791B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN112104677B (zh) 一种基于知识图谱的受控主机检测方法和装置
US20200349430A1 (en) System and method for predicting domain reputation
CN112131882A (zh) 一种多源异构网络安全知识图谱构建方法及装置
CN110602029B (zh) 一种用于识别网络攻击的方法和***
CN108446559B (zh) 一种apt组织的识别方法及装置
CN110597804B (zh) 促进分布式键值存储库上的空间索引
US20120143844A1 (en) Multi-level coverage for crawling selection
US20180131708A1 (en) Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN111104579A (zh) 一种公网资产的识别方法、装置及存储介质
CN111447224A (zh) web漏洞扫描方法及漏洞扫描器
Juba et al. Principled Sampling for Anomaly Detection.
US11693960B2 (en) System and method for detecting leaked documents on a computer network
CN111368163A (zh) 一种爬虫数据的识别方法、***及设备
US20230008765A1 (en) Estimation apparatus, estimation method and program
CN115001791B (zh) 攻击资源标注方法及装置
CN117614644A (zh) 恶意网址识别方法、电子设备及存储介质
CN117614931A (zh) 一种基于域名池的黑灰产域名快速发现方法和分析方法及装置
CN115694994A (zh) 一种基于多层次信息融合的威胁分析方法及装置
CN115391568A (zh) 基于知识图谱的实体分类方法、***、终端及存储介质
Ridzuan et al. A Thematic Review on Data Quality Challenges and Dimension in the Era of Big Data
CN112104656B (zh) 一种网络威胁数据获取方法、装置、设备及介质
CN114528552A (zh) 基于漏洞的安全事件关联方法及相关设备
Onyekwelu et al. Pre-processing of university webserver log files for intrusion detection
Uzlov et al. Web-based protected geoinformation system of criminal analysis (RICAS) for analytical support for crimes investigation
CN116527548B (zh) 一种基于IPv6动态测试方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant