CN115495744A - 威胁情报分类方法、装置、电子设备及存储介质 - Google Patents

威胁情报分类方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN115495744A
CN115495744A CN202211236445.0A CN202211236445A CN115495744A CN 115495744 A CN115495744 A CN 115495744A CN 202211236445 A CN202211236445 A CN 202211236445A CN 115495744 A CN115495744 A CN 115495744A
Authority
CN
China
Prior art keywords
text
theme
model
threat intelligence
threat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211236445.0A
Other languages
English (en)
Inventor
姚剑文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Original Assignee
Beijing Topsec Technology Co Ltd
Beijing Topsec Network Security Technology Co Ltd
Beijing Topsec Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Topsec Technology Co Ltd, Beijing Topsec Network Security Technology Co Ltd, Beijing Topsec Software Co Ltd filed Critical Beijing Topsec Technology Co Ltd
Priority to CN202211236445.0A priority Critical patent/CN115495744A/zh
Publication of CN115495744A publication Critical patent/CN115495744A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Security & Cryptography (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种威胁情报分类方法、装置、电子设备及存储介质。该包括:获取威胁情报文本;利用主题模型对威胁情报文本进行分析,获得主题模型输出的主题语义信息;其中,主题语义信息包括威胁情报文本对应的主题描述和主题词;基于预先构建的威胁情报分类模型分别对威胁情报文本和主题语义信息进行分析,获得威胁情报文本对应的文本上下文语义特征和主题语义信息对应的主题语义特征;基于文本上下文语义特征和主题语义特征获得威胁情报所属的类别。本申请实施例通过融合了主题语义特征和文本上下文语义特征,从而提高了威胁情报分类模型对威胁情报文本进行分类的准确性。

Description

威胁情报分类方法、装置、电子设备及存储介质
技术领域
本申请涉及网络安全技术领域,具体而言,涉及一种威胁情报分类方法、装置、电子设备及存储介质。
背景技术
随着互联网和通讯技术的不断发展,也带来了新的网络安全威胁,安全问题往往都是通过互联网进行传播扩散的。网络攻击的范围也不断的扩大,已经从个人扩散至工业、交通、能源、航天、金融、医疗等各个领域,严重威胁了国家和社会的信息安全。特别是近年来,随着“互联网+”、“智能制造”等新兴业态的快速发展以及物联网概念的提出与实现,网络与信息化以不可阻挡之势渗透到国家生产和生活的方方面面,财产安全、人身安全乃至国家安全的边界已经远远超越地理空间的限制。
现有的对威胁情报进行分类的方法包括预先获取训练样本,利用训练样本训练获得分类模型,然后利用该分类模型对待分类的威胁情报进行分类。但是,由于同属于威胁情报数据,样本之间差异性较小,利用分类模型对待分类威胁情报进行分类时,容易导致该分类模型区分相似性较高的样本比较困难,从而导致威胁情报的分类准确性较低。
发明内容
本申请实施例的目的在于提供一种威胁情报分类方法、装置、电子设备及存储介质,用以提高对威胁情报分类的准确性。
第一方面,本申请实施例提供一种威胁情报分类方法,包括:
获取威胁情报文本;
利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;
基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,获得所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;
基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报所属的类别。
本申请实施例通过融合了主题语义特征和文本上下文语义特征,从而提高了威胁情报分类模型对威胁情报文本进行分类的准确性。
在任一实施例中,所述利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息,包括:
对所述威胁情报文本进行预处理,获得分词结果;其中,所述预处理包括分词、去除特殊字符和去除停用词;
将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息。
本申请实施例通过主题模型生成威胁情报文本的主题语义信息,将该主题语义信息和威胁情报文本用于后续分类,可以提高分类的准确性。
在任一实施例中,所述将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息,包括:
将所述分词结果输入主题模型,获得所述分词结果分别属于各个主题的权重值;
将最大权重值的主题对应的主题词作为所述分词结果的主题词;
根据最大权重值的主题对应的主题描述和所述分词结果的主题词获得所述主题语义信息。
本申请实施例通过利用主题模型对分词结果进行分析,获得该分词结果属于各个主题的权重值,并将最大权重值对应的主题作为该分词结果的主题,从而可以提高主题确定的准确性。
在任一实施例中,所述威胁情报分类模型包括BERT模型,所述基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,包括:
所述BERT模型分别对所述威胁情报文本和所述主题语义信息进行分析。
本申请实施例通过利用BERT模型分别对威胁情报文本和主题语义信息进行分析,从而可以提高文本上下文语义特征和主题语义特征的准确性。
在任一实施例中,所述威胁情报分类模型包括全连接层;所述基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别,包括:
将所述文本上下文语义特征和所述主题语义特征进行拼接,获得分类特征;
利用所述威胁情报分类模型中的全连接层对所述分类特征进行分析,获得所述全连接层输出的所述威胁情报所属的类别。
本申请实施例中分类特征是由文本上下文语义特征和主题语义特征拼接获得,因此,通过融合文本上下文语义特征和主题语义特征进行分类,可以提高分类的准确性。
在任一实施例中,所述方法还包括:
获取预训练BERT模型;
利用训练样本对所述预训练BERT模型进行微调,获得训练好的所述BERT模型。
本申请实施例通过对预训练BERT模型进行微调,使得利用的训练好的BERT模型获得的文本上下文语义特征和主题语义特征更加准确。
在任一实施例中,所述方法还包括:
获取训练样本,所述训练样本包括多个威胁情报训练文本;
根据预设损失函数、训练轮数、批次大小和学习率,利用所述多个威胁情报训练文本对LDA模型进行训练,获得训练好的所述主题模型。
本申请实施例通过对LDA模型进行训练,获得的主题模型能够提高主题确定的准确性。
在任一实施例中,所述威胁情报分类模型包括BERT模型和全连接层。
第二方面,本申请实施例提供一种威胁情报分类装置,包括:
获取模块,用于获取威胁情报文本;
主题分析模块,用于利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;
特征提取模块,用于基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,获得所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;
分类模块,用于基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报所属的类别。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行第一方面的方法。
第四方面,本申请实施例提供一种非暂态计算机可读存储介质,包括:
所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行第一方面的方法。
第五方面,本申请实施例提供一种计算机程序产品,包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行第一方面的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种威胁情报分类方法流程示意图;
图2为本申请实施例提供的另一种威胁情报分类方法流程示意图;
图3为本申请实施例提供的一种威胁情报分类装置结构示意图;
图4为本申请实施例提供的电子设备实体结构示意图。
具体实施方式
下面将结合附图对本申请技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本申请的技术方案,因此只作为示例,而不能以此来限制本申请的保护范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。
在本申请实施例的描述中,技术术语“第一”“第二”等仅用于区别不同对象,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量、特定顺序或主次关系。在本申请实施例的描述中,“多个”的含义是两个以上,除非另有明确具体的限定。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在本申请实施例的描述中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请实施例的描述中,术语“多个”指的是两个以上(包括两个),同理,“多组”指的是两组以上(包括两组),“多片”指的是两片以上(包括两片)。
在本申请实施例的描述中,技术术语“中心”“纵向”“横向”“长度”“宽度”“厚度”“上”“下”“前”“后”“左”“右”“竖直”“水平”“顶”“底”“内”“外”“顺时针”“逆时针”“轴向”“径向”“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请实施例和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请实施例的限制。
在本申请实施例的描述中,除非另有明确的规定和限定,技术术语“安装”“相连”“连接”“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;也可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请实施例中的具体含义。
网络安全威胁情报是与网络空间安全威胁相关的线索和证据。威胁情报可以归为3大类如:
1)战略情报,描述整体趋势和长期问题。它还可以包括已知攻击者的动机、目标和方法。
2)行动情报,描述攻击者使用的战术、技术和程序(TTP)——例如,攻击者使用哪些恶意软件工具包或漏洞工具包,他们的攻击来自哪里,或他们通常遵循哪些步骤来发动攻击。
3)战术情报,是有关威胁的具体实地细节;它让组织能够具体识别威胁。恶意软件特征码和入侵指标(IoC)是战术情报的示例。
情报分类帮助提供更完善的安全事件响应方案,获取某个类别的最新进展,以阻止新出现的威胁。掌握网络安全威胁情报可以及时、有效提高针对网络攻击威胁的监测发现与应急响应能力。
现有技术中主要采用神经网络对网络空间安全威胁的数据处理。循环神经网络可以产生记忆效应,适合处理自然语言类的序列数据。但是,由于梯度消失和梯度***,当一个遥远序列传递到当前,梯度变得很小时,无法建立长期记忆,导致循环神经网络存在长程依赖的问题。长短时记忆网络是一种特殊的循环神经网络结构,包含输入门、遗忘门和输出门。但如果直接使用神经网络对网络威胁相关的自然语言文本进行分类模型学习,通常需要大量的训练数据,由于网络威胁相关数据之间的语义相似性较近问题,容易导致模型学习后泛化能力较弱。
基于上述技术问题,本申请发明人提出了一种威胁情报分类方法,该方法通过融合了主题语义特征和文本上下文语义特征,利用威胁情报分类模型对融合后的特征进行分类,可以提高分类的准确性。
下面详细介绍本申请的具体方案:
可以理解的是,本申请实施例提供的模型训练方法以及威胁情报分类方法可以应用于电子设备,该电子设备包括终端或服务器;其中终端具体可以为智能手机、平板电脑、计算机、个人数字助理(Personal Digital Assitant,PDA)等;服务器具体可以为应用服务器,也可以为Web服务器。另外,模型训练方法以及威胁情况分类方法均可以是同一电子设备执行,也可以是不同电子设备执行。
图1为本申请实施例提供的一种威胁情报分类方法流程示意图,如图1所示,该方法包括:
步骤101:获取威胁情报文本。
威胁情报文本是指威胁情报对应的文本内容。电子设备可以从以下渠道获取威胁情报文本:(1)企业内部网络、终端和部署的安全设备产生的日志数据;(2)订阅的安全厂商、行业组织产生的威胁数据;(3)新闻网站、博客、论坛、社交网络;(4)一些较为封闭的来源,如暗网,地下论坛。可以理解的是,除了上述所提供的威胁情报文本获取渠道外,还可以从其他渠道获取,本申请实施例对此不作具体限定。
步骤102:利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词。
主题模型:是以非监督学习的方式对文集的隐含语义结构(latent semanticstructure)进行聚类(clustering)的统计模型。直观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现,威胁情报文本也是如此。常见的主题模型包括概率隐性语义分析(Probabilistic Latent Semantic Analysis,PLSA)模型和隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型等。
电子设备在获取到威胁情报文本后,可以对威胁情报文本进行预处理,然后将预处理后的结果输入到主题模型中,主题模型根据输入数据输出主题语义信息。其中,主题语义信息包括主题描述和主题词。主题描述为预先配置在主题模型中的每个主题对应的描述信息,因此主题模型中预先配置有多个主题中每个主题分别对应的主题描述,以及每个主题分别对应的多个主题词。
将主题描述和主题词构成主题语义信息,例如:主题语义信息可以为:{主题描述:“描述了APT组织对能源与矿业的攻击行为”,主题词:“APT组织、钓鱼邮件攻击、权限提升漏洞、服务器入侵、……”}。
步骤103:基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,获得所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征。
威胁情报分类模型可以包括基于变换器的双向编码器表示技术(BidirectionalEncoder Representation from Transformers,BERT)模型,该BERT模型是一个词向量模型,可以把抽象存在的文字转换为数学公式操作的向量,充分描述字符级、词级、句子级甚至句间关系特征,BERT模型能够提取待分类文本的文本信息。
BERT模型,通常可以包括嵌入层和编码层。需要说明的是,所述嵌入层和编码层可以包括非真实存在的物理模块,也即,可以包括基于实际的计算功能为该BERT模型划分的虚拟层。关于BERT模型中的各层的命名,本说明书中也不做特别的限定;例如,嵌入层也可以被称作embedding层,编码层也可以被称作transformer encoder层。
在实际应用中,可以将威胁情报文本或主题语义信息输入BERT模型,为便于说明,下面均以威胁情报文本为例进行描述,主题语义信息与威胁情报文本的处理方式一致,此处不再赘述。由BERT模型的嵌入层进行嵌入处理,并可以获取到BERT模型的嵌入层输出的与威胁情报文本中的每个文本字符对应的文本特征向量(也可以称为词向量)。
具体地,BERT模型的嵌入层可以对输入的文本进行单词化拆分,拆分出多个文本字符(token);并一方面在拆分得到的所有文本字符之前添加CLS标志位,作为代表威胁情报文本的整体语义的标识;另一方面分别在拆分得到的所有文本字符之后添加SEP标志位,作为不同句子(segment)的分隔标识;进一步地,可以针对从威胁情报文本中拆分得到的每个文本字符分别进行词嵌入(token embedding)、句子嵌入(segment embedding)和位置嵌入(position embedding),得到与每个文本字符对应的文本特征向量。
例如,针对从文本中拆分得到的任一文本字符,一方面可以对该文本字符进行token embedding,得到与该文本字符对应的第一文本特征子向量,另一方面可以根据该文本字符所属的句子进行segment embedding,得到与该文本字符对应的第二文本特征子向量,再一方面可以根据该文本字符在句子中的位置进行position embedding,得到与该文本字符对应的第三文本特征子向量;后续,可以将第一文本特征子向量、第二文本特征子向量和第三文本特征子向量相加,并将相加得到的向量确定为与该文本字符对应的文本特征向量。
需要说明的是,在进行segment embedding时,可以用A、B、C等、或者0、1、2等,来标识不同的句子。另外,需要说明的是,对于BERT模型输出的与威胁情报文本中的每个文本字符对应的文本特征向量而言,各文本特征向量的特征维度通常都是相同的,例如可以为768维,当然还可以是其他维度,本申请实施例对此不作具体限定。
进一步地,在实际应用中,可以将威胁情报文本对应的文本特征向量输入BERT模型,由BERT模型的编码层进行编码处理,并可以得到BERT模型的编码层输出的针对该文本特征向量的编码处理结果。
具体地,可以将BERT模型的嵌入层输出的文本特征向量,继续输入BERT模型的编码层进行编码处理,并可以获取到BERT模型的编码层输出的针对文本特征向量的编码处理结果(也可以称为与文本字符对应的语义向量,即文本上下文语义特征)。关于进行编码处理的具体过程,请参见相关技术,在此不再赘述。
可以理解的是,在将主题语义信息输入BERT模型后,可获得对应的主体语义特征。另外,BERT模型为利用训练样本对预训练BERT模型进行微调获得。训练样本可以是从网络上威胁情报来源爬取威胁情报所对应的文本内容,从已有的知识库中获取已存在的威胁情报所对应的文本内容。
步骤104:基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报所属的类别。
威胁情报分类模型还包括全连接层,利用全连接层对文本上下文语义特征和所述主题语义特征进行分析,获得威胁情报所属的类别。
可以理解的是,全连接层也是经过预先训练的,即利用多种类别的训练样本对其进行训练获得。具体地,在训练全连接层的过程中,所述分类结果可以包括每种分类结果以及每种分类结果的概率值;在利用分类函数进行预测的过程中,分类结果可以包括概率值最大的分类结果。需要说明的是,本领域技术人员可以根据需求,为全连接层选择不同的分类函数,本说明书中不做限定。
例如,分类函数为softmax函数,可以表示为f(x)=Wx+b;其中,x可以为BERT模型的编码层输出的编码处理结果;W可以是一个D*C的矩阵,D为所述编码处理结果的特征维度数量,C为分类结果的总数量;b可以为一个C维向量;f(x)可以为全连接层输出的分类结果,即该威胁情报所属的类别。
本申请实施例通过融合了主题语义特征和文本上下文语义特征,从而提高了威胁情报分类模型对威胁情报文本进行分类的准确性。
在上述实施例的基础上,所述利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息,包括:
对所述威胁情报文本进行预处理,获得分词结果;其中,所述预处理包括分词、去除特殊字符和去除停用词;
将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息。
在具体的实施过程中,在获取到威胁情报文本后,为了提高后续对文本分类的准确性及效率,可以对威胁情报文本进行预处理,预处理主要包括分词和清洗,其中清洗处理包括去除特殊字符和去除停用词。
其中,中英文在分词上,由于语言的特殊性导致分词的思路也会不太一样。英文文本可直接使用空格进行分词。但对于中文文本,可采用第三方库进行分词,例如:可以进行jieba分词。
在进行去除特征字符时,可以使用替换功能去除文本中大量重复的符号。可以理解的是,可以预先设定哪些字符为特殊字符。这些特殊字符往往是指对文本分类不起作用或者作用很小的字符。
在进行分词后获得的词语中,并不是所有的词语都是我们所需要的,比如:句号(。),显然,句号对意思的表达没有什么效果。还有”是“、”的“等词,也没有什么效果。因为这些词在所有的文章中都大量存在,并不能反应出文本的意思,可以清理掉,通常情况下,在文本中去掉这些停用词能够使模型更好地去拟合实际的语义特征,从而增加模型的泛化能力。
在对威胁情报文本进行预处理后,将获得的分词结果输入主题模型,从而可以获得该主题模型输出的主题语义信息。
本申请实施例通过主题模型生成威胁情报文本的主题语义信息,将该主题语义信息和威胁情报文本用于后续分类,可以提高分类的准确性。
在上述实施例的基础上,所述将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息,包括:
将所述分词结果输入主题模型,获得所述分词结果分别属于各个主题的权重值;
将最大权重值的主题对应的主题词作为所述分词结果的主题词;
根据最大权重值的主题对应的主题描述和所述分词结果的主题词获得所述主题语义信息。
在具体的实施过程中,主题模型可以对输入的分词结果进行分析,以确定该分词结果分别属于各个主题的权重值,其中,各个主题为对主题模型进行训练时确定的主题。例如可以包括:威胁组织、恶意软件、攻击手段等主题。权重值可以理解为概率值,即该分词结果属于各个主题的概率。因此,本申请实施例将最大权重值对应的主题作为该分词结果的主题,将最大权重值的主题对应的主题词作为该分词结果的主题词,将最大权重值的主题对应的主题描述作为该分词结果的主题描述。
可以理解的是,以主题模型为LDA模型为例,训练该LDA模型的训练数据可以为从网络上威胁情报来源爬取威胁情报所对应的文本内容,从已有的知识库中获取已存在的威胁情报所对应的文本内容。通过无监督的方式,按照预先设定的损失函数、训练轮数、批次大小和学习率,利用所述多个威胁情报训练文本对LDA模型进行训练,LDA模型可以输出每个训练样本属于各个主题的权重值。经过多轮训练后可以获得训练好的主题模型。
具体地,批次大小是指每一轮训练输入到LDA模型中训练样本的数量。训练轮数是指一共训练多少轮。损失函数用于评估每轮训练后LDA模型输出的预测结果和真实结果的偏差,并根据偏差优化LDA模型的内部参数。学习率是监督学习中重要的超参,其决定这损失函数能够收敛到局部最小值以及何时收敛到最小值。
主题描述可以为在训练完成后,安全分析师预先基于各个主题下的多个威胁情报样本(即训练样本)总结的属于该主题下的文字描述。在获得该主题描述后,将主题描述和主题的对应关系存储在主题模型中。
本申请实施例通过利用主题模型对分词结果进行分析,获得该分词结果属于各个主题的权重值,并将最大权重值对应的主题作为该分词结果的主题,从而可以提高主题确定的准确性。
在上述实施例的基础上,所述基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别,包括:
将所述文本上下文语义特征和所述主题语义特征进行拼接,获得分类特征;
利用所述威胁情报分类模型中的全连接层对所述分类特征进行分析,获得所述全连接层输出的所述威胁情报文本所属的类别。
在具体的实施过程中,电子设备将威胁情报分类模型输出的文本上下文语义特征和主题语义特征进行拼接,具体地,文本上下文语义特征和主题语义特征均为向量,在对其进行拼接时,可以将文本上下文语义特征对应的向量拼接在主题语义特征对应的向量后面或前面,以形成更大维度的向量。例如:若文本上下文语义特征和主题语义特征均为768维的向量,那么拼接后获得的分类特征为768*2维的向量。
在获得分类特征后,将分类特征输入威胁情报分类模型中的全连接层,全连接层对该分类特征进行分析,以输出该威胁情报文本所属的类别。可以理解的是,全连接层可输出该威胁情报文本属于各个类别的概率,也可以只将最大概率的类别输出。其中,类别可以包括:威胁活动报告、恶意软件分析报告、攻击行业分析报告等。另外,全连接层也是预先训练获得的,即也可以预先利用前述实施例的训练样本进行训练,具体地,可以利用LDA模型和BERT模型对训练样本进行处理后,获得文本上下文语义特征和主题语义特征,再将其拼接获得分类特征,并对各个训练样本的类别进行标注,利用标注好的分类特征对全连接层进行训练,获得训练好的全连接层。
本申请实施例中分类特征是由文本上下文语义特征和主题语义特征拼接获得,因此,通过融合文本上下文语义特征和主题语义特征进行分类,可以提高分类的准确性。
图2为本申请实施例提供的另一种威胁情报分类方法流程示意图,如图2所示,该方法包括:
获取威胁情报文本,该威胁情报文本的获取渠道参见上述实施例,此处不再赘述。
在获取到威胁情报文本后,对威胁情报文本进行预处理,可以理解的是,预处理的方式有两种,第一种是不进行分词处理,可以去除威胁情报文本中的特殊字符;第二种是对威胁情报文本进行分词、去停用词、去特殊字符等。
针对第一种预处理后的威胁情报文本,用于输入BERT模型,使得BERT模型对其分析,并输出文本上下文语义特征(即TEXT向量)。
针对第二种预处理方法,获得分词结果,并将分词结果输入LDA模型,获得LDA模型输出的主题语义信息。
在获得主题语义信息后,将该主题语义信息输入BERT模型,使得BERT模型对其分析,并输出主题语义特征(即Topic向量)。
电子设备将TEXT向量和Topic向量进行拼接,获得分类特征,并将分类特征输入全连接层进行分类,获得该威胁情报文本所属的类别。
本申请实施例利用无监督模型(LDA模型)和基于注意力机制的神经网络模型(BERT模型),融合了威胁情报文本的主题语义信息和文本上下文语义信息,从而增加了对威胁情报分类的准确性。
图3为本申请实施例提供的一种威胁情报分类装置结构示意图,该装置可以是电子设备上的模块、程序段或代码。应理解,该装置与上述图1方法实施例对应,能够执行图1方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。所述装置包括:获取模块301、主题分析模块302、特征提取模块303和分类模块304,其中:
获取模块301用于获取威胁情报文本;
主题分析模块302用于利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;
特征提取模块303用于基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;
分类模块304用于基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别。
在上述实施例的基础上,主题分析模块302具体用于:
对所述威胁情报文本进行预处理,获得分词结果;其中,所述预处理包括分词、去除特殊字符和去除停用词;
将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息。
在上述实施例的基础上,主题分析模块302具体用于:
将所述分词结果输入主题模型,获得所述分词结果分别属于各个主题的权重值;
将最大权重值的主题对应的主题词作为所述分词结果的主题词;
根据最大权重值的主题对应的主题描述和所述分词结果的主题词获得所述主题语义信息。
在上述实施例的基础上,分类模块304具体用于:
将所述文本上下文语义特征和所述主题语义特征进行拼接,获得分类特征;
利用所述威胁情报分类模型中的全连接层对所述分类特征进行分析,获得所述全连接层输出的所述威胁情报文本所属的类别。
在上述实施例的基础上,该装置还包括模型训练模块,用于:
获取训练样本,所述训练样本包括多个威胁情报训练文本;
根据预设损失函数、训练轮数、批次大小和学习率,利用所述多个威胁情报训练文本对LDA模型进行训练,获得训练好的所述主题模型。
在上述实施例的基础上,所述威胁情报分类模型包括BERT模型和全连接层。
图4为本申请实施例提供的电子设备实体结构示意图,如图4所示,所述电子设备,包括:处理器(processor)401、存储器(memory)402和总线403;其中,
所述处理器401和存储器402通过所述总线403完成相互间的通信;
所述处理器401用于调用所述存储器402中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:获取威胁情报文本;利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别。
处理器401可以是一种集成电路芯片,具有信号处理能力。上述处理器401可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。其可以实现或者执行本申请实施例中公开的各种方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以包括但不限于随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)等。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:获取威胁情报文本;利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:获取威胁情报文本;利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种威胁情报分类方法,其特征在于,包括:
获取威胁情报文本;
利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;
基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,获得所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;
基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报所属的类别。
2.根据权利要求1所述的方法,其特征在于,所述利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息,包括:
对所述威胁情报文本进行预处理,获得分词结果;其中,所述预处理包括分词、去除特殊字符和去除停用词;
将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息。
3.根据权利要求2所述的方法,其特征在于,所述将所述分词结果输入主题模型,获得所述主题模型输出的主题语义信息,包括:
将所述分词结果输入主题模型,获得所述分词结果分别属于各个主题的权重值;
将最大权重值的主题对应的主题词作为所述分词结果的主题词;
根据最大权重值的主题对应的主题描述和所述分词结果的主题词获得所述主题语义信息。
4.根据权利要求1所述的方法,其特征在于,所述威胁情报分类模型包括BERT模型,所述基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,包括:
所述BERT模型分别对所述威胁情报文本和所述主题语义信息进行分析。
5.根据权利要求1所述的方法,其特征在于,所述威胁情报分类模型包括全连接层;所述基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报文本所属的类别,包括:
将所述文本上下文语义特征和所述主题语义特征进行拼接,获得分类特征;
利用所述威胁情报分类模型中的全连接层对所述分类特征进行分析,获得所述全连接层输出的所述威胁情报所属的类别。
6.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取预训练BERT模型;
利用训练样本对所述预训练BERT模型进行微调,获得训练好的所述BERT模型。
7.根据权利要求1-6任一项所述的方法,其特征在于,所述方法还包括:
获取训练样本,所述训练样本包括多个威胁情报训练文本;
根据预设损失函数、训练轮数、批次大小和学习率,利用所述多个威胁情报训练文本对LDA模型进行训练,获得训练好的所述主题模型。
8.一种威胁情报分类装置,其特征在于,包括:
获取模块,用于获取威胁情报文本;
主题分析模块,用于利用主题模型对所述威胁情报文本进行分析,获得所述主题模型输出的主题语义信息;其中,所述主题语义信息包括所述威胁情报文本对应的主题描述和主题词;
特征提取模块,用于基于预先构建的威胁情报分类模型分别对所述威胁情报文本和所述主题语义信息进行分析,获得所述威胁情报文本对应的文本上下文语义特征和所述主题语义信息对应的主题语义特征;
分类模块,用于基于所述文本上下文语义特征和所述主题语义特征获得所述威胁情报所属的类别。
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,其中,
所述处理器和所述存储器通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1-7任一项所述的方法。
10.一种非暂态计算机可读存储介质,其特征在于,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令被计算机运行时,使所述计算机执行如权利要求1-7任一项所述的方法。
CN202211236445.0A 2022-10-10 2022-10-10 威胁情报分类方法、装置、电子设备及存储介质 Pending CN115495744A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211236445.0A CN115495744A (zh) 2022-10-10 2022-10-10 威胁情报分类方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211236445.0A CN115495744A (zh) 2022-10-10 2022-10-10 威胁情报分类方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN115495744A true CN115495744A (zh) 2022-12-20

Family

ID=84473769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211236445.0A Pending CN115495744A (zh) 2022-10-10 2022-10-10 威胁情报分类方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN115495744A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150509A (zh) * 2023-04-24 2023-05-23 齐鲁工业大学(山东省科学院) 社交媒体网络的威胁情报识别方法、***、设备及介质
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、***和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150509A (zh) * 2023-04-24 2023-05-23 齐鲁工业大学(山东省科学院) 社交媒体网络的威胁情报识别方法、***、设备及介质
CN116150509B (zh) * 2023-04-24 2023-08-04 齐鲁工业大学(山东省科学院) 社交媒体网络的威胁情报识别方法、***、设备及介质
CN116738298A (zh) * 2023-08-16 2023-09-12 杭州同花顺数据开发有限公司 一种文本分类方法、***和存储介质
CN116738298B (zh) * 2023-08-16 2023-11-24 杭州同花顺数据开发有限公司 一种文本分类方法、***和存储介质

Similar Documents

Publication Publication Date Title
CN111897970B (zh) 基于知识图谱的文本比对方法、装置、设备及存储介质
Hazarika et al. Cascade: Contextual sarcasm detection in online discussion forums
Nouh et al. Understanding the radical mind: Identifying signals to detect extremist content on twitter
Zhou et al. Fake news early detection: A theory-driven model
Goldani et al. Convolutional neural network with margin loss for fake news detection
Samadi et al. Deep contextualized text representation and learning for fake news detection
Kim et al. Automatic extraction of named entities of cyber threats using a deep Bi-LSTM-CRF network
Peng et al. Bit-level n-gram based forensic authorship analysis on social media: Identifying individuals from linguistic profiles
Bhardwaj et al. Sentiment analysis for Indian stock market prediction using Sensex and nifty
Rohera et al. A taxonomy of fake news classification techniques: Survey and implementation aspects
US10387784B2 (en) Technical and semantic signal processing in large, unstructured data fields
CN111291195B (zh) 一种数据处理方法、装置、终端及可读存储介质
CN115495744A (zh) 威胁情报分类方法、装置、电子设备及存储介质
Luckner et al. Stable web spam detection using features based on lexical items
Pandey et al. Hybrid attention-based long short-term memory network for sarcasm identification
CN111177367B (zh) 案件分类方法、分类模型训练方法及相关产品
Ballı et al. Development of content‐based SMS classification application by using Word2Vec‐based feature extraction
Zhang et al. EX‐Action: Automatically Extracting Threat Actions from Cyber Threat Intelligence Report Based on Multimodal Learning
Alterkavı et al. Novel authorship verification model for social media accounts compromised by a human
Degadwala et al. Location-Based Modelling And Analysis Of Threats By Using Text Mining
Munkhdorj et al. Cyber attack prediction using social data analysis
Ge et al. SeqMask: Behavior extraction over cyber threat intelligence via multi-instance learning
Briciu et al. AutoAt: A deep autoencoder-based classification model for supervised authorship attribution
Low et al. Decoding violence against women: analysing harassment in middle eastern literature with machine learning and sentiment analysis
Kavatagi et al. A context aware embedding for the detection of hate speech in social media networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination