CN114826712A - 一种恶意域名检测方法、装置及电子设备 - Google Patents
一种恶意域名检测方法、装置及电子设备 Download PDFInfo
- Publication number
- CN114826712A CN114826712A CN202210396045.XA CN202210396045A CN114826712A CN 114826712 A CN114826712 A CN 114826712A CN 202210396045 A CN202210396045 A CN 202210396045A CN 114826712 A CN114826712 A CN 114826712A
- Authority
- CN
- China
- Prior art keywords
- domain name
- data
- features
- target
- user interest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 239000013598 vector Substances 0.000 claims abstract description 43
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000034 method Methods 0.000 claims abstract description 32
- 238000004140 cleaning Methods 0.000 claims abstract description 27
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000003062 neural network model Methods 0.000 claims abstract description 13
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 238000005406 washing Methods 0.000 claims description 5
- 238000013075 data extraction Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 7
- 238000013145 classification model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 235000019580 granularity Nutrition 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种恶意域名检测方法、装置及电子设备,包括:获取待检测的域名***数据;对域名***数据进行数据清洗,得到目标数据;对目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;将特征向量输入至目标检测模型,得到与域名***数据对应的检测结果,目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且目标检测模型用于检测域名***数据是否为恶意域名。本发明能够基于域名统计特征与用户兴趣访问特征进行结合,能够有效对抗攻击者对域名的伪装,提升了恶意域名检测的准确性。
Description
技术领域
本发明涉及信息处理技术领域,特别是涉及一种恶意域名检测方法、装置及电子设备。
背景技术
伴随着互联网技术的发展,网络安全威胁称为互联网技术研究和发展过程中亟待解决的问题。大多网络安全威胁都是并未记录、未知的威胁,检测和识别未知威胁保证网络空间安全意义重大。
常见的恶意域名检测方法需要提取域名特征来进行恶意域名的判定,但是,为了躲避基于域名统计特征的检测方式,攻击者通常会将恶意域名伪装为与良性域名相似的数据,从而降低了对恶意域名检测的准确性。
发明内容
针对于上述问题,本发明提供一种恶意域名检测方法、装置及电子设备,提升了恶意域名检测的准确性。
为了实现上述目的,本发明提供了如下技术方案:
一种恶意域名检测方法,所述方法包括:
获取待检测的域名***数据;
对所述域名***数据进行数据清洗,得到目标数据;
对所述目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;
将所述特征向量输入至目标检测模型,得到与所述域名***数据对应的检测结果,所述目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且所述目标检测模型用于检测域名***数据是否为恶意域名。
可选地,所述对所述域名***数据进行数据清洗,得到目标数据,包括:
基于数据来源特征,对所述域名***数据进行数据来源清洗,得到第一数据集;
基于用户访问特征对所述第一数据集进行数据提取,得到目标数据,其中,所述用户访问特征包括用户IP地址、用户访问域名以及用户访问每个域名的时间戳。
可选地,所述对目标数据进行特征提取,生成特征向量,包括:
提取得到所述目标数据的域名统计特征,所述域名统计特征包括域名字符特征、信息熵以及语言模型均值序列均值信息;
对所述目标数据中的未知域名进行分类,得到域名分类结果;
根据域名分类结果,确定用户兴趣标签;
确定所述目标数据中每一域名是否被具有不同用户兴趣标签的用户同时间段访问过,得到用户兴趣访问特征;
基于所述用户兴趣访问特征,生成所述目标数据对应的每个域名的特征向量。
可选地,所述方法还包括:
对获得的原始域名***数据进行数据清洗,得到有效数据集;
对所述有效数据集进行特征分析,得到域名统计特征和用户兴趣访问特征;
根据所述域名统计特征和用户兴趣访问特征,生成域名特征向量;
确定与每一域名特征向量相匹配的域名类别标签,所述域名类别标签包括良性域名标签和恶意域名标签;
基于标注有域名类别标签的有效数据集进行神经网络训练,得到目标检测模型。
可选地,所述方法还包括:
获取原始域名***数据,包括:
获取目标域名服务器到本地域名服务器的数据;
获取所述本地域名服务器到客户端的数据;
获取所述客户端到本地域名服务器的数据;
获取本地域名服务器到所述目标域名服务器的数据。
可选地,所述对所述目标数据中的未知域名进行分类,得到域名分类结果,包括:
基于域名分类器对所述目标数据中的未知域名进行分类,得到域名分类结果;
其中,所述域名分类器是通过对获取的域名数据进行自然语言处理训练得到的神经网络模型,且用于对域名对应的网页类别进行分类。
可选地,所述根据域名分类结果,确定用户兴趣标签,包括:
根据域名分类结果,确定网页类别;
获取每一用户访问对应的网页类别的网站的访问频次数据;
基于所述访问频次数据,确定用户兴趣标签。
一种恶意域名检测装置,所述装置包括:
数据获取单元,用于获取待检测的域名***数据;
数据清洗单元,用于对所述域名***数据进行数据清洗,得到目标数据;
特征提取单元,用于对所述目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;
检测单元,用于将所述特征向量输入至目标检测模型,检测得到与所述域名***数据对应的检测结果,所述目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且所述目标检测模型用于检测域名***数据是否为恶意域名。
一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上述中任意一项所述的恶意域名检测方法。
一种电子设备,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的恶意域名检测方法。
相较于现有技术,本发明提供了一种恶意域名检测方法、装置及电子设备,包括:获取待检测的域名***数据;对域名***数据进行数据清洗,得到目标数据;对目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;将特征向量输入至目标检测模型,得到与域名***数据对应的检测结果,目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且目标检测模型用于检测域名***数据是否为恶意域名。本发明能够基于域名统计特征与用户兴趣访问特征进行结合,能够有效对抗攻击者对域名的伪装,提升了恶意域名检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种恶意域名检测方法的流程示意图;
图2为本发明实施例提供的一种域名***数据来源的示意图;
图3为本发明实施例提供的一种域名分类器的结构示意图;
图4为本发明实施例提供的一种特征分析器的结构示意图;
图5为本发明实施例提供的一种机器学习训练器的结构示意图;
图6为本发明实施例提供的一种恶意域名检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”和“第二”等是用于区别不同的对象,而不是用于描述特定的顺序。此外术语“包括”和“具有”以及他们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有设定于已列出的步骤或单元,而是可包括没有列出的步骤或单元。
在本发明实施例中提供了一种恶意域名检测方法,以域名统计特征和用户兴趣访问特征为基础,有效避免传统方法检测途径单一,易于攻击者规避等问题,提高恶意域名的检测效果。
参见图1,为本发明实施例提供的一种恶意域名检测方法的流程示意图,该方法可以包括以下步骤:
S101、获取待检测的域名***数据。
通常待检测的域名***数据包括多条域名数据,这些域名数据是尚未确定是否为恶意域名的数据,其中,域名***是一个将域名和IP地址相互映射的分布式数据库,能够使用户更方便地访问互联网,
S102、对所述域名***数据进行数据清洗,得到目标数据。
其中,目标数据是有助于分析域名统计特征和用户兴趣访问特征(Domain NameSyste,DNS)数据。在一种实施方式中,所述对所述域名***数据进行数据清洗,得到目标数据,包括:基于数据来源特征,对所述域名***数据进行数据来源清洗,得到第一数据集;基于用户访问特征对所述第一数据集进行数据提取,得到目标数据,其中,所述用户访问特征包括用户IP地址、用户访问域名以及用户访问每个域名的时间戳。其中,不同数据来源的数据具有不同的格式或者记录形式,因此需要根据数据来源特征对域名***数据进行统一化处理,得到第一数据集,即第一数据集是对数据格式是否统一、数据是否缺失等维度进行清洗得到的数据。然后根据用户访问特征进行相关数据的提取。
具体的,DNS数据中存在大量xx.in-addr.arpa格式的域名,这属于反向DNS查找,用于将32位数字IP地址转换回域名。例如IP地址218.30.103.170,其逆向域名表达方式为170.103.30.218.in-addr.arpa。这些数据对恶意域名检测没有帮助,需通过数据清洗工作去除,减少不必要的数据量,以缩短检测时间。
S103、对目标数据进行特征提取,并生成特征向量。
基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征。具体的,所述对目标数据进行特征提取,生成特征向量,包括:提取得到所述目标数据的域名统计特征,所述域名统计特征包括域名字符特征、信息熵以及语言模型均值序列均值信息;对所述目标数据中的未知域名进行分类,得到域名分类结果;根据域名分类结果,确定用户兴趣标签;确定所述目标数据中每一域名是否被具有不同用户兴趣标签的用户同时间段访问过,得到用户兴趣访问特征;基于所述用户兴趣访问特征,生成所述目标数据对应的每个域名的特征向量。
域名统计特征的提取主要关注域名字符特征、信息熵、N-gram均值序列均值等信息。用户IP地址、用户访问域名以及访问时间数据,可以用于分析用户兴趣访问特征。
S104、将所述特征向量输入至目标检测模型,得到与所述域名***数据对应的检测结果。
所述目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且所述目标检测模型用于检测域名***数据是否为恶意域名。
需要说明的是,在本发明实施例中是通过目标检测模型实现对恶意域名分类检测。该目标检测模型的生成过程与恶意域名检测方法的执行流程相匹配。即该生成目标检测模型的过程包括:对获得的原始域名***数据进行数据清洗,得到有效数据集;对所述有效数据集进行特征分析,得到域名统计特征和用户兴趣访问特征;根据所述域名统计特征和用户兴趣访问特征,生成域名特征向量;确定与每一域名特征向量相匹配的域名类别标签,所述域名类别标签包括良性域名标签和恶意域名标签;基于标注有域名类别标签的有效数据集进行神经网络训练,得到目标检测模型。
在本发明实施例中生成目标检测模型的过程中,可以利用数据清洗器完成对获得的原始域名***数据进行数据清洗,得到有效数据集;利用域名分类器完成对域名的分类;利用特征分析器对所述有效数据集进行特征分析,得到域名统计特征和用户兴趣访问特征;利用机器学习训练器对有效数据集进行神经网络训练,得到目标检测模型。
需要说明的是在对恶意域名检测过程中基于的数据清洗、特征提取、域名分类等过程也可以参考下面对目标检测模型生成过程的具体描述。
首先,参见图2,为本发明实施例提供的一种域名***数据来源的示意图,对应的,获取原始域名***数据,包括:获取目标域名服务器到本地域名服务器的数据;获取所述本地域名服务器到客户端的数据;获取所述客户端到本地域名服务器的数据;获取本地域名服务器到所述目标域名服务器的数据。其中,目标域名服务器是指权威域名服务器,可以基于具体的应用场景进行确定。需要说明的是,在本发明实施例中原始域名***数据是从某个运行商骨干网节点实时产生的DNS数据,在DNS架构的不同位置收集数据可以得到不同的粒度,互联网服务提供商(ISP)或更高级的权威服务器可以提供详细的日志数据,也可以提供具有统计意义的数据,有利于检测恶意行为。其中,针对恶意域名检测要分析用户兴趣的需求,还可以只采集本地服务器到客户端这一部分的DNS数据。根据检测目标,除了收集域名本身,还需要通过DNS数据了解到每个用户经常访问的域名,并通过域名所属网页类型进一步了解用户兴趣,比如喜欢视频类网站、购物类网站,故需提取由解析器返回客户端的DNS数据中的用户IP和用户访问域名。当不同兴趣的用户在同一时间段访问同一域名,该域名有较大概率是被动访问的恶意域名,因此还需要知道用户访问域名的时间。
综上,DNS数据清洗部分主要包括:
获取用户IP地址;
获取用户访问域名;
获取用户访问每个域名的时间戳。
DNS数据中存在大量xx.in-addr.arpa格式的域名,这属于反向DNS查找,用于将32位数字IP地址转换回域名。例如IP地址218.30.103.170,其逆向域名表达方式为170.103.30.218.in-addr.arpa。这些数据对于恶意域名检测没有帮助,需通过数据清洗工作去除,减少不必要的数据量,以缩短检测时间。
在本发明实施例中还可以通过域名分类器对目标数据中的位置域名进行分类,得到域名分类结果,其中,所述域名分类器是通过对获取的域名数据进行自然语言处理训练得到的神经网络模型,且用于对域名对应的网页类别进行分类。
具体的,为了给每个用户IP做兴趣分析,需要了解用户IP经常搜索的网址类别,因此需要完成网站分类,并且尽可能全面地统计每个类别下的网址。当用户访问某个域名时,可以判断出用户访问的网址属于的网站类别(如购物、体育、医疗、生活服务等)。从域名分类网站上可以获取各种网站类型下的网址数据,但收集到DNS请求日志上涉及的域名量很大,现有的数据不能完全覆盖。因此可以采用爬虫、自然语言处理(NLP)以及一些分类算法对无法归类的域名进行处理,生成最佳域名分类模型。
参见图3,为本发明实施例提供的一种域名分类器的结构示意图。该域名分类器的主要目的是划分出网页的类别,通过HTML文档处理元件提取出网站页面中对划分类别有益的语句,通过Jieba分词元件把一个个长句子分为有实际含义的词语,然后通过词向量化元件生成一个向量空间,这个空间通常有几十维到几百个维度,可以具体设定参数,将每个词都分配到空间中的唯一向量。最后通过模型训练器生成最佳的域名分类模型。
在一种实施方式中,参见图4,可以通过域名分析器获得域名统计特征和基于用户兴趣建模的域名特征分析,即得到用户兴趣访问特征。该域名分析器的主要处理流程包括:提取域名字符特征、信息熵、N-gram均值序列均值等信息;通过域名分类模型对未知域名进行分类;根据域名分类结果定义用户兴趣标签;分析每个域名是否被兴趣不同的用户同时间段访问过;生成每个域名对应的特征向量。
具体的,域名统计特征的提取主要关注域名字符特征、信息熵、N-gram均值序列均值等信息。域名的长度是区分良性、恶性域名的首要特征。域名的出现是为了容易记忆、方便用户访问,因此正常域名的长度往往不会太长。但由DGA生成的恶意域名一般不会是供用户手动连接的,且其一次性生成量大,为了防止与正常域名冲突,域名长度往往会更长。良性与恶意域名在数字、字符的连续与分散方面也有所不同。由于DGA域名多是按照某个种子随机生成的,其生成的字符串很少会出现连续的一段字符或者连续的数字。但正常域名却不是如此,为了表示某些含义,数字或字符一般是集中出现的,很少会有字母、数字交叉出现的情况。英文字母一共有26个,但是元音字母仅仅有5个。正常域名通常是具有很强的可读性的,因此每个正常域名应该都是包含一个或多个元音字母的,但DGA域名的随机生成性导致恶意域名的元音字母占比相对较低。信息熵是指每个事件的平均信息量或期望,当一个事件是常规事件时,它的熵值往往较小,非常规事件时,熵值往往较大。熵值越大说明其随机性越高,反之相反。良性域名为了缓解记忆IP的困难,大多都是由英文单词拼接而成的,符合英文单词的特征。N-gram是自然语言处理(NLP)中的一个概念。这里引入这个概念统计每个域名的1-gram、2-gram、3-gram序列,即每个域名中连续1个相连字符、连续2个相连字符、连续3个相连字符的序列。
在本发明实施例中还提供了一种根据域名分类结果,确定用户兴趣标签的方法,该过程包括:根据域名分类结果,确定网页类别;获取每一用户访问对应的网页类别的网站的访问频次数据;基于所述访问频次数据,确定用户兴趣标签。
DNS日志数据清洗后得到的用户IP地址、用户访问域名以及访问时间数据,可以用于分析用户兴趣。使用域名分类器生成的最佳域名分类模型可完成域名类别识别。在确定用户兴趣标签的时候是对于用户兴趣建模,采用访问频次数据实现的,即用户频繁访问哪个分类的域名就把该类别定义为用户的兴趣。例如,每个IP地址代表一个用户,首先对清洗后的DNS请求日志数据按照IP地址进行分类,分别统计每个IP地址所访问过的全部域名。然后通过构建的域名分类器,识别每个用户全部访问域名的所属类别。最后统计出每个用户访问过的所有网站类别,如购物类、体育健身类、网络科技类等,以及该用户访问这些类别的次数。规定统一频繁阈值,当用户访问某类别次数高于该阈值时,则认为其对该类别是感兴趣的,可以把此类别定义为用户的兴趣,确定用户兴趣标签。
进一步地,统计工作完成后,需要计算每个用户之间的相似度。把每个用户的兴趣用向量来表示。相似度计算方法有多种,由于仅关注每个用户对应的兴趣向量相同的程度有多少,因此这里选择杰卡德相似度算法,其计算公式如下所示,X和Y分别代表不同用户的兴趣向量
当两个用户的相似度为0时,即视他们为兴趣不同的用户。当两个用户被判断为兴趣不同用户时,查看两个用户是否在某一时间段内访问过相同的域名。若该域名被兴趣不同的用户同时段访问过,则该域名被标为1。当查询完所有兴趣不相同的用户IP后,未被标为1的域名,则标志为0。
可见,本发明实施例中分析得到了多维度的特征,并为对抗攻击者灵活多变的攻击方式,对用户兴趣进行建模,把“域名是否被兴趣不同的用户在同一时间段访问过”这一特征加入到分类算法中。若该域名被兴趣不同的用户在同一时间段访问过,则该特征的值为1,反之该特征取值为0。表1为基于用户兴趣建模检测恶意域名所用到全部域名特征。参见表1,表1为本发明举例的常见域名特征。
表1
序号 | 域名特征 |
1 | 是否为常见顶级域名 |
2 | 域名长度 |
3 | 数字占比 |
4 | 连续数字占比 |
5 | 连续字符占比 |
6 | 连续相同字符占比 |
7 | 元音占比 |
8 | 信息熵 |
9 | 1-gram序列平均排名 |
10 | 2-gram序列平均排名 |
11 | 3-gram序列平均排名 |
12 | 是否被兴趣不同的用户同时段访问过 |
基于上述处理可以得到每个域名特征向量,其作为机器学习训练器的输入,参见图5,为本发明实施例提供的一种机器学习训练器的结构示意图。该机器学习训练器以每个域名特征向量为输入,首先形成训练集,输入不同架构和参数的神经网络架构进行训练和结果分析,循环执行网络架构调整和参数调优,最终输出最优训练模型。根据一定比例将数据划分为训练集和测试集,分别设计不同架构的网络模型,以卷积神经网络为例,选定不同的卷积层数、卷积核个数的网络模型作为训练模型。针对不同的网络架构,主要调整的参数是批训练大小和学习率,它们是深度学习最重要的参数,选取最优的批训练大小和学习率是训练处好的模型的关键要素。针对不同的表示方式,各自选取最优的网络架构和训练参数,即可得到不同情况下最优的训练模型。选取不同表示方式的优势在于,针对不同的恶意域名,能够达到最优结果的情况可能是采用不同的表示方式检测得到的。因此需在此过程中根据不同的情况,生成针对特定标识类型与特定恶意域名类型对应的最佳训练模型。最后使用测试集数据对最佳训练模型进行结果测试和验证。
经过机器学习训练器训练后生成了针对不同情况的最优训练模型,在此基础上形成分类检测器即获得目标检测模型,目标检测模型可对真实待检测DNS数据进行检测。其中,分类检测器以经过数据清洗和特征分析后的真实域名的特征向量,以及场景需求参数为输入。分类选择器根据场景需求输入参数,通过模型选择元件进行最优模型选择,选择后将数据检测识别器中进行检测和识别,最后输出恶意类型检测结果。
本发明在现有基于域名特征和机器学习方式检测恶意域名的基础上,增加了用户兴趣这一特征,将传统恶意域名检测的统计特征与用户兴趣相结合,分析网络中实时产生的DNS数据,有效对抗攻击者为躲避基于域名统计特征的检测方式,尽量使恶意域名和良性域名组成相差不大的情况,弥补传统统计特征在此方面的不足。
参见图6,在本发明的另一实施例中还提供了一种恶意域名检测装置,所述装置包括:
数据获取单元601,用于获取待检测的域名***数据;
数据清洗单元602,用于对所述域名***数据进行数据清洗,得到目标数据;
特征提取单元603,用于对所述目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;
检测单元604,用于将所述特征向量输入至目标检测模型,检测得到与所述域名***数据对应的检测结果,所述目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且所述目标检测模型用于检测域名***数据是否为恶意域名。
进一步地,所述数据清洗单元包括:
清洗子单元,用于基于数据来源特征,对所述域名***数据进行数据来源清洗,得到第一数据集;
第一提取子单元,用于基于用户访问特征对所述第一数据集进行数据提取,得到目标数据,其中,所述用户访问特征包括用户IP地址、用户访问域名以及用户访问每个域名的时间戳。
可选地,所述特征提取单元包括:
第二提取子单元,用于提取得到所述目标数据的域名统计特征,所述域名统计特征包括域名字符特征、信息熵以及语言模型均值序列均值信息;
分类子单元,用于对所述目标数据中的未知域名进行分类,得到域名分类结果;
第一确定子单元,用于根据域名分类结果,确定用户兴趣标签;
第二确定子单元,用于确定所述目标数据中每一域名是否被具有不同用户兴趣标签的用户同时间段访问过,得到用户兴趣访问特征;
生成子单元,用于基于所述用户兴趣访问特征,生成所述目标数据对应的每个域名的特征向量。
可选地,所述装置还包括:
所述数据清洗单元,还用于对获得的原始域名***数据进行数据清洗,得到有效数据集;
特征分析单元,用于对所述有效数据集进行特征分析,得到域名统计特征和用户兴趣访问特征;
向量生成单元,用于根据所述域名统计特征和用户兴趣访问特征,生成域名特征向量;
标签确定单元,用于确定与每一域名特征向量相匹配的域名类别标签,所述域名类别标签包括良性域名标签和恶意域名标签;
训练单元,用于基于标注有域名类别标签的有效数据集进行神经网络训练,得到目标检测模型。
可选地,所述装置还包括:
数据获取单元,用于获取原始域名***数据,所述数据获取单元具体用于:
获取目标域名服务器到本地域名服务器的数据;
获取所述本地域名服务器到客户端的数据;
获取所述客户端到本地域名服务器的数据;
获取本地域名服务器到所述目标域名服务器的数据。
进一步地,所述对所述目标数据中的未知域名进行分类,得到域名分类结果,包括:
基于域名分类器对所述目标数据中的未知域名进行分类,得到域名分类结果;
其中,所述域名分类器是通过对获取的域名数据进行自然语言处理训练得到的神经网络模型,且用于对域名对应的网页类别进行分类。
可选地,所述分类子单元具体用于:
根据域名分类结果,确定网页类别;
获取每一用户访问对应的网页类别的网站的访问频次数据;
基于所述访问频次数据,确定用户兴趣标签。
本发明提供了一种恶意域名检测装置,包括:数据获取单元获取待检测的域名***数据;数据清洗单元对域名***数据进行数据清洗,得到目标数据;特征提取单元对目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;检测单元将特征向量输入至目标检测模型,得到与域名***数据对应的检测结果,目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且目标检测模型用于检测域名***数据是否为恶意域名。本发明能够基于域名统计特征与用户兴趣访问特征进行结合,能够有效对抗攻击者对域名的伪装,提升了恶意域名检测的准确性。
基于前述实施例,一种存储介质,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如上述中任意一项所述的恶意域名检测方法。
本发明实施例还提供了一种电子设备,包括:存储器,用于存储程序;处理器,用于执行所述程序,所述程序具体用于实现如上述中任意一项所述的恶意域名检测方法。
需要说明的是,处理器的具体执行过程可以参见前述实施例的描述,此处不进行详述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种恶意域名检测方法,其特征在于,所述方法包括:
获取待检测的域名***数据;
对所述域名***数据进行数据清洗,得到目标数据;
对所述目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;
将所述特征向量输入至目标检测模型,得到与所述域名***数据对应的检测结果,所述目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且所述目标检测模型用于检测域名***数据是否为恶意域名。
2.根据权利要求1所述的方法,其特征在于,所述对所述域名***数据进行数据清洗,得到目标数据,包括:
基于数据来源特征,对所述域名***数据进行数据来源清洗,得到第一数据集;
基于用户访问特征对所述第一数据集进行数据提取,得到目标数据,其中,所述用户访问特征包括用户IP地址、用户访问域名以及用户访问每个域名的时间戳。
3.根据权利要求1所述的方法,其特征在于,所述对目标数据进行特征提取,生成特征向量,包括:
提取得到所述目标数据的域名统计特征,所述域名统计特征包括域名字符特征、信息熵以及语言模型均值序列均值信息;
对所述目标数据中的未知域名进行分类,得到域名分类结果;
根据域名分类结果,确定用户兴趣标签;
确定所述目标数据中每一域名是否被具有不同用户兴趣标签的用户同时间段访问过,得到用户兴趣访问特征;
基于所述用户兴趣访问特征,生成所述目标数据对应的每个域名的特征向量。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对获得的原始域名***数据进行数据清洗,得到有效数据集;
对所述有效数据集进行特征分析,得到域名统计特征和用户兴趣访问特征;
根据所述域名统计特征和用户兴趣访问特征,生成域名特征向量;
确定与每一域名特征向量相匹配的域名类别标签,所述域名类别标签包括良性域名标签和恶意域名标签;
基于标注有域名类别标签的有效数据集进行神经网络训练,得到目标检测模型。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取原始域名***数据,包括:
获取目标域名服务器到本地域名服务器的数据;
获取所述本地域名服务器到客户端的数据;
获取所述客户端到本地域名服务器的数据;
获取本地域名服务器到所述目标域名服务器的数据。
6.根据权利要求3所述的方法,其特征在于,所述对所述目标数据中的未知域名进行分类,得到域名分类结果,包括:
基于域名分类器对所述目标数据中的未知域名进行分类,得到域名分类结果;
其中,所述域名分类器是通过对获取的域名数据进行自然语言处理训练得到的神经网络模型,且用于对域名对应的网页类别进行分类。
7.根据权利要求3所述的方法,其特征在于,所述根据域名分类结果,确定用户兴趣标签,包括:
根据域名分类结果,确定网页类别;
获取每一用户访问对应的网页类别的网站的访问频次数据;
基于所述访问频次数据,确定用户兴趣标签。
8.一种恶意域名检测装置,其特征在于,所述装置包括:
数据获取单元,用于获取待检测的域名***数据;
数据清洗单元,用于对所述域名***数据进行数据清洗,得到目标数据;
特征提取单元,用于对所述目标数据进行特征提取,并生成特征向量,其中,基于特征提取的特征至少包括域名统计特征和用户兴趣访问特征;
检测单元,用于将所述特征向量输入至目标检测模型,检测得到与所述域名***数据对应的检测结果,所述目标检测模型为通过对域名统计特征和用户兴趣访问特征训练得到的神经网络模型,且所述目标检测模型用于检测域名***数据是否为恶意域名。
9.一种存储介质,其特征在于,所述存储介质存储有可执行指令,所述指令被处理器执行时实现如权利要求1-7中任意一项所述的恶意域名检测方法。
10.一种电子设备,其特征在于,包括:
存储器,用于存储程序;
处理器,用于执行所述程序,所述程序具体用于实现如权利要求1-7中任意一项所述的恶意域名检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210396045.XA CN114826712B (zh) | 2022-04-15 | 2022-04-15 | 一种恶意域名检测方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210396045.XA CN114826712B (zh) | 2022-04-15 | 2022-04-15 | 一种恶意域名检测方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114826712A true CN114826712A (zh) | 2022-07-29 |
CN114826712B CN114826712B (zh) | 2024-06-14 |
Family
ID=82537327
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210396045.XA Active CN114826712B (zh) | 2022-04-15 | 2022-04-15 | 一种恶意域名检测方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114826712B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2988455A1 (en) * | 2014-08-22 | 2016-02-24 | Verisign, Inc. | Domain name system traffic analysis |
CN105897752A (zh) * | 2016-06-03 | 2016-08-24 | 北京奇虎科技有限公司 | 未知域名的安全检测方法及装置 |
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
CN110138763A (zh) * | 2019-05-09 | 2019-08-16 | 中国科学院信息工程研究所 | 一种基于动态web浏览行为的内部威胁检测***及方法 |
US20200228500A1 (en) * | 2019-01-15 | 2020-07-16 | Infoblox Inc. | Detecting homographs of domain names |
-
2022
- 2022-04-15 CN CN202210396045.XA patent/CN114826712B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2988455A1 (en) * | 2014-08-22 | 2016-02-24 | Verisign, Inc. | Domain name system traffic analysis |
CN105897752A (zh) * | 2016-06-03 | 2016-08-24 | 北京奇虎科技有限公司 | 未知域名的安全检测方法及装置 |
CN107818334A (zh) * | 2017-09-29 | 2018-03-20 | 北京邮电大学 | 一种移动互联网用户访问模式表征和聚类方法 |
US20200228500A1 (en) * | 2019-01-15 | 2020-07-16 | Infoblox Inc. | Detecting homographs of domain names |
CN110138763A (zh) * | 2019-05-09 | 2019-08-16 | 中国科学院信息工程研究所 | 一种基于动态web浏览行为的内部威胁检测***及方法 |
Non-Patent Citations (1)
Title |
---|
肖欣;范宽;张伟;: "基于用户域名访问记录的信息再挖掘", 信息网络安全, no. 12, 10 December 2012 (2012-12-10) * |
Also Published As
Publication number | Publication date |
---|---|
CN114826712B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107566376B (zh) | 一种威胁情报生成方法、装置及*** | |
CN106778241B (zh) | 恶意文件的识别方法及装置 | |
CN103559235B (zh) | 一种在线社交网络恶意网页检测识别方法 | |
CN102279875B (zh) | 钓鱼网站的识别方法和装置 | |
CN110602029B (zh) | 一种用于识别网络攻击的方法和*** | |
CN111565171B (zh) | 异常数据的检测方法、装置、电子设备及存储介质 | |
CN111818198B (zh) | 域名检测方法、域名检测装置和设备以及介质 | |
CN108038173B (zh) | 一种网页分类方法、***及一种网页分类设备 | |
CN108763274B (zh) | 访问请求的识别方法、装置、电子设备及存储介质 | |
WO2008022581A1 (fr) | Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie | |
CN113779481B (zh) | 诈骗网站的识别方法、装置、设备及存储介质 | |
CN109104421B (zh) | 一种网站内容篡改检测方法、装置、设备及可读存储介质 | |
CN107888606B (zh) | 一种域名信誉度评估方法及*** | |
CN110572359A (zh) | 基于机器学习的钓鱼网页检测方法 | |
CN110191096A (zh) | 一种基于语义分析的词向量网页入侵检测方法 | |
CN113381962A (zh) | 一种数据处理方法、装置和存储介质 | |
CN105095203B (zh) | 同义词的确定、搜索方法及服务器 | |
CN115801455B (zh) | 一种基于网站指纹的仿冒网站检测方法及装置 | |
CN117220968A (zh) | 一种蜜点域名优化部署方法、***、设备及存储介质 | |
CN116633684A (zh) | 网络钓鱼检测方法、***、电子设备和可读存储介质 | |
CN111814040A (zh) | 维修案例搜索方法、装置、终端设备及存储介质 | |
CN114826712B (zh) | 一种恶意域名检测方法、装置及电子设备 | |
CN114884686B (zh) | 一种php威胁识别方法及装置 | |
CN112003884A (zh) | 一种网络资产的采集和自然语言检索方法 | |
CN110825976B (zh) | 网站页面的检测方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |