CN115412306A - 一种域名同源判定方法、装置、电子设备及存储介质 - Google Patents
一种域名同源判定方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115412306A CN115412306A CN202210943204.3A CN202210943204A CN115412306A CN 115412306 A CN115412306 A CN 115412306A CN 202210943204 A CN202210943204 A CN 202210943204A CN 115412306 A CN115412306 A CN 115412306A
- Authority
- CN
- China
- Prior art keywords
- domain name
- cdn
- suffix
- characteristic
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/101—Access control lists [ACL]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/126—Applying verification of the received information the source of the received data
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种域名同源判定方法、装置、电子设备及存储介质,包括:获取待检测域名,获得待检测域名的第一特征;将待检测域名的第一特征输入CDN域名识别模型,获得域名识别结果,CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的;若确定待检测域名为CDN域名,获得待检测域名的第二特征;将待检测域名的第二特征输入域名后缀提取模型,获得待检测域名的域名后缀,域名后缀提取模型是基于CDN域名样本的第二特征按照预设分类模型训练获得的;在预设黑名单与预设白名单中分别查找待检测域名的域名后缀,若确定预设黑名单或预设白名单中包含与该域名后缀相同的CDN域名,确定待检测域名与CDN域名为域名同源。
Description
技术领域
本申请涉及网络安全技术领域,尤其涉及一种域名同源判定方法、装置、电子设备及存储介质。
背景技术
相关技术中,在域名和组织机构关联准确的情况下,基于域名黑名单的过滤或封堵策略具备针对性强、实效性高的特点。这类可明确对应到同一个组织机构的域名称为域名同源,这些域名可对应到同一个域名后缀,例如,域名“www.organizationxxx.com”和“sp1.organizationxxx.com”即为域名同源,二者具有相同的域名后缀“organizationxxx.com”。假设“www.organizationxxx.com”在白名单中,而“sp1.organizationxxx.com”未被加入白名单,由于二者域名同源,则可通过域名同源扩展域名白名单,将“sp1.organizationxxx.com”也加入域名白名单中,同样地,也可以通过域名同源扩展域名黑名单,实现恶意域名的快速封禁。
一般的域名可通过顶级域名(Top Level Domain,TLD)直接提取其域名后缀信息,而另一些由云服务厂商提供的云服务域名,即CDN域名(Content Delivery Network,内容分发网络),同一个域名后缀下对应的实际服务属于不同的组织机构,例如,云服务域名“d360qkwpkfhw70.cloudfront.net”和云服务域名“d7mr9t4gg59vq.cloudfront.net”,虽然这两个域名都是云服务提供商Amazon提供的地址,而他们的实际使用者为不同的组织机构,如果直接将云服务域名后缀“cloudfront.net”判定为组织机构的域名后缀,则会出现误判,它们的域名后缀实际应为三级域名,因而,现有云服务域名同源判定的准确率较低。还有一些攻击者注册恶意域名时会模仿成合法的云服务地址,如“pk.cdn-edu.net”即为攻击者注册的一个恶意域名,而其容易被误判为云服务域名地址,从而导致许多攻击逃逸了检测,因而,云服务域名的判定存在一定的挑战,进而,影响云服务域名同源判定的准确率。
发明内容
为了解决现有的云服务域名同源判定的准确率较低的问题,本申请实施例提供了一种域名同源判定方法、装置、电子设备及存储介质。
第一方面,本申请实施例提供了一种域名同源判定方法,包括:
获取待检测域名,获得所述待检测域名的第一特征,所述第一特征包括:第一域名统计特征和第一域名解析特征,所述待检测域名的第一域名统计特征表征所述待检测域名的结构特征,所述待检测域名的第一域名统计特征表征根据被动域名***PDNS日志提取的所述待检测域名的关联特征;
将所述待检测域名的第一特征输入内容分发网络CDN域名识别模型,获得域名识别结果,其中,所述CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的;
若确定所述域名识别结果为所述待检测域名是CDN域名,则获得所述待检测域名的第二特征,所述第二特征包括:第二域名统计特征和第二域名解析特征,所述待检测域名的第二域名统计特征表征所述待检测域名的候选域名后缀与域名前缀的结构特征,所述待检测域名的第二域名解析特征表征根据所述PDNS日志提取的所述待检测域名的关联特征及所述待检测域名的候选域名后缀的关联特征;
将所述待检测域名的第二特征输入域名后缀提取模型,获得所述待检测域名的域名后缀,其中,所述域名后缀提取模型是基于CDN域名样本的第二特征按照所述预设分类模型训练获得的;
在预设黑名单与预设白名单中分别查找所述待检测域名的域名后缀,若确定所述预设黑名单或所述预设白名单中包含与所述域名后缀相同的CDN域名,则确定所述待检测域名与所述CDN域名为域名同源,将所述待检测域名加入所述预设黑名单或所述预设白名单。
在一种可能的实施方式中,所述域名样本包括域名训练样本和域名预测样本;
通过以下方式训练获得所述CDN域名识别模型:
基于所述PDNS日志获得所述域名训练样本的第一特征;
将所述域名训练样本的第一特征按照所述预设分类模型进行当前轮次的迭代训练,获得候选CDN域名识别模型;
基于所述PDNS日志获得所述域名预测样本的第一特征;
将所述域名预测样本的第一特征输入所述候选CDN域名识别模型进行域名预测,获得预测结果;
将预测结果准确的域名预测样本确定为新增域名训练样本;
根据所述域名训练样本和所述新增域名训练样本对所述候选CDN域名识别模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述CDN域名识别模型。
在一种可能的实施方式中,所述CDN域名样本包括CDN域名训练样本和CDN域名预测样本;
通过以下方式训练获得所述域名后缀提取模型:
获得所述CDN域名训练样本的候选域名后缀,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征;
基于所述CDN域名训练样本的第二特征和所述CDN域名训练样本的候选域名后缀按照所述预设分类模型进行当前轮次的迭代训练,获得候选域名后缀提取模型;
获得所述CDN域名预测样本的候选域名后缀,基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征;
将所述CDN域名预测样本的第二特征输入所述候选域名后缀提取模型进行域名后缀预测,获得预测结果;
将预测结果准确的CDN域名预测样本确定为新增CDN域名训练样本;
根据所述CDN域名训练样本和所述新增CDN域名训练样本对所述候选域名后缀提取模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述域名后缀提取模型。
在一种可能的实施方式中,基于所述PDNS日志获得所述域名训练样本的第一特征,具体包括:
提取所述域名训练样本的第一域名统计特征,并基于所述PDNS日志提取所述域名训练样本的第一域名解析特征,根据所述域名训练样本的第一域名统计特征和所述域名训练样本的第一域名解析特征获得所述域名训练样本的第一特征;以及
基于所述PDNS日志获得所述域名预测样本的第一特征,具体包括:
提取所述域名预测样本的第一域名统计特征,并基于所述PDNS日志提取所述域名预测样本的第一域名解析特征,根据所述域名预测样本的第一域名统计特征和所述域名预测样本的第一域名解析特征获得所述域名预测样本的第一特征。
在一种可能的实施方式中,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征,具体包括:
基于所述CDN域名训练样本的候选域名后缀提取所述CDN域名训练样本的第二域名统计特征,并基于所述CDN域名训练样本的候选域名后缀在所述PDNS日志中提取所述CDN域名训练样本的第二域名解析特征,根据所述CDN域名训练样本的第二域名统计特征和所述CDN域名训练样本的第二域名解析特征获得所述CDN域名训练样本的第二特征;以及
基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征,具体包括:
基于所述CDN域名预测样本的候选域名后缀提取所述CDN域名预测样本的第二域名统计特征,并基于所述CDN域名预测样本的候选域名后缀在所述PDNS日志中提取所述CDN域名预测样本的第二域名解析特征,根据所述CDN域名预测样本的第二域名统计特征和所述CDN域名预测样本的第二域名解析特征获得所述CDN域名预测样本的第二特征。
在一种可能的实施方式中,获取所述CDN域名训练样本的候选域名后缀,具体包括:
针对每一CDN域名训练样本,提取所述CDN域名训练样本的域名后缀;
将所述域名训练样本前缀中除第一个子块外的其它子块与所述域名后缀按照相邻原则依次进行组合,获得所述CDN域名训练样本对应的候选域名后缀。
第二方面,本申请实施例提供了一种域名同源判定装置,包括:
第一特征提取单元,用于获取待检测域名,获得所述待检测域名的第一特征,所述第一特征包括:第一域名统计特征和第一域名解析特征,所述待检测域名的第一域名统计特征表征所述待检测域名的结构特征,所述待检测域名的第一域名统计特征表征根据被动域名***PDNS日志提取的所述待检测域名的关联特征;
域名识别单元,用于将所述待检测域名的第一特征输入内容分发网络CDN域名识别模型,获得域名识别结果,其中,所述CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的;
第二特征提取单元,用于若确定所述域名识别结果为所述待检测域名是CDN域名,则获得所述待检测域名的第二特征,所述第二特征包括:第二域名统计特征和第二域名解析特征,所述待检测域名的第二域名统计特征表征所述待检测域名的候选域名后缀与域名前缀的结构特征,所述待检测域名的第二域名解析特征表征根据所述PDNS日志提取的所述待检测域名的关联特征及所述待检测域名的候选域名后缀的关联特征;
域名后缀提取单元,用于将所述待检测域名的第二特征输入域名后缀提取模型,获得所述待检测域名的域名后缀,其中,所述域名后缀提取模型是基于CDN域名样本的第二特征按照所述预设分类模型训练获得的;
域名同源判定单元,用于在预设黑名单与预设白名单中分别查找所述待检测域名的域名后缀,若确定所述预设黑名单或所述预设白名单中包含与所述域名后缀相同的CDN域名,则确定所述待检测域名与所述CDN域名为域名同源,将所述待检测域名加入所述预设黑名单或所述预设白名单。
在一种可能的实施方式中,所述域名样本包括域名训练样本和域名预测样本;
所述域名识别单元,具体用于通过以下方式训练获得所述CDN域名识别模型:基于所述PDNS日志获得所述域名训练样本的第一特征;将所述域名训练样本的第一特征按照所述预设分类模型进行当前轮次的迭代训练,获得候选CDN域名识别模型;基于所述PDNS日志获得所述域名预测样本的第一特征;将所述域名预测样本的第一特征输入所述候选CDN域名识别模型进行域名预测,获得预测结果;将预测结果准确的域名预测样本确定为新增域名训练样本;根据所述域名训练样本和所述新增域名训练样本对所述候选CDN域名识别模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述CDN域名识别模型。
在一种可能的实施方式中,所述CDN域名样本包括CDN域名训练样本和CDN域名预测样本;
所述域名后缀提取单元,具体用于通过以下方式训练获得所述域名后缀提取模型:获得所述CDN域名训练样本的候选域名后缀,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征;基于所述CDN域名训练样本的第二特征和所述CDN域名训练样本的候选域名后缀按照所述预设分类模型进行当前轮次的迭代训练,获得候选域名后缀提取模型;获得所述CDN域名预测样本的候选域名后缀,基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征;将所述CDN域名预测样本的第二特征输入所述候选域名后缀提取模型进行域名后缀预测,获得预测结果;将预测结果准确的CDN域名预测样本确定为新增CDN域名训练样本;根据所述CDN域名训练样本和所述新增CDN域名训练样本对所述候选域名后缀提取模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述域名后缀提取模型。
在一种可能的实施方式中,所述域名识别单元,具体用于提取所述域名训练样本的第一域名统计特征,并基于所述PDNS日志提取所述域名训练样本的第一域名解析特征,根据所述域名训练样本的第一域名统计特征和所述域名训练样本的第一域名解析特征获得所述域名训练样本的第一特征;以及提取所述域名预测样本的第一域名统计特征,并基于所述PDNS日志提取所述域名预测样本的第一域名解析特征,根据所述域名预测样本的第一域名统计特征和所述域名预测样本的第一域名解析特征获得所述域名预测样本的第一特征。
在一种可能的实施方式中,所述域名后缀提取单元,具体用于基于所述CDN域名训练样本的候选域名后缀提取所述CDN域名训练样本的第二域名统计特征,并基于所述CDN域名训练样本的候选域名后缀在所述PDNS日志中提取所述CDN域名训练样本的第二域名解析特征,根据所述CDN域名训练样本的第二域名统计特征和所述CDN域名训练样本的第二域名解析特征获得所述CDN域名训练样本的第二特征;以及基于所述CDN域名预测样本的候选域名后缀提取所述CDN域名预测样本的第二域名统计特征,并基于所述CDN域名预测样本的候选域名后缀在所述PDNS日志中提取所述CDN域名预测样本的第二域名解析特征,根据所述CDN域名预测样本的第二域名统计特征和所述CDN域名预测样本的第二域名解析特征获得所述CDN域名预测样本的第二特征。
在一种可能的实施方式中,所述域名后缀提取单元,具体用于针对每一CDN域名训练样本,提取所述CDN域名训练样本的域名后缀;将所述域名训练样本前缀中除第一个子块外的其它子块与所述域名后缀按照相邻原则依次进行组合,获得所述CDN域名训练样本对应的候选域名后缀。
第三方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现本申请所述的域名检测方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本申请所述的域名检测方法中的步骤。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
本申请实施例的有益效果如下:
本申请实施例提供的域名检测方案中,获取待检测域名,获得待检测域名的第一特征,第一特征包括:第一域名统计特征和第一域名解析特征,待检测域名的第一域名统计特征表征待检测域名的结构特征,待检测域名的第一域名统计特征表征根据PDNS(PassiveDomain Name System,被动域名***)日志提取的待检测域名的关联特征,将待检测域名的第一特征输入CDN域名识别模型,获得域名识别结果,其中,CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的,若确定域名识别结果为待检测域名是CDN域名,则获得待检测域名的第二特征,第二特征包括:第二域名统计特征和第二域名解析特征,待检测域名的第二域名统计特征表征待检测域名的候选域名后缀与域名前缀的结构特征,待检测域名的第二域名解析特征表征根据PDNS日志提取的待检测域名的关联特征及待检测域名的候选域名后缀的关联特征,进而,将待检测域名的第二特征输入域名后缀提取模型,获得待检测域名的域名后缀,其中,域名后缀提取模型是基于CDN域名样本的第二特征按照预设分类模型训练获得的,在预设黑名单与预设白名单中分别查找待检测域名的域名后缀,若确定预设黑名单或预设白名单中包含与待检测域名的域名后缀相同的CDN域名,则确定待检测域名与该CDN域名为域名同源,并将待检测域名加入预设黑名单或预设白名单中,即该CDN域名所属的名单中,相比于现有技术,本申请实施例中,预先对域名样本的第一特征按照预设分类模型进行训练得到CDN域名识别模型,以及对CDN域名样本的第二特征进行训练得到域名后缀提取模型,先利用CDN域名识别模型判定待检测域名是否为CDN域名,若是CDN域名则进一步利用域名后缀提取模型提取待检测域名的域名后缀,根据该域名后缀在预设黑名单和预设白名单中的查找到的域名同源CDN域名将待检测域名加入相应的名单中,由于CDN域名识别模型及域名后缀提取模型的训练充分利用了域名的统计特征和基于PDNS日志提取的域名的解析特征,提高了CDN域名与域名后缀预测的准确率,也即提高了云服务域名与域名后缀的检测准确率,并且,对待检测域名先进行CDN域名识别,如待检测域名为CDN域名再进行域名后缀提取,进一步提高了CDN域名后缀检测的准确率,进而提高了CDN域名(也即云服务域名)同源判定的准确率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的域名同源判定方法的流程示意图;
图2为本申请实施例提供的CDN域名识别模型的训练流程示意图;
图3为本申请实施例提供的域名后缀提取模型的训练流程示意图;
图4为本申请实施例提供的域名同源判定装置的结构示意图;
图5为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了解决现有的云服务域名同源判定的准确率较低的问题,本申请实施例提供了一种域名同源判定方法、装置、电子设备及存储介质。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本文中,需要理解的是,本发明所涉及的技术术语中:
1、CNAME(Canonical Name,规范名字):即别名记录,这种记录允许将多个名字映射到同一台计算机。通常用于同时提供WWW和MAIL服务的计算机。例如,有一台计算机名为“host.mydomain.com”(A记录),它同时提供WWW和MAIL服务,为了便于用户访问服务,可以为该计算机设置两个别名(CNAME):WWW和MAIL。同样的方法可以用于当拥有多个域名需要指向同一服务器IP地址,此时就可以将一个域名做A记录指向服务器IP地址,然后将其他的域名做别名(即CNAME)到A记录的域名上,那么当服务器IP地址变更时,就可以不必对一个一个域名做更改指向,只需要更改A记录的那个域名到服务器新IP地址上,其他做别名(即CNAME)的那些域名的指向将自动更改到新的IP地址上(以上操作均需要在DNS处执行)。其中,A记录是用来指定域名(或主机名)对应的IP地址记录,用户可以将该域名下的网站服务器指向到自己的Web服务器上。
本申请提供的域名检测方法可应用与服务器,也可应用于终端设备,本申请实施例对此不作限定。
服务器可以是独立的物理服务器,也可以为集群服务器,也可以是提供云服务器、云数据库、云存储等基础云计算服务的云服务器。终端设备可以但不限于为:智能终端、平板电脑、笔记本电脑、台式计算机等,本申请实施例对此不作限定。
本申请实施例仅以应用于服务器为例进行说明。
如图1所示,其为本申请实施例提供的域名检测方法的实施流程示意图,可以应用于服务器,包括以下步骤:
S11、获取待检测域名,获得待检测域名的第一特征。
具体实施时,服务器预先训练CDN域名识别模型和域名后缀提取模型。
其中,CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的,第一特征包括:第一域名统计特征和第一域名解析特征,域名样本的第一特征包括:域名样本的域名统计特征(可记为域名样本的第一域名统计特征)和域名样本的域名解析特征(可记为域名样本的第一域名解析特征),域名样本的第一统计特征表征域名样本的结构特征,域名样本的第一解析特征表征根据PDNS日志提取的域名样本的关联特征。其中,域名样本包括正样本和负样本,正样本为CDN域名样本,负样本为非CDN域名样本。
一个域名的第一域名统计特征可至少包括但不限于以下一种或者多种特征的组合:域名中是否包含公开顶级域名、域名中是否包含热门字段、域名的块的长度(即域名的块的数量)、域名的子域名数量、域名的子域名包含热门字段的子域名数量、域名的子域名的平均块长度等。其中,热门字段为域名使用的常用字段,例如“www”等,其中,一个域名中的块是指由“.”分开的每个部分的字符块,例如,“www.organizationxxx.com”包含以下三个块:“www”、“organizationxxx”和“com”。
一个域名的第一域名解析特征至少包括但不限于以下一种或多种特征的组合:在PDNS日志中,该域名对应的IP地址数量(也就是域名指向的IP地址数量)、域名对应的CNAME的数量、其它域名解析为该域名的数量和域名对应的地域分布等。
域名后缀提取模型是对CDN域名的后缀进行提取,域名后缀提取模型是基于CDN域名样本的第二特征按照预设分类模型训练获得的,第二特征包括:第二域名统计特征和第二域名解析特征,CDN域名样本的第二特征包括:CDN域名样本的第二域名统计特征和CDN域名样本的第二域名解析特征,CDN域名样本的第二统计特征表征CDN域名样本的候选域名后缀与域名前缀的结构特征,CDN域名样本的第二解析特征表征根据PDNS日志提取的CDN域名样本的关联特征及CDN域名样本的候选域名后缀的关联特征。
一个域名的第二域名统计特征可至少包括但不限于以下一种或者多种特征的组合:候选域名前缀中是否包含公开顶级域名、候选域名前缀中是否包含热门字段、候选域名前缀的块的长度、候选域名后缀的子域名数量、候选域名后缀的子域名中存在热门前缀的子域名数量和候选域名后缀的子域名的平均块长度等。其中,域名的候选域名后缀可通过如下方式获得:提取域名的域名后缀,将域名前缀中除第一个子块外的其它子块与域名后缀按照相邻原则依次进行组合,获得域名的候选域名后缀。域名中候选域名后缀之前的部分则为候选域名前缀。
一个域名的第二域名解析特征至少包括但不限于以下一种或多种特征的组合:候选域名后缀对应域名的数量(也即:候选域名后缀出现在多少个不同的域名中)、候选域名后缀对应的CNAME的数量、域名对应IP地址的数量、域名对应的CNAME的数量、其它域名解析为该域名的数量和域名对应的地域分布等。
作为一种可能的实施方式,训练CDN域名识别模型的域名样本可包括域名训练样本和域名预测样本,域名训练样本用于进行CDN域名识别模型的训练,域名预测样本用于对训练出的候选CDN域名识别模型进行预测,判断模型的准确率,即:域名预测样本是否为CDN域名(地址)。
可按照如图2所示的流程进行训练获得CDN域名识别模型:
S21、基于PDNS日志获得域名训练样本的第一特征。
具体实施时,可以通过以下方式构造域名样本:
可基于网络上公开的各大云服务商收集的用于加速配置CNAME的CDN域名构建CDN域名地址知识库,CDN域名地址知识库中的CDN域名可用于训练时标识给定的域名是否为真实的CDN域名,可通过whois工具查询域名归属,通过DNSgrep工具或Virsustotal工具查询域名的子域名信息确定域名后缀,建立域名与域名后缀的对应关系,构造初始的域名同源知识库。采集设定时间段内的PDNS日志数据,基于PDNS日志进行域名特征提取。其中,设定时间段可自行设置,如可设置为最近1年,本申请实施例对此不作限定。基于构建的域名同源知识库构造域名样本,从域名同源知识库中获取一定比例的CDN域名作为域名训练样本的正样本,其他CDN域名可作为域名预测样本的正样本,从网络上收集非CDN域名,选择一部分非CDN域名作为域名训练样本的负样本,其他非CDN域名作为域名预测样本的负样本。CDN域名即为各大云服务商提供的云服务域名,非CDN域名即为非云服务域名。
需要说明的是,本申请中,域名后缀是指可以对应到一个组织机构的字符段,而本申请中的域名前缀则是指域名后缀之前的所有字符段,例如,域名“www.***.com”的域名后缀是“***.com”,域名前缀是“www”,域名后缀“***.com”可对应到组织机构“百度”。
具体地,针对每一域名训练样本,可按照如下方式获得该域名训练样本的第一特征:提取域名训练样本的第一域名统计特征,并基于PDNS日志提取域名训练样本的第一域名解析特征,根据域名训练样本的第一域名统计特征和域名训练样本的第一域名解析特征获得域名训练样本的第一特征。
具体实施时,可提取域名训练样本的以下一种或者多种特征的组合,作为域名训练样本的第一域名统计特征:域名训练样本中是否包含公开顶级域名、域名训练样本中是否包含热门字段、域名训练样本的块的长度、域名训练样本的子域名数量、域名训练样本的子域名包含热门字段的子域名数量、域名训练样本的子域名的平均块长度等。可从PDNS日志提取域名训练样本以下一种或者多种特征的组合,作为域名训练样本的第一域名解析特征:在PDNS日志中,该域名训练样本对应的IP地址数量(即:域名训练样本指向的IP地址数量)、域名训练样本对应的CNAME的数量、其它域名解析为域名训练样本的数量和域名训练样本对应的地域分布等。将提取的该域名训练样本的第一域名统计特征和该域名训练样本的第一域名解析特征作为该域名训练样本的第一特征。
S22、将域名训练样本的第一特征按照预设分类模型进行当前轮次的迭代训练,获得候选CDN域名识别模型。
具体实施时,将当前已有的各个域名训练样本的第一特征分别输入预设分类模型,根据标注的真实标签与预测标签之间的误差对预设分类模型进行一轮迭代训练,调整模型参数,得到当前轮次训练后的CDN域名识别模型,将当前轮次训练出的CDN域名识别模型作为候选CDN域名识别模型。
将域名的第一特征输入CDN域名识别模型,输出结果为域名是否为CDN域名。其中,预设分类模型可以但不限于采用决策树分类模型,本申请实施例对此不作限定。
S23、基于PDNS日志获得域名预测样本的第一特征。
具体实施时,针对每一域名预测样本,提取域名预测样本的第一域名统计特征,并基于PDNS日志提取域名预测样本的第一域名解析特征,根据域名预测样本的第一域名统计特征和域名预测样本的第一域名解析特征获得域名预测样本的第一特征。
域名预测样本的第一域名统计特征与域名预测样本的第一域名解析特征的提取可参见上述域名训练样本的第一域名统计特征与域名训练样本的第一域名解析特征的提取,此处不作赘述。
S24、将域名预测样本的第一特征输入候选CDN域名识别模型进行域名预测,获得预测结果。
具体实施时,将各个域名预测样本的第一特征分别输入当前轮次的候选CDN域名识别模型进行域名预测,获得各自对应的预测结果,即:各个域名预测样本是否为CDN域名。
S25、将预测结果准确的域名预测样本确定为新增域名训练样本。
具体实施时,针对每一域名预测样本,若预测结果与该域名预测样本真实的域名属性一致,则确定预测结果准确。例如,一个域名训练样本为CDN域名,若根据候选CDN域名识别模型判定该域名训练样本为CDN域名,则预测结果准确,若判定该域名训练样本为非CDN域名,则预测结果错误,反之亦然。
具体地,可采用以下方式进行联合判定一个域名是否为CDN域名:
基于域名语义的验证方式和基于域名所属关联关系的验证方式。其中,基于域名语义的验证方式是基于爬虫方法爬取网络信息的语义分析,CDN厂商为了推广自己的服务,需介绍自己的域名地址和服务,通过搜索引擎检索域名或者直接访问域名地址通常可以关联到域名对应的网址,通过基于爬虫的批量校验方法提取网页关键词(如CDN、云服务、网页描述信息等)做语义分析,可以验证一个域名是否为真实的CDN域名。基于域名所属关联关系的验证方式是基于CNAME记录进行验证。CNAME记录是域名***的一种记录,CNAME记录用于将一个域名映射到真实名称,通常CDN域名指向的真实名称为CDN厂商的IP资产或内部域名地址,因此,可以根据DNS解析的CNAME关系对(name,value)进行验证,若存在“name”为已知域名的关系对,则判定“value”为CDN域名,这种方式可进一步判定基于爬虫方法不能判断的域名。
如果任一域名预测样本的预测结果准确,则将该域名预测样本确定为新增域名训练样本,添加至训练样本库,以丰富训练样本库,将当前已有的域名训练样本和新增的域名训练样本作为下一轮次的域名训练样本,这样,由于将预测准确的域名预测样本作为域名训练样本继续对CDN域名识别模型进行训练,可提高模型的准确度。
S26、根据域名训练样本和新增域名训练样本对候选CDN域名识别模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得CDN域名识别模型。
具体实施时,根据当前已有域名训练样本和新增域名训练样本再次对候选CDN域名识别模型做新一轮次的迭代训练,也就是根据更新后的训练样本库中当前包含的域名训练样本对当前轮次的候选CDN域名识别模型执行新一轮次的迭代训练,得到新一轮次的候选CDN域名识别模型,重复执行步骤S24、和步骤S25,直至达到预设迭代轮次,或者预测的精确度达到设定阈值,获得训练后的CDN域名识别模型。其中,预设迭代轮次可自行进行设置,设定阈值也可根据需求自行设定,例如可以设置为90%,本申请实施例对此不作限定。
由于域名后缀提取模型提取的是CDN域名的域名后缀,在对域名后缀模型进行训练时,采用CDN域名样本进行训练。
具体实施时,可通过如图3所示的流程进行训练获得域名后缀提取模型:
S31、获得CDN域名训练样本的候选域名后缀,基于CDN域名训练样本的候选域名后缀与PDNS日志获得CDN域名训练样本的第二特征。
具体实施时,针对每一CDN域名训练样本,提取CDN域名训练样本的域名后缀,将域名训练样本前缀中除第一个子块外的其它子块与域名后缀按照相邻原则依次进行组合,获得CDN域名训练样本对应的候选域名后缀。
具体地,可通过公开的公共后缀列表和TLD列表提取域名的域名后缀,例如,域名“vm.abc123xxx.cn.cloud.tc.qq.com”,基于公开公共后缀列表查询的方式,会将“qq.com”作为域名后缀,但是该域名的实际域名后缀应为“cloud.tc.qq.com”,“qq.com”作为域名后缀时,域名前缀则为“vm.abc123xxx.cn.cloud.tc”,将“qq.com”与“vm.abc123xxx.cn.cloud.tc”中除“vm”以外的块按照相邻原则依次组合,可以得到如下候选域名后缀:“tc.qq.com”、“cloud.tc.qq.com”、“cn.cloud.tc.qq.com”和“abc123xxx.cn.cloud.tc.qq.com”,候选域名后缀“tc.qq.com”对应的候选域名前缀为“vm.abc123xxx.cn.cloud”,候选域名后缀“cloud.tc.qq.com”对应的候选域名前缀为“vm.abc123xxx.cn”,候选域名后缀“cn.cloud.tc.qq.com”对应的候选域名前缀为“vm.abc123xxx”,候选域名后缀“abc123xxx.cn.cloud.tc.qq.com”对应的候选域名前缀为“vm”。
若在训练时,当上述域名“vm.abc123xxx.cn.cloud.tc.qq.com”作为域名训练样本时,上述各候选域名后缀中,仅有一个是准确的域名后缀,即:“cloud.tc.qq.com”,其作为正样本,“tc.qq.com”、“cn.cloud.tc.qq.com”和“abc123xxx.cn.cloud.tc.qq.com”作为负样本,通过学习域名的准确的域名后缀,调整模型参数。
在获取CDN域名训练样本的候选域名后缀后,再基于CDN域名训练样本的候选域名后缀与PDNS日志获得CDN域名训练样本的第二域名统计特征和CDN域名训练样本的第二域名解析特征。
具体实施时,基于CDN域名训练样本的候选域名后缀提取CDN域名训练样本的第二域名统计特征,并基于CDN域名训练样本的候选域名后缀在PDNS日志中提取CDN域名训练样本的第二域名解析特征,根据CDN域名训练样本的第二域名统计特征和CDN域名训练样本的第二域名解析特征获得CDN域名训练样本的第二特征。
具体地,可提取CDN域名训练样本的以下一种或者多种特征的组合,作为CDN域名训练样本的第二域名统计特征:CDN域名训练样本的候选域名前缀中是否包含公开顶级域名、CDN域名训练样本的候选域名前缀中是否包含热门字段、CDN域名训练样本的候选域名前缀的块的长度、CDN域名训练样本的候选域名后缀的子域名数量、CDN域名训练样本的候选域名后缀的子域名中存在热门前缀的子域名数量,以及CDN域名训练样本的候选域名后缀的子域名的平均块长度等。可从PDNS日志提取CDN域名训练样本以下一种或者多种特征的组合,作为CDN域名训练样本的第二域名解析特征:CDN域名训练样本的候选域名后缀对应域名的数量、CDN域名训练样本的候选域名后缀对应的CNAME的数量、CDN域名训练样本对应IP地址的数量、CDN域名训练样本对应的CNAME的数量、其它域名解析为该CDN域名训练样本的数量,和CDN域名训练样本对应的地域分布等。将提取的该CDN域名训练样本的第二域名统计特征和该CDN域名训练样本的第二域名解析特征作为该CDN域名训练样本的第二特征。
S32、基于CDN域名训练样本的第二特征和CDN域名训练样本的候选域名后缀按照预设分类模型进行当前轮次的迭代训练,获得候选域名后缀提取模型。
具体实施时,可通过以下步骤训练,获得当前轮次的候选域名后缀提取模型:
步骤一、将CDN域名训练样本的第二特征输入预设分类模型中,获得被预测为各候选域名后缀的预测概率。
针对每一CDN域名训练样本,将该CDN域名训练样本的第二特征输入预设分类模型中,获得被预测为该CDN域名训练样本的各个候选域名后缀的预测概率。
其中,预设分类模型可但不限于采用决策树分类模型,本申请实施例对此不作限定。
步骤二、根据CDN域名训练样本为各候选域名后缀的真实概率与被预测为各候选域名后缀的预测概率对预设分类模型的参数进行调整,获得当前轮次候选域名后缀提取模型。
具体实施,根据当前已有的各个CDN域名训练样本为各候选域名后缀的真实概率与被预测为各候选域名后缀的预测概率的误差对预设分类模型进行一轮迭代训练,调整预设分类模型的参数,得到训练后的域名后缀提取模型,将训练出的域名后缀提取模型作为当前轮次的候选域名后缀提取模型。
将域名的第二特征输入候选域名后缀提取模型,输出结果为该域名的域名后缀。
S33、获得CDN域名预测样本的候选域名后缀,基于CDN域名预测样本的候选域名后缀与PDNS日志获得CDN域名预测样本的第二特征。
具体实施时,基于CDN域名预测样本的候选域名后缀提取CDN域名预测样本的第二域名统计特征,并基于CDN域名预测样本的候选域名后缀在PDNS日志中提取CDN域名预测样本的第二域名解析特征,根据CDN域名预测样本的第二域名统计特征和CDN域名预测样本的第二域名解析特征获得CDN域名预测样本的第二特征。
CDN域名预测样本的第二域名统计特征与CDN域名预测样本的第二域名解析特征的提取可参见上述CDN域名训练样本的第二域名统计特征与CDN域名训练样本的第二域名解析特征的提取,此处不作赘述。
S34、将CDN域名预测样本的第二特征输入候选域名后缀提取模型进行域名后缀预测,获得预测结果。
具体实施,将各个CDN域名预测样本的第二特征分别输入当前轮次的候选域名后缀提取模型进行域名后缀预测,获得各自对应预测结果,即:各个CDN域名预测样本的域名后缀。
S35、将预测结果准确的CDN域名预测样本确定为新增CDN域名训练样本。
具体实施时,可通过以下方式判定域名后缀的预测结果是否准确,即提取的域名后缀是否准确:
本申请中,域名后缀是能够明确对应到一个组织机构的域名地址,因此,提取的域名后缀的准确性的判定方式是:验证该域名后缀是否唯一标识一个组织机构。
具体地,可通过whois查询工具查询提取的域名后缀的域名归属,这样,可查询出提取的域名后缀所归属的域名是否为对应CDN域名预测样本,或通过DNSGrep等工具查询域名的子域名信息,或通过浏览器直接访问域名等方法,结合域名后缀特点进行综合判定。
如果任一CDN域名预测样本的预测结果准确,则将该CDN域名预测样本确定为新增CDN域名训练样本,添加至CDN训练样本库,以丰富CDN训练样本库,将当前已有的CDN域名训练样本和新增的CDN域名训练样本作为下一轮次的CDN域名训练样本,这样,由于将预测准确的CDN域名预测样本作为CDN域名训练样本继续对域名后缀提取模型进行训练,可提高模型的准确度。
S36、根据CDN域名训练样本和新增CDN域名训练样本对候选域名后缀提取模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得域名后缀提取模型。
具体实施时,根据当前已有CDN域名训练样本和新增CDN域名训练样本再次对候选域名后缀提取模型做新一轮次的迭代训练,也就是根据更新后的CDN训练样本库中当前包含的域名训练样本对当前轮次的候选域名后缀提取模型执行新一轮次的迭代训练,得到新一轮次的候选域名后缀提取模型,重复执行步骤S34和步骤S35,直至达到预设迭代轮次,或者预测的精确度达到设定阈值,获得训练后的域名后缀提取模型。
进而,使用训练后的CDN域名识别模型和域名后缀提取模型对域名进行检测,进行域名同源判定。
在具体实施时,服务器获取客户端发送的待检测域名,获得待检测域名的第一特征,其中,待检测域名的第一特征包括:待检测域名的第一统计特征和待检测域名的第一解析特征。其中,待检测域名的第一统计特征表征待检测域名的结构特征,待检测域名的第一解析特征表征根据PDNS日志提取的待检测域名的关联特征。
具体地,服务器提取待检测域名的第一域名统计特征,基于PDNS日志提取待检测域名的第一域名解析特征,根据待检测域名的第一域名统计特征和待检测域名的第一域名解析特征获得待检测域名的第一特征。
具体地,可提取待检测域名的以下一种或者多种特征的组合,作为待检测域名的第一域名统计特征:待检测域名中是否包含公开顶级域名、待检测域名中是否包含热门字段、待检测域名的块的长度、待检测域名的子域名数量、待检测域名的子域名包含热门字段的子域名数量、待检测域名的子域名的平均块长度等。可从PDNS日志提取待检测域名以下一种或者多种特征的组合,作为待检测域名的第一域名解析特征:在PDNS日志中,该待检测域名对应的IP地址数量(即:待检测域名指向的IP地址数量)、待检测域名对应的CNAME的数量、其它域名解析为待检测域名的数量和待检测域名对应的地域分布等。将提取的待检测域名的第一域名统计特征和待检测域名的第一域名解析特征作为待检测域名的第一特征。
S12、将待检测域名的第一特征输入CDN域名识别模型,获得域名识别结果。
具体实施时,服务器将待检测域名的第一特征输入CDN域名识别模型,可预测出待检测域名是否为CDN域名。
S13、若确定域名识别结果为待检测域名是CDN域名,则获得待检测域名的第二特征。
具体实施时,若域名识别结果为待检测域名是真实的CDN域名,服务器则获得待检测域名的候选域名后缀,基于待检测域名的候选域名后缀与PDNS日志获得待检测域名的第二特征。
其中,待检测域名的候选域名后缀的获取方式参见步骤S31中CDN域名训练样本的候选域名后缀的获取方式,此处不作赘述。
具体地,可基于待检测域名的候选域名后缀提取待检测域名的第二域名统计特征,基于待检测域名的候选域名后缀在PDNS日志中提取待检测域名的第二域名解析特征,根据待检测域名的第二域名统计特征和待检测域名的第二域名解析特征获得待检测域名的第二特征。
在实施时,可提取待检测域名的以下一种或者多种特征的组合,作为待检测域名的第二域名统计特征:待检测域名的候选域名前缀中是否包含公开顶级域名、待检测域名的候选域名前缀中是否包含热门字段、待检测域名的候选域名前缀的块的长度、待检测域名的候选域名后缀的子域名数量、待检测域名的候选域名后缀的子域名中存在热门前缀的子域名数量,以及待检测域名的候选域名后缀的子域名的平均块长度等。可从PDNS日志提取待检测域名的以下一种或者多种特征的组合,作为待检测域名的第二域名解析特征:待检测域名的候选域名后缀对应域名的数量、待检测域名的候选域名后缀对应的CNAME的数量、待检测域名对应IP地址的数量、待检测域名对应的CNAME的数量、其它域名解析为待检测域名的数量,和待检测域名对应的地域分布等。将提取的待检测域名的第二域名统计特征和待检测域名的第二域名解析特征作为待检测域名的第二特征。
S14、将待检测域名的第二特征输入域名后缀提取模型,获得待检测域名的域名后缀。
具体实施时,服务器将待检测域名的第二特征输入域名后缀提取模型,获得预测出的该待检测域名的域名后缀。
S15、在预设黑名单与预设白名单中分别查找待检测域名的域名后缀,若确定预设黑名单或预设白名单中包含与域名后缀相同的CDN域名,则确定待检测域名与所述CDN域名为域名同源,将待检测域名加入预设黑名单或预设白名单。
具体实施时,服务器设置预设黑名单与预设白名单,其中,预设黑名单中存储的是被设置为黑名单的CDN域名与其域名后缀的对应关系,预设白名单中存储的是被设置为白名单的CDN域名与其域名后缀的对应关系。
具体地,在预测出待检测域名的域名后缀后,将待检测域名的域名后缀在预设黑名单与预设白名单中进行查找,若在预设黑名单中查找到待检测域名的域名后缀,则确定待检测域名与预设黑名单中该域名后缀对应的CDN域名为域名同源,将待检测域名加入预设黑名单,若在预设白名单中查找到待检测域名的域名后缀,则确定待检测域名与预设白名单中该域名后缀对应的CDN域名为域名同源,将待检测域名加入预设白名单,并存储待检测域名与域名后缀的对应关系。进而,可进一步对黑名单中的CDN域名的网络流量进行拦截。
本申请实施例提供的域名检测方法中,获取待检测域名,获得待检测域名的第一特征,第一特征包括:第一域名统计特征和第一域名解析特征,待检测域名的第一域名统计特征表征待检测域名的结构特征,待检测域名的第一域名统计特征表征根据PDNS(PassiveDomain Name System,被动域名***)日志提取的待检测域名的关联特征,将待检测域名的第一特征输入CDN域名识别模型,获得域名识别结果,其中,CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的,若确定域名识别结果为待检测域名是CDN域名,则获得待检测域名的第二特征,第二特征包括:第二域名统计特征和第二域名解析特征,待检测域名的第二域名统计特征表征待检测域名的候选域名后缀与域名前缀的结构特征,待检测域名的第二域名解析特征表征根据PDNS日志提取的待检测域名的关联特征及待检测域名的候选域名后缀的关联特征,进而,将待检测域名的第二特征输入域名后缀提取模型,获得待检测域名的域名后缀,其中,域名后缀提取模型是基于CDN域名样本的第二特征按照预设分类模型训练获得的,在预设黑名单与预设白名单中分别查找待检测域名的域名后缀,若确定预设黑名单或预设白名单中包含与待检测域名的域名后缀相同的CDN域名,则确定待检测域名与该CDN域名为域名同源,并将待检测域名加入预设黑名单或预设白名单中,即该CDN域名所属的名单中,相比于现有技术,本申请实施例中,预先对域名样本的第一特征按照预设分类模型进行训练得到CDN域名识别模型,以及对CDN域名样本的第二特征进行训练得到域名后缀提取模型,先利用CDN域名识别模型判定待检测域名是否为CDN域名,若是CDN域名则进一步利用域名后缀提取模型提取待检测域名的域名后缀,根据该域名后缀在预设黑名单和预设白名单中的查找到的域名同源CDN域名将待检测域名加入相应的名单中,由于CDN域名识别模型及域名后缀提取模型的训练充分利用了域名的统计特征和基于PDNS日志提取的域名的解析特征,提高了CDN域名与域名后缀预测的准确率,也即提高了云服务域名与域名后缀的检测准确率,并且,对待检测域名先进行CDN域名识别,如待检测域名为CDN域名再进行域名后缀提取,进一步提高了CDN域名后缀检测的准确率,进而提高了CDN域名(也即云服务域名)同源判定的准确率。
基于同一发明构思,本申请实施例还提供了一种域名同源判定装置,由于上述域名同源判定装置解决问题的原理与域名检测方法相似,因此上述装置的实施可以参见方法的实施,重复之处不再赘述。
如图4所示,其为本申请实施例提供的域名同源判定装置的结构示意图,可以包括:
第一特征提取单元41,用于获取待检测域名,获得所述待检测域名的第一特征,所述第一特征包括:第一域名统计特征和第一域名解析特征,所述待检测域名的第一域名统计特征表征所述待检测域名的结构特征,所述待检测域名的第一域名统计特征表征根据被动域名***PDNS日志提取的所述待检测域名的关联特征;
域名识别单元42,用于将所述待检测域名的第一特征输入内容分发网络CDN域名识别模型,获得域名识别结果,其中,所述CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的;
第二特征提取单元43,用于若确定所述域名识别结果为所述待检测域名是CDN域名,则获得所述待检测域名的第二特征,所述第二特征包括:第二域名统计特征和第二域名解析特征,所述待检测域名的第二域名统计特征表征所述待检测域名的候选域名后缀与域名前缀的结构特征,所述待检测域名的第二域名解析特征表征根据所述PDNS日志提取的所述待检测域名的关联特征及所述待检测域名的候选域名后缀的关联特征;
域名后缀提取单元44,用于将所述待检测域名的第二特征输入域名后缀提取模型,获得所述待检测域名的域名后缀,其中,所述域名后缀提取模型是基于CDN域名样本的第二特征按照所述预设分类模型训练获得的;
域名同源判定单元45,用于在预设黑名单与预设白名单中分别查找所述待检测域名的域名后缀,若确定所述预设黑名单或所述预设白名单中包含与所述域名后缀相同的CDN域名,则确定所述待检测域名与所述CDN域名为域名同源,将所述待检测域名加入所述预设黑名单或所述预设白名单。
在一种可能的实施方式中,所述域名样本包括域名训练样本和域名预测样本;
所述域名识别单元42,具体用于通过以下方式训练获得所述CDN域名识别模型:基于所述PDNS日志获得所述域名训练样本的第一特征;将所述域名训练样本的第一特征按照所述预设分类模型进行当前轮次的迭代训练,获得候选CDN域名识别模型;基于所述PDNS日志获得所述域名预测样本的第一特征;将所述域名预测样本的第一特征输入所述候选CDN域名识别模型进行域名预测,获得预测结果;将预测结果准确的域名预测样本确定为新增域名训练样本;根据所述域名训练样本和所述新增域名训练样本对所述候选CDN域名识别模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述CDN域名识别模型。
在一种可能的实施方式中,所述CDN域名样本包括CDN域名训练样本和CDN域名预测样本;
所述域名后缀提取单元44,具体用于通过以下方式训练获得所述域名后缀提取模型:获得所述CDN域名训练样本的候选域名后缀,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征;基于所述CDN域名训练样本的第二特征和所述CDN域名训练样本的候选域名后缀按照所述预设分类模型进行当前轮次的迭代训练,获得候选域名后缀提取模型;获得所述CDN域名预测样本的候选域名后缀,基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征;将所述CDN域名预测样本的第二特征输入所述候选域名后缀提取模型进行域名后缀预测,获得预测结果;将预测结果准确的CDN域名预测样本确定为新增CDN域名训练样本;根据所述CDN域名训练样本和所述新增CDN域名训练样本对所述候选域名后缀提取模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述域名后缀提取模型。
在一种可能的实施方式中,所述域名识别单元42,具体用于提取所述域名训练样本的第一域名统计特征,并基于所述PDNS日志提取所述域名训练样本的第一域名解析特征,根据所述域名训练样本的第一域名统计特征和所述域名训练样本的第一域名解析特征获得所述域名训练样本的第一特征;以及提取所述域名预测样本的第一域名统计特征,并基于所述PDNS日志提取所述域名预测样本的第一域名解析特征,根据所述域名预测样本的第一域名统计特征和所述域名预测样本的第一域名解析特征获得所述域名预测样本的第一特征。
在一种可能的实施方式中,所述域名后缀提取单元44,具体用于基于所述CDN域名训练样本的候选域名后缀提取所述CDN域名训练样本的第二域名统计特征,并基于所述CDN域名训练样本的候选域名后缀在所述PDNS日志中提取所述CDN域名训练样本的第二域名解析特征,根据所述CDN域名训练样本的第二域名统计特征和所述CDN域名训练样本的第二域名解析特征获得所述CDN域名训练样本的第二特征;以及基于所述CDN域名预测样本的候选域名后缀提取所述CDN域名预测样本的第二域名统计特征,并基于所述CDN域名预测样本的候选域名后缀在所述PDNS日志中提取所述CDN域名预测样本的第二域名解析特征,根据所述CDN域名预测样本的第二域名统计特征和所述CDN域名预测样本的第二域名解析特征获得所述CDN域名预测样本的第二特征。
在一种可能的实施方式中,所述域名后缀提取单元44,具体用于针对每一CDN域名训练样本,提取所述CDN域名训练样本的域名后缀;将所述域名训练样本前缀中除第一个子块外的其它子块与所述域名后缀按照相邻原则依次进行组合,获得所述CDN域名训练样本对应的候选域名后缀。
基于同一技术构思,本申请实施例还提供了一种电子设备500,参照图5所示,电子设备500用于实施上述方法实施例记载的域名检测方法,该实施例的电子设备500可以包括:存储器501、处理器502以及存储在所述存储器中并可在所述处理器上运行的计算机程序,例如域名检测程序。所述处理器执行所述计算机程序时实现上述各个域名同源判定方法实施例中的步骤,例如图1所示的步骤S11。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能,例如41。
本申请实施例中不限定上述存储器501、处理器502之间的具体连接介质。本申请实施例在图5中以存储器501、处理器502之间通过总线503连接,总线503在图5中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。所述总线503可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器501可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器501也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器501是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器501可以是上述存储器的组合。
处理器502,用于实现如图1所示的一种域名同源判定方法,包括:
所述处理器502,用于调用所述存储器501中存储的计算机程序执行如图1中所示的步骤S11~步骤S15。
本申请实施例还提供了一种计算机可读存储介质,存储为执行上述处理器所需执行的计算机可执行指令,其包含用于执行上述处理器所需执行的程序。
在一些可能的实施方式中,本申请提供的域名同源判定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在电子设备上运行时,所述程序代码用于使所述电子设备执行本说明书上述描述的根据本申请各种示例性实施方式的域名同源判定方法中的步骤,例如,所述电子设备可以执行如图1中所示的步骤S11~步骤S15。
本领域内的技术人员应明白,本申请的实施例可提供为方法、装置、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (14)
1.一种域名同源判定方法,其特征在于,包括:
获取待检测域名,获得所述待检测域名的第一特征,所述第一特征包括:第一域名统计特征和第一域名解析特征,所述待检测域名的第一域名统计特征表征所述待检测域名的结构特征,所述待检测域名的第一域名统计特征表征根据被动域名***PDNS日志提取的所述待检测域名的关联特征;
将所述待检测域名的第一特征输入内容分发网络CDN域名识别模型,获得域名识别结果,其中,所述CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的;
若确定所述域名识别结果为所述待检测域名是CDN域名,则获得所述待检测域名的第二特征,所述第二特征包括:第二域名统计特征和第二域名解析特征,所述待检测域名的第二域名统计特征表征所述待检测域名的候选域名后缀与域名前缀的结构特征,所述待检测域名的第二域名解析特征表征根据所述PDNS日志提取的所述待检测域名的关联特征及所述待检测域名的候选域名后缀的关联特征;
将所述待检测域名的第二特征输入域名后缀提取模型,获得所述待检测域名的域名后缀,其中,所述域名后缀提取模型是基于CDN域名样本的第二特征按照所述预设分类模型训练获得的;
在预设黑名单与预设白名单中分别查找所述待检测域名的域名后缀,若确定所述预设黑名单或所述预设白名单中包含与所述域名后缀相同的CDN域名,则确定所述待检测域名与所述CDN域名为域名同源,将所述待检测域名加入所述预设黑名单或所述预设白名单。
2.如权利要求1所述的方法,其特征在于,所述域名样本包括域名训练样本和域名预测样本;
通过以下方式训练获得所述CDN域名识别模型:
基于所述PDNS日志获得所述域名训练样本的第一特征;
将所述域名训练样本的第一特征按照所述预设分类模型进行当前轮次的迭代训练,获得候选CDN域名识别模型;
基于所述PDNS日志获得所述域名预测样本的第一特征;
将所述域名预测样本的第一特征输入所述候选CDN域名识别模型进行域名预测,获得预测结果;
将预测结果准确的域名预测样本确定为新增域名训练样本;
根据所述域名训练样本和所述新增域名训练样本对所述候选CDN域名识别模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述CDN域名识别模型。
3.如权利要求1所述的方法,其特征在于,所述CDN域名样本包括CDN域名训练样本和CDN域名预测样本;
通过以下方式训练获得所述域名后缀提取模型:
获得所述CDN域名训练样本的候选域名后缀,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征;
基于所述CDN域名训练样本的第二特征和所述CDN域名训练样本的候选域名后缀按照所述预设分类模型进行当前轮次的迭代训练,获得候选域名后缀提取模型;
获得所述CDN域名预测样本的候选域名后缀,基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征;
将所述CDN域名预测样本的第二特征输入所述候选域名后缀提取模型进行域名后缀预测,获得预测结果;
将预测结果准确的CDN域名预测样本确定为新增CDN域名训练样本;
根据所述CDN域名训练样本和所述新增CDN域名训练样本对所述候选域名后缀提取模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述域名后缀提取模型。
4.如权利要求2所述的方法,其特征在于,基于所述PDNS日志获得所述域名训练样本的第一特征,具体包括:
提取所述域名训练样本的第一域名统计特征,并基于所述PDNS日志提取所述域名训练样本的第一域名解析特征,根据所述域名训练样本的第一域名统计特征和所述域名训练样本的第一域名解析特征获得所述域名训练样本的第一特征;以及
基于所述PDNS日志获得所述域名预测样本的第一特征,具体包括:
提取所述域名预测样本的第一域名统计特征,并基于所述PDNS日志提取所述域名预测样本的第一域名解析特征,根据所述域名预测样本的第一域名统计特征和所述域名预测样本的第一域名解析特征获得所述域名预测样本的第一特征。
5.如权利要求3所述的方法,其特征在于,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征,具体包括:
基于所述CDN域名训练样本的候选域名后缀提取所述CDN域名训练样本的第二域名统计特征,并基于所述CDN域名训练样本的候选域名后缀在所述PDNS日志中提取所述CDN域名训练样本的第二域名解析特征,根据所述CDN域名训练样本的第二域名统计特征和所述CDN域名训练样本的第二域名解析特征获得所述CDN域名训练样本的第二特征;以及
基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征,具体包括:
基于所述CDN域名预测样本的候选域名后缀提取所述CDN域名预测样本的第二域名统计特征,并基于所述CDN域名预测样本的候选域名后缀在所述PDNS日志中提取所述CDN域名预测样本的第二域名解析特征,根据所述CDN域名预测样本的第二域名统计特征和所述CDN域名预测样本的第二域名解析特征获得所述CDN域名预测样本的第二特征。
6.如权利要求3或5所述的方法,其特征在于,获取所述CDN域名训练样本的候选域名后缀,具体包括:
针对每一CDN域名训练样本,提取所述CDN域名训练样本的域名后缀;
将所述域名训练样本前缀中除第一个子块外的其它子块与所述域名后缀按照相邻原则依次进行组合,获得所述CDN域名训练样本对应的候选域名后缀。
7.一种域名同源判定装置,其特征在于,包括:
第一特征提取单元,用于获取待检测域名,获得所述待检测域名的第一特征,所述第一特征包括:第一域名统计特征和第一域名解析特征,所述待检测域名的第一域名统计特征表征所述待检测域名的结构特征,所述待检测域名的第一域名统计特征表征根据被动域名***PDNS日志提取的所述待检测域名的关联特征;
域名识别单元,用于将所述待检测域名的第一特征输入内容分发网络CDN域名识别模型,获得域名识别结果,其中,所述CDN域名识别模型是基于域名样本的第一特征按照预设分类模型训练获得的;
第二特征提取单元,用于若确定所述域名识别结果为所述待检测域名是CDN域名,则获得所述待检测域名的第二特征,所述第二特征包括:第二域名统计特征和第二域名解析特征,所述待检测域名的第二域名统计特征表征所述待检测域名的候选域名后缀与域名前缀的结构特征,所述待检测域名的第二域名解析特征表征根据所述PDNS日志提取的所述待检测域名的关联特征及所述待检测域名的候选域名后缀的关联特征;
域名后缀提取单元,用于将所述待检测域名的第二特征输入域名后缀提取模型,获得所述待检测域名的域名后缀,其中,所述域名后缀提取模型是基于CDN域名样本的第二特征按照所述预设分类模型训练获得的;
域名同源判定单元,用于在预设黑名单与预设白名单中分别查找所述待检测域名的域名后缀,若确定所述预设黑名单或所述预设白名单中包含与所述域名后缀相同的CDN域名,则确定所述待检测域名与所述CDN域名为域名同源,将所述待检测域名加入所述预设黑名单或所述预设白名单。
8.如权利要求7所述的装置,其特征在于,所述域名样本包括域名训练样本和域名预测样本;
所述域名识别单元,具体用于通过以下方式训练获得所述CDN域名识别模型:基于所述PDNS日志获得所述域名训练样本的第一特征;将所述域名训练样本的第一特征按照所述预设分类模型进行当前轮次的迭代训练,获得候选CDN域名识别模型;基于所述PDNS日志获得所述域名预测样本的第一特征;将所述域名预测样本的第一特征输入所述候选CDN域名识别模型进行域名预测,获得预测结果;将预测结果准确的域名预测样本确定为新增域名训练样本;根据所述域名训练样本和所述新增域名训练样本对所述候选CDN域名识别模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述CDN域名识别模型。
9.如权利要求7所述的装置,其特征在于,所述CDN域名样本包括CDN域名训练样本和CDN域名预测样本;
所述域名后缀提取单元,具体用于通过以下方式训练获得所述域名后缀提取模型:获得所述CDN域名训练样本的候选域名后缀,基于所述CDN域名训练样本的候选域名后缀与所述PDNS日志获得所述CDN域名训练样本的第二特征;基于所述CDN域名训练样本的第二特征和所述CDN域名训练样本的候选域名后缀按照所述预设分类模型进行当前轮次的迭代训练,获得候选域名后缀提取模型;获得所述CDN域名预测样本的候选域名后缀,基于所述CDN域名预测样本的候选域名后缀与所述PDNS日志获得所述CDN域名预测样本的第二特征;将所述CDN域名预测样本的第二特征输入所述候选域名后缀提取模型进行域名后缀预测,获得预测结果;将预测结果准确的CDN域名预测样本确定为新增CDN域名训练样本;根据所述CDN域名训练样本和所述新增CDN域名训练样本对所述候选域名后缀提取模型执行新一轮次的迭代训练,直至达到预设迭代轮次,获得所述域名后缀提取模型。
10.如权利要求8所述的装置,其特征在于,
所述域名识别单元,具体用于提取所述域名训练样本的第一域名统计特征,并基于所述PDNS日志提取所述域名训练样本的第一域名解析特征,根据所述域名训练样本的第一域名统计特征和所述域名训练样本的第一域名解析特征获得所述域名训练样本的第一特征;以及提取所述域名预测样本的第一域名统计特征,并基于所述PDNS日志提取所述域名预测样本的第一域名解析特征,根据所述域名预测样本的第一域名统计特征和所述域名预测样本的第一域名解析特征获得所述域名预测样本的第一特征。
11.如权利要求9所述的装置,其特征在于,
所述域名后缀提取单元,具体用于基于所述CDN域名训练样本的候选域名后缀提取所述CDN域名训练样本的第二域名统计特征,并基于所述CDN域名训练样本的候选域名后缀在所述PDNS日志中提取所述CDN域名训练样本的第二域名解析特征,根据所述CDN域名训练样本的第二域名统计特征和所述CDN域名训练样本的第二域名解析特征获得所述CDN域名训练样本的第二特征;以及基于所述CDN域名预测样本的候选域名后缀提取所述CDN域名预测样本的第二域名统计特征,并基于所述CDN域名预测样本的候选域名后缀在所述PDNS日志中提取所述CDN域名预测样本的第二域名解析特征,根据所述CDN域名预测样本的第二域名统计特征和所述CDN域名预测样本的第二域名解析特征获得所述CDN域名预测样本的第二特征。
12.如权利要求9或11所述的装置,其特征在于,
所述域名后缀提取单元,具体用于针对每一CDN域名训练样本,提取所述CDN域名训练样本的域名后缀;将所述域名训练样本前缀中除第一个子块外的其它子块与所述域名后缀按照相邻原则依次进行组合,获得所述CDN域名训练样本对应的候选域名后缀。
13.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~6任一项所述的域名检测方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~6任一项所述的域名检测方法中的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210943204.3A CN115412306A (zh) | 2022-08-08 | 2022-08-08 | 一种域名同源判定方法、装置、电子设备及存储介质 |
PCT/CN2022/136805 WO2024031884A1 (zh) | 2022-08-08 | 2022-12-06 | 一种域名同源判定方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210943204.3A CN115412306A (zh) | 2022-08-08 | 2022-08-08 | 一种域名同源判定方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115412306A true CN115412306A (zh) | 2022-11-29 |
Family
ID=84160255
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210943204.3A Pending CN115412306A (zh) | 2022-08-08 | 2022-08-08 | 一种域名同源判定方法、装置、电子设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115412306A (zh) |
WO (1) | WO2024031884A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024031884A1 (zh) * | 2022-08-08 | 2024-02-15 | 天翼安全科技有限公司 | 一种域名同源判定方法、装置、电子设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9876755B2 (en) * | 2015-05-27 | 2018-01-23 | Hewlett Packard Enterprise Development Lp | Identifying algorithmically generated domains |
CN108282450A (zh) * | 2017-01-06 | 2018-07-13 | 阿里巴巴集团控股有限公司 | 异常域名的检测方法及装置 |
CN109450886A (zh) * | 2018-10-30 | 2019-03-08 | 杭州安恒信息技术股份有限公司 | 一种域名识别方法、***及电子设备和存储介质 |
CN112751804B (zh) * | 2019-10-30 | 2023-04-07 | 北京观成科技有限公司 | 一种仿冒域名的识别方法、装置和设备 |
CN113746952B (zh) * | 2021-09-14 | 2024-04-16 | 京东科技信息技术有限公司 | Dga域名检测方法、装置、电子设备及计算机存储介质 |
CN115412306A (zh) * | 2022-08-08 | 2022-11-29 | 天翼安全科技有限公司 | 一种域名同源判定方法、装置、电子设备及存储介质 |
-
2022
- 2022-08-08 CN CN202210943204.3A patent/CN115412306A/zh active Pending
- 2022-12-06 WO PCT/CN2022/136805 patent/WO2024031884A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024031884A1 (zh) * | 2022-08-08 | 2024-02-15 | 天翼安全科技有限公司 | 一种域名同源判定方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2024031884A1 (zh) | 2024-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109905288B (zh) | 一种应用服务分类方法及装置 | |
CN114846462A (zh) | 使用图数据结构的资产搜索发现*** | |
CN107257390B (zh) | 一种url地址的解析方法和*** | |
CN110430188B (zh) | 一种快速url过滤方法及装置 | |
CN112003857A (zh) | 一种网络资产搜集方法、装置、设备及存储介质 | |
CN102868773B (zh) | 检测dns黑洞劫持的方法、装置及*** | |
WO2018113730A1 (zh) | 网络安全的检测方法和装置 | |
US11956261B2 (en) | Detection method for malicious domain name in domain name system and detection device | |
CN107145779B (zh) | 一种离线恶意软件日志的识别方法和装置 | |
CN107888606B (zh) | 一种域名信誉度评估方法及*** | |
CN112019519B (zh) | 网络安全情报威胁度的检测方法、装置和电子装置 | |
US10911477B1 (en) | Early detection of risky domains via registration profiling | |
CN112929390A (zh) | 一种基于多策略融合的网络智能监控方法 | |
CN115412306A (zh) | 一种域名同源判定方法、装置、电子设备及存储介质 | |
CN109547294B (zh) | 一种基于固件分析的联网设备型号探测方法、装置 | |
CN103440454A (zh) | 一种基于搜索引擎关键词的主动式蜜罐检测方法 | |
CN109995885B (zh) | 域名空间结构呈现方法、装置、设备及介质 | |
CN113766046B (zh) | 迭代流量跟踪方法、dns服务器及计算机可读存储介质 | |
CN111885220B (zh) | 一种目标单位ip资产主动获取与验证方法 | |
CN111371917B (zh) | 一种域名检测方法及*** | |
CN106933860B (zh) | 恶意统一资源定位符识别方法和装置 | |
CN111368294B (zh) | 病毒文件的识别方法和装置、存储介质、电子装置 | |
CN106992958B (zh) | 一种通过丢失账号定位恶意账号的方法和*** | |
CN111510512A (zh) | 一种快速获取域名所有ip的方法 | |
CN111212039A (zh) | 基于dns流量的主机挖矿行为检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |