CN114024718B - 恶意域名检测方法、装置、设备及存储介质 - Google Patents
恶意域名检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114024718B CN114024718B CN202111189980.0A CN202111189980A CN114024718B CN 114024718 B CN114024718 B CN 114024718B CN 202111189980 A CN202111189980 A CN 202111189980A CN 114024718 B CN114024718 B CN 114024718B
- Authority
- CN
- China
- Prior art keywords
- domain name
- node
- malicious
- sequence
- neighbor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 79
- 238000010586 diagram Methods 0.000 claims abstract description 65
- 239000013598 vector Substances 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000015654 memory Effects 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000013604 expression vector Substances 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 15
- 230000002093 peripheral effect Effects 0.000 description 5
- 230000003068 static effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/12—Applying verification of the received information
- H04L63/126—Applying verification of the received information the source of the received data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/1483—Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种恶意域名检测方法、装置、设备及存储介质,该方法包括获取域名操作数据;提取域名操作数据的操作关联信息,构建域名关系时序图;基于域名关系时序图,生成目标域名节点对应的邻居节点序列;对邻居节点序列进行表示学习,获得目标域名节点的表示向量;利用表示向量,进行分类检测,以获得恶意域名。本发明通过构建域名关系时序图,再对域名关系时序图中的邻居节点序列进行表示学习,最后采用无监督或有监督的方式进行检测,充分考虑了域名操作先后的关联性,增大了在域名检测时发现恶意域名的可能性,提高了恶意域名检测的效率。
Description
技术领域
本发明涉及域名检测技术领域,尤其涉及到一种恶意域名检测方法、装置、设备及存储介质。
背景技术
在如今的互联网环境中,网络安全变的日益重要,而DNS(域名***)作为互联网重要的基础设施,它主要负责IP地址与域名之间的相互转换,因此,恶意域名的检测成为了网络安全防护的一道重要措施。
然而,现有的基于图方法的域名检测,皆是基于静态图的检测,没有考虑域名是时刻更新的,也就没有考虑到域名操作的先后顺序,降低了在域名检测时发现恶意域名的可能性。因此,如何提高恶意域名的检测效率,是一个亟需解决的技术问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种恶意域名检测方法、装置、设备及存储介质,旨在解决目前基于静态图的恶意域名检测效率不高的技术问题。
为实现上述目的,本发明提供一种恶意域名检测方法,所述方法包括以下步骤:
获取域名操作数据;
提取所述域名操作数据的操作关联信息,构建域名关系时序图;其中,所述域名关系时序图包括至少一个域名节点;
基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列;
对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量;
利用所述表示向量,进行分类检测,以获得恶意域名。
所述提取所述域名操作数据的操作关联信息,构建域名关系时序图步骤,具体包括:
提取所述域名操作数据的操作关联信息;其中,所述操作关联信息包括域名、所述域名的时间戳和所述域名的关联信息;
选取相同的关联信息对应的域名作为域名节点,并根据所述域名的时间戳,构建域名关系时序图。
所述域名的关联信息为域名对应的IP地址、CNAME或操作域名的客户端。
所述根据所述域名的时间戳,构建域名关系时序图步骤,具体包括:
根据所述域名节点的时间戳顺序,判断相邻时间戳的所述域名节点对应的时间戳间隔是否小于预设时间间隔;
若是,为所述相邻时间戳的所述域名节点生成域名边,连接对应的域名节点,以构建域名关系时序图。
所述基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列步骤,具体包括:
基于所述域名关系时序图,将通过域名边连接目标域名节点的域名节点作为邻居节点;
根据所述邻居节点对应的时间戳,生成按时间戳顺序存储的邻居节点序列。
所述对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量步骤,具体包括:
利用邻居节点序列进行表示学习,获得所述目标域名节点与邻居节点序列中的域名节点的连接概率值;
对所述连接概率值,进行对数似然估计,获得所述目标域名节点的表示向量。
所述利用所述表示向量,进行分类检测,以获得恶意域名步骤,具体包括:
将所述表示向量,输入预设的无监督聚类模型或训练完成的有监督聚类模型,进行域名聚类;
根据聚类结果获得恶意域名。
此外,为了实现上述目的,本发明还提供了一种恶意域名检测装置,所述恶意域名检测装置包括:
获取模块,用于获取域名操作数据;
提取模块,用于提取所述域名操作数据的操作关联信息,构建域名关系时序图;其中,所述域名关系时序图包括至少一个域名节点;
生成模块,用于基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列;
表示学习模块,用于对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量;
检测模块,用于利用所述表示向量,进行分类检测,以获得恶意域名。
可选的,所述提取模块还用于提取所述域名操作数据的操作关联信息;其中,所述操作关联信息包括域名、所述域名的时间戳和所述域名的关联信息;选取相同的关联信息对应的域名作为域名节点,并根据所述域名的时间戳,构建域名关系时序图。
可选的,所述域名的关联信息为域名对应的IP地址、CNAME或操作域名的客户端。
可选的,所述提取模块还用于根据所述域名节点的时间戳顺序,判断相邻时间戳的所述域名节点对应的时间戳间隔是否小于预设时间间隔;若是,为所述相邻时间戳的所述域名节点生成域名边,连接对应的域名节点,以构建域名关系时序图。
可选的,所述生成模块还用于基于所述域名关系时序图,将通过域名边连接目标域名节点的域名节点作为邻居节点;根据所述邻居节点对应的时间戳,生成按时间戳顺序存储的邻居节点序列。
可选的,所述表示学习模块还用于利用邻居节点序列进行表示学习,获得所述目标域名节点与邻居节点序列中的域名节点的连接概率值;对所述连接概率值,进行对数似然估计,获得所述目标域名节点的表示向量。
可选的,所述检测模块还用于将所述表示向量,输入预设的无监督聚类模型或训练完成的有监督聚类模型,进行域名聚类;根据聚类结果获得恶意域名。
此外,为了实现上述目的,本发明还提供了一种恶意域名检测设备,所述恶意域名检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的恶意域名检测程序,所述恶意域名检测程序被所述处理器执行时实现如上述的恶意域名检测方法的步骤。
此外,为了实现上述目的,本发明还提供了一种存储介质,所述存储介质上存储有恶意域名检测程序,所述恶意域名检测程序被处理器执行时实现如上述的恶意域名检测方法的步骤。
本发明实施例提出的一种恶意域名检测方法、装置、设备及存储介质,该方法包括获取域名操作数据;提取域名操作数据的操作关联信息,构建域名关系时序图;基于域名关系时序图,生成目标域名节点对应的邻居节点序列;对邻居节点序列进行表示学习,获得目标域名节点的表示向量;利用表示向量,进行分类检测,以获得恶意域名。本发明通过构建域名关系时序图,再对域名关系时序图中的邻居节点序列进行表示学习,最后采用无监督或有监督的方式进行检测,充分考虑了域名操作先后的关联性,增大了在域名检测时发现恶意域名的可能性,提高了恶意域名检测的效率。
附图说明
图1为本发明实施例中一种恶意域名检测设备的结构示意图;
图2为本发明恶意域名检测方法的第一实施例的流程示意图;
图3为本发明实施例中一种恶意域名检测装置的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在如今的互联网环境中,网络安全变的日益重要,而DNS(域名***)作为互联网重要的基础设施,它主要负责IP地址与域名之间的相互转换,因此,恶意域名的检测成为了网络安全防护的一道重要措施。然而,现有的基于图方法的域名检测,皆是基于静态图的检测,没有考虑域名是时刻更新的,也就没有考虑到域名操作的先后顺序,降低了在域名检测时发现恶意域名的可能性。因此,如何提高恶意域名的检测效率,是一个亟需解决的技术问题。
为了解决这一问题,提出本发明的恶意域名检测方法的各个实施例。本发明提供的恶意域名检测方法通过构建域名关系时序图,再对域名关系时序图中的邻居节点序列进行表示学习,最后采用无监督或有监督的方式进行检测,充分考虑了域名操作先后的关联性,增大了在域名检测时发现恶意域名的可能性,提高了恶意域名检测的效率。
参照图1,图1为本发明实施例方案涉及的恶意域名检测设备的结构示意图。
设备可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(User Equipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile station,MS)等。设备可能被称为用户终端、便携式终端、台式终端等。
通常,设备包括:至少一个处理器301、存储器302以及存储在所述存储器上并可在所述处理器上运行的恶意域名检测程序,所述恶意域名检测程序配置为实现如前所述的恶意域名检测方法的步骤。
处理器301可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器301可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器301也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(CentralProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器301可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。处理器301还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关恶意域名检测操作,使得恶意域名检测模型可以自主训练学习,提高效率和准确度。
存储器302可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器302还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器302中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的恶意域名检测方法。
在一些实施例中,终端还可选包括有:通信接口303和至少一个***设备。处理器301、存储器302和通信接口303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与通信接口303相连。具体地,***设备包括:射频电路304、显示屏305和电源306中的至少一种。
通信接口303可被用于将I/O(Input/Output,输入/输出)相关的至少一个***设备连接到处理器301和存储器302。通信接口303通过***设备用于接收用户上传的多个移动终端的移动轨迹以及其他数据。在一些实施例中,处理器301、存储器302和通信接口303被集成在同一芯片或电路板上;在一些其他实施例中,处理器301、存储器302和通信接口303中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路304用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路304通过电磁信号与通信网络以及其他通信设备进行通信,从而可获取多个移动终端的移动轨迹以及其他数据。射频电路304将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路304包括:天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路304可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于:城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(WirelessFidelity,无线保真)网络。在一些实施例中,射频电路304还可以包括NFC(Near FieldCommunication,近距离无线通信)有关的电路,本申请对此不加以限定。
显示屏305用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏305是触摸显示屏时,显示屏305还具有采集在显示屏305的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器301进行处理。此时,显示屏305还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏305可以为一个,电子设备的前面板;在另一些实施例中,显示屏305可以为至少两个,分别设置在电子设备的不同表面或呈折叠设计;在再一些实施例中,显示屏305可以是柔性显示屏,设置在电子设备的弯曲表面上或折叠面上。甚至,显示屏305还可以设置成非矩形的不规则图形,也即异形屏。显示屏305可以采用LCD(LiquidCrystal Display,液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。
电源306用于为电子设备中的各个组件进行供电。电源306可以是交流电、直流电、一次性电池或可充电电池。当电源306包括可充电电池时,该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。
本领域技术人员可以理解,图1中示出的结构并不构成对恶意域名检测设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明实施例提供了一种恶意域名检测方法,参照图2,图2为本发明恶意域名检测方法的第一实施例的流程示意图。
本实施例中,所述恶意域名检测方法包括以下步骤:
步骤S100,获取域名操作数据。
具体而言,获取的域名操作数据为DNS(域名***)中记录的域名操作数据,该操作数据包括DNS日志、被动DNS记录或DNS查询请求等。本实施例通过获取域名***中的域名操作数据,可监控域名与域名之间、域名与IP地址之间以及域名与客户端之间的域名关联,从而通过对域名关联进行分析和处理,能够对恶意域名进行检测。
步骤S200,提取所述域名操作数据的操作关联信息,构建域名关系时序图;其中,所述域名关系时序图包括至少一个域名节点。
具体而言,在获取域名***中的域名操作数据后,进一步的,提取域名操作数据的操作关联信息,从而利用操作关联信息构建域名关系时序图。其中,操作关联信息为每条域名操作数据对应的域名、该域名的时间戳以及该域名的关联信息。
容易理解的,通过获取每条域名操作数据对应域名的时间戳和域名的关联信息,进而提取每条域名操作数据对应域名之间的时序关联关系,以此构建域名与域名之间的时序关系图。下面举例对构建域名与域名之间的时序关系图进行说明:
在提取域名操作数据的域名、域名的时间戳以及域名的关联信息后,将提取的操作关联信息信息用三元组(a,b,t)进行表示,其中a和b为两个实体,t为执行该域名操作数据的时间戳。例如,“客户端1”在“t1”时刻查询了“域名1”,则对应的操作关联信息的三元组表示为(客户端1,域名1,t1),又例如,“域名1”在“t2”时刻查询返回结果时“IP1”,则对应的操作关联信息的三元组表示为(域名1,IP2,t2)。其中,域名的关联信息包括域名对应的IP地址或域名操作数据对应的客户端。
另外,容易理解的,域名的关联信息还可以包括域名的CNAME(别名信息),即在“t3”时刻对“域名1”进行解析,获得了该域名的CNAME对应的域名“域名2”,则对应的操作关联信息的三元组表示为(域名1,域名2,t3)。
在本实施例中,通过获取每条域名操作数据的域名、域名的时间戳以及域名的关联信息,构成与时间关联的操作关联信息三元组,以此表示每个域名操作动作的时序,进而根据域名与域名之间的时序关系,构建域名关系时序图。
进一步地,在获得域名操作数据的操作关联信息三元组后,基于每条域名操作数据的操作关联信息三元组,将具有相同关联信息对应的域名作为域名节点,以此来构建域名关系时序图。
具体的,可将关联信息为“客户端1”对应的操作关联信息三元组作为当前域名关系时序图中的域名节点,例如(客户端1,域名1,t1),(客户端1,域名2,t2),以及(客户端1,域名3,t3)等三个操作关联信息三元组。
需要说明的是,为了提高恶意域名检测的准确性,需要对每条域名操作数据的时间戳进行监测,以排出相邻时间戳超过预设时间间隔的对应域名节点,例如,操作关联信息三元组(客户端1,域名4,t4),若t4与t3的时间间隔大于预设时间间隔,则将该操作关联三元组排除域名关系时序图中。
进一步地,在获得当前域名关系时序图对应的域名节点后,此时,需要为相邻时间戳的域名节点生成域名边,以连接对应的域名节点,进而构建域名关系时序图。
具体的,每条域名边记录有连接对应域名节点的域名,以及按照时间戳顺序到达的域名节点对应的时间戳,例如(客户端1,域名1,t1),(客户端1,域名2,t2),以及(客户端1,域名3,t3)等三个域名节点对应的域名边为(域名1,域名2,t2),(域名1,域名3,t3)以及(域名2,域名3,t3)。
容易理解的,在获得域名关系时序图后,即可根据域名关系时序图中对应域名节点中的域名边来获得目标域名节点的邻居节点,进而根据邻居节点序列表示学习获得目标域名节点的表示向量,以此利用分类检测从表示向量中获得恶意域名。
步骤S300,基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列。
具体而言,在构建域名关系时序图后,可利用域名关系时序图中的域名节点以及连接对应域名节点的域名边,来获取目标域名节点的邻居节点,并根据邻居节点对应的时间戳,生成按时间戳顺序存储的邻居节点序列。
例如,域名1对应的域名节点的域名边有(域名1,域名2,t2),(域名1,域名3,t3)以及(域名1,域名2,t4),其中t2<t3<t4,进而可以根据域名边生成域名节点1的邻居节点序列(域名2,域名3,域名2)。
容易理解的,邻居节点序列中的域名节点表示域名节点为域名1在预设时间间隔内跳转的域名节点,通过跳转到的域名节点进行表示学习,进而检测恶意跳转域名的域名,实现恶意域名的检测。
步骤S400,对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量。
具体而言,在获得目标域名节点对应的邻居节点序列后,利用该邻居节点序列进行表示学习,获得目标域名节点与邻居节点序列中的域名节点的连接概率值,进而对该连接概率值进行对数似然估计,即可得到目标域名节点的表示向量。
其中,在获取目标域名节点与邻居节点序列中的域名节点的连接概率值时,连接概率值的计算表达式为:
其中,p(y|x,Hx(t))为节点y和节点x在给定Hx(t)时相连的概率,Hx(t)为在时间t前形成节点x的邻居序列,λy|为条件密度函数,ρ(ex,ey)为节点x和y的表示向量的相似度,δ(t-th)为预设衰减函数,αh,y为节点x在时间t之前的邻居序列对节点x和节点y的影响值。
容易理解的,δ(t-th)可以有不同的定义,比如δ(t-th)=exp(-βs(t-th)),而βs则可以是一个通过学习获得(亦可固定)的,基于不同源节点取值不同的参数。
进一步地,对邻居节点序列中的域名节点与目标域名节点的对数似然估计的表达式为:
其中logL为目标域名节点对应的邻居节点序列的表示向量,V为邻居节点序列的邻居节点集合。
至此,在获得所述目标域名节点的表示向量后,利用该表示向量进行域名的检测,即可实现对恶意域名的分类与检测。
步骤S500,利用所述表示向量,进行分类检测,以获得恶意域名。
具体而言,在获得目标域名节点的表示向量后,将该表示向量,输入预设的无监督聚类模型或训练完成的有监督聚类模型,进行域名聚类,最终根据聚类结果获得恶意域名。
需要说明的是,对于无监督聚类模型,例如,可采取计算表示向量相似度的方法,通过计算目标域名节点与邻居序列中节点的余弦相似度,如果该余弦相似度在预设范围内,则属于同一类别,对依次聚类处理后,将聚类结果中域名数量小于阈值的类别对应的域名视为恶意域名。对于有监督聚类模型,例如,可采取机器学习分类模型、XGboost或随机森林等聚类模型,对域名进行聚类,并根据聚类结果,获得恶意域名。
在本实施例中,通过构建域名关系时序图,再对域名关系时序图中的邻居节点序列进行表示学习,最后采用无监督或有监督的方式进行检测,充分考虑了域名操作先后的关联性,增大了在域名检测时发现恶意域名的可能性,提高了恶意域名检测的效率。
参照图3,图3为本发明恶意域名检测装置实施例的结构框图。
如图3所示,本发明实施例提出的恶意域名检测装置包括:
获取模块10,用于获取域名操作数据;
提取模块20,用于提取所述域名操作数据的操作关联信息,构建域名关系时序图;其中,所述域名关系时序图包括至少一个域名节点;
生成模块30,用于基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列;
表示学习模块40,用于对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量;
检测模块50,用于利用所述表示向量,进行分类检测,以获得恶意域名。
作为一种实施方式,提取模块20还用于提取所述域名操作数据的操作关联信息;其中,所述操作关联信息包括域名、所述域名的时间戳和所述域名的关联信息;选取相同的关联信息对应的域名作为域名节点,并根据所述域名的时间戳,构建域名关系时序图。
作为一种实施方式,域名的关联信息为域名对应的IP地址、CNAME或操作域名的客户端。
作为一种实施方式,提取模块20还用于根据所述域名节点的时间戳顺序,判断相邻时间戳的所述域名节点对应的时间戳间隔是否小于预设时间间隔;若是,为所述相邻时间戳的所述域名节点生成域名边,连接对应的域名节点,以构建域名关系时序图。
作为一种实施方式,生成模块30还用于基于所述域名关系时序图,将通过域名边连接目标域名节点的域名节点作为邻居节点;根据所述邻居节点对应的时间戳,生成按时间戳顺序存储的邻居节点序列。
作为一种实施方式,表示学习模块40还用于利用邻居节点序列进行表示学习,获得所述目标域名节点与邻居节点序列中的域名节点的连接概率值;对所述连接概率值,进行对数似然估计,获得所述目标域名节点的表示向量。
作为一种实施方式,检测模块50还用于将所述表示向量,输入预设的无监督聚类模型或训练完成的有监督聚类模型,进行域名聚类;根据聚类结果获得恶意域名.
本实施例提供的恶意域名检测装置,通过构建域名关系时序图,再对域名关系时序图中的邻居节点序列进行表示学习,最后采用无监督或有监督的方式进行检测,充分考虑了域名操作先后的关联性,增大了在域名检测时发现恶意域名的可能性,提高了恶意域名检测的效率。
本发明恶意域名检测装置的其他实施例或具体实现方式可参照上述各方法实施例,此处不再赘述。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有恶意域名检测程序,所述恶意域名检测程序被处理器执行时实现如上文所述的恶意域名检测方法的步骤。因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。确定为示例,程序指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本发明而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
Claims (9)
1.一种恶意域名检测方法,其特征在于,所述方法包括以下步骤:
获取域名操作数据;
提取所述域名操作数据的操作关联信息,构建域名关系时序图;其中,所述域名关系时序图包括至少一个域名节点;
基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列;
对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量;
利用所述表示向量,进行分类检测,以获得恶意域名;
所述对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量步骤,具体包括:
利用邻居节点序列进行表示学习,获得所述目标域名节点与邻居节点序列中的域名节点的连接概率值;
所述连接概率值的计算表达式为:
其中,p(y|x,Hx(t))为节点y和节点x在给定Hx(t)时相连的概率,Hx(t)为在时间t前形成节点x的邻居序列,λy|x为条件密度函数,ex为节点x的表示向量,ey为节点y的表示向量,ρ(ex,ey)为节点x的表示向量和y的表示向量的相似度,δ(t-th)为预设衰减函数,αh,y为节点x在时间t之前的邻居序列对节点x和节点y的影响值;
对所述连接概率值,进行对数似然估计,获得所述目标域名节点的表示向量;
所述对数似然估计的表达式为:
其中,logL为目标域名节点对应的邻居节点序列的表示向量,V为邻居节点序列的邻居节点集合。
2.如权利要求1所述的恶意域名检测方法,其特征在于,所述提取所述域名操作数据的操作关联信息,构建域名关系时序图步骤,具体包括:
提取所述域名操作数据的操作关联信息;其中,所述操作关联信息包括域名、所述域名的时间戳和所述域名的关联信息;
选取相同的关联信息对应的域名作为域名节点,并根据所述域名的时间戳,构建域名关系时序图。
3.如权利要求2所述的恶意域名检测方法,其特征在于,所述域名的关联信息为域名对应的IP地址、CNAME或操作域名的客户端。
4.如权利要求2所述的恶意域名检测方法,其特征在于,所述根据所述域名的时间戳,构建域名关系时序图步骤,具体包括:
根据所述域名节点的时间戳顺序,判断相邻时间戳的所述域名节点对应的时间戳间隔是否小于预设时间间隔;
若是,为所述相邻时间戳的所述域名节点生成域名边,连接对应的域名节点,以构建域名关系时序图。
5.如权利要求1所述的恶意域名检测方法,其特征在于,所述基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列步骤,具体包括:
基于所述域名关系时序图,将通过域名边连接目标域名节点的域名节点作为邻居节点;
根据所述邻居节点对应的时间戳,生成按时间戳顺序存储的邻居节点序列。
6.如权利要求1所述的恶意域名检测方法,其特征在于,所述利用所述表示向量,进行分类检测,以获得恶意域名步骤,具体包括:
将所述表示向量,输入预设的无监督聚类模型或训练完成的有监督聚类模型,进行域名聚类;
根据聚类结果获得恶意域名。
7.一种恶意域名检测装置,其特征在于,所述恶意域名检测装置包括:
获取模块,用于获取域名操作数据;
提取模块,用于提取所述域名操作数据的操作关联信息,构建域名关系时序图;其中,所述域名关系时序图包括至少一个域名节点;
生成模块,用于基于所述域名关系时序图,生成目标域名节点对应的邻居节点序列;
表示学习模块,用于对所述邻居节点序列进行表示学习,获得所述目标域名节点的表示向量;
检测模块,用于利用所述表示向量,进行分类检测,以获得恶意域名;
所述表示学习模块,具体用于利用邻居节点序列进行表示学习,获得所述目标域名节点与邻居节点序列中的域名节点的连接概率值;
所述连接概率值的计算表达式为:
其中,p(y|x,Hx(t))为节点y和节点x在给定Hx(t)时相连的概率,Hx(t)为在时间t前形成节点x的邻居序列,λy|x为条件密度函数,ex为节点x的表示向量,ey为节点y的表示向量,ρ(ex,ey)为节点x的表示向量和y的表示向量的相似度,δ(t-th)为预设衰减函数,αh,y为节点x在时间t之前的邻居序列对节点x和节点y的影响值;
对所述连接概率值,进行对数似然估计,获得所述目标域名节点的表示向量;
所述对数似然估计的表达式为:
其中,logL为目标域名节点对应的邻居节点序列的表示向量,V为邻居节点序列的邻居节点集合。
8.一种恶意域名检测设备,其特征在于,所述恶意域名检测设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的恶意域名检测程序,所述恶意域名检测程序被所述处理器执行时实现如权利要求1至6中任一项所述的恶意域名检测方法的步骤。
9.一种存储介质,其特征在于,所述存储介质上存储有恶意域名检测程序,所述恶意域名检测程序被处理器执行时实现如权利要求1至6中任一项所述的恶意域名检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189980.0A CN114024718B (zh) | 2021-10-12 | 2021-10-12 | 恶意域名检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111189980.0A CN114024718B (zh) | 2021-10-12 | 2021-10-12 | 恶意域名检测方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114024718A CN114024718A (zh) | 2022-02-08 |
CN114024718B true CN114024718B (zh) | 2024-05-07 |
Family
ID=80056201
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111189980.0A Active CN114024718B (zh) | 2021-10-12 | 2021-10-12 | 恶意域名检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114024718B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2623061A (en) * | 2022-09-28 | 2024-04-10 | British Telecomm | Malicious domain name detection |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523311A (zh) * | 2011-11-25 | 2012-06-27 | 中国科学院计算机网络信息中心 | 非法域名识别方法及装置 |
CN110557382A (zh) * | 2019-08-08 | 2019-12-10 | 中国科学院信息工程研究所 | 一种利用域名共现关系的恶意域名检测方法及*** |
CN112835995A (zh) * | 2021-02-04 | 2021-05-25 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN113315851A (zh) * | 2021-04-23 | 2021-08-27 | 北京奇虎科技有限公司 | 域名检测方法、装置及存储介质 |
CN113381963A (zh) * | 2020-02-25 | 2021-09-10 | 深信服科技股份有限公司 | 一种域名检测方法、装置和存储介质 |
-
2021
- 2021-10-12 CN CN202111189980.0A patent/CN114024718B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102523311A (zh) * | 2011-11-25 | 2012-06-27 | 中国科学院计算机网络信息中心 | 非法域名识别方法及装置 |
CN110557382A (zh) * | 2019-08-08 | 2019-12-10 | 中国科学院信息工程研究所 | 一种利用域名共现关系的恶意域名检测方法及*** |
CN113381963A (zh) * | 2020-02-25 | 2021-09-10 | 深信服科技股份有限公司 | 一种域名检测方法、装置和存储介质 |
CN112835995A (zh) * | 2021-02-04 | 2021-05-25 | 中国互联网络信息中心 | 一种基于解析关系的域名图嵌入表示分析方法及装置 |
CN113315851A (zh) * | 2021-04-23 | 2021-08-27 | 北京奇虎科技有限公司 | 域名检测方法、装置及存储介质 |
Non-Patent Citations (1)
Title |
---|
一种基于域名请求伴随关系的恶意域名检测方法;彭成维等;《计算机研究与发展》;第1263-1274页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114024718A (zh) | 2022-02-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106919918B (zh) | 一种人脸跟踪方法和装置 | |
US10353883B2 (en) | Method, device and storage medium for providing data statistics | |
US20180107860A1 (en) | Method for Controlling Unlocking and Mobile Terminal | |
CN112883036B (zh) | 索引创建方法、装置、存储服务器以及存储介质 | |
WO2017088434A1 (zh) | 人脸模型矩阵训练方法、装置及存储介质 | |
CN107609379B (zh) | 一种解锁控制方法及移动终端 | |
CN114973351B (zh) | 人脸识别方法、装置、设备及存储介质 | |
CN114024718B (zh) | 恶意域名检测方法、装置、设备及存储介质 | |
CN114048168A (zh) | 电子档案归档方法、装置、设备、***及存储介质 | |
CN112506904A (zh) | 数据质量评估方法、装置、终端设备以及存储介质 | |
CN112560020B (zh) | 威胁攻击检测方法、装置、终端设备以及存储介质 | |
CN114661527A (zh) | 数据备份方法、装置、电子设备及存储介质 | |
CN110019648B (zh) | 一种训练数据的方法、装置及存储介质 | |
CN109726726B (zh) | 视频中的事件检测方法及装置 | |
CN112703534A (zh) | 图像处理方法及相关产品 | |
CN113225234B (zh) | 资产探测方法、装置、终端设备以及计算机可读存储介质 | |
CN115270163A (zh) | 数据处理方法、相关装置及存储介质 | |
CN110503084B (zh) | 一种图像中的文字区域识别方法和装置 | |
CN113366523B (zh) | 资源推送方法及相关产品 | |
CN110503189B (zh) | 一种数据处理方法以及装置 | |
CN104134044B (zh) | 一种数据安全性的检测方法、装置和*** | |
CN113098902A (zh) | 网络设备漏洞管理方法、装置、管理终端设备及存储介质 | |
CN110020341B (zh) | 成员角色确定方法、装置及存储介质 | |
CN114818808B (zh) | 基于转移分析的频率信号分类方法及装置 | |
CN112748835A (zh) | 终端、服务器、最近任务列表显示方法和应用推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |