CN112804210B - 数据关联方法、装置、电子设备和计算机可读存储介质 - Google Patents

数据关联方法、装置、电子设备和计算机可读存储介质 Download PDF

Info

Publication number
CN112804210B
CN112804210B CN202011630986.2A CN202011630986A CN112804210B CN 112804210 B CN112804210 B CN 112804210B CN 202011630986 A CN202011630986 A CN 202011630986A CN 112804210 B CN112804210 B CN 112804210B
Authority
CN
China
Prior art keywords
domain name
information
detected
malicious
registration information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011630986.2A
Other languages
English (en)
Other versions
CN112804210A (zh
Inventor
董秀坤
万耀东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Knownsec Information Technology Co Ltd
Original Assignee
Beijing Knownsec Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Knownsec Information Technology Co Ltd filed Critical Beijing Knownsec Information Technology Co Ltd
Priority to CN202011630986.2A priority Critical patent/CN112804210B/zh
Publication of CN112804210A publication Critical patent/CN112804210A/zh
Application granted granted Critical
Publication of CN112804210B publication Critical patent/CN112804210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请提出一种数据关联方法、装置、电子设备和计算机可读存储介质,涉及信息安全领域。该方法通过获取样本数据,样本数据包括多个待检测域名,查询每个待检测域名对应的域名注册信息和IP信息,并提取待检测域名对应的网站的页面关键词,根据域名注册信息、IP信息,以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度,确定出多个待检测域名中的恶意域名,根据每个恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。本申请通过从域名注册信息和IP信息多个维度对不同恶意域名进行关联,构建出关联网络,打破单一的域名关联,从而形成细化的关联关系,提高了对欺诈网站关联的准确性。

Description

数据关联方法、装置、电子设备和计算机可读存储介质
技术领域
本申请涉及信息安全领域,具体而言,涉及一种数据关联方法、装置、电子设备和计算机可读存储介质。
背景技术
跟随互联网的发展进步,欺诈网站威胁已经发展成为一种受经济利益驱使的商业活动。欺诈网站是通过“伪装的网站服务内容”诱导用户在网站上进行操作,存在被骗取财产或者隐私信息等危险。目前针对欺诈网站的现有技术,主要是搭建网站信用黑名单机制,包括两种方式:一种是根据单一特征或事件的判定,将欺诈网站导入黑名单的基础技术;另一种则是在基础黑名单技术中,针对已经检测出的欺诈网站,通过对其中包含的暗链进行关联分析,生成网站信用黑名单。
然而,如今的欺诈网站大多是仿冒单一的页面进行欺诈,基本已经不存在暗链、外链等情况,故通过欺诈网站的链接关系进行关联分析难以取得成效。
发明内容
有鉴于此,本申请的目的在于提供一种数据关联方法、装置、电子设备和计算机可读存储介质,以提高对欺诈网站关联的准确性。
为了实现上述目的,本申请实施例采用的技术方案如下:
第一方面,本申请提供一种数据关联方法,所述方法包括:
获取样本数据;所述样本数据包括多个待检测域名;
查询每个所述待检测域名对应的域名注册信息和IP信息,并提取所述待检测域名对应的网站的页面关键词;
根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名;
根据每个所述恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。
在可选的实施方式中,所述根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名的步骤包括:
若任一待检测域名对应的页面相似度大于设定阈值,并且所述待检测域名对应的域名注册信息和IP信息均与所述官方网站不匹配,则确定所述待检测域名为恶意域名。
在可选的实施方式中,所述根据每个所述恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络的步骤包括:
将每个恶意域名均关联自身对应的域名注册信息和IP信息;若任意两个恶意域名对应的域名注册信息之间存在第一重叠信息,则通过所述第一重叠信息将所述两个恶意域名进行关联,和/或,若任意两个恶意域名对应的IP信息之间存在第二重叠信息,则通过所述第二重叠信息将所述两个恶意域名进行关联,从而得到关联网络。
在可选的实施方式中,所述方法还包括:
基于所述关联网络中的第一重叠信息或第二重叠信息进行反查操作,以获得使用所述第一重叠信息或所述第二重叠信息注册的目标域名;其中,所述目标域名为除所述关联网络中的恶意域名以外的其他域名;
在确定所述目标域名为恶意域名的情况下,根据所述目标域名更新所述关联网络。
在可选的实施方式中,所述获取样本数据的步骤之后,所述方法还包括:
对所述样本数据中的每个待检测域名进行存活性检测,以过滤掉所述样本数据中失活的待检测域名并保留存活的待检测域名;
若检测到所述失活的待检测域名再次被使用,则将再次被使用的域名重新加入域名黑库中进行监测。
在可选的实施方式中,所述根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名的步骤之后,所述方法还包括:
将所述恶意域名、所述恶意域名对应的域名注册信息和IP信息在云端服务器进行存储。
在可选的实施方式中,所述域名注册信息包括域名注册服务商、注册人信息、子域名信息;所述IP信息包括IP地址、IP地理位置、IP注册信息。
第二方面,本申请提供一种数据关联装置,所述装置包括:
数据获取模块,用于获取样本数据;所述样本数据包括多个待检测域名;
数据查询模块,用于查询每个所述待检测域名对应的域名注册信息和IP信息,并提取所述待检测域名对应的网站的页面关键词;
恶意域名检测模块,用于根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名;
数据关联模块,用于根据每个所述恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。
第三方面,本申请提供一种电子设备,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现前述实施方式任一项所述的方法。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现前述实施方式任一项所述的方法。
本申请实施例提供的数据关联方法、装置、电子设备和计算机可读存储介质,通过获取样本数据,样本数据包括多个待检测域名,查询每个待检测域名对应的域名注册信息和IP信息,并提取待检测域名对应的网站的页面关键词,根据域名注册信息、IP信息,以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度,确定出多个待检测域名中的恶意域名,根据每个恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。本申请实施例通过从域名注册信息和IP信息多个维度对不同恶意域名进行关联,构建出关联网络,打破了单一的域名关联,从而形成细化的关联关系,提高了对欺诈网站关联的准确性。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例提供的电子设备的一种方框示意图;
图2示出了本申请实施例提供的数据关联方法的一种流程示意图;
图3示出了关联网络的一种示意图;
图4示出了本申请实施例提供的数据关联方法的另一种流程示意图;
图5示出了本申请实施例提供的数据关联方法的又一种流程示意图;
图6示出了本申请实施例提供的数据关联方法的又一种流程示意图;
图7示出了本申请实施例提供的数据关联装置的一种功能模块图;
图8示出了本申请实施例提供的数据关联装置的另一种功能模块图。
图标:100-电子设备;110-存储器;120-处理器;130-通信模块;700-数据关联装置;710-数据获取模块;720-数据查询模块;730-恶意域名检测模块;740-数据关联模块;750-数据更新模块;760-存活性检测模块;770-数据存储模块。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,术语“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
请参照图1,是本申请实施例提供的电子设备100的一种方框示意图。该电子设备100可以为平板电脑、PC(Personal Computer,个人计算机)等设备,其包括存储器110、处理器120及通信模块130。存储器110、处理器120以及通信模块130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。
其中,存储器110用于存储程序或者数据。存储器110可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(ErasableProgrammable Read-Only Memory,EPROM),电可擦除只读存储器(Electric ErasableProgrammable Read-Only Memory,EEPROM)等。
处理器120用于读/写存储器110中存储的数据或程序,并执行相应地功能。例如,处理器120执行存储器110中存储的计算机程序时,可以实现本申请实施例揭示的数据关联方法。
通信模块130用于通过网络建立电子设备100与其它通信终端之间的通信连接,并用于通过网络收发数据。
应当理解的是,图1所示的结构仅为电子设备100的结构示意图,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器120执行时可以实现本申请实施例揭示的数据关联方法。
请参照图2,为本申请实施例提供的数据关联方法的一种流程示意图。需要说明的是,本申请实施例提供的数据关联方法并不以图2以及以下的具体顺序为限制,应当理解,在其他实施例中,本申请实施例提供的数据关联方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该数据关联方法可以应用在图1所示的电子设备100中,下面将对图2所示的具体流程进行详细阐述。
步骤S201,获取样本数据;样本数据包括多个待检测域名。
在本实施例中,该待检测域名可以为目前已发现的欺诈网站的域名或者疑似欺诈网站的域名,例如,已公开的恶意域名、日常监测的域名黑库中的数据以及举报得到的黑名单网址数据等。
步骤S202,查询每个待检测域名对应的域名注册信息和IP信息,并提取待检测域名对应的网站的页面关键词。
在本实施例中,可以通过公开查询接口(例如,站长之家chinaz.com等)查询获取每个待检测域名对应的域名注册信息和IP信息,同时利用启发式算法对待检测域名对应的网站的页面关键词进行提取,通过该页面关键词可以判断该网站所属机构或企业,进而确定该机构或企业对应的官方网站(正规网站)。
步骤S203,根据域名注册信息、IP信息,以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度,确定出多个待检测域名中的恶意域名。
在本实施例中,因样本数据中的待检测域名包括疑似欺诈网站的域名,故在获取每个待检测域名对应的域名注册信息和IP信息,并提取出待检测域名对应的网站的页面关键词后,可以将待检测域名对应的网站与页面关键词对应的官方网站进行相似度对比,判断其与官方网站的页面相似度,并结合提取到的域名注册信息和IP信息确定该待检测域名是否为恶意域名。其中,在计算页面相似度时,可以同时结合网页文本结构和页面视觉效果将待检测域名对应的网站与页面关键词对应的官方网站进行对比,进而得到页面相似度。对于确定为恶意域名的待检测域名,可以对该待检测域名以及该待检测域名对应的域名注册信息和IP信息打上恶意特征的标记(即增添恶意标签)。
步骤S204,根据每个恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。
在本实施例中,电子设备100可以将每个恶意域名对应的域名注册信息、IP信息进行多次拆分重复关联,让多维度带有恶意标签的信息进行全方面的碰撞和联系,从而将不同恶意域名之间关联起来,构建出关联网络。其中,该关联网络中可以包括样本数据中所有的恶意域名以及各恶意域名对应的域名注册信息和IP信息。
本申请实施例提供的数据关联方法,通过获取样本数据,样本数据包括多个待检测域名,查询每个待检测域名对应的域名注册信息和IP信息,并提取待检测域名对应的网站的页面关键词,根据域名注册信息、IP信息,以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度,确定出多个待检测域名中的恶意域名,根据每个恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。本申请实施例通过从域名注册信息和IP信息多个维度对不同恶意域名进行关联,构建出关联网络,打破了单一的域名关联,从而形成细化的关联关系,提高了对欺诈网站关联的准确性。
可选地,在本实施例中,该域名注册信息可以包括域名注册服务商、注册人信息、子域名信息;IP信息包括IP地址、IP地理位置、IP注册信息。
其中,该域名注册信息可以理解为待检测域名对应的WHOIS信息。WHOIS读作“Whois”,是用来查询域名的IP以及所有者等信息的传输协议。简单说,WHOIS就是一个用来查询域名是否已经被注册,以及注册域名的详细信息的数据库(如域名所有人、域名注册商)。该注册人信息可以包括注册人的姓名、手机号、邮箱等信息。该IP注册信息可以理解为IPWHOIS信息,例如IP使用人和IP使用人的相关信息等(person/e-mail/address/phone)。
在一个实施例中,上述的步骤S203可以具体包括:若任一待检测域名对应的页面相似度大于设定阈值,并且待检测域名对应的域名注册信息和IP信息均与官方网站不匹配,则确定待检测域名为恶意域名。
也即是说,将待检测域名对应的网站与官方网站进行页面相似度比对,发现大于设定阈值,同时比对二者的域名注册信息和IP信息,发现虽然页面高度相似但是各自对应的域名注册信息和IP信息均不匹配,进而将该待检测域名对应的网站判定为欺诈网站,相应地,该待检测域名为恶意域名。
需要说明的是,在实际应用中,为了进一步提高恶意域名的检测准确性,在提取待检测域名对应的域名注册信息、IP信息和页面关键词的同时,还可以查询每个待检测域名对应的网站备案信息(可以包括主办单位名称、主办单位性质、网站名称、审核时间等信息),然后基于待检测域名对应的域名注册信息、IP信息、网站备案信息与官方网站的比对结果,以及待检测域名对应的网站与官方网站的页面相似度比对结果综合判断待检测域名是否为恶意域名。
例如,针对某个待检测域名,可以提取该待检测域名对应的网站备案信息、域名注册信息、IP信息等内容,同时利用启发式算法对待检测域名对应的网站的页面关键词进行提取,根据提取的页面关键词发现与“XX银行”相关,则将待检测域名对应的网站与“XX银行”的官方网站进行相似度对比,发现页面相似度大于设定阈值,为高度相似,同时比对二者各自的网站备案信息、域名注册信息、IP地理位置等信息,发现该待检测域名对应的网站与“XX银行”的官方网站虽然页面很相似,但是网站备案信息和域名注册信息均与官方网站的不同,同时待检测域名对应的IP地理位置位于境外,而官方网站所属企业为国内企业,则判定待检测域名对应的网站为欺诈网站,该待检测域名为恶意域名。
本申请实施例提供的数据关联方法,针对样本数据中的待检测域名,可以提取出对应的域名注册信息、IP信息和页面关键词,基于页面关键词判断该网站所属机构或企业,将待检测域名对应的网站与官方网站进行页面相似度比对,同时比对二者的域名注册信息和IP信息,当待检测域名对应的页面相似度大于设定阈值,并且待检测域名对应的网站与官方网站各自对应的域名注册信息和IP信息均不匹配,则判定待检测域名为恶意域名。如此,实现了以域名注册信息、IP信息的比对,网页内容检测以及页面相似度对比同时作为恶意域名检测的基础,通过相互结合、相互辅助来判断待检测域名是否为恶意域名,有效提升了欺诈网站识别的准确性。
在一个实施例中,电子设备100可以按照如下方式构建关联网络,即上述的步骤S204可以包括:将每个恶意域名均关联自身对应的域名注册信息和IP信息;若任意两个恶意域名对应的域名注册信息之间存在第一重叠信息,则通过第一重叠信息将两个恶意域名进行关联,和/或,若任意两个恶意域名对应的IP信息之间存在第二重叠信息,则通过第二重叠信息将两个恶意域名进行关联,从而得到关联网络。
例如,假设样本数据中的恶意域名包括域名1、域名2、域名n,域名1、域名2、域名n各自关联自身对应的域名注册信息和IP信息,包括IP地址、注册人的姓名(Name)、手机号(Phone)、邮箱(Email)等,若域名1关联的IP地址与域名2关联的IP地址相同,则可将该IP地址作为第二重叠信息,将域名1和域名2进行关联;若域名2关联的注册人的姓名与域名n关联的注册人的姓名相同,则将该注册人的姓名作为第一重叠信息,将域名2和域名n进行关联,如此,即可构建出图3所示的关联网络,相比于传统的通过欺诈网站的链接关系,这种关联维度过于单一的方式来对欺诈网站之间进行关联,本申请实施例所构建出的关联网络中可以包含域名相关的多维度信息,所呈现的关联关系也更为细化,故对欺诈网站的识别、关联、抓取的精准度都有大幅的提升。
可选地,请参照图4,本申请实施例提供的数据关联方法还可以包括:
步骤S401,基于关联网络中的第一重叠信息或第二重叠信息进行反查操作,以获得使用第一重叠信息或第二重叠信息注册的目标域名;其中,目标域名为除关联网络中的恶意域名以外的其他域名。
在本实施例中,由于第一重叠信息为关联网络中两个甚至更多恶意域名对应的域名注册信息的重叠部分,第二重叠信息为关联网络中两个甚至更多恶意域名对应的IP信息的重叠部分,故第一重叠信息和第二重叠信息属于关联网络中关联性较强的节点数据。对于关联网络中关联性较强的节点数据,通过对其进行反查操作,可以获得与该节点数据相关的更多信息,例如使用该节点数据注册的其他相关域名(即目标域名)。其中,反查操作可以包括联系人反查、IP地址反查、联系方式反查等手段。
步骤S402,在确定目标域名为恶意域名的情况下,根据目标域名更新关联网络。
在本实施例中,对于通过反查操作获得的目标域名,可以对其进行检测,以判断是否同样为恶意域名,从而达到对于恶意域名的提前检出以及对已有的黑名单进行补充的目的。同时,对于提前检出的恶意域名,同样可以根据其对应域名注册信息和IP信息在关联网络中建立与其他恶意域名之间的关联关系,从而不断扩大关联网络,实现数据的动态更新。
例如,关联网络中某个恶意域名对应的联系方式是关联性较强的节点数据,则可以对这个联系方式进行反查操作,查询使用该联系方式注册的其他相关域名,然后检测使用该联系方式注册的其他相关域名是否存在恶意行为,进而判断其是否为恶意域名。
本申请实施例提供的数据关联方法,电子设备100对于关联网络中关联性较强的节点数据可以进行反查侦测,针对其资源使用共性的特点深入挖掘数据,逐步识别出更多的恶意域名加入黑名单,然后进行重新关联标记,并不断向关联网络中增加新的恶意域名相关的信息,从而不断扩大关联网络,实现数据的动态更新;有助于对欺诈网站的精准分析和关联检出,帮助人们发现潜在的威胁,将风险控制在还未发生或者刚发生的阶段,从而更加有效地防范欺诈网站。
可选地,请参照图5,在步骤S201之后,本申请实施例提供的数据关联方法还可以包括:
步骤S501,对样本数据中的每个待检测域名进行存活性检测,以过滤掉样本数据中失活的待检测域名并保留存活的待检测域名。
步骤S502,若检测到失活的待检测域名再次被使用,则将再次被使用的域名重新加入域名黑库中进行监测。
在本实施例中,一般网站存活的域名是可以查询到对应的IP信息以及WHOIS信息的,而失活的域名则无法查询到(网站无法访问)。因此,在获取样本数据后,需要对样本数据中的每个待检测域名进行存活性检测,过滤掉那些失活的待检测域名,保留存活的待检测域名;对于失活的待检测域名,可以设置一个定期的检测,如果发现该待检测域名再次被使用,就可以将该再次被使用的域名再次加入域名黑库进行监测,以保持数据的准确性。
需要说明的是,步骤S502既可以在步骤S202之前执行,也可以在步骤S202之后执行,还可以与步骤S202同时执行,本申请实施例对此不进行限制。
本申请实施例提供的数据关联方法,通过对样本数据中的待检测域名进行存活性检测,对于存活的待检测域名,可以查询到对应的域名注册信息和IP信息,进而检测其是否为恶意域名;对于失活的待检测域名也会定期地检测其是否有重新注册使用,有效保证了数据的准确性和活性。
可选地,请参照图6,在步骤S203之后,本申请实施例提供的数据关联方法还可以包括:
步骤S601,将恶意域名、恶意域名对应的域名注册信息和IP信息在云端服务器进行存储。
在本实施例中,电子设备100针对录入的样本数据可先进行存活性检测,过滤掉失活的数据,针对存活的待检测域名,查询其对应的域名注册信息、IP信息以及页面关键词,进而根据域名注册信息、IP信息以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度检测出恶意域名并增添恶意标签,然后将恶意域名、恶意域名对应的域名注册信息和IP信息在云端服务器进行存储,以供后续的关联分析使用。其中,步骤S601可以在步骤S204之前执行,也可以在步骤S204之后执行,还可以与步骤S204同时执行,本申请实施例对此不进行限制。
需要说明的是,在实际应用中,还可以根据待检测域名访问主域名对应的网页站点,对网页HTML标签中的关键词进行摘取归类,可统计为行业类别,即为每个待检测域名增添行业分类标签,例如银行、期货、信贷等,根据这些标签数据便于判断某个行业目前的态势。
为了执行上述实施例及各个可能的方式中的相应步骤,下面给出一种数据关联装置的实现方式。请参阅图7,图7为本申请实施例提供的数据关联装置700的一种功能模块图。需要说明的是,本实施例所提供的数据关联装置700,其基本原理及产生的技术效果和上述实施例相同,为简要描述,本实施例部分未提及之处,可参考上述的实施例中相应内容。该数据关联装置700可以应用在图1所示的电子设备100中,包括数据获取模块710、数据查询模块720、恶意域名检测模块730和数据关联模块740。
可选地,上述模块可以软件或固件(Firmware)的形式存储于图1所示的存储器110中或固化于该电子设备100的操作***(Operating System,OS)中,并可由图1中的处理器120执行。同时,执行上述模块所需的数据、程序的代码等可以存储在存储器110中。
该数据获取模块710,用于获取样本数据;样本数据包括多个待检测域名。
可以理解,该数据获取模块710可以执行上述步骤S201。
该数据查询模块720,用于查询每个待检测域名对应的域名注册信息和IP信息,并提取待检测域名对应的网站的页面关键词。
可以理解,该数据查询模块720可以执行上述步骤S202。
该恶意域名检测模块730,用于根据域名注册信息、IP信息,以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度,确定出多个待检测域名中的恶意域名。
可以理解,该恶意域名检测模块730可以执行上述步骤S203。
该数据关联模块740,用于根据每个恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。
可以理解,该数据关联模块740可以执行上述步骤S204。
可选地,该恶意域名检测模块730具体用于若任一待检测域名对应的页面相似度大于设定阈值,并且待检测域名对应的域名注册信息和IP信息均与官方网站不匹配,则确定待检测域名为恶意域名。
可选地,该数据关联模块740具体用于将每个恶意域名均关联自身对应的域名注册信息和IP信息;若任意两个恶意域名对应的域名注册信息之间存在第一重叠信息,则通过第一重叠信息将两个恶意域名进行关联,和/或,若任意两个恶意域名对应的IP信息之间存在第二重叠信息,则通过第二重叠信息将两个恶意域名进行关联,从而得到关联网络。
可选地,请参照图8,该数据关联装置700还可以包括数据更新模块750、存活性检测模块760和数据存储模块770。
该数据更新模块750,用于基于关联网络中的第一重叠信息或第二重叠信息进行反查操作,以获得使用第一重叠信息或第二重叠信息注册的目标域名;其中,目标域名为除关联网络中的恶意域名以外的其他域名;在确定目标域名为恶意域名的情况下,根据目标域名更新关联网络。
可以理解,该数据更新模块750可以执行上述步骤S401~S402。
该存活性检测模块760,用于对样本数据中的每个待检测域名进行存活性检测,以过滤掉样本数据中失活的待检测域名并保留存活的待检测域名;若检测到失活的待检测域名再次被使用,则将再次被使用的域名重新加入域名黑库中进行监测。
可以理解,该存活性检测模块760可以执行上述步骤S501~S502。
该数据存储模块770,用于将恶意域名、恶意域名对应的域名注册信息和IP信息在云端服务器进行存储。
可以理解,该数据存储模块770可以执行上述步骤S601。
本申请实施例提供的数据关联装置700,通过数据获取模块710获取样本数据,样本数据包括多个待检测域名;数据查询模块720查询每个待检测域名对应的域名注册信息和IP信息,并提取待检测域名对应的网站的页面关键词;恶意域名检测模块730根据域名注册信息、IP信息,以及待检测域名对应的网站与页面关键词对应的官方网站之间的页面相似度,确定出多个待检测域名中的恶意域名;数据关联模块740根据每个恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络。本申请实施例通过从域名注册信息和IP信息多个维度对不同恶意域名进行关联,构建出关联网络,打破了单一的域名关联,从而形成细化的关联关系,提高了对欺诈网站关联的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.一种数据关联方法,其特征在于,所述方法包括:
获取样本数据;所述样本数据包括多个待检测域名;
查询每个所述待检测域名对应的域名注册信息和IP信息,并提取所述待检测域名对应的网站的页面关键词;
根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名;
根据每个所述恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络;所述根据每个所述恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络的步骤包括:将每个恶意域名均关联自身对应的域名注册信息和IP信息;若任意两个恶意域名对应的域名注册信息之间存在第一重叠信息,则通过所述第一重叠信息将所述两个恶意域名进行关联,和/或,若任意两个恶意域名对应的IP信息之间存在第二重叠信息,则通过所述第二重叠信息将所述两个恶意域名进行关联,从而得到关联网络。
2.根据权利要求1所述的方法,其特征在于,所述根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名的步骤包括:
若任一待检测域名对应的页面相似度大于设定阈值,并且所述待检测域名对应的域名注册信息和IP信息均与所述官方网站不匹配,则确定所述待检测域名为恶意域名。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述关联网络中的第一重叠信息或第二重叠信息进行反查操作,以获得使用所述第一重叠信息或所述第二重叠信息注册的目标域名;其中,所述目标域名为除所述关联网络中的恶意域名以外的其他域名;
在确定所述目标域名为恶意域名的情况下,根据所述目标域名更新所述关联网络。
4.根据权利要求1所述的方法,其特征在于,所述获取样本数据的步骤之后,所述方法还包括:
对所述样本数据中的每个待检测域名进行存活性检测,以过滤掉所述样本数据中失活的待检测域名并保留存活的待检测域名;
若检测到所述失活的待检测域名再次被使用,则将再次被使用的域名重新加入域名黑库中进行监测。
5.根据权利要求1所述的方法,其特征在于,所述根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名的步骤之后,所述方法还包括:
将所述恶意域名、所述恶意域名对应的域名注册信息和IP信息在云端服务器进行存储。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述域名注册信息包括域名注册服务商、注册人信息、子域名信息;所述IP信息包括IP地址、IP地理位置、IP注册信息。
7.一种数据关联装置,其特征在于,所述装置包括:
数据获取模块,用于获取样本数据;所述样本数据包括多个待检测域名;
数据查询模块,用于查询每个所述待检测域名对应的域名注册信息和IP信息,并提取所述待检测域名对应的网站的页面关键词;
恶意域名检测模块,用于根据所述域名注册信息、所述IP信息,以及所述待检测域名对应的网站与所述页面关键词对应的官方网站之间的页面相似度,确定出所述多个待检测域名中的恶意域名;
数据关联模块,用于根据每个所述恶意域名对应的域名注册信息和IP信息,将不同恶意域名进行关联,以构建关联网络;所述数据关联模块用于将每个恶意域名均关联自身对应的域名注册信息和IP信息;若任意两个恶意域名对应的域名注册信息之间存在第一重叠信息,则通过所述第一重叠信息将所述两个恶意域名进行关联,和/或,若任意两个恶意域名对应的IP信息之间存在第二重叠信息,则通过所述第二重叠信息将所述两个恶意域名进行关联,从而得到关联网络。
8.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-6任一项所述的方法。
CN202011630986.2A 2020-12-31 2020-12-31 数据关联方法、装置、电子设备和计算机可读存储介质 Active CN112804210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011630986.2A CN112804210B (zh) 2020-12-31 2020-12-31 数据关联方法、装置、电子设备和计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011630986.2A CN112804210B (zh) 2020-12-31 2020-12-31 数据关联方法、装置、电子设备和计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112804210A CN112804210A (zh) 2021-05-14
CN112804210B true CN112804210B (zh) 2022-12-27

Family

ID=75808321

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011630986.2A Active CN112804210B (zh) 2020-12-31 2020-12-31 数据关联方法、装置、电子设备和计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112804210B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113360895B (zh) * 2021-06-02 2023-07-25 北京百度网讯科技有限公司 站群检测方法、装置及电子设备
CN113923193B (zh) * 2021-10-27 2023-11-28 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备
CN114416990B (zh) * 2022-01-17 2024-05-21 北京百度网讯科技有限公司 对象关系网络的构建方法、装置和电子设备
CN115150354B (zh) * 2022-06-29 2023-11-10 北京天融信网络安全技术有限公司 一种生成域名的方法、装置、存储介质及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106302438A (zh) * 2016-08-11 2017-01-04 国家计算机网络与信息安全管理中心 一种多渠道的基于行为特征的主动监测钓鱼网站的方法
CN108600249A (zh) * 2018-05-04 2018-09-28 哈尔滨工业大学(威海) 基于多维关联信息进行非法域名注册团伙挖掘的方法
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN110677384A (zh) * 2019-08-26 2020-01-10 奇安信科技集团股份有限公司 钓鱼网站的检测方法及装置、存储介质、电子装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104125209B (zh) * 2014-01-03 2015-09-09 腾讯科技(深圳)有限公司 恶意网址提示方法和路由器

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105357221A (zh) * 2015-12-04 2016-02-24 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106302438A (zh) * 2016-08-11 2017-01-04 国家计算机网络与信息安全管理中心 一种多渠道的基于行为特征的主动监测钓鱼网站的方法
CN108600249A (zh) * 2018-05-04 2018-09-28 哈尔滨工业大学(威海) 基于多维关联信息进行非法域名注册团伙挖掘的方法
CN110035075A (zh) * 2019-04-03 2019-07-19 北京奇安信科技有限公司 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN110677384A (zh) * 2019-08-26 2020-01-10 奇安信科技集团股份有限公司 钓鱼网站的检测方法及装置、存储介质、电子装置

Also Published As

Publication number Publication date
CN112804210A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN112804210B (zh) 数据关联方法、装置、电子设备和计算机可读存储介质
CN108092963B (zh) 网页识别方法、装置、计算机设备及存储介质
CN110099059B (zh) 一种域名识别方法、装置及存储介质
US9276956B2 (en) Method for detecting phishing website without depending on samples
CN110177114B (zh) 网络安全威胁指标识别方法、设备、装置以及计算机可读存储介质
CN107888606B (zh) 一种域名信誉度评估方法及***
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN103634317A (zh) 基于云安全对恶意网址信息进行安全鉴定的方法及***
CN106713579B (zh) 一种电话号码识别方法及装置
US20180131708A1 (en) Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN112019519B (zh) 网络安全情报威胁度的检测方法、装置和电子装置
CN112887341B (zh) 一种外部威胁监控方法
CN110149319B (zh) Apt组织的追踪方法及装置、存储介质、电子装置
Ramesh et al. Identification of phishing webpages and its target domains by analyzing the feign relationship
CN103209177A (zh) 网络钓鱼攻击的检测方法和装置
CN104158828A (zh) 基于云端内容规则库识别可疑钓鱼网页的方法及***
CN105530251A (zh) 识别钓鱼网站的方法及装置
CN108809928B (zh) 一种网络资产风险画像方法及装置
CN106790025B (zh) 一种对链接进行恶意性检测的方法及装置
CN106933880B (zh) 一种标签数据泄漏渠道检测方法及装置
CN112929370B (zh) 域名***隐蔽信道检测方法及装置
CN113810518A (zh) 有效子域名识别方法、装置和电子设备
CN107332856B (zh) 地址信息的检测方法、装置、存储介质和电子装置
CN115001724B (zh) 网络威胁情报管理方法、装置、计算设备及计算机可读存储介质
CN115794780A (zh) 网络空间资产的采集方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant