CN108712403A

CN108712403A - 基于域名构造相似性的非法域名挖掘方法

Info

Publication number: CN108712403A
Application number: CN201810419153.8A
Authority: CN
Inventors: 张兆心; 程亚楠; 吴晓宝; 崔诗尧; 杜跃进; 陆柯羽
Original assignee: Harbin Institute of Technology Weihai
Current assignee: Harbin Institute of Technology Weihai
Priority date: 2018-05-04
Filing date: 2018-05-04
Publication date: 2018-10-26
Anticipated expiration: 2038-05-04
Also published as: CN108712403B

Abstract

本发明提供一种基于域名构造相似性的非法域名挖掘方法，其解决了现有方法不能主动挖掘大量非法域名的技术问题；包括以下步骤：步骤1，从域名黑名单中读取非法域名；步骤2，判断是否存在聚集成功的类，若不存在，则转到步骤10；否则，继续下一步；步骤3，判断当前域名是否可以归到第i个聚集类中，若不可以，则转到步骤10；否则，继续下一步；判断的依据是当前域名是否与中心域名相似，中心域名是指聚集类中有代表性的域名；步骤4，将当前域名并入第i个聚集类，并提取出当前域名与该类中心域名的匹配过程中所产生的生成模式，继续下一步；生成模式是聚集类中各域名与中心域名所提取出的通配字符串。本发明广泛应用于信息技术领域。

Description

基于域名构造相似性的非法域名挖掘方法

技术领域

本发明涉及一种非法域名挖掘方法，特别是涉及一种基于域名构造相似性的非法域名挖掘方法。

背景技术

随着互联网的发展迅速，伴随互联网出现的产物之一的域名，也逐渐被人们认识和普及，域名在给我们带来了记忆网站以及修改IP上的便利的同时，也隐藏着一些无法避免的安全隐患。

今年来，越来越多非法组织通过域名承载一些非法的行为，如僵尸网络、钓鱼网站、黄赌毒类网站等，广大网民在财产和精神上都带来了难以估量的损害，因此，迫切地要求高效快速地挖掘非法域名的方法被提出。

目前绝大多数浏览器采用事先准备好的黑名单，通过定期更新维护黑名单来遏制网民访问非法网站，但是因缺少主动挖掘大量非法域名的方法，而缺乏时效性。

发明内容

本发明针对现有方法不能主动挖掘大量非法域名的技术问题，提供一种能够主动挖掘大量非法域名的基于域名构造相似性的非法域名挖掘方法。

为此，本发明的技术方案是，包括以下步骤：

步骤1，从域名黑名单中读取非法域名；

步骤2，判断是否存在聚集成功的类，若不存在，则转到步骤10；否则，继续下一步；

步骤3，判断当前域名是否可以归到第i个聚集类中，若不可以，则转到步骤10；否则，继续下一步；

判断的依据是当前域名是否与中心域名相似，中心域名是指聚集类中有代表性的域名；

步骤4，将当前域名并入第i个聚集类，并提取出当前域名与该类中心域名的匹配过程中所产生的生成模式，继续下一步；

生成模式是聚集类中各域名与中心域名所提取出的通配字符串；

步骤5，通过生成模式中进行枚举产生可能存在的与中心域名相似的相似域名，并筛选掉相似域名中已入库的非法域名，继续下一步；

步骤6，通过获取域名WHOIS信息来逐个判断步骤5中筛选后的相似域名是否存在，若不存在，丢弃；否则，保留，继续下一步；

步骤7，检测保留的域名是否非法，若检测出非法，添加到非法域名集中；否则，添加到未知域名集中；继续下一步；

步骤8，判断步骤5中筛选后的相似域名是否检测完毕，若检测完毕，继续下一步；否则，转到步骤6；

步骤9，判断步骤1的非法域名是否已经聚类完毕，若已聚类完毕，则算法结束；否则，转到步骤1；

步骤10，创建新类，将当前域名设置为该类的中心域名，转到步骤9。

优选地，步骤3中，第i聚集类是按照相似规则将相似的域名聚成的第i类。

优选地，相似规则如下：

(1)若两个域名只有顶级域不同，其他部分相同，则两个域名相似；

(2)若两个域名顶级域相同，当二级域长度相同时，二级域的相同位置不超过2个字符不同；或相同位置连续多个相同字符不同，则两个域名相似；当两个域名二级域长度相差1且长域名去掉一个字符可以变成短域名时，则两个域名相似；

(3)若(1)和(2)中均未判定为相似，则两个域名不相似。

优选地，步骤4中，生成模式使用通配符来代替两个非法域名之间的差异部分，使用指示符来表示指定通配符的枚举操作。

优选地，步骤7中，检测是通过通过权威第三方检测接口进行的。

本发明的有益效果：本方法是建立在已有大批非法域名的基础上作分析，从而挖掘出大量未包含的非法域名。首先，对已准备的黑名单中的非法域名集进行聚类，将构造上相似的非法域名聚成一类，从而形成多个聚集类；然后，从每个类中提取出一个或多个生成模式，得到生成模式的集合；再者，通过生成模式进行枚举，生成疑似非法的相似域名；最后，使用第三方权威检测接口对疑似非法的生成域名集进行检测，筛选出非法的相似域名。该方法从非法域名构造相似性角度出发，主动挖掘出大量的库中不存在的非法域名，并且基于域名构造相似性挖掘出来的非法域名之间具有很强的关联性，有利于非法域名的关联分析、团伙分析。

附图说明

图1是本发明实施例的整体功能流程图；

图2是本发明实施例的方法流程图。

具体实施方式

下面结合实施例对本发明做进一步描述。

非法域名之间存在着构造的相似性，往往通过对单个非法域名构造上作略微修改就可以产生批量的非法域名，且由此得到的这批非法域名极有可能是出自同一个注册者或者是同一个非法组织注册。如通过非法域名00080d.com就可以挖掘出更多相似的非法域名00080e.com、00080f.com、00080w.com等。

如图1、2所示，本实施例提供一种基于域名构造相似性的非法域名挖掘方法，主要步骤包括相似聚类、生成模式提取、生成相似域名、检测相似域名的存在性和非法性四大块步骤。本实施例是以赌博、色情、诈骗类非法域名集作为黑名单进行聚类，采取的是自定义的相似规则，将构造相似的域名聚成一类，然后提取每一类的生成模式，生成相似域名，最终检测出非法且实际存在的相似域名。具体步骤如下：

步骤1，从域名黑名单中读取非法域名；

其中，判断的方法是判断域名是否与中心域名相似，中心域名是指聚集类中有代表性的域名；

第i聚集类是按照自定义的相似规则将相似的域名聚成的第i类，相似规则如下：

(1)若两个域名只有顶级域不同，其他部分相同，如08vip.vip和08vip.tv，则两个域名相似；

(2)若两个域名顶级域相同，当二级域长度相同时，二级域的相同位置不超过2个字符不同，如00037b.com和00037c.com、099sun.com和099sky.com、1188030.com和1388033.com；或相同位置连续多个相同字符不同，如4148ww.com和4148nn.com、4040uuu.com和4040jjj.com，则两个域名相似；当两个域名二级域长度相差1且长域名去掉一个字符可以变成短域名时，如0000524.com和00001524.com，则两个域名相似；

(3)若(1)和(2)中均未判定为相似，则两个域名不相似。

其中，生成模式是聚集类中各域名与中心域名所提取出的通配字符串；生成模式的提取方法是，使用通配符来代替两个非法域名之间的差异部分，使用指示符来表示指定通配符的枚举操作，具体说明如下：

(1)若两个域名只有顶级域不同，如08vip.vip和08vip.tv，可以提取出生成模式08vip.％；

(2)若两个域名相似且只相差一个字符，如0000524.com和00001524.com可以提取出模式00001524-.com或0000524+.com；

(3)若两个域名相似且相同位置不超过2个字符不同，当相同位置的不同字符均为数字时，如1188030.com和1388033.com，可以提取出模式1#8803#.com；当相同位置的不同字符均为字母时，如00037b.com和00037c.com、099sun.com和099sky.com，可以提取出模式00037#.com、099s**.com；当相同位置的不同字符一边为数字一边为字母时，如004zyz.com和0044y8.com，可以提取出模式004$y$.com；

(4)若两个域名相似且只有相同位置连续多个相同字符不同，如4148ww.com和4148nn.com、4040uuu.com和4040jjj.com、1186655.com和1186699.com，可以分别提取出匹配模式4148**&.com、4040***&.com、11866##&.com。

步骤5，通过生成模式中的通配符和指示符来指导性的枚举产生可能存在的与中心域名相似的相似域名，并筛选掉相似域名中已入库的非法域名，继续下一步；

通配符、指示符的具体说明如下：

(1)％为顶级域通配符，枚举时将％替换成黑名单中提取出的顶级域；

(2)-、+均为指示符，指示枚举时需删减二级域某个字符或增加某个字符；

(3)*为字母通配符、#为数字通配符、$为字母数字通配符，*枚举时换成字母a～z、#枚举时换成数字0～9、$枚举时换成0～9，a～z；

(4)&为连续指示符，指示枚举时所有通配符替换同一个字符；

步骤6，通过获取域名WHOIS信息来逐个判断步骤5中筛选后的相似域名是否存在，若不存在，丢弃；否则，保留，继续下一步操作；

步骤7，通过权威第三方检测接口检测保留的域名是否非法，若检测出非法，添加到非法域名集中；否则，添加到未知域名集中，继续下一步；

定期对未知域名集中的域名进行检测，判断其是否为非法域名，若检测出非法，添加到非法域名集中；否则，保留在未知域名集中；

本方法是建立在已有大批非法域名的基础上作分析，从而挖掘出大量未包含的非法域名。首先，对已准备的黑名单中的非法域名集进行聚类，将构造上相似的非法域名聚成一类，从而形成多个聚集类；然后，从每个类中提取出一个或多个生成模式，得到生成模式的集合；再者，通过生成模式进行枚举，生成疑似非法的相似域名；最后，使用第三方权威检测接口对疑似非法的生成域名集进行检测，筛选出非法的相似域名。该方法从非法域名构造相似性角度出发，主动挖掘出大量的库中不存在的非法域名，并且基于域名构造相似性挖掘出来的非法域名之间具有很强的关联性，有利于非法域名的关联分析、团伙分析等。

惟以上者，仅为本发明的具体实施例而已，当不能以此限定本发明实施的范围，故其等同组件的置换，或依本发明专利保护范围所作的等同变化与修改，皆应仍属本发明权利要求书涵盖之范畴。

Claims

1.一种基于域名构造相似性的非法域名挖掘方法，其特征是，包括以下步骤：

步骤1，从域名黑名单中读取非法域名；

所述判断的依据是当前域名是否与中心域名相似，所述中心域名是指聚集类中有代表性的域名；

所述生成模式是聚集类中各域名与中心域名所提取出的通配字符串；

2.根据权利要求1所述的基于域名构造相似性的非法域名挖掘方法，其特征在于，所述步骤3中，所述第i聚集类是按照相似规则将相似的域名聚成的第i类。

3.根据权利要求2所述的基于域名构造相似性的非法域名挖掘方法，其特征在于，所述相似规则如下：

(3)若(1)和(2)中均未判定为相似，则两个域名不相似。

4.根据权利要求1所述的基于域名构造相似性的非法域名挖掘方法，其特征在于，所述步骤4中，所述生成模式使用通配符来代替两个非法域名之间的差异部分，使用指示符来表示指定通配符的枚举操作。

5.根据权利要求1所述的基于域名构造相似性的非法域名挖掘方法，其特征在于，所述步骤7中，所述检测是通过通过权威第三方检测接口进行的。