CN112751804B - 一种仿冒域名的识别方法、装置和设备 - Google Patents

一种仿冒域名的识别方法、装置和设备 Download PDF

Info

Publication number
CN112751804B
CN112751804B CN201911046526.2A CN201911046526A CN112751804B CN 112751804 B CN112751804 B CN 112751804B CN 201911046526 A CN201911046526 A CN 201911046526A CN 112751804 B CN112751804 B CN 112751804B
Authority
CN
China
Prior art keywords
domain name
main
suffix
white
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911046526.2A
Other languages
English (en)
Other versions
CN112751804A (zh
Inventor
邢明
常亚东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guancheng Technology Co ltd
Original Assignee
Beijing Guancheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guancheng Technology Co ltd filed Critical Beijing Guancheng Technology Co ltd
Priority to CN201911046526.2A priority Critical patent/CN112751804B/zh
Publication of CN112751804A publication Critical patent/CN112751804A/zh
Application granted granted Critical
Publication of CN112751804B publication Critical patent/CN112751804B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种仿冒域名的识别方法、装置和设备,包括:将待识别域名划分为主域名、子域名和域名后缀;对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询;根据仿冒检测结论,得到域名识别结果。本发明针对恶意网站仿冒域名的特点,通过域名分段,对域名中的主域名、子域名和域名后缀分别采用不同的检测方法,主域名仿冒检测采用编辑距离计算的方式,子域名仿冒检测采用域名匹配的方式,域名后缀仿冒检测采用比较域名后缀信誉度的方式,综合判决,可以准确高效地识别出仿冒域名。

Description

一种仿冒域名的识别方法、装置和设备
技术领域
本发明涉及网络安全技术领域,特别是涉及一种仿冒域名的识别方法、装置和设备。
背景技术
互联网在高速发展的过程中,在各领域中发挥着愈发重要的作用。与此同时,网络安全问题也面临着越来越大的挑战。针对各类网络应用的网络犯罪活动日益频繁,造成的各种损失无法估量,尤其是网络钓鱼和僵尸网络。
网络钓鱼(Phishing),是指攻击者通过电子邮件、社交软件等多种方式诱骗受害者访问与目标网站高度相似的钓鱼网站,受害者往往会泄露手机号、身份证号、银行账号、银行密码等个人敏感资料,甚至造成严重的经济损失。随着电子商务和移动支付的普及,网络钓鱼造成的危害也越来越大。
钓鱼网站通常具有仿冒正常网站域名的特点,网络钓鱼者为了仿冒银行、电子商务等目标网站,通常会采用和目标网站高度相似的域名,这样才会使用户误认为访问的钓鱼网站是正常网站。僵尸网络为了隐藏重要的C&C服务器,也会采用域名仿冒的技术,生成和正常网站相似的域名,从而达到欺骗防御者的目的。
仿冒域名的识别是网络安全检测的一个难题和瓶颈,而实现仿冒域名的识别能极大的提高网络安全的可靠性。
发明内容
本发明的目的是提供一种能准确识别仿冒域名的方法、装置和设备,以解决仿冒域名的识别问题。
为解决上述技术问题,本发明提供一种识别仿冒域名的方法,包括以下步骤:
将待识别域名划分为主域名、子域名和域名后缀,包括:
将待识别域名与预设的域名后缀库相匹配;
若匹配成功,待识别域名中与域名后缀库相匹配的部分为域名后缀,在所述待识别域名除域名后缀的部分中点分隔符,将所述待识别域名除域名后缀的部分划分为主域名、子域名,得到待识别域名的主域名、子域名和域名后缀;
若匹配失败,则将所述待识别域名确定为仿冒域名;
对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询;
根据仿冒检测结论,得到域名识别结果。
可选地,所述对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询,包括:
将主域名与预设的白域名库中的白域名进行编辑距离计算;
若编辑距离计算结果大于预设的门限值,则进行子域名与预设的白主域名库中的白主域名的匹配,由匹配结果得到仿冒检测结论;
若编辑距离计算结果等于零,则进行域名后缀信誉度查询,由查询结果得到仿冒检测结论;
若编辑距离计算结果大于零且小于预设的门限值,则将所述待识别域名确定为仿冒域名。
可选地,所述门限值的预设过程包括:根据不同的域名长度设置不同的门限值。
可选地,所述主域名与预设的白域名库中的白域名的编辑距离计算过程,包括:
计算主域名的字符串与预设的白域名库中的白域名的字符串之间的莱文斯坦距离。
可选地,所述子域名与预设的白主域名库中的白主域名的匹配过程,包括:
将子域名与预设的白主域名库中的白主域名进行匹配;
子域名的字符串中包含白主域名的字符串,所述待识别域名为仿冒域名;
子域名的字符串中不包含白主域名的字符串,所述待识别域名为正常域名。
可选地,所述域名后缀信誉度查询过程,包括:
将域名后缀在预设的域名后缀信誉库中进行信誉度排名查询;
域名后缀在域名后缀信誉库中低于预设的信誉门限,所述待识别域名为仿冒域名;
域名后缀在域名后缀信誉库中达到预设的信誉门限及以上,所述待识别域名为正常域名。
可选地,所述将待识别域名划分为主域名、子域名和域名后缀,之前还包括:
将待识别域名与预设的白域名库进行匹配;
匹配成功,所述待识别域名为正常域名;
匹配失败,则进入下一步继续识别。
本发明还提供一种仿冒域名的识别装置,包括:
域名分段模块,用于将待识别域名划分为主域名、子域名和域名后缀;
仿冒检测模块,用于对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测模块包括:主域名检测子模块,对主域名与预设的白域名库中的白域名进行编辑距离计算,子域名检测子模块,对子域名与预设的白主域名库中的白主域名进行匹配,域名后缀检测子模块,对域名后缀信誉度进行查询;
域名识别模块,用于根据仿冒检测结论,得到域名识别结果。
本发明还提供一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的仿冒域名的识别方法。
本发明提供一种仿冒域名的识别方法、装置和设备,恶意仿冒域名通常采用三种仿冒形式,分别是主域名仿冒、子域名仿冒和域名后缀仿冒,本发明针对恶意网站仿冒域名的特点,通过域名分段,对域名中的主域名、子域名和域名后缀分别采用不同的检测方法,主域名仿冒检测采用编辑距离计算的方式,子域名仿冒检测采用域名匹配的方式,域名后缀仿冒检测采用比较域名后缀信誉度的方式,综合判决,可以准确高效地识别出仿冒域名。本发明利用自然语言处理中的编辑距离算法,通过域名分段、主域名编辑距离计算、子域名匹配、域名后缀查询、综合判决等体系化的综合处理流程,可有效识别出恶意仿冒域名。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的仿冒域名的识别方法的流程图;
图2为本发明实施例的仿冒域名的识别方法的仿冒识别流程图;
图3为本发明实施例的仿冒域名的识别方法的门限值设定流程图;
图4为本发明实施例的仿冒域名的识别方法的域名分段流程图;
图5为本发明实施例的仿冒域名的识别方法的主域名编辑距离计算流程图;
图6为本发明实施例的仿冒域名的识别方法的莱文斯坦距离计算公式;
图7为本发明实施例的仿冒域名的识别方法的子域名匹配流程图;
图8为本发明实施例的仿冒域名的识别方法的域名后缀信誉度查询流程图;
图9为本发明实施例的仿冒域名的识别方法的域名匹配流程图;
图10为本发明实施例的仿冒域名的识别装置的结构框图;
图11为本发明实施例的计算机设备的结构框图。
具体实施方式
本发明的核心是提供一种能准确识别仿冒域名的方法、装置和设备。
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明实施例可以用于域名的安全检测场景,尤其是仿冒域名的识别场景。本发明实施例涉及的域名可以是网络通信中的URL和电子邮件地址,也可以直接是域名,本发明实施例中并不限定。
本发明实施例提供一种识别仿冒域名的方法,如图1所示,包括以下步骤:
S200:将待识别域名划分为主域名、子域名和域名后缀。
具体地,域名可分段为主域名、子域名和域名后缀,将待检测域名分段,可以对其执行不同的检测方式。
S400:对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询。
具体地,针对三种域名仿冒形式,可以分别采用不同的检测方法。主域名仿冒检测采用编辑距离计算的方式;子域名仿冒检测采用域名匹配的方式,域名后缀仿冒检测采用比较域名后缀信誉度的方式。
具体地,所述白域名库为已知的正常域名组成的白域名库,所述白主域名库为已知的正常域名的主域名部分组成的白主域名库。
S600:根据仿冒检测结论,得到域名识别结果。
具体地,根据分别进行仿冒识别,可得到仿冒识别结果,任一检测步骤得到仿冒识别结果为待识别域名为仿冒域名,则域名识别结果为为仿冒域名。
本发明实施例设计了一种体系化、智能的仿冒域名的识别方法。恶意仿冒域名通常采用三种仿冒形式,分别是主域名仿冒、子域名仿冒和域名后缀仿冒。主域名仿冒是指恶意域名的主域名通过字符替换、字符删除和字符***等方式伪造成与正常域名高度相似的域名;子域名仿冒是指恶意域名的子域名与正常域名的主域名完全一致或包含正常域名的主域名;域名后缀仿冒是指恶意域名的主域名与正常网站的主域名完全一致,但是域名后缀不同。本发明针对恶意网站仿冒域名的特点,通过域名分段,对域名中的主域名、子域名和域名后缀分别采用不同的检测方法,主域名仿冒检测采用编辑距离计算的方式,子域名仿冒检测采用域名匹配的方式,域名后缀仿冒检测采用比较域名后缀信誉度的方式,综合判决,可以准确高效地识别出仿冒域名。
本发明实施例利用自然语言处理中的编辑距离算法,通过域名分段、主域名编辑距离计算、子域名匹配、域名后缀查询、综合判决等体系化的综合处理流程,可有效识别出恶意仿冒域名。
本发明实施例还包括域名提取过程,域名提取是整个方法结构的预处理过程,通过提取出URL、电子邮箱地址中的域名为后续处理做准备,主要针对URL和电子邮箱地址。
具体地,URL的域名提取过程包括:
URL(Uniform Resource Locator统一资源定位符)由资源类型、存放资源的主机域名、资源文件名三部分组成。URL的一般语法格式为:protocol://hostname[:port]/path/[;parameters][?query]#fragment
其中,[]为可选项,输入为URL时,可以通过匹配字符“/”的方法提取出有效域名。
具体地,电子邮箱地址的域名提取过程包括:
电子邮箱地址的固定格式为:[email protected],其中user是收件人的账号,mail.server.name是收件人的电子邮件服务器名,输入为电子邮箱地址时可以直接提取连接符“@”后的域名。
本发明实施例通过提取出URL、电子邮箱地址中的域名为后续处理流程做准备,本发明实施例的仿冒域名的识别方法更具体,综合判决执行更有效率。
可选地,如图2所示,步骤S400包括:
S410:将主域名与预设的白域名库中的白域名进行编辑距离计算。
具体地,编辑距离(Edit Distance)是指两个字符串之间,通过替换、***、删除操作由一个转换成另外一个所需的最少编辑操作次数。编辑距离越小,两个字符串之间的相似度越大,是两个字符串之间差异程度的量化表示。根据对字符串进行的处理方式不同存在多种编辑距离,例如莱文斯坦距离(Levenshtein Distance),Damerau-Levenshtein距离,最长公共子序列距离(LCS),Jaro距离和汉明距离(Hamming Distance)。通常编辑距离指的是莱文斯坦距离。
S420:若编辑距离计算结果大于预设的门限值,则进行子域名与预设的白主域名库中的白主域名的匹配,由匹配结果得到仿冒检测结论。
具体地,计算出主域名与白域名库中各个白域名的编辑距离,通过比较编辑距离和预设的门限值,决定下一步是采用子域名与白主域名匹配还是域名后缀信誉查询。如果主域名编辑距离计算结果大于设定的门限值,则主域名没有进行仿冒,需要进一步判断子域名仿冒识别,各级子域名分别与预设的白主域名库中的正常主域名进行匹配运算。
S430:若编辑距离计算结果等于零,则进行域名后缀信誉度查询,由查询结果得到仿冒检测结论。
具体地,如果主域名编辑距离计算为“0”,则主域名虽然为正常域名但仍然需要进一步判断域名后缀是否被仿冒,继续进行域名后缀信誉度查询。
S440:若编辑距离计算结果大于零且小于预设的门限值,则将所述待识别域名确定为仿冒域名。
具体地,如果主域名编辑距离小于等于预设的门限值且大于“0”,则判断其为仿冒域名。
具体地,主域名仿冒是指钓鱼网站的主域名通过字符替换、字符删除和字符***等方式伪造成与目标网站高度相似的域名。例如正常域名为www.example.com,仿冒域名为www.exam1e.com,就是正常域名中的字母‘l’被替换成了数字‘1’。针对主域名仿冒可以通过计算编辑距离的方式进行识别。
本实施例的仿冒域名的识别方法,具体针对仿冒检测中的步骤实施顺序,先进行S410的主域名编辑距离计算,结合编辑距离计算结果和预设的门限值,根据编辑距离计算结果是否落入端点为零和预设的门限值的区间内,判断是否需要进行子域名与预设的白主域名库中的白主域名的匹配或域名后缀信誉度查询。本发明实施例的仿冒域名的识别方法更具体,综合判决执行更有效率。
可选地,如图3所示,步骤S420中门限值的预设过程包括:
S421a:根据不同的域名长度设置不同的门限值。
具体地,计算出待检测域名和白域名之间的编辑距离后,再根据是否在门限值以内判断域名是否为仿冒。仿冒域名通常与合法的白域名之间存在高度的相似度,也就是编辑距离非常小。判断编辑距离的合理程度需要预设一个检测门限值作为评定标准,检测门限值可以根据不同的域名长度设置不同值。
本实施例的仿冒域名的识别方法,具体针对门限值的预设过程,具体应用于主域名的仿冒检测过程,本发明实施例的仿冒域名的识别方法更具体,更合理,更有效率。
可选地,如图4所示,步骤S200:将待识别域名划分为主域名、子域名和域名后缀,包括:
S210:将待识别域名与预设的域名后缀库相匹配。
具体地,匹配成功,继续分段主域名、子域名,匹配失败,则直接判定待检测域名为仿冒域名。
S220:若匹配成功,待识别域名中与域名后缀库相匹配的部分为域名后缀,在所述待识别域名除域名后缀的部分中点分隔符,将所述待识别域名除域名后缀的部分划分为主域名、子域名,得到待识别域名的主域名、子域名和域名后缀。
S230:若匹配失败,则将所述待识别域名确定为仿冒域名。
具体地,上述域名分段过程是通过匹配域名后缀库和点分隔符分段将待识别域名分为主域名、子域名和域名后缀,便于针对性的进行下一步检测。域名的后缀如果能匹配到域名后缀库,则匹配部分为待检测域名的域名后缀,再根据点分隔符“.”提取出主域名和各级子域名;如果不能匹配到域名后缀库,判断待检测域名为非法域名。例如:www.example.com.cn,其中“com.cn”为顶级域名后缀,“example”为主域名,“www”为子域名。其中,域名后缀库可采用权威机构发布的顶级域名库进行构造。
本实施例的仿冒域名的识别方法,具体针对待识别域名的域名分段过程,对域名分段的步骤进行说明,本发明实施例的仿冒域名的识别方法更具体,更合理,更有效率。
可选地,如图5所示,步骤S410中主域名与预设的白域名库中的白域名的编辑距离计算过程,包括:
S411:计算主域名的字符串与预设的白域名库中的白域名的字符串之间的莱文斯坦距离。
具体地,计算主域名a从第0个字符开始到第i个字符与预设的白域名库中的白域名b从第0个字符开始到第j个字符之间的莱文斯坦距离。
本发明的编辑距离采用莱文斯坦距离,计算公式如图6所示,其中,leva,b(i,j)表示待检测的主域名a和白域名库中的域名b之间的莱文斯坦距离,也就是主域名a从第0个字符开始到第i个字符和白名域b从第0个字符开始到第j个字符之间的编辑距离。编辑距离即待检测域名与白域名之间的相似程度。
本实施例的仿冒域名的识别方法,具体针对主域名的编辑距离计算过程,编辑距离选定莱文斯坦距离,本发明实施例的仿冒域名的识别方法更具体,更合理,更有效率。
可选地,如图7所示,步骤S420中子域名与预设的白域名库中的白域名的匹配过程,包括:
S421:将子域名与预设的白主域名库中的白主域名进行匹配。
具体地,为了达到更高的检出率,此处理流程采用的白主域名库是不包含域名后缀的。
S422:子域名的字符串中包含白主域名的字符串,所述待识别域名为仿冒域名。
具体地,恶意网站的子域名直接包含合法的白域名,在检索时会被同合法的白域名一起检出,这种方式具有很大的迷惑性。
S423:子域名的字符串中不包含白主域名的字符串,所述待识别域名为正常域名。
具体地,恶意网站除了仿冒主域名外还会进行仿冒子域名。恶意网站的子域名直接包含合法的白主域名,在检索时会被同合法的白域名一起检出。这种子域名仿冒可以通过子域名与白主域名之间的字符串匹配进行识别,如果子域名中包含其他白主域名即认为待检测域名是仿冒域名。例如:www.***.com.example.com,子域名中包含知名网站谷歌的主域名,则该域名为仿冒域名。
本实施例的仿冒域名的识别方法,具体针对子域名仿冒过程,识别仿冒子域名字符串中是否包含白主域名,本发明实施例的仿冒域名的识别方法更具体,更合理,更有效率。
可选地,如图8所示,步骤S430中域名后缀信誉度查询过程,包括:
S431:将域名后缀在预设的域名后缀信誉库中进行信誉度排名查询。
具体地,查询域名后缀信誉度的方式来判断域名后缀的仿冒与否,域名后缀在域名后缀信誉库中排名越高,可信度越高。
S432:域名后缀在域名后缀信誉库中低于预设的信誉门限,所述待识别域名为仿冒域名。
S433:域名后缀在域名后缀信誉库中达到预设的信誉门限及以上,所述待识别域名为正常域名。
具体地,预设的信誉门限是判断域名后缀可信度的标准,可根据域名后缀信誉库的构建具体设定。
恶意网站还会采用仿冒域名后缀的方式,所有的网站不可能注册所有的顶级域名,而且有些国家和地区的域名注册审核不健全,就给了恶意网站抢注正常网站未注册顶级域名的空隙。例如正常网站注册了www.example.cn但是没有注册www.example.cc,www.example.cc就可能被恶意网站抢注。这种仿冒域名较难检测,可以通过查询域名后缀信誉度的方式甄别出恶意仿冒域名。域名后缀信誉库根据白域名库中的域名后缀出现的频次进行统计排序,构造出基于域名后缀排名的信誉库。
本实施例的仿冒域名的识别方法,具体针对域名后缀信誉度查询过程,判断域名后缀的信誉度是否达到标准,本发明实施例的仿冒域名的识别方法更具体,更合理,更有效率。
可选地,如图9所示,步骤S200前还包括步骤S100,S100是将待识别域名直接与预设的白域名库进行匹配识别,S100具体包括:
S110:将待识别域名与预设的白域名库进行匹配。
S120:匹配成功,所述待识别域名为正常域名。
S130:匹配失败,则进入下一步继续识别。
具体地,预设的白域名库中的白域名为已知的正常域名,待检测域名首先查询白域名库,判断是否能够匹配其中的白域名。如果能够匹配,判断待检测域名为正常域名,未能匹配,则进入下一步处理流程。预设的白域名库可以采用国内外Alexa排名进行构造。
本实施例的仿冒域名的识别方法,具体针对仿冒识别的预处理流程,若待检测域名直接被收录在预设的白域名库中,则直接匹配就可以确定其为正常域名,匹配失败,再进行前述仿冒识别流程。
本发明实施例针对域名仿冒的三种方式提出了一种***化识别方案,综合利用编辑距离算法、域名匹配、域名后缀信誉度查询的方式识别出恶意仿冒域名。针对待检测域名中的主域名,通过与预设的白域名之间计算编辑距离识别出是否为恶意仿冒域名,针对待检测域名中的子域名,通过与预设的白主域名库进行匹配识别出是否为恶意仿冒域名,针对待检测域名中的域名后缀,通过构造域名后缀信誉库进行匹配识别出是否为恶意仿冒域名。本发明实施例利用自然语言处理中的编辑距离算法,通过域名分段、主域名编辑距离计算、子域名匹配、域名后缀查询、综合判决等体系化的综合处理流程,可有效识别出恶意仿冒域名。
本实施例的仿冒域名的识别方法中,S420、S430、S440并非先后施行的步骤,而是根据S410的执行结果选择性执行。S220、S230并非先后施行的步骤,而是根据S210的执行结果选择性执行。S422、S423并非先后施行的步骤,而是根据S421的执行结果选择性执行。S432、S433并非先后施行的步骤,而是根据S431的执行结果选择性执行。S120、S130并非先后施行的步骤,而是根据S110的执行结果选择性执行。上述实施例中细化的选择性执行步骤,使本实施例的仿冒域名的识别方法更具体、更准确。
本发明实施例还提供一种仿冒域名的识别装置,如图10所示,包括:
域名分段模块10,用于将待识别域名划分为主域名、子域名和域名后缀。
仿冒检测模块20,用于对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测模块包括:主域名检测子模块,对主域名与预设的白域名库中的白域名进行编辑距离计算,子域名检测子模块,对子域名与预设的白主域名库中的白主域名进行匹配,域名后缀检测子模块,对域名后缀信誉度进行查询。
域名识别模块30,用于根据仿冒检测结论,得到域名识别结果。
具体地,仿冒检测模块20,包括:
域名检测子模块,用于将主域名与预设的白域名库中的白域名进行编辑距离计算。
域名匹配子模块,用于若编辑距离计算结果大于预设的门限值,则进行子域名与与预设的白主域名库中的白主域名的匹配,由匹配结果得到仿冒检测结论;若编辑距离计算结果等于零,则进行域名后缀信誉度查询,由查询结果得到仿冒检测结论;若编辑距离计算结果大于零且小于预设的门限值,则将所述待识别域名确定为仿冒域名。
具体地,主域名检测子模块包括:门限值预设单元,用于根据不同的域名长度设置不同的门限值。
具体地,域名分段模块10,包括:
域名后缀子模块,用于将待识别域名与预设的域名后缀库相匹配。
主域名和子域名子模块,用于若匹配成功,待识别域名中与域名后缀库相匹配的部分为域名后缀,在所述待识别域名除域名后缀的部分中点分隔符,将所述待识别域名除域名后缀的部分划分为主域名、子域名,得到待识别域名的主域名、子域名和域名后缀;若匹配失败,则将所述待识别域名确定为仿冒域名。
具体地,域名检测子模块中包括:负责主域名与预设的白域名库中的白域名的编辑距离计算过程的主域名检测单元,用于计算主域名的字符串与预设的白域名库中的白域名的字符串之间的莱文斯坦距离。
具体地,域名匹配子模块中包括:负责子域名与预设的白域名库中的白域名的匹配过程的子域名检测单元、子域名匹配单元,具体包括:
子域名检测单元,用于将子域名与预设的白主域名库中的白主域名进行匹配。
子域名匹配单元,子域名的字符串中包含白主域名的字符串,所述待识别域名为仿冒域名;子域名的字符串中不包含白主域名的字符串,所述待识别域名为正常域名。
具体地,域名匹配子模块中包括:负责域名后缀信誉度查询过程的域名后缀检测单元、域名后缀匹配单元,具体包括:
域名后缀检测单元,用于将域名后缀在预设的域名后缀信誉库中进行信誉度排名查询。
域名后缀匹配单元,域名后缀在域名后缀信誉库中低于预设的信誉门限,所述待识别域名为仿冒域名;域名后缀在域名后缀信誉库中达到预设的信誉门限及以上,所述待识别域名为正常域名。
具体地,仿冒域名的识别装置还包括域名预识别模块,用于将待识别域名与预设的白域名库进行匹配,匹配成功,所述待识别域名为正常域名;匹配失败,则进入下一步继续识别。
本实施例的仿冒域名的识别装置用于实现前述的仿冒域名的识别方法,因此识别装置的具体实施方式可见前文中的识别方法的实施例部分,例如,域名分段模块10,仿冒检测模块20,域名识别模块30,分别用于实现上述识别方法中步骤S200,S400、S600,所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本申请所提供的装置可以对仿冒域名进行识别,从而帮助使用者安全上网,能极大的提高仿冒域名识别的效率与准确性。
本发明实施例还提供一种计算机设备,如图11所示,包括存储器1和处理器2,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的仿冒域名的识别方法。
其中,存储器1至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器1在一些实施例中可以是仿冒域名识别装置的内部存储单元,例如硬盘。存储器1在另一些实施例中也可以是仿冒域名识别装置的外部存储设备,例如插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器1还可以既包括仿冒域名识别装置的内部存储单元也包括外部存储设备。存储器1不仅可以用于存储安装于仿冒域名识别装置的应用软件及各类数据,例如仿冒域名识别程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器2在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器1中存储的程序代码或处理数据,例如执行仿冒域名识别程序等。
本申请所提供的计算机设备可以对仿冒域名进行识别,从而帮助使用者进行仿冒域名识别,能极大的提高仿冒域名识别的效率与准确性。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一项所述的仿冒域名的识别方法。
本申请所提供的仿冒域名的识别装置、计算机设备、计算机可读存储介质均与前述方法相对应。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置、设备和计算机可读存储介质的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例设计了一种体系化、智能的仿冒域名的识别方法、装置和设备。针对恶意网站仿冒域名的特点,通过域名分段,对域名中的主域名、子域名和域名后缀分别采用不同的检测方法,主域名仿冒检测采用编辑距离计算的方式,子域名仿冒检测采用域名匹配的方式,域名后缀仿冒检测采用比较域名后缀信誉度的方式,综合判决,可以准确高效地识别出仿冒域名。
本发明实施例利用自然语言处理中的编辑距离算法,通过域名分段、主域名编辑距离计算、子域名匹配、域名后缀查询、综合判决等体系化的综合处理流程,可有效识别出恶意仿冒域名。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的仿冒域名的识别方法、装置和设备进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (9)

1.一种仿冒域名的识别方法,其特征在于,包括:
将待识别域名划分为主域名、子域名和域名后缀,包括:
将待识别域名与预设的域名后缀库相匹配;
若匹配成功,待识别域名中与域名后缀库相匹配的部分为域名后缀,再根据所述待识别域名除域名后缀的部分中的点分隔符,将所述待识别域名除域名后缀的部分划分为主域名、子域名,得到待识别域名的主域名、子域名和域名后缀;
若匹配失败,则将所述待识别域名确定为仿冒域名;
对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询;
计算出主域名与白域名库中各个白域名的编辑距离,通过比较编辑距离和预设的门限值,决定下一步是采用子域名与白主域名匹配还是域名后缀信誉查询;如果主域名编辑距离计算结果大于设定的门限值,则主域名没有进行仿冒,需要进一步判断子域名仿冒识别,各级子域名分别与预设的白主域名库中的正常主域名进行匹配运算;
根据仿冒检测结论,得到域名识别结果;
所述对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询,包括:
将主域名与预设的白域名库中的白域名进行编辑距离计算;
若编辑距离计算结果大于预设的门限值,则进行子域名与预设的白主域名库中的白主域名的匹配,由匹配结果得到仿冒检测结论;
若编辑距离计算结果等于零,则进行域名后缀信誉度查询,由查询结果得到仿冒检测结论。
2.如权利要求1所述的仿冒域名的识别方法,其特征在于,
若编辑距离计算结果大于零且小于预设的门限值,则将所述待识别域名确定为仿冒域名。
3.如权利要求2所述的仿冒域名的识别方法,其特征在于,所述门限值的预设过程包括:根据不同的域名长度设置不同的门限值。
4.如权利要求2所述的仿冒域名的识别方法,其特征在于,所述主域名与预设的白域名库中的白域名的编辑距离计算过程,包括:
计算主域名的字符串与预设的白域名库中的白域名的字符串之间的莱文斯坦距离。
5.如权利要求2所述的仿冒域名的识别方法,其特征在于,所述子域名与预设的白主域名库中的白主域名的匹配过程,包括:
将子域名与预设的白主域名库中的白主域名进行匹配;
子域名的字符串中包含白主域名的字符串,所述待识别域名为仿冒域名;
子域名的字符串中不包含白主域名的字符串,所述待识别域名为正常域名。
6.如权利要求2所述的仿冒域名的识别方法,其特征在于,所述域名后缀信誉度查询过程,包括:
将域名后缀在预设的域名后缀信誉库中进行信誉度排名查询;
域名后缀在域名后缀信誉库中低于预设的信誉门限,所述待识别域名为仿冒域名;
域名后缀在域名后缀信誉库中达到预设的信誉门限及以上,所述待识别域名为正常域名。
7.如权利要求1所述的仿冒域名的识别方法,其特征在于,所述将待识别域名划分为主域名、子域名和域名后缀,之前还包括:
将待识别域名与预设的白域名库进行匹配;
匹配成功,所述待识别域名为正常域名;
匹配失败,则进入下一步继续识别。
8.一种仿冒域名的识别装置,其特征在于,包括:
域名分段模块,用于将待识别域名划分为主域名、子域名和域名后缀;
仿冒检测模块,用于对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测模块包括:主域名检测子模块,对主域名与预设的白域名库中的白域名进行编辑距离计算,子域名检测子模块,对子域名与预设的白主域名库中的白主域名进行匹配,域名后缀检测子模块,对域名后缀信誉度进行查询;
计算出主域名与白域名库中各个白域名的编辑距离,通过比较编辑距离和预设的门限值,决定下一步是采用子域名与白主域名匹配还是域名后缀信誉查询;如果主域名编辑距离计算结果大于设定的门限值,则主域名没有进行仿冒,需要进一步判断子域名仿冒识别,各级子域名分别与预设的白主域名库中的正常主域名进行匹配运算;
域名识别模块,用于根据仿冒检测结论,得到域名识别结果;
所述对主域名、子域名和域名后缀分别进行仿冒检测,所述仿冒检测包括:对主域名与预设的白域名库中的白域名进行编辑距离计算、对子域名与预设的白主域名库中的白主域名进行匹配、对域名后缀信誉度进行查询,包括:
将主域名与预设的白域名库中的白域名进行编辑距离计算;
若编辑距离计算结果大于预设的门限值,则进行子域名与预设的白主域名库中的白主域名的匹配,由匹配结果得到仿冒检测结论;
若编辑距离计算结果等于零,则进行域名后缀信誉度查询,由查询结果得到仿冒检测结论。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述的仿冒域名的识别方法。
CN201911046526.2A 2019-10-30 2019-10-30 一种仿冒域名的识别方法、装置和设备 Active CN112751804B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911046526.2A CN112751804B (zh) 2019-10-30 2019-10-30 一种仿冒域名的识别方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911046526.2A CN112751804B (zh) 2019-10-30 2019-10-30 一种仿冒域名的识别方法、装置和设备

Publications (2)

Publication Number Publication Date
CN112751804A CN112751804A (zh) 2021-05-04
CN112751804B true CN112751804B (zh) 2023-04-07

Family

ID=75640705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911046526.2A Active CN112751804B (zh) 2019-10-30 2019-10-30 一种仿冒域名的识别方法、装置和设备

Country Status (1)

Country Link
CN (1) CN112751804B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114285627B (zh) * 2021-12-21 2023-12-22 安天科技集团股份有限公司 流量检测方法及装置、电子设备和计算机可读存储介质
CN115412306A (zh) * 2022-08-08 2022-11-29 天翼安全科技有限公司 一种域名同源判定方法、装置、电子设备及存储介质
CN115955457B (zh) * 2023-03-10 2023-05-30 北京升鑫网络科技有限公司 恶意域名的检测方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102664878A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
US8707426B1 (en) * 2008-05-28 2014-04-22 Symantec Corporation Method and apparatus for resolving a cousin domain name to detect web-based fraud
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8229930B2 (en) * 2010-02-01 2012-07-24 Microsoft Corporation URL reputation system

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8707426B1 (en) * 2008-05-28 2014-04-22 Symantec Corporation Method and apparatus for resolving a cousin domain name to detect web-based fraud
CN102664878A (zh) * 2012-04-10 2012-09-12 中国科学院计算机网络信息中心 仿冒域名检测方法及设备
CN106911717A (zh) * 2017-04-13 2017-06-30 成都亚信网络安全产业技术研究院有限公司 一种域名检测方法及装置
CN107872452A (zh) * 2017-10-25 2018-04-03 东软集团股份有限公司 一种恶意网站的识别方法、装置、存储介质及程序产品

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于URL混淆技术识别的钓鱼网页检测方法;丁岩 等;《计算机工程与应用》;20171031;第75-82页 *

Also Published As

Publication number Publication date
CN112751804A (zh) 2021-05-04

Similar Documents

Publication Publication Date Title
CN112751804B (zh) 一种仿冒域名的识别方法、装置和设备
CN110099059B (zh) 一种域名识别方法、装置及存储介质
CN109951435B (zh) 一种设备标识提供方法及装置和风险控制方法及装置
US20100154055A1 (en) Prefix Domain Matching for Anti-Phishing Pattern Matching
CN110798488B (zh) Web应用攻击检测方法
US20090055928A1 (en) Method and apparatus for providing phishing and pharming alerts
CN108092963B (zh) 网页识别方法、装置、计算机设备及存储介质
US20160063541A1 (en) Method for detecting brand counterfeit websites based on webpage icon matching
US9118704B2 (en) Homoglyph monitoring
CN111865925A (zh) 基于网络流量的诈骗团伙识别方法、控制器和介质
CN102957664A (zh) 一种识别钓鱼网站的方法及装置
CN106470204A (zh) 基于请求行为特征的用户识别方法、装置、设备及***
CN116366338B (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
CN113645173A (zh) 一种恶意域名的识别方法、***和设备
CN114928452A (zh) 访问请求验证方法、装置、存储介质及服务器
CN111683089B (zh) 一种识别钓鱼网站的方法、服务器、介质及计算机设备
CN112613893A (zh) 一种用户恶意注册识别方法、***、设备及介质
CN116136901B (zh) 应用程序防假冒方法、装置、计算机设备及存储介质
CN106713114B (zh) 一种核验信息处理方法及设备
CN109672678B (zh) 一种钓鱼网站识别方法及装置
CN108171053B (zh) 一种规则发现的方法以及***
CN111949363A (zh) 业务访问的管理方法、计算机设备、存储介质及***
CN112583827B (zh) 一种数据泄露检测方法及装置
CN115314271A (zh) 一种访问请求的检测方法、***及计算机存储介质
CN115412312A (zh) 一种恶意域名确定方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant