CN110535815A - 一种识别url的方法和装置 - Google Patents

一种识别url的方法和装置 Download PDF

Info

Publication number
CN110535815A
CN110535815A CN201810517613.0A CN201810517613A CN110535815A CN 110535815 A CN110535815 A CN 110535815A CN 201810517613 A CN201810517613 A CN 201810517613A CN 110535815 A CN110535815 A CN 110535815A
Authority
CN
China
Prior art keywords
url
suspicious
malice
attribute
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810517613.0A
Other languages
English (en)
Inventor
王建明
曹志文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wangsu Science and Technology Co Ltd
Original Assignee
Wangsu Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wangsu Science and Technology Co Ltd filed Critical Wangsu Science and Technology Co Ltd
Priority to CN201810517613.0A priority Critical patent/CN110535815A/zh
Publication of CN110535815A publication Critical patent/CN110535815A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种识别URL的方法和装置,属于互联网安全技术领域。所述方法包括:当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL;判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,其中,所述属性信息至少包括备案状态或归属者信息中的一项;如果符合,则标记所述可疑URL为正常URL,否则根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度;如果所述网页内容的恶意匹配度大于预设阈值,则标记所述可疑URL为恶意URL。采用本发明,可以降低恶意URL的漏识别率。

Description

一种识别URL的方法和装置
技术领域
本发明涉及互联网安全技术领域,特别涉及一种识别URL的方法和装置。
背景技术
为了维护网络安全,CDN***中的鉴别服务端在接收到对于目标URL(UniformResource Locator,统一资源定位符)的访问请求时,可以基于已记录的恶意URL名单对目标URL进行识别,如果目标URL为恶意URL(即URL指向的内容包括暴力、色情、网络病毒等恶意信息),鉴别服务端则可以返回该目标URL为恶意URL的提示信息。
鉴别服务端可以对恶意URL名单进行更新。一方面,鉴别服务端可以每隔预设时长从网络上的恶意URL库获取最新的恶意URL,然后基于最新的恶意URL来更新恶意URL名单。另一方面,鉴别服务端可以接收用户反馈的恶意URL,然后基于接收的恶意URL来更新恶意URL名单。
在实现本发明的过程中,发明人发现现有技术至少存在以下问题:
由于网络上的恶意URL库更新周期较长,数据量较少,且用户反馈的恶意URL的数量也较少,使得鉴别服务端往往无法通过上述途径更新的恶意URL名单,对最新出现的恶意URL进行识别,导致恶意URL的漏识别率较高。
发明内容
为了解决现有技术的问题,本发明实施例提供了一种识别URL的方法和装置。所述技术方案如下:
一方面,提供了一种识别URL的方法,所述方法包括:
当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL;
判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,其中,所述属性信息至少包括备案状态或归属者信息中的一项;
如果符合,则标记所述可疑URL为正常URL,否则根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度;
如果所述网页内容的恶意匹配度大于预设阈值,则标记所述可疑URL为恶意URL。
进一步的,所述当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL之前,还包括:
接收目标URL的访问请求,判断所述目标URL是否存在于URL黑名单;
如果存在,则标记所述目标URL为恶意URL,否则判断所述目标URL是否存在于URL白名单;
如果存在,则标记所述目标URL为正常URL,否则标记所述目标URL为未识别URL。
进一步的,所述属性信息还包括存在时长或访问量中的至少一项;
所述判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,包括:
判断备案网站是否记录有所述可疑URL的备案信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
和/或,判断所述可疑URL的访问量是否大于预设访问量。
进一步的,所述属性信息还包括存在时长或访问量中的至少一项;
所述判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,包括:
判断备案网站是否记录有所述可疑URL的备案信息;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的访问量是否大于预设访问量;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准。
进一步的,所述根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度,包括:
将所述可疑URL对应的网页内容转换为文本串;
根据低空间损耗的字符串匹配算法和所述预设的恶意词名单,对所述文本串进行恶意词匹配,确定所述恶意词名单中每个恶意词的出现次数;
根据所述恶意词名单中每个恶意词的出现次数及每个恶意词的预设权值,计算所述可疑URL对应的网页内容的恶意匹配度。
进一步的,所述标记所述可疑URL为正常URL之后,还包括:
将所述可疑URL更新到所述URL白名单;
所述标记所述可疑URL为恶意URL之后,还包括:
将所述可疑URL更新到所述URL黑名单。
另一方面,提供了一种识别URL的装置,所述装置包括:
记录模块,用于当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL;
第一判断模块,用于判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,其中,所述属性信息至少包括备案状态或归属者信息中的一项;
第一标记模块,用于如果符合,则标记所述可疑URL为正常URL;
计算模块,用于如果不符合,则根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度;
第二标记模块,用于如果所述网页内容的恶意匹配度大于预设阈值,则标记所述可疑URL为恶意URL。
进一步的,所述装置还包括第二判断模块,用于:
接收目标URL的访问请求,判断所述目标URL是否存在于URL黑名单;
如果存在,则标记所述目标URL为恶意URL,否则判断所述目标URL是否存在于URL白名单;
如果存在,则标记所述目标URL为正常URL,否则标记所述目标URL为未识别URL。
进一步的,所述属性信息还包括存在时长或访问量中的至少一项;所述第一判断模块还用于:
判断备案网站是否记录有所述可疑URL的备案信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
和/或,判断所述可疑URL的访问量是否大于预设访问量。
进一步的,所述属性信息还包括存在时长或访问量中的至少一项;所述第一判断模块还用于:
判断备案网站是否记录有所述可疑URL的备案信息;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的访问量是否大于预设访问量;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准。
进一步的,所述计算模块还用于:
将所述可疑URL对应的网页内容转换为文本串;
根据低空间损耗的字符串匹配算法和所述预设的恶意词名单,对所述文本串进行恶意词匹配,确定所述恶意词名单中每个恶意词的出现次数;
根据所述恶意词名单中每个恶意词的出现次数及每个恶意词的预设权值,计算所述可疑URL对应的网页内容的恶意匹配度。
进一步的,所述装置还包括更新模块,用于:
在所述第一标记模块标记所述可疑URL为正常URL之后,将所述可疑URL更新到所述URL白名单;
在所述第二标记模块标记所述可疑URL为恶意URL之后,将所述可疑URL更新到所述URL黑名单。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例中,鉴别服务端在利用URL黑名单无法识别出待访问的URL后,可以基于URL白名单对该URL进行进一步识别,提高了识别效率。同时,如果基于URL白名单无法识别该URL,鉴别服务端则可以将该URL标记为可疑URL。而对于可疑URL,鉴别服务端可以通过判断可疑URL的属性信息是否符合正常URL属性标准来识别是否为正常URL。如果无法通过属性信息完成识别,鉴别服务端还可以根据预设的恶意词名单计算可疑URL对应的网页内容的恶意匹配度,通过计算得到的恶意匹配度来识别可疑URL是否为恶意URL,从而可以对新出现的恶意URL进行识别,降低了恶意URL的漏识别率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种场景示意图;
图2是本发明实施例提供的一种识别URL的方法流程图;
图3是本发明实施例提供的一种运用字符串匹配算法的匹配示意图;
图4是本发明实施例提供的一种识别URL的方法流程图;
图5是本发明实施例提供的一种识别URL的装置结构示意图;
图6是本发明实施例提供的一种识别URL的装置结构示意图;
图7是本发明实施例提供的一种识别URL的装置结构示意图;
图8是本发明实施例提供的一种鉴别服务端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
本发明实施例提供了一种识别URL的方法,该方法的执行主体可以是鉴别服务端,该鉴别服务端可以是CDN集群中的任意CDN服务器,可以用于接收终端对于URL的访问请求,并将访问请求转发给URL对应的源站。在转发访问请求的过程中,鉴别服务端可以对终端请求访问的URL进行识别,如果该URL为恶意URL,则鉴别服务端可以拒绝对该URL的访问,并可以将该URL为恶意URL的提示信息返回给终端;如果该URL为正常URL,则鉴别服务端可以从URL对应的源站获取相应的网页内容并转发给终端。相应的应用场景可以如图1所示。上述鉴别服务端中可以包括处理器、存储器、收发器,处理器可以用于进行识别URL的处理,存储器可以用于存储处理过程中需要的数据以及产生的数据,收发器可以用于接收和发送处理过程中的相关数据。
下面将结合具体实施方式,对图2所示的一种识别URL的方法的处理流程进行详细的说明,内容可以如下:
步骤201:当接收到对于未识别URL的访问请求时,记录未识别URL为可疑URL。
在实施中,当用户想要访问某URL时,例如某视频的下载地址或者某网站的网址,用户可以在终端(如智能手机、平板电脑)上打开浏览器程序,在浏览器程序的输入框中输入相应的URL。之后,浏览器程序可以基于用户输入的URL,生成对URL的访问请求,然后终端可以将对URL的访问请求发送给服务上述终端的鉴别服务端。这样,鉴别服务端可以接收到上述URL的访问请求,进而可以判断该URL是否为已识别的URL,如果不是,鉴别服务端则可以将其认定为未识别URL,并将其标记为可疑URL。
可选的,鉴别服务端还可以基于URL白名单对目标URL进行初步识别,相应的,在步骤201之前还包括:接收目标URL的访问请求,判断目标URL是否存在于URL黑名单;如果存在,则标记目标URL为恶意URL,否则判断目标URL是否存在于URL白名单;如果存在,则标记目标URL为正常URL,否则标记目标URL为未识别URL。
在实施中,鉴别服务端可以存储有URL黑名单和URL白名单,其中,URL黑名单可以记录有拒绝访问的URL(即恶意URL)的名单,URL白名单可以记录有允许访问的URL(即正常URL)的名单。鉴别服务端在接收到用户对于某一URL(可称为目标URL)的访问请求时,可以先基于URL黑名单对目标URL进行识别,判断目标URL是否存在于URL黑名单中。如果URL黑名单中记录有目标URL,则鉴别服务端可以标记目标URL为恶意URL,同时,鉴别服务端可以拒绝对该URL进行访问,将该URL为恶意URL的提示信息返回给终端,之后,用户可以根据上述提示信息选择是否访问该目标URL。如果URL黑名单中没有记录目标URL,则鉴别服务端可以基于URL白名单对目标URL进行识别,判断目标URL是否存在于URL白名单中。如果URL白名单中记录有目标URL,则鉴别服务端可以标记目标URL为正常URL,同时,鉴别服务端可以从URL对应的源站获取相应的网页内容并转发给终端。如果URL白名单中没有记录目标URL,则鉴别服务端可以标记目标URL为未识别URL,同时,鉴别服务端可以向终端发送风险预警信息,提示用户谨慎访问。
步骤202:判断可疑URL的属性信息是否符合预设的正常URL属性标准。
其中,属性信息至少包括备案状态或归属者信息中的一项,备案状态可以包括已备案状态和未备案状态,已备案状态是指在备案网站中存在URL的备案信息,相应的,未备案状态是指在备案网站中不存在URL的备案信息,备案网站可以是全国公安机关互联网站安全服务平台、工业和信息化部信息备案管理***等官方网站,也可以是第三方备案网站。例如,当URL为chinanetcenter.com时,鉴别服务端可以从全国公安机关互联网站安全服务平台上获取到上述URL的备案号、备案时间等备案信息,这时,该URL的备案状态为已备案状态。归属者信息可以是URL的所有者信息,例如拥有该URL所有权的公司或者组织。进一步的,属性信息还可以包括存在时长和访问量,存在时长可以是URL的有效的实际存在时长,其可以通过URL的注册时间、到期时间以及当前时间计算得到,如果到期时间在当前时间之前,则存在时长为到期时间减去注册时间,如果到期时间在当前时间之后,则存在时长为当前时间减去注册时间。例如,URL的注册时间为2016年1月1日,URL的到期时间为2018年1月1日,如果当前时间为2019年1月1日,则URL的存在时长为两年,如果当前时间为2017年1月1日,则URL的存在时长为一年。访问量可以是用户访问URL的具体访问数量,例如访问数量为6800。
在实施中,鉴别服务端可以预先设置有正常URL属性标准,该正常URL属性标准可以用来判断URL是否为正常URL。鉴别服务端在将目标URL记录为可疑URL后,可以及时获取可疑URL的一项或多项上述属性信息,然后判断可疑URL的上述属性信息是否符合预设的正常URL属性标准。进一步的,鉴别服务端还可以按照预设周期,对预设周期内记录的多个可疑URL,分别获取每个可疑URL的一项或多项上述属性信息,然后判断每个可疑URL的上述属性信息是否符合预设的正常URL属性标准。
可选的,判断是否符合预设的正常URL属性标准的处理可以具体如下:判断备案网站是否记录有可疑URL的备案信息,如果是,则判断可疑URL的属性信息符合预设的正常URL属性标准;和/或,判断是否查询到可疑URL的归属者信息,如果是,则判断可疑URL的属性信息符合预设的正常URL属性标准;和/或,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;和/或,判断所述可疑URL的访问量是否大于预设访问量。
其中,所述属性信息还包括存在时长或访问量中的至少一项。
在实施中,对于备案状态这一属性信息,考虑到正常URL一般会在备案网站进行备案,因此可以通过是否可以在备案网站中查询到可疑URL的备案信息的方式,来判断可疑URL的属性信息是否符合预设的正常URL属性标准,如果可以在备案网站中查询到可疑URL的备案信息,则可以判断可疑URL的属性信息符合预设的正常URL属性标准。对于归属者信息这一属性信息,考虑到正常URL一般具有归属者信息,因此可以通过是否能够查找到可疑URL的归属者信息的方式,来判断可疑URL的属性信息是否符合预设的正常URL属性标准,如果能够查找到可疑URL的归属者信息,则可以判断可疑URL的属性信息符合预设的正常URL属性标准。对于存在时长这一属性信息,考虑到正常URL一般具有较长的存在时长,例如至少三个月,并且其存在时长处于有效期内,因此,可以通过网络获取可疑URL的存在时间,然后以判断可疑URL的存在时长是否大于预设存在时长且小于有效存在时长的方式,来判断可疑URL的属性信息是否符合预设的正常URL属性标准,如果可疑URL的存在时长大于预设存在时长且小于有效存在时长,则可以判断可疑URL的属性信息符合预设的正常URL属性标准。其中有效存在时长可以是当前日期减去可疑URL的注册时间,例如,当前日期为2018年1月1日,某URL的注册时间为2000年1月1日,该URL的到期时间为2016年1月1日,则上述有效存在时长为18年,容易得出,该URL的存在时长为16年,小于上述有效存在时长。对于访问量这一属性信息,考虑到正常URL一般有较高的访问量,因此,可以通过网络获取可疑URL的访问量,然后以判断可疑URL的访问量是否大于预设访问量的方式,来判断可疑URL的属性信息是否符合预设的正常URL属性标准,如果可疑URL的访问量大于预设访问量,则可以判断可疑URL的属性信息符合预设的正常URL属性标准。需要说明的是,上述属性信息仅以备案状态、存在时长、访问量和归属者信息进行说明,上述属性信息还可以包括其他信息,在此不对其进行限定。
可选的,可以基于各项属性信息的优先级,对可疑URL的属性信息是否符合预设的正常URL属性标准进行判断,则步骤202的部分处理可以如下:判断备案网站是否记录有所述可疑URL的备案信息;如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的访问量是否大于预设访问量;如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准。
其中,所述属性信息还包括存在时长或访问量中的至少一项。
在实施中,可以预先对各项属性信息的优先级进行设定,这样,鉴别服务端可以基于预先设定的各项属性信息的优先级,确定可疑URL的各项属性信息的优先级。之后,鉴别服务端可以按照优先级从高到低的顺序,首先判断优先级最高的属性信息是否符合预设的正常URL属性标准,如果是,则可以判断所述可疑URL的属性信息符合预设的正常URL属性标准,进而无需再判断可疑URL的其他属性信息是否符合正常URL属性标准;如果优先级最高的属性信息不符合预设的正常URL属性标准,则继续判断剩余的属性信息中优先级最高的属性信息是否符合预设的正常URL属性标准,直至可疑URL的某一项属性信息符合正常URL属性标准。
具体的,鉴别服务端可以按照备案状态>存在时长>访问量>归属者信息的优先级顺序,首先判断备案网站是否记录有所述可疑URL的备案信息,如果备案网站记录有所述可疑URL的备案信息,则可以判断可疑URL的属性信息符合预设的正常URL属性标准,否则判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;如果可疑URL的存在时长大于预设存在时长且小于有效存在时长,则可以判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则判断所述可疑URL的访问量是否大于预设访问量;如果所述可疑URL的访问量大于预设访问量,则可以判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则判断是否查询到所述可疑URL的归属者信息;如果可以查询到所述可疑URL的归属者信息,则可以判断所述可疑URL的属性信息符合预设的正常URL属性标准。
步骤203:如果符合,则标记可疑URL为正常URL,否则根据预设的恶意词名单计算可疑URL对应的网页内容的恶意匹配度。
在实施中,鉴别服务端如果判断可疑URL的属性信息符合预设的正常URL属性标准,则表明可疑URL为正常URL,进而鉴别服务端可以标记可疑URL为正常URL。相应的,鉴别服务端如果判断可疑URL的属性信息不符合预设的正常URL属性标准,则表明可疑URL的安全性存在隐患,需要进一步识别,之后,鉴别服务端可以获取可疑URL对应的网页内容,例如网页中的文字、图片,然后,鉴别服务端可以基于存储的预设的恶意词名单,计算可疑URL对应的网页内容的恶意匹配度,其中,恶意词名单中可以包括有与暴力、色情等恶意信息相关的网络敏感词。
可选的,在步骤203中,鉴别服务端在标记可疑URL为正常URL之后,还可以进行如下处理:将可疑URL更新到URL白名单。
在实施中,鉴别服务端可以将标记为正常URL的可疑URL定期更新到URL白名单中,进而可以实现URL白名单的自动更新。这样,如果鉴别服务端再次接收到上述可疑URL,则可以基于更新后的URL白名单,直接标记可疑URL为正常URL。
需要说明的是,URL白名单还可以以本地数据库的形式存在,其中,本地数据库中除了记录有允许访问的URL名单,还可以周期性从备案网站或其它第三方网站同步其记录的URL的备案状态和归属者信息等属性信息。这样,鉴别服务端在进行上述判断可疑URL的属性信息是否符合预设的正常URL属性标准时,可以基于本地数据库较快地获取到可疑URL的属性信息,进而可以提高URL的识别效率。
可选的,可以结合低空间损耗的字符串匹配算法计算可疑URL对应的网页内容的恶意匹配度,相应的,步骤203的部分处理可以如下:将可疑URL对应的网页内容转换为文本串;根据低空间损耗的字符串匹配算法和预设的恶意词名单,对文本串进行恶意词匹配,确定恶意词名单中每个恶意词的出现次数;根据恶意词名单中每个恶意词的出现次数及每个恶意词的预设权值,计算可疑URL对应的网页内容的恶意匹配度。
在实施中,如果可疑URL的属性信息不符合预设的正常URL属性标准,则鉴别服务端可以获取可疑URL对应的网页内容,例如文字、图片、声音、视频等内容,之后,鉴别服务端可以将获取的网页内容转换为文本串。然后,鉴别服务端可以采用低空间损耗的字符串匹配算法,将预设的恶意词名单中的每一个恶意词在上述文本串中进行恶意词匹配,进而可以确定恶意词名单中每个恶意词的出现次数。同时,鉴别服务端可以预先对恶意词名单中的每个恶意词设置不同的权值,对每个恶意词的恶意等级进行划分。这样,鉴别服务端可以基于每个恶意词的预设权值以及获取的每个恶意词的出现次数,计算可疑URL的网页内容中每个恶意词的恶意度,然后将每个恶意词的恶意度进行相加,可以得到可疑URL对应的网页内容的恶意匹配度。
具体的,上述低空间损耗的字符串匹配算法可以是改进型Karp Rabin算法,具体处理可以如下:首先,构造哈希函数,选取合适长度值l将预设的每个恶意词截断为包含头部l个字符的前缀和包含尾部l个字符的后缀,例如,恶意词Pj可以按照长度l分解为前缀αj和后缀βj,计算并存储前缀αj和后缀βj的哈希值Φ(αj)和Φ(βj)。之后,在长度为n的文本串中按照位置i到位置n-l+1进行查询,并计算长度从i到i+l-1的文本哈希值,其中i可以取1到n之间的任意整数值;同时,遍历所有预设的恶意词,若找到恶意词Pj的前缀哈希值Φ(αj)等于位置m到m+l-1对应的文本哈希值,则对应记录恶意词Pj和位置m;之后,统一比较记录的恶意词Pj后缀哈希值Φ(βj)和位置m+|Pj|-l到m+|Pj|对应的文本哈希值,如果相同,则可以将位置m确定为恶意词Pj的出现位置,另外,如果恶意词Pj具有多个出现位置,则恶意词Pj的出现次数为多个出现位置的总个数。这样,相比传统的高空间复杂度和的字符串匹配算法,运用上述低空间损耗的字符串匹配算法,可以降低鉴别服务端的内存负担,提高鉴别服务端识别URL的效率。
如图3所示,图3中以文本串***duyxywvfdraqxl,恶意词googl、gleduyxy(前缀为gledu,后缀duyxy)、xywvfd(前缀为xywvf,后缀为ywvfd)为例,给出了一种应用上述改进型Karp Rabin算法的处理,具体过程可以如下:在文本串***duyxywvfdraqxl中搜索上述三个恶意词,每次以长度值l为5的滑动框向右移动,并计算框内文本对应的哈希值。容易发现,在滑动框移动到位置i=1时,可以匹配到第一个恶意词googl;在滑动框移动到i=4时,可以匹配到第二个恶意词gleduyxy的前缀gledu,这时会去寻找位置i+|P2|-l=4+8-5=7,j=2,即跳转到位置i=7的位置去匹配第二个恶意词gleduyxy的后缀duyxy,如果匹配到,则可以得到第二个恶意词gleduyxy在文本串中的出现位置,即i+l-|P2|=7+5-8=4,依次类推,可以得到第三个恶意词xywvfd在文本串的出现位置。
进一步的,为了提高恶意匹配度的准确度,在计算恶意匹配度时,鉴别服务端还可以计算每个恶意词的恶意系数,并结合其他影响因子,对恶意匹配度进行修正。例如,假设恶意词名单中包括恶意词A、B、C,恶意词A、B、C的权值分别为w1、w2、w3,经过计算得到的恶意词A、B、C的出现次数分别为α1、α2、α3,恶意词A、B、C的恶意系数分别为β1、β2、β3,其他影响因子为Δk,其中,恶意系数可以由每个恶意词的最长前缀除以恶意词的长度得到,则恶意匹配度的计算方式可以如下:α1w1β12w2β23w3β3+Δk。
步骤204:如果网页内容的恶意匹配度大于预设阈值,则标记可疑URL为恶意URL。
在实施中,鉴别服务端在计算得到可疑URL对应的网页内容的恶意匹配度后,可以判断该恶意匹配度是否大于预设阈值。如果大于预设阈值,则表明可疑URL对应的网页内容含有较多的恶意信息,很大概率上为恶意URL,进而,鉴别服务端可以标记可疑URL为恶意URL。需要说明的是,通过对预设阈值的不同设置,可以对URL的恶意程度进行区分,避免将存在有恶意信息的正常URL标记为恶意URL。例如,某URL对应的网页内容为介绍暴力的危害,在网页内容的文字中难免存在有一些恶意词名单中的恶意词,通过设置一个合理的预设阈值,可以避免将该URL标记为恶意URL,从而,可以提高识别URL的准确性。
需要说明的是,如果网页内容的恶意匹配度小于或者等于预设阈值,则可能是由于可疑URL的属性信息暂时不完善,导致其当前还不符合正常URL属性标准,或者,可能是可疑URL的恶意伪装程度较高。这样,鉴别服务端可以将其删除,或者周期性按照上述处理再次对其进行识别。
可选的,在步骤204中,鉴别服务端在标记可疑URL为恶意URL之后,还可以进行如下处理:将可疑URL更新到URL黑名单。
在实施中,鉴别服务端可以将标记为恶意URL的可疑URL定期更新到URL黑名单中,进而可以实现URL黑名单的自动更新。这样,如果鉴别服务端再次接收到上述可疑URL,则可以基于更新后的URL黑名单,直接标记可疑URL为恶意URL。
如图4所示,图4示出了一种鉴别服务端识别URL并根据URL识别结果更新URL黑名单和URL白名单的处理过程,具体过程可以参见上述处理,这里不再赘述。
本发明实施例中,鉴别服务端在利用URL黑名单无法识别出待访问的URL后,可以基于URL白名单对该URL进行进一步识别,提高了识别效率。同时,如果基于URL白名单无法识别该URL,鉴别服务端则可以将该URL标记为可疑URL。而对于可疑URL,鉴别服务端可以通过判断可疑URL的属性信息是否符合正常URL属性标准来识别是否为正常URL。如果无法通过属性信息完成识别,鉴别服务端还可以根据预设的恶意词名单计算可疑URL对应的网页内容的恶意匹配度,通过计算得到的恶意匹配度来识别可疑URL是否为恶意URL,从而可以对新出现的恶意URL进行识别,降低了恶意URL的漏识别率。
基于相同的技术构思,本发明实施例还提供了一种识别URL的装置,如图5所示,所述装置包括:
记录模块501,用于当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL;
第一判断模块502,用于判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,其中,所述属性信息至少包括备案状态或归属者信息中的一项;
第一标记模块503,用于如果符合,则标记所述可疑URL为正常URL;
计算模块504,用于如果不符合,则根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度;
第二标记模块505,用于如果所述网页内容的恶意匹配度大于预设阈值,则标记所述可疑URL为恶意URL。
如图6所示,可选的,所述装置还包括第二判断模块506,用于:
接收目标URL的访问请求,判断所述目标URL是否存在于URL黑名单;
如果存在,则标记所述目标URL为恶意URL,否则判断所述目标URL是否存在于URL白名单;
如果存在,则标记所述目标URL为正常URL,否则标记所述目标URL为未识别URL。
可选的,所述属性信息还包括存在时长或访问量中的至少一项;所述第一判断模块502还用于:
判断备案网站是否记录有所述可疑URL的备案信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
和/或,判断所述可疑URL的访问量是否大于预设访问量。
可选的,所述属性信息还包括存在时长或访问量中的至少一项;所述第一判断模块502还用于:
判断备案网站是否记录有所述可疑URL的备案信息;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的访问量是否大于预设访问量;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准。
可选的,所述计算模块504还用于:
将所述可疑URL对应的网页内容转换为文本串;
根据低空间损耗的字符串匹配算法和所述预设的恶意词名单,对所述文本串进行恶意词匹配,确定所述恶意词名单中每个恶意词的出现次数;
根据所述恶意词名单中每个恶意词的出现次数及每个恶意词的预设权值,计算所述可疑URL对应的网页内容的恶意匹配度。
如图7所示,可选的,所述装置还包括更新模块507,用于:
在所述第一标记模块503标记所述可疑URL为正常URL之后,将所述可疑URL更新到所述URL白名单;
在所述第二标记模块505标记所述可疑URL为恶意URL之后,将所述可疑URL更新到所述URL黑名单。
本发明实施例中,鉴别服务端在利用URL黑名单无法识别出待访问的URL后,可以基于URL白名单对该URL进行进一步识别,提高了识别效率。同时,如果基于URL白名单无法识别该URL,鉴别服务端则可以将该URL标记为可疑URL。而对于可疑URL,鉴别服务端可以通过判断可疑URL的属性信息是否符合正常URL属性标准来识别是否为正常URL。如果无法通过属性信息完成识别,鉴别服务端还可以根据预设的恶意词名单计算可疑URL对应的网页内容的恶意匹配度,通过计算得到的恶意匹配度来识别可疑URL是否为恶意URL,从而可以对新出现的恶意URL进行识别,降低了恶意URL的漏识别率。
图8是本发明实施例提供的鉴别服务端的结构示意图,该客户端可以用于实施上述实施例中提供的识别URL的方法。该鉴别服务端800可因配置或性能不同而产生比较大的差异,可以包括一个或一个以***处理器822(例如,一个或一个以上处理器)和存储器832,一个或一个以上存储应用程序842或数据844的存储介质830(例如一个或一个以上海量存储设备)。其中,存储器832和存储介质830可以是短暂存储或持久存储。存储在存储介质830的程序可以包括一个或一个以上模块(图示未标出),每个模块可以包括对鉴别服务端中的一系列指令操作。
鉴别服务端800还可以包括一个或一个以上电源826,一个或一个以上有线或无线网络接口850,一个或一个以上输入输出接口858,一个或一个以上键盘856,和/或,一个或一个以上操作***841,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种识别URL的方法,其特征在于,所述方法包括:
当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL;
判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,其中,所述属性信息至少包括备案状态或归属者信息中的一项;
如果符合,则标记所述可疑URL为正常URL,否则根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度;
如果所述网页内容的恶意匹配度大于预设阈值,则标记所述可疑URL为恶意URL。
2.根据权利要求1所述的方法,其特征在于,所述当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL之前,还包括:
接收目标URL的访问请求,判断所述目标URL是否存在于URL黑名单;
如果存在,则标记所述目标URL为恶意URL,否则判断所述目标URL是否存在于URL白名单;
如果存在,则标记所述目标URL为正常URL,否则标记所述目标URL为未识别URL。
3.根据权利要求1所述的方法,其特征在于,所述属性信息还包括存在时长或访问量中的至少一项;
所述判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,包括:
判断备案网站是否记录有所述可疑URL的备案信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
和/或,判断所述可疑URL的访问量是否大于预设访问量。
4.根据权利要求1所述的方法,其特征在于,所述属性信息还包括存在时长或访问量中的至少一项;
所述判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,包括:
判断备案网站是否记录有所述可疑URL的备案信息;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的访问量是否大于预设访问量;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准。
5.根据权利要求1所述的方法,其特征在于,所述根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度,包括:
将所述可疑URL对应的网页内容转换为文本串;
根据低空间损耗的字符串匹配算法和所述预设的恶意词名单,对所述文本串进行恶意词匹配,确定所述恶意词名单中每个恶意词的出现次数;
根据所述恶意词名单中每个恶意词的出现次数及每个恶意词的预设权值,计算所述可疑URL对应的网页内容的恶意匹配度。
6.根据权利要求1所述的方法,其特征在于,所述标记所述可疑URL为正常URL之后,还包括:
将所述可疑URL更新到所述URL白名单;
所述标记所述可疑URL为恶意URL之后,还包括:
将所述可疑URL更新到所述URL黑名单。
7.一种识别URL的装置,其特征在于,所述装置包括:
记录模块,用于当接收到对于未识别URL的访问请求时,记录所述未识别URL为可疑URL;
第一判断模块,用于判断所述可疑URL的属性信息是否符合预设的正常URL属性标准,其中,所述属性信息至少包括备案状态或归属者信息中的一项;
第一标记模块,用于如果符合,则标记所述可疑URL为正常URL;
计算模块,用于如果不符合,则根据预设的恶意词名单计算所述可疑URL对应的网页内容的恶意匹配度;
第二标记模块,用于如果所述网页内容的恶意匹配度大于预设阈值,则标记所述可疑URL为恶意URL。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括第二判断模块,用于:
接收目标URL的访问请求,判断所述目标URL是否存在于URL黑名单;
如果存在,则标记所述目标URL为恶意URL,否则判断所述目标URL是否存在于URL白名单;
如果存在,则标记所述目标URL为正常URL,否则标记所述目标URL为未识别URL。
9.根据权利要求7所述的装置,其特征在于,所述属性信息还包括存在时长或访问量中的至少一项;
所述第一判断模块还用于:
判断备案网站是否记录有所述可疑URL的备案信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准;
和/或,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
和/或,判断所述可疑URL的访问量是否大于预设访问量。
10.根据权利要求7所述的方法,其特征在于,所述属性信息还包括存在时长或访问量中的至少一项;
所述第一判断模块还用于:
判断备案网站是否记录有所述可疑URL的备案信息;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的存在时长是否大于预设存在时长且小于有效存在时长;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断所述可疑URL的访问量是否大于预设访问量;
如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准,否则,判断是否查询到所述可疑URL的归属者信息,如果是,则判断所述可疑URL的属性信息符合预设的正常URL属性标准。
11.根据权利要求7所述的装置,其特征在于,所述计算模块还用于:
将所述可疑URL对应的网页内容转换为文本串;
根据低空间损耗的字符串匹配算法和所述预设的恶意词名单,对所述文本串进行恶意词匹配,确定所述恶意词名单中每个恶意词的出现次数;
根据所述恶意词名单中每个恶意词的出现次数及每个恶意词的预设权值,计算所述可疑URL对应的网页内容的恶意匹配度。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括更新模块,用于:
在所述第一标记模块标记所述可疑URL为正常URL之后,将所述可疑URL更新到所述URL白名单;
在所述第二标记模块标记所述可疑URL为恶意URL之后,将所述可疑URL更新到所述URL黑名单。
CN201810517613.0A 2018-05-25 2018-05-25 一种识别url的方法和装置 Pending CN110535815A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810517613.0A CN110535815A (zh) 2018-05-25 2018-05-25 一种识别url的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810517613.0A CN110535815A (zh) 2018-05-25 2018-05-25 一种识别url的方法和装置

Publications (1)

Publication Number Publication Date
CN110535815A true CN110535815A (zh) 2019-12-03

Family

ID=68657111

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810517613.0A Pending CN110535815A (zh) 2018-05-25 2018-05-25 一种识别url的方法和装置

Country Status (1)

Country Link
CN (1) CN110535815A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814643A (zh) * 2020-06-30 2020-10-23 杭州科度科技有限公司 黑灰url识别方法、装置、电子设备及介质
CN112580059A (zh) * 2020-12-23 2021-03-30 北京宝兰德软件股份有限公司 一种反序列化漏洞修复方法及装置
CN114301696A (zh) * 2021-12-30 2022-04-08 北京天融信网络安全技术有限公司 恶意域名检测方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634317A (zh) * 2013-11-28 2014-03-12 北京奇虎科技有限公司 基于云安全对恶意网址信息进行安全鉴定的方法及***
CN103795679A (zh) * 2012-10-26 2014-05-14 珠海市君天电子科技有限公司 一种钓鱼网站的快速检测方法及***
US9043894B1 (en) * 2014-11-06 2015-05-26 Palantir Technologies Inc. Malicious software detection in a computing system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103795679A (zh) * 2012-10-26 2014-05-14 珠海市君天电子科技有限公司 一种钓鱼网站的快速检测方法及***
CN103634317A (zh) * 2013-11-28 2014-03-12 北京奇虎科技有限公司 基于云安全对恶意网址信息进行安全鉴定的方法及***
US9043894B1 (en) * 2014-11-06 2015-05-26 Palantir Technologies Inc. Malicious software detection in a computing system

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814643A (zh) * 2020-06-30 2020-10-23 杭州科度科技有限公司 黑灰url识别方法、装置、电子设备及介质
CN112580059A (zh) * 2020-12-23 2021-03-30 北京宝兰德软件股份有限公司 一种反序列化漏洞修复方法及装置
CN114301696A (zh) * 2021-12-30 2022-04-08 北京天融信网络安全技术有限公司 恶意域名检测方法、装置、计算机设备及存储介质
CN114301696B (zh) * 2021-12-30 2023-12-01 北京天融信网络安全技术有限公司 恶意域名检测方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
US7984500B1 (en) Detecting fraudulent activity by analysis of information requests
CN107491534A (zh) 信息处理方法和装置
CN103973651B (zh) 基于加盐密码库的账户密码标识设置、查询方法及装置
CN110119469A (zh) 一种面向暗网的数据采集与分析***及方法
CN107609152A (zh) 用于扩展查询式的方法和装置
CN111563216B (zh) 本地数据缓存方法、装置及相关设备
CN108881138B (zh) 一种网页请求识别方法及装置
CN110535815A (zh) 一种识别url的方法和装置
US10885036B2 (en) Obtaining incremental updates from a database using a partial query
CN106789939A (zh) 一种钓鱼网站检测方法和装置
JP3446886B2 (ja) 人脈データ管理システムと人脈探索方法
US10462257B2 (en) Method and apparatus for obtaining user account
US20210314412A1 (en) System and Method For Identifying and Tagging Users
CN106911782A (zh) 一种数据读取方法及装置
CN106973075A (zh) 分享评论方法及***、域名转码方法、客户端以及服务器
CN108027820A (zh) 用于产生短语黑名单以响应于搜索查询来防止某些内容出现在搜索结果中的方法和***
CN107526718A (zh) 用于生成文本的方法和装置
CN103324886B (zh) 一种网络攻击检测中指纹库的提取方法和***
CN107977678A (zh) 用于输出信息的方法和装置
CN105653717B (zh) 一种信息分享的方法及装置
CN109150790A (zh) Web页面爬虫识别方法和装置
CN108256078A (zh) 信息获取方法和装置
CN105740453B (zh) 信息推送方法和装置
CN107733709A (zh) 数据存储方法、装置及电子设备
US20150269268A1 (en) Search server and search method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191203