CN108092963B - 网页识别方法、装置、计算机设备及存储介质 - Google Patents

网页识别方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108092963B
CN108092963B CN201711297266.7A CN201711297266A CN108092963B CN 108092963 B CN108092963 B CN 108092963B CN 201711297266 A CN201711297266 A CN 201711297266A CN 108092963 B CN108092963 B CN 108092963B
Authority
CN
China
Prior art keywords
domain name
identified
webpage
data
website
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711297266.7A
Other languages
English (en)
Other versions
CN108092963A (zh
Inventor
王元铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201711297266.7A priority Critical patent/CN108092963B/zh
Priority to PCT/CN2018/077064 priority patent/WO2019109529A1/zh
Publication of CN108092963A publication Critical patent/CN108092963A/zh
Application granted granted Critical
Publication of CN108092963B publication Critical patent/CN108092963B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明涉及一种网页识别方法、装置、计算机设备及存储介质。该方法包括获取已识别的风险等级大于预设等级的网页,提取网页对应的网站域名;根据网站域名获取网站对应的网络地址;查找与网络地址关联的域名,当查找到与网络地址关联的域名时,则将关联的域名作为待识别域名;获取待识别域名对应的网站中的网页数据;根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。上述网页识别方法、装置、计算机设备及存储介质,可以通过一个风险等级大于预设等级的网页查询到相关联的多个风险等级大于预设等级的网页,查询效率高。

Description

网页识别方法、装置、计算机设备及存储介质
技术领域
本发明涉及网络安全领域,特别是涉及一种网页识别方法、装置、计算机设备及存储介质。
背景技术
随着互联网科技的发展,人们越来越多的活动在网络上进行,例如在网络上进行交易,在网络上办理相应的银行业务等,由此会出现一些伪装成银行的网站,在用户访问时会窃取用户在使用该类网站时提交的银行账号、密码等私密信息,若不及时发现该类具有威胁性的网站,会威胁用户的财产安全,危害用户的利益。
传统地,由于每天会产生大量的网页,则需要从互联网上产生的大量的网页中选取可能具有威胁性的目标网页,进而对选取到的目标网页进行繁琐的分析,使得识别目标网页为风险等级是否大于预设等级的效率不高。
发明内容
基于此,有必要针对识别目标网页的风险等级是否大于预设等级的效率不高的问题,提供一种网页识别方法、装置、计算机设备及存储介质。
一种网站识别方法,包括:
获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
根据所述网站域名获取所述网站对应的网络地址;
查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
获取所述待识别域名对应的网站中的网页数据;
根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页。
在其中一个实施例中,所述查找与所述网络地址关联的域名的步骤,包括:
将所述网络地址与地址关联库中预存储的网络地址进行匹配;
当所述网络地址与所述地址关联库中预存储的网络地址匹配成功时,获取与所述预存储的网络地址关联的待匹配关联域名;
获取所述待匹配关联域名的有效截止时间;
若当前时间小于等于所述有效截止时间时,则提取所述待匹配关联域名作为待识别域名。
在其中一个实施例中,所述方法还包括:
当未查找到与所述网络地址关联的域名时,则获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名。
在其中一个实施例中,所述获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名的步骤,包括:
获取所述网站的域名对应的注册数据,从转换逻辑库中选取所述注册数据对应的转换逻辑;
根据所述转换逻辑将所述注册数据进行转换得到转换后的注册数据;
将所述转换后的注册数据与信息存储库中存储的信息数据进行匹配;
当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的所述信息数据关联的域名作为待识别域名。
在其中一个实施例中,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤,包括:
将所述网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网站数据与所述第一过滤数据匹配成功时,则对所述待识别域名添加可疑标签;
将添加可疑标签的所述待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;
当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,所述方法还包括:
当经过所述预设的黑名单与所述预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;
将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;
当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在所述安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;
当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤之后,还包括:
提取所述风险等级大于预设等级的网页的网页数据的关键字,根据所述关键字对所述风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签;
将所述风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配;
当未匹配成功时,则添加所述风险等级大于预设等级的待识别域名的类别标签,并将所述风险等级大于预设等级的网页存储至所述类别标签下。
一种网页识别装置,所述装置包括:
第一获取模块,用于获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
第二获取模块,用于根据所述网站域名获取所述网站对应的网络地址;
查找模块,用于查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
第三获取模块,用于获取所述待识别域名对应的网站中的网页数据;
识别模块,用于根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页。
一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法中的步骤。
一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述方法中的步骤。
上述网页识别的方法、装置、计算机设备及存储介质,获取已识别的风险等级大于预设等级的网页,进而根据网页获取到该网页对应的网站的域名,根据该网站的域名获取该网站对应的网络地址,进而查找与该网络地址关联的域名作为待识别域名,当查询到待识别域名时,获取待识别域名对应的网站中的网页数据,根据网页数据的查询,得到风险等级大于预设等级的网页。可以通过一个风险等级大于预设等级的网页查询到相关联的多个风险等级大于预设等级的网页,查询效率高。
附图说明
图1为一实施例中网页识别方法的应用场景图;
图2为一实施例中网页识别方法流程图;
图3为一实施例中网页识装置的结构示意图;
图4为一实施例中计算机设备结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
在详细说明根据本发明的实施例前,应该注意到的是,所述的实施例主要在于与网页识别方法、装置、计算机设备及存储介质相关的步骤和装置组件的组合。因此,所述装置组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只示出了与理解本发明的实施例有关的细节,以免因对于得益于本发明的本领域普通技术人员而言显而易见的那些细节模糊了本发明的公开内容。
在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
请参照图1,图1为一实施例中网页识别方法的应用场景图,其中包括网页识别平台和服务器,网页识别平台从服务器获取存储的已识别出的风险等级大于预设等级的网页,从获取到的风险等级大于预设等级的网页上获取网页地址,进而从网页地址中提取该网页对应的网站域名,网页识别平台根据网站域名获取网站对应的网络地址,网页识别平台根据网络地址,从存储在网页识别平台的地址关联库中查找与该网络地址关联的域名,当查找到与网络地址关联的域名时,则将该关联的域名作为待识别域名,网页识别平台获取待识别域名对应的网站中包含的网页上的网页数据,根据获取到的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。
请参见图2,在其中一个实施例中,提供一种网页识别方法的流程图,本实施例中以该方法应用到上述图1中的网页识别平台中来举例说明,该平台上运行有网页识别程序,通过该网页识别程序来实施网页识别处理。该方法包括如下步骤:
S202:获取已识别的风险等级大于预设等级的网页,提取网页对应的网站域名。
具体地,风险等级是指用于评价网页是否安全的安全指标,风险等级可以是预设的评价网页是否安全的不同级别,例如,风险等级可以按照级别从低到高设置,风险等级越高,则表示对应的网页存在的风险越高,如,风险等级设置为1级到5级,表示网页对应的风险越来越高。网站域名是指相关网站的标识,同一网站域名下可以有多个网页,例如,网站“百度”的网站域名为“***.com”,该网站域名下有多个网页,如“百度百科”网页等。其中,服务器中设置有风险数据库,风险数据库中存储有风险等级大于预设等级的网页,风险等级大于预设等级的网页则表示具有高风险的网页,网页识别平台从服务器上获取已识别出的风险等级大于预设等级的网页,当获取到已识别的风险等级大于预设等级的网页时,则根据获取到的网页获取该网页对应的网页地址,进而网页识别平台根据该网页地址,提取网页地址中的网站域名。需要说明的是,网页的网页地址是指在网络中,每个网页都有的对应的唯一标识,网页地址可以是URL(Uniform Resoure Locator,统一资源***)地址。风险数据库是指存储有风险等级大于预设值的网页的数据库。
S204:根据网站域名获取网站对应的网络地址。
具体地,网络地址是指计算机网络相互连接或进行通信时的一种可通信标识,可以是处于某网络中的计算机的网络地址,该网络地址可以唯一地标识网络中的该计算机设备,该计算机与其他计算机进行通信时可以采用网络地址作为通信标识,例如,网络地址可以是IP(Internet Protocol,互联网协议)地址等,不同的网站域名对应有相应的网络地址。进一步地,网页识别平台根据网站域名查询到该网站对应的网络地址,可以是,网页识别平台根据获取到的网站域名向该网站对应的网站服务器发送相应的测试数据,当对应的网站服务器返回响应数据时,则网页识别平台从接收到网站服务器发送的响应数据中提取对应的网络地址。
S206:查找与网络地址关联的域名,当查找到与网络地址关联的域名时,则将关联的域名作为待识别域名。
具体地,关联的域名是指可以共用同一个网络地址的域名,当不同的网站域名对应的网站存储在相同的网站服务器中时可以共用同一个网络地址,不同的网站域名对应的网站在网站服务器中对应有不同的访问端口,根据不同的访问端口区分不同的网站域名对应的网站。进一步地,网页识别平台中预存储有不同的网络地址以及对应的网站域名,网页识别平台根据获取到的网络地址,查询与网络地址关联的域名,该关联的域名与已识别的风险等级大于预设等级的网站域名不同,当查找到与风险等级大于预设等级的网站对应的网络地址关联的域名时,则将该关联的域名作为待识别域名。
S208:获取待识别域名对应的网站中的网页数据。
具体地,网页数据是指网页页面上显示的内容,网页数据可以是文字数据、图片数据、数字数据等。具体地,网站中可以包含有不同的网页,网页识别平台根据获取到的已识别的风险等级大于预设等级的网站对应的网络地址查找到的关联的域名作为待识别域名时,网页识别平台根据获取到的待识别域名查找到待识别域名对应的网站,从而获取待识别域名对应的网站中包含的不同网页的网页数据,如获取不同网页上显示的文字数据等。
S210:根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。
具体地,网页识别平台根据获取到的网页数据,对网页数据进行识别,当得到的网页数据中存在可疑数据时,进而将包含该网页数据的网页作为风险等级大于预设等级的网页。可以是,网页识别平台根据获取到的网页数据的文字数据,对文字数据中对字符逐个进行识别,当识别到存在可疑文字数据时,则包含该文字数据的网页为与待识别域名对应的风险等级大于预设等级的网页。需要说明的是,可疑数据可以是预设的数据,当网页中包含该预设的数据时,则网页为风险等级大于预设等级的网页,可疑数据可以是文字数据、图片数据、数字数据等,例如,可以数据可以为设置为文字“银行”、“积分”或“奖品”等。
本实施例中,网页识别平台通过一个已识别出来的风险等级大于预设等级的网页查询到其他关联的域名,根据关联的域名对应的网站中的网页数据查询得到其他风险等级大于预设等级的网页,由一个风险等级大于预设等级的网页可以关联查询到不同的风险等级大于预设等级的网页,提高查询效率。
在其中一个实施例中,步骤S206可以包括如下的流程,步骤S206,即查找与网络地址关联的域名的步骤,包括:
将网络地址与地址关联库中预存储的网络地址进行匹配。具体地,地址关联库是指存储有不同的网络地址以及与不同的网络地址对应的域名的数据库。网页识别平台将获取到的风险等级大于预设等级的网页,并获取风险等级大于预设等级的网页的网页地址,根据网页地址提取该网页对应的网站域名,根据网站域名获取该风险等级大于预设等级的网站对应的网络地址,进而,将获取到的已识别的风险等级大于预设等级的网站对应的网络地址与地址关联库中预存储的所有网络地址逐个进行匹配,并且遍历匹配完地址存储库中存储的所有网络地址。
当网络地址与地址关联库中预存储的网络地址匹配成功时,获取与预存储的网络地址关联的待匹配关联域名。具体地,待匹配关联域名是指与预存储在地址关联库中的网络地址关联的域名,该域名可以是相关的网站的标识,当在地址关联存储库中获取到网络地址即可关联获取到与网络地址对应的待匹配关联域名。网页识别平台将已识别的风险等级大于预设等级的网络地址与地址关联库中存储的所有的网络地址逐一进行匹配,进而网页识别平台选取已识别的风险等级大于预设等级的网络地址在地址关联库中匹配成功的网络地址,从地址关联库中获取与匹配成功的网络地址关联的待匹配关联域名。
获取地址关联库中获取待匹配关联域名的有效截止时间。具体地,有效截止时间是指待匹配关联域名携带的最终的有效时间,有效截止时间可以是年份时间,有效截止时间可以年份中的具体月份,有效截止时间还可以是具体详细日期等,例如,有效截止时间可以是年份时间为2017年,有效截止时间可以是年份中的具体月份为2017年12月,有效截止时间还可以是具体详细日期为2017年12月31日等。在网页识别平台将已识别的风险等级大于预设等级的网页对应的网络地址与地址关联库中存储的网络地址匹配成功,进而网页识别平台获取匹配成功的网络地址关联的待匹配关联域名时,网页识别平台根据地址关联库中的待匹配关联域名获取该待匹配关联域名对应的有效截止时间,即根据地址关联库中的待匹配关联域名获取该待匹配关联域名对应的最终的有效时间。
若当前时间小于等于有效截止时间时,则提取待匹配关联域名作为待识别域名。具体地,当前时间是指获取到待匹配关联域名的时间,当前时间可以是***时间,例如,当前时间可以是年份时间,当前时间可以是年份中的具体月份,当前时间还可以是具体的日期等。网页识别平台获取到待匹配关联域名,并获取当前时间,该当前时间可以是***时间,网页识别平台根据获取到的当前时间,将获取到的当前时间与待匹配关联域名对应的有效截止时间进行比对,若获取到待匹配关联域名的当前时间小于有效截止时间时,则获取到的待匹配关联域名未超过有效截止时间,即获取到的待匹配关联域名有效,则网页识别平台将获取到的待匹配关联域名作为关联的域名,进而将关联的域名作为待识别域名。
需要说明的是,本实施例中,地址关联库可以是passive DNS(passive DomainName System,被动域名***)数据库,网页识别平台根据获取到的已识别的风险等级大于预设等级的网站的网络地址与passive DNS数据库中存储的网络地址进行匹配,当匹配成功时,则获取passive DNS数据库中匹配成功的网络地址对应的待匹配关联域名,当获取的待匹配关联域名的当前时间小于等于该待匹配关联域名的有效截止时间时,则将该待匹配关联域名作为关联的域名。
需要说明的是,风险等级大于预设等级的网页可以是伪装成正常网页的高风险网页,当用户访问时,窃取用户的相关银行卡信息等,进而威胁用户的财产安全,例如是钓鱼网页;也可以是当需要进行风险管控时,限制访问的其他网页,例如,风险等级大于预设等级的网页是一些企业内部会有对应的网页的访问权限,则限制访问的网页则可以认为是风险等级大于预设等级的网页。本实施例中,网页识别平台根据从地址关联库中匹配成功的预存储的网络地址获取待匹配关联域名,并将当前时间与待匹配关联域名对应的有效截止时间进行比较,当当前时间小于等于有效截止时间时,则该待匹配关联域名有效,即可以作为关联的域名进而作为待识别域名,直接根据当前时间与有效截止时间的过滤无效的待匹配关联域名,操作简单提高效率,且对无效的待匹配关联域名直接进行过滤,提高选取关联的域名的准确性。
在其中一个实施例中,网页识别方法还可以包括如下步骤,该步骤可以在步骤S206之后执行,步骤S206,即查找与网络地址关联的域名之后执行,该步骤可以包括:
当未查找到与网络地址关联的域名时,则获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名。具体地,注册数据是指表明注册网站的域名的用户的详细信息的数据,注册数据可以是文字数据、图片数据或数字数据等,例如,注册数据可以是个人姓名,注册数据可以是个人邮箱,注册数据可以是个人电话,注册数据还可以是个人照片等。网页识别平台在地址关联库中未与预存储的网络地址匹配成功时,则未获取到与预存储的网络地址关联的待匹配关联域名,则网页识别平台获取已识别的风险等级大于预设等级的网站的域名对应的注册数据,进而网页识别平台根据查询到的注册数据查询与注册数据对应的域名,查询到的与注册数据对应的域名即与风险等级大于预设等级的网站的域名不同,进而将查询到的与风险等级大于预设等级的网站的域名不同的域名作为待识别域名。
本实施例中,当在地址关联库中未查找到与已识别的风险等级大于预设等级的网站对应的网络地址关联的域名时,则根据该已识别的风险等级大于预设等级的网站对应注册数据查询到不同的域名作为待识别域名,即可以经过注册信息再次查询关联的域名,将查询到的关联的域名作为待识别域名,提高查询到风险等级大于预设等级的网站的准确性。
在其中一个实施例中,上述获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名的步骤,可以包括如下流程:
获取网站的域名对应的注册数据,从转换逻辑库中选取注册数据对应的转换逻辑。具体地,转换逻辑库是指存储有将注册数据转换为固定格式的注册数据的转换逻辑的数据库。转换逻辑是指将注册数据进行转换的规则,转换逻辑可以是将注册数据中的字符进行替换为预设的字符,转换逻辑可以是删除无效的字符等。进一步地,网页识别平台获取到已识别的风险等级大于预设等级的网页时,根据网页的网页地址提取到该已识别的风险等级大于预设等级的网页对应的网站域名,当网页识别平台提取到该网站域名时,则根据该网站域名获取该已识别的风险等级大于预设等级的网页对应的注册数据,而获取到的注册数据不是按照规定格式进行显示,则按照注册数据的类型从转换逻辑库中选取到该注册数据对应的转换逻辑,进而将获取的注册数据根据规定的显示格式。例如,网页识别平台根据提取的已识别的风险等级大于预设等级的网站的域名,根据网站的域名提取到域名对应的注册数据,如注册姓名、注册邮箱、注册电话等,注册姓名中间含有空格,注册电话中含有连接符,则根据注册数据类型,即网页识别根据注册姓名从逻辑转换库中选取注册姓名按照显示规则显示的转换逻辑,即将注册姓名中的空格删除,进而根据注册电话从转换逻辑库中选取注册电话按照显示规则显示的转换逻辑,即将注册电话中的连接符删除。
根据转换逻辑将注册数据进行转换得到转换后的注册数据。具体地,当网页识别平台选取到转换逻辑时,即网页识别平添选取到将注册数据进行转换的规则,如将注册数据中的字符进行替换为预设的字符,删除无效的字符等,则网页识别平台根据转换逻辑,将注册数据进行转换的到转换后的注册数据,转换后的注册数据则可以是按照规定的显示格式进行显示。例如,注册数据有注册姓名、注册邮箱、注册电话等,网页识别平台选取到注册姓名与注册电话的转换逻辑,则将注册姓名中按照转换逻辑删除无效的空格字符,也可以将注册电话中按照注册电话中的转换逻辑删除连接符。
将转换后的注册数据与信息存储库中存储的信息数据进行匹配。具体地,信息存储库是指存储有不同的注册信息以及注册信息关联的域名的数据库,信息存储库可以存储有注册姓名、注册邮箱以及注册电话等,信息数据库中存储的注册姓名、注册邮箱以及注册电话可以是相互对应的,且信息存储库可以存储有注册信息关联的网站域名。信息数据是指显示相关的域名的注册人的详细信息的数据,信息数据可以是文字数据,信息数据可以是数字数据也可以是图片数据等,例如,信息数据可以是姓名、电话、邮箱或照片等。具体地,网页识别平台将获取到的注册数据与信息存储库中存储的信息数据逐一进行匹配,可以是,网页识别平台获取到的注册数据为注册姓名、注册邮箱和注册电话,网页识别平台根据转换规则将注册姓名、注册邮箱与注册电话进行转换得到转换后的注册姓名、转换后的注册邮箱与转换后的注册电话,网页识别平台将转换后的注册姓名与信息存储库中存储的姓名进行匹配,网页识别平台再将转换后的注册电话与信息存储库中存储的电话进行匹配,进而网页识别平台将转换后的注册邮箱与信息存储库中存储的邮箱进行匹配。
当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的信息数据关联的域名作为待识别域名。具体地,当网页识别平台将转换后的注册数据与信息存储库汇总存储的信息数据逐个匹配,当在信息存储库中匹配到相应的信息数据时,则获取匹配成功的信息数据关联的域名,将该关联的域名作为待识别域名。可以是,网页识别平台将注册数据中的每中数据分别与信息数据中存储的信息数据一一匹配,当注册数据中的每个数据都与信息数据库中存储的信息数据匹配成功时,则获取信息数据关联的域名。网页识别平台将转换后的注册姓名与信息数据库中存储的姓名进行匹配,当匹配成功时,再将注册邮箱与信息数据库中存储的该姓名对应的邮箱进行匹配,当注册邮箱匹配成功时则再将注册电话与信息数据库中存储的与姓名和邮箱对应的电话进行匹配,当注册电话也匹配成功时则将信息存储库中存储的匹配成功的姓名、电话以及邮箱关联的域名进行提取,从而将提取出来的域名作为待识别域名。需要说明的是,也可以是网页识别平台仅用注册数据中任意的注册数据与信息数据中存储的数据进行匹配的,当匹配成功时,则将匹配成功信息数据关联的域名作为待识别域名。将转换后的注册姓名与信息数据库中存储的姓名进行匹配,则直接提取匹配成功的姓名关联的域名作为待识别域名。
需要说明的是,本实施例中,信息存储库可以是whois数据库,网页识别平台获取到已识别的风险等级大于预设等级的网站的域名,并根据该域名获取到该网站对应的注册数据时,可以将该注册数据与whois数据库中存储的信息数据进行匹配,当匹配成功时,则获取信息数据关联的域名作为待识别域名。
本实施例中,网页识别平台先将获取到的注册数据按照转换逻辑进行转换,得到可以按照显示规则显示的转换后的注册数据,提高识别出关联的待识别域名的准确性,进而根据转换后的注册数据与信息存储库中存储的信息数据进行匹配,当匹配成功时,则获取匹配成功的信息数据关联的域名作为待识别域名,根据注册信息即可得到不同的待识别域名,提高识别效率。
在其中一个实例中,根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页的步骤,可以包括:
将网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当网站数据与第一过滤数据匹配成功时,则对待识别域名添加可疑标签。具体地,黑名单是指存储有具有风险等级大于预设等级的数据,风险等级大于预设等级的数据可以是文字数据、图片数据、数字数据等,例如,可以存储有字符如“银行”、“积分”等。第一过滤数据是指风险等级大于预设等级的数据,当网页中包含有第一过滤数据则该网站可能是风险等级大于预设等级的网页,第一过滤数据可以是文字数据、图片数据、数字数据等。可疑标签是指待识别域名可能是风险等级大于预设等级的标记。具体地,网页识别平台将从待识别域名对应的网站中包含的所有网页都提取到网页数据时,则将提取到所有网页数据逐一与预设的黑名单中存储的第一过滤数据进行匹配,当所有的网页数据与任意的存储在黑名单中的第一过滤数据匹配成功时,则网页识别平台将该网页数据的来源的网页关联的网站对应的待识别域名添加可以标签。需要说明的是,也可以是设置有匹配数量阈值,即网页识别平台将获取到的所有网页数据与存储在黑名单中的第一过滤数据逐个进行匹配,当与预设的数量的存储在黑名单中的第一过滤数据匹配成功时,则对该网页数据来源的网页关联的网站对应的待识别域名添加可疑标签,匹配数量阈值可以是预设为1,预设为3,预设为4等。还可以是,当有预设数量的获取到的待识别域名对应的网站中包含的网页的网页数据与黑名单中的第一过滤数据匹配成功时,则对该待识别域名添加可疑标签。
将添加可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配。具体地,白名单是指存储有可信数据的数据库,可信数据是指风险等级小于等于预设等级的数据,可信数据可以是文字数据、图片数据、数字数据等,例如,可以存储有字符如“***”等。第二过滤数据是指风险等级小于等于预设等级的数据,也即是可信数据,当网页中包含有第第二过滤数据则该网站可能是可信网站,第二过滤数据可以是文字数据、图片数据、数字数据等。具体地,网页识别平台提取添加了可疑标签的待识别域名,并将添加了可疑标签的待识别域名的网站中包含的所有网页上的网页数据与预设的白名单中存储的第二过滤数据逐个进行匹配,当添加了可疑标签的待识别域名对应的网站中包含的所有网页上的网页数据均与白名单中预存储的第二过滤数据匹配成功时,则将待识别域名上携带的可疑标签删除。需要说明的是,也可以是,当预设数量的添加了可疑标签的待识别域名的网站中包含的网页上的网页数据与预设的白名单中存储的第二过滤数据匹配成功时,则将待识别域名上携带的可疑标签删除。
当网页数据与第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。具体地,当网页识别平台将添加可疑标签的待识别域名对应的网站中包含的网页数据与第二过滤数据未匹配成功时,则待识别域名上仍然携带有可疑标签,则网页识别平台提取出仍然携带有可疑标签的待识别域名,进而获取待识别域名对应的网站,提取对应的网站中包含的网页作为风险等级大于预设等级的网页。
本实施例中,通过黑名单中存储的第一过滤数据与存储在白名单中的第二过滤数据对网页数据进行过滤,从而得到所需的风险等级大于预设等级的网页,防止出现虽然携带有风险等级大于预设等级的网页数据但实际是可信网页,经过两级过滤,提高识别风险等级大于预设等级的网页的准确性。
在其中一个实施例中,网页识别方法还可以包括:
当经过预设的黑名单与预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取待识别域名对应的标识符。具体地,标识符是指表示待识别域名对应的网站特有的标志,标识符可以是企业标识,例如,标识符可以是企业logo等。具体地,当网页识别平台根据所有获取到的待识别域名对应的网站中包含的网页上的网页数据经过预设的黑名单与预设的白名单进行数据识别后,待识别域名都未携带有可疑标签时,则经过网页数据识别未识别到风险等级大于预设等级的网页,则网页识别平台获取待识别域名对应的标识符。
将标识符与预先存储在安全标识存储库中的安全标识符进行匹配。具体地,安全标识存储库是指存储有可信任的网站的标识符以及标识符对应的网站域名的数据库。安全标识符是指可信任网站的标志,安全标识符可以是安全的网页的企业的标志,例如,安全标识符为工商银行网页的logo,为平安集团网页的logo等。具体地,网页识别平台将获取到的标识符与预先存储在安全标识存储库中存储的安全标识符逐一进行匹配,可以是,网页识别平台获取到的待识别域名对应的标识符为平安集团logo,进而将获取到的待识别域名对应的标识符即平安集团logo与存储在安全标识存储库中的安全标识符进行匹配。
当安全标识符与待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在安全标识存储库中的安全标识符关联的安全域名,将安全域名与待识别域名匹配。具体地,网页识别平台将待识别域名对应的标识符与安全存储库中存储的安全标识符匹配成功时,则待识别域名对应的安全标识符对应的待识别域名可能为安全域名,进而需要进行进一步匹配与识别,则网页识别平台获取匹配成功的存储在前安全标识存储库中的安全标识符关联的安全域名,将匹配成功的存储在安全标识存储库中的安全识别符关联的安全域名,并将安全域名与待识别域名进行匹配。例如,网页识别获取到的待识别域名对应的标识符平安集团logo与安全存储库中存储的平安集团logo匹配成功时,则获取安全标识存储库中存储的平安集团logo关联的域名“pingan.com”,并将待识别域名与该关联的域名“pingan.com”进行匹配。
当安全域名与待识别域名匹配不成功时,则待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。具体地,当网页识别平台将待识别域名与安全域名匹配未成功使,则待识别域名对应的标识符是伪造的安全标识符,则将待识别域名对应的网站中包含的网页作为风险等级大于预设等级的网页。例如,网页识别平台将获取到的待识别域名的标识符为平安集团logo,当平安集团logo与安全标识存储库中存储的安全标识匹配成功则获取安全标识存储库中关联的域名“pingan.com”,当待识别域名不为“pingan.com”时,则待识别域名伪造了平安集团logo,则将该待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
本实施例中,当对网页数据进行识别未得到可疑待识别域名时,则根据待识别域名携带的标识符进一步识别从而得到待识别域名对应的网站中包含的网页为风险等级大于预设值的网页,采用多重识别方法,提高识别风险等级大于预设等级的网页的准确性。
在其中一个实施例中,步骤S210之后,还可以包括如下步骤,步骤S210,即根据所获取的网站数据得到与待识别域名对应的风险等级大于预设等级的网页的步骤之后,还包括:
提取风险等级大于预设等级网页的网页数据的关键字,根据关键字对风险等级大于预设等级的待识别域名添加对应的类别标签。具体地,类别标签是指网页数据的类型的标识,类别标签可以是不同的风险类别的标签,例如,类别标签可以是银行类别标签,可以是购物类别标签等。具体地,网页识别平台识别出风险等级大于预设等级的网页,进而,网页识别平台提取网页数据的关键字,网页识别平台根据提取出的网页数据的关键字,根据提取出的网页数据的关键字,对包含网页数据的网页对应的网站关联的待识别域名添加对应的类别标签。例如,网页识别平台根据识别出风险等级大于预设等级的网页,进而从网页识别平台从不同的网页上提取关键字分别为“积分”与“银行”,网页识别平台根据提取出的网页数据的关键字“积分”与“银行”,对包含网页数据的网页对应的网站关联的待识别域名添加对应的类别标签即添加“银行标签”或“积分标签”。
将风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配。具体地,网页识别平台根据对待添加域名的类别标签,将已存储网页识别平台的类别标签进行逐个匹配,直至遍历完所有的已存储的类别标签。例如,对待识别域名添加的标签为“银行”与“积分”,将待识别域名添加的标签“银行”与已存储的类别标签逐个进行匹配,再将对待识别域名添加的类别标签“积分”与已存储的类别标签逐个进行匹配。
当未匹配成功时,则添加风险等级大于预设等级的待识别域名的类别标签,并将风险等级大于预设等级的网页存储至类别标签下。具体地,当添加的类别标签与已存储的类别标签未匹配成功时,则添加的类别标签为新的类别标签,则将未匹配成功的风险等级大于预设等级的待识别域名的类别标签添加到已存储的类别标签中,并将添加的类别标签的待识别域名对应的网站中包含的风险等级大于预设等级的网页添加到该类别标签中。例如,待识别域名添加的类别标签分别为“银行”和“积分”,将类别标签“银行”与已存储的类别标签逐个进行匹配,在将待识别域名添加的类别标签“积分”与已存储的类别标签逐个进行匹配,当类别标签“银行”未匹配成功时,则将类别标签“银行”添加到已存储的类别标签中,并将添加了“银行”类别标签的待识别域名对应的网站中包含的风险等级大于预设等级的网页添加到该类别标签中。
需要说明的是,网页识别平台可以预设时间,将已更新的类别标签以及类别标签对应的风险等级大于预设等级的网页发送至服务器进行存储。例如,预设间隔一个小时将已更新的类别标签以及类别标签对应的风险等级大于预设等级的网页发送至服务器进行存储。
本实施例中,将风险等级大于预设等级的网页中的网页数据的关键字进行提取,根据关键字对风险等级大于预设等级的待识别域名添加对应的类别标签,进而如果添加的类别标签未与已存储的类别标签匹配成功时,则将添加的类别标签添加至已存储的类别标签,并将风险等级大于预设等级的网页存储在该添加的类别标签中,逐步扩充已存储的类别标签,增强适用性。
在其中一个实施例中,当风险等级大于预设等级的网页为钓鱼网页时,举例示意,网页识别平台获取到已识别的钓鱼网页时,则提取该钓鱼网页对应的网页域名,进而根据网页域名获取该钓鱼网页对应的网站的网络地址,网页识别平台根据查询到的网络地址,查找网络地址关联的域名,查找网络地址关联的域名可以是,网页识别平台将查询到的钓鱼网页对应的网站的网络地址与地址关联库中与存储的网络地址进行匹配,当该钓鱼网页对应的网站的网络地址与地址关联库中预存储的网络地址匹配成功时,获取到与预存储的网络地址关联的待匹配关联域名,进而根据待匹配关联域名的有效时间,判断该待匹配关联域名是否有效,也即当当前时间小于等于有效截止时间时,则提取待匹配关联域名作为待识别域名,进而当网页识别平台查找到与网络地址关联的域名时,则将该关联的域名作为待识别域名。进而用上述方法未查询到与网络地址关联的域名时,则获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名,可以是,根据注册数据查询对应的域名作为待识别域名可以是,网页识别平台获取到钓鱼网站对应的网站的域名对应的注册数据,进而从转换逻辑库中选取注册数据对应的转换逻辑,进而将注册数据按照转换逻辑进行转换得到转换后的注册数据,将转换后的注册数据与信息存储库中存储的信息数据进行匹配,当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的信息数据关联的域名作为待识别域名。先采用已识别的钓鱼网页对应的网站的网络地址关联的域名进行查询待识别域名,当未查询到时,再采用已识别的钓鱼网页对应的网站的网络地址对应的注册数据查询待识别域名,通过两次查询的方式进行查询,保证查询不会出现遗漏。
网页识别平台得到待识别域名时,则获取待识别域名对应的网站中包含的网页的网页数据,进而将网页数据与预设的黑名单中存储的第一数据进行匹配,当匹配成功时,则该网页数据对应的网页所来源的网站对应的待识别域名添加可疑标签,进而再将添加了可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配,当未与第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,从而该携带有可疑标签的待识别域名对应的网站中的网页作为钓鱼网页。进一步地,当经过预设的黑名单与预设的名单都进行数据匹配进而识别都未存在带有可疑标签的待识别域名时,则获取待识别域名对应的标识符,如企业logo,进而将获取的logo与预先存储在安全标识存储中的安全标识符进行匹配,当匹配成功时,则获取匹配成功的存储在安全标识库中的安全标识关联的安全域名,进而将安全域名与待识别域名进行匹配,当匹配不成功时,则该待识别域名伪装成安全域名,进而该待识别域名对应的网站中的网页作为钓鱼网页,通过对待识别域名对应的网站中包含的网页中的网页数据以及网页标识进行查询,确定待识别域名对应的网站中的包含的网页是否为钓鱼网页,且采用网页数据与网页标识进行二次检测,提高检测为钓鱼网页的准确性。
进而,当识别出钓鱼网页是,则提取钓鱼网页上的网页数据的关键则,根据关键字将该钓鱼网页对应的待识别域名添加类别标签,且该类别标签如果与已存储的类别标签未匹配成功时,则添加钓鱼网页对应的待识别域名的类别标签,进而将钓鱼网页添加到类别标签下。
本实施例中,通过一个钓鱼网页即可关联查询到多个待识别域名,提高产讯效率,增强适用性,且对待识别域名对应内的网站中的网页的网页数据进行查询,以及对网页标识进行查询判断待识别域名中对应的网页是否为钓鱼网页,查询准确,且将查询到的钓鱼网页按照类别进行分类,便于后续的查询与推送。
在其中一个实施例中,请参见图3,提供一网页识别装置的结构示意图,网页识别装置300可以包括:
第一获取模块310,用于获取已识别的风险等级大于预设等级的网页,提取网页对应的网站域名。
第二获取模块320,用于根据网站域名获取网站对应的网络地址。
查找模块330,用于查找与网络地址关联的域名,当查找到与网络地址关联的域名时,则将关联的域名作为待识别域名。
第三获取模块340,用于获取待识别域名对应的网站中的网页数据。
识别模块350,用于根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。
在其中一个实施例中,查找模块330可以包括:
第一匹配单元,用于将网络地址与地址关联库中预存储的网络地址进行匹配。
域名获取单元,用于当网络地址与地址关联库中预存储的网络地址匹配成功时,获取与预存储的网络地址关联的待匹配关联域名。
时间获取单元,用于获取待匹配关联域名的有效截止时间。
提取单元,用于若当前时间小于等于有效截止时间时,则提取待匹配关联域名作为待识别域名。
在其中一个实施例中,网页识别装置还可以包括:
查询模块,用于当未查找到与网络地址关联的域名时,则获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名。
在其中一个实施例中,查询模块可以包括:
选取单元,用于获取网站的域名对应的注册数据,从转换逻辑库中选取注册数据对应的转换逻辑。
转换单元,用于根据转换逻辑将注册数据进行转换得到转换后的注册数据。
第二匹配单元,用于将转换后的注册数据与信息存储库中存储的信息数据进行匹配。
待识别域名获取单元,用于当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的信息数据关联的域名作为待识别域名。
在其中一个实施例中,识别模块350还可以包括:
第一过滤单元,用于将网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当网站数据与第一过滤数据匹配成功时,则对待识别域名添加可疑标签。
第二过滤单元,用于将添加可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配。
标签域名获取单元,用于当网页数据与第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实例种,网页识别装置300还可以包括:
标识符获取模块,用于当经过预设的黑名单与预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取待识别域名对应的标识符。
标识符匹配模块,用于将标识符与预先存储在安全标识存储库中的安全标识符进行匹配。
安全域名匹配模块,用于当安全标识符与待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在安全标识存储库中的安全标识符关联的安全域名,将安全域名与待识别域名匹配。
可疑域名提取模块,用于当安全域名与待识别域名匹配不成功时,则待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,网页识别装置300还可以包括:
关键字提取模块,用于提取风险等级大于预设等级的网页的网页数据的关键字,根据关键字对风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签。
标签匹配模块,用于将风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配。
添加模块,用于当未匹配成功时,则添加风险等级大于预设等级的待识别域名的类别标签,并将风险等级大于预设等级的网页存储至类别标签下。
上述关于网页识别装置的具体限定可以参见上文中关于网页识别方法的限定,在此不再赘述。
在其中一个实施例中,提供一种计算机设备,该计算机设备可以是常规终端或其他任何合适的计算机设备,其内部结构图可以如图4所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种网页识别方法,处理器执行该计算机程序时实现以下步骤:获取已识别的风险等级大于预设等级的网页,提取网页对应的网站域名。根据网站域名获取网站对应的网络地址。查找与网络地址关联的域名,当查找到与网络地址关联的域名时,则将关联的域名作为待识别域名。获取待识别域名对应的网站中的网页数据。根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。
在其中一个实施例中,处理器执行计算机程序时实现查找与网络地址关联的域名的步骤,可以包括:将网络地址与地址关联库中预存储的网络地址进行匹配。当网络地址与地址关联库中预存储的网络地址匹配成功时,获取与预存储的网络地址关联的待匹配关联域名。获取待匹配关联域名的有效截止时间。若当前时间小于等于有效截止时间时,则提取待匹配关联域名作为待识别域名。
在其中一个实施例中,处理器执行计算机程序时还实现以下步骤:当未查找到与网络地址关联的域名时,则获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名。
在其中一个实施例中,处理器执行计算机程序时实现获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名的步骤,可以包括:
获取网站的域名对应的注册数据,从转换逻辑库中选取注册数据对应的转换逻辑。根据转换逻辑将注册数据进行转换得到转换后的注册数据。将转换后的注册数据与信息存储库中存储的信息数据进行匹配。当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的信息数据关联的域名作为待识别域名。
在其中一个实施例中,处理器执行计算机程序时实现根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页的步骤,可以包括:
将网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当网站数据与第一过滤数据匹配成功时,则对待识别域名添加可疑标签。将添加可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配。当网页数据与第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,处理器执行计算机程序时实现的步骤还可以包括:当经过预设的黑名单与预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取待识别域名对应的标识符。将标识符与预先存储在安全标识存储库中的安全标识符进行匹配。当安全标识符与待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在安全标识存储库中的安全标识符关联的安全域名,将安全域名与待识别域名匹配。当安全域名与待识别域名匹配不成功时,则待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,处理器执行计算机程序时实现根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页的步骤之后,还可以包括:提取风险等级大于预设等级的网页的网页数据的关键字,根据关键字对风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签。风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配。当未匹配成功时,则添加风险等级大于预设等级的待识别域名的类别标签,并将风险等级大于预设等级的网页存储至类别标签下。
上述关于计算机设备的具体限定可以参见上文中关于网页识别方法的限定,在此不再赘述。
在其中一个实施例中,请继续参见图4,提供一种存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以下步骤:获取已识别的风险等级大于预设等级的网页,提取网页对应的网站域名。根据网站域名获取网站对应的网络地址。查找与网络地址关联的域名,当查找到与网络地址关联的域名时,则将关联的域名作为待识别域名。获取待识别域名对应的网站中的网页数据。根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页。
在其中一个实施例中,该计算机程序被处理器执行时实现查找与网络地址关联的域名的步骤,可以包括:将网络地址与地址关联库中预存储的网络地址进行匹配。当网络地址与地址关联库中预存储的网络地址匹配成功时,获取与预存储的网络地址关联的待匹配关联域名。获取待匹配关联域名的有效截止时间。若当前时间小于等于有效截止时间时,则提取待匹配关联域名作为待识别域名。
在其中一个实施例中,该计算机程序被处理器执行时还实现以下步骤:当未查找到与网络地址关联的域名时,则获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名。
在其中一个实施例中,该计算机程序被处理器执行时实现获取网站的域名对应的注册数据,根据注册数据查询对应的域名作为待识别域名的步骤,可以包括:获取网站的域名对应的注册数据,从转换逻辑库中选取注册数据对应的转换逻辑。根据转换逻辑将注册数据进行转换得到转换后的注册数据。将转换后的注册数据与信息存储库中存储的信息数据进行匹配。当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的信息数据关联的域名作为待识别域名。
在其中一个实施例中,该计算机程序被处理器执行时实现根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页的步骤,可以包括:将网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当网站数据与第一过滤数据匹配成功时,则对待识别域名添加可疑标签。将添加可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配。当网页数据与第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,该计算机程序被处理器执行时实现的步骤还可以包括:当经过预设的黑名单与预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取待识别域名对应的标识符。将标识符与预先存储在安全标识存储库中的安全标识符进行匹配。当安全标识符与待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在安全标识存储库中的安全标识符关联的安全域名,将安全域名与待识别域名匹配。当安全域名与待识别域名匹配不成功时,则待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
在其中一个实施例中,该计算机程序被处理器执行时实现根据所获取的网页数据得到与待识别域名对应的风险等级大于预设等级的网页的步骤之后,还可以包括:提取风险等级大于预设等级的网页的网页数据的关键字,根据关键字对风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签。风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配。当未匹配成功时,则添加风险等级大于预设等级的待识别域名的类别标签,并将风险等级大于预设等级的网页存储至类别标签下。
上述关于存储介质的具体限定可以参见上文中关于网页识别方法的限定,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,计算机可读取的存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (8)

1.一种网页识别方法,其特征在于,包括:
获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
根据所述网站域名获取所述网站对应的网络地址;
查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
获取所述待识别域名对应的网站中的网页数据;
根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页;包括:将所述网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网页数据与所述第一过滤数据匹配成功时,则对所述待识别域名添加可疑标签;将添加可疑标签的所述待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页;
当经过所述预设的黑名单与所述预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在所述安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
2.根据权利要求1所述的方法,其特征在于,所述查找与所述网络地址关联的域名的步骤,包括:
将所述网络地址与地址关联库中预存储的网络地址进行匹配;
当所述网络地址与所述地址关联库中预存储的网络地址匹配成功时,获取与所述预存储的网络地址关联的待匹配关联域名;
获取所述待匹配关联域名的有效截止时间;
若当前时间小于等于所述有效截止时间时,则提取所述待匹配关联域名作为待识别域名。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当未查找到与所述网络地址关联的域名时,则获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名。
4.根据权利要求3所述的方法,其特征在于,所述获取所述网站的域名对应的注册数据,根据所述注册数据查询对应的域名作为待识别域名的步骤,包括:
获取所述网站的域名对应的注册数据,从转换逻辑库中选取所述注册数据对应的转换逻辑;
根据所述转换逻辑将所述注册数据进行转换得到转换后的注册数据;
将所述转换后的注册数据与信息存储库中存储的信息数据进行匹配;
当转换后的注册数据与信息存储库中存储的信息数据匹配成功时,则获取匹配成功的所述信息数据关联的域名作为待识别域名。
5.根据权利要求1所述的方法,其特征在于,所述根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页的步骤之后,还包括:
提取所述风险等级大于预设等级的网页的网页数据的关键字,根据所述关键字对所述风险等级大于预设等级的网页对应的待识别域名添加对应的类别标签;
将所述风险等级大于预设等级的待识别域名的类别标签与已存储的类别标签进行匹配;
当未匹配成功时,则添加所述风险等级大于预设等级的待识别域名的类别标签,并将所述风险等级大于预设等级的网页存储至所述类别标签下。
6.一种网页识别装置,其特征在于,所述装置包括:
第一获取模块,用于获取已识别的风险等级大于预设等级的网页,提取所述网页对应的网站域名;
第二获取模块,用于根据所述网站域名获取所述网站对应的网络地址;
查找模块,用于查找与所述网络地址关联的域名,当查找到与所述网络地址关联的域名时,则将所述关联的域名作为待识别域名;
第三获取模块,用于获取所述待识别域名对应的网站中的网页数据;
识别模块,用于根据所获取的网页数据得到与所述待识别域名对应的风险等级大于预设等级的网页;
所述识别模块包括:
第一过滤单元,用于将网页数据与预设的黑名单中存储的第一过滤数据进行匹配,当所述网页数据与所述第一过滤数据匹配成功时,则对待识别域名添加可疑标签;
第二过滤单元,用于将添加可疑标签的待识别域名对应的网站中的网页数据与预设的白名单中存储的第二过滤数据进行匹配;
标签域名获取单元,用于当所述网页数据与所述第二过滤数据未匹配成功时,则提取携带有可疑标签的待识别域名,获取所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页;
标识符获取模块,用于当经过预设的黑名单与预设的白名单进行数据识别后未存在携带有可疑标签的待识别域名时,则获取所述待识别域名对应的标识符;
标识符匹配模块,用于将所述标识符与预先存储在安全标识存储库中的安全标识符进行匹配;
安全域名匹配模块,用于当所述安全标识符与所述待识别域名对应的标识符匹配成功时,则获取匹配成功的存储在安全标识存储库中的所述安全标识符关联的安全域名,将所述安全域名与所述待识别域名匹配;
可疑域名提取模块,用于当所述安全域名与所述待识别域名匹配不成功时,则所述待识别域名对应的网站中的网页作为风险等级大于预设等级的网页。
7.一种计算机设备,其特征在于,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任意一项所述方法中的步骤。
8.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至5任意一项所述方法中的步骤。
CN201711297266.7A 2017-12-08 2017-12-08 网页识别方法、装置、计算机设备及存储介质 Active CN108092963B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201711297266.7A CN108092963B (zh) 2017-12-08 2017-12-08 网页识别方法、装置、计算机设备及存储介质
PCT/CN2018/077064 WO2019109529A1 (zh) 2017-12-08 2018-02-23 网页识别方法、装置、计算机设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711297266.7A CN108092963B (zh) 2017-12-08 2017-12-08 网页识别方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN108092963A CN108092963A (zh) 2018-05-29
CN108092963B true CN108092963B (zh) 2020-05-08

Family

ID=62174944

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711297266.7A Active CN108092963B (zh) 2017-12-08 2017-12-08 网页识别方法、装置、计算机设备及存储介质

Country Status (2)

Country Link
CN (1) CN108092963B (zh)
WO (1) WO2019109529A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110865818B (zh) * 2018-08-28 2023-07-28 阿里巴巴(中国)有限公司 应用关联域名的检测方法、装置及电子设备
CN110033092B (zh) * 2019-01-31 2020-06-02 阿里巴巴集团控股有限公司 数据标签生成、模型训练、事件识别方法和装置
CN110012030A (zh) * 2019-04-23 2019-07-12 北京微步在线科技有限公司 一种关联检测黑客的方法及装置
CN110266661B (zh) * 2019-06-04 2021-09-14 东软集团股份有限公司 一种授权方法、装置及设备
CN110958244A (zh) * 2019-11-29 2020-04-03 北京邮电大学 一种基于深度学习的仿冒域名检测方法及装置
CN111814643B (zh) * 2020-06-30 2024-07-05 杭州科度科技有限公司 黑灰url识别方法、装置、电子设备及介质
CN113098859B (zh) * 2021-03-30 2023-03-31 深圳市欢太科技有限公司 网页页面回退方法、装置、终端及存储介质
CN113923193B (zh) * 2021-10-27 2023-11-28 北京知道创宇信息技术股份有限公司 一种网络域名关联方法、装置、存储介质及电子设备
CN114065092A (zh) * 2021-11-10 2022-02-18 奇安信科技集团股份有限公司 网站识别方法、装置、计算机设备和存储介质
CN114900363B (zh) * 2022-05-18 2024-05-14 杭州安恒信息技术股份有限公司 一种恶意网站识别方法、装置、电子设备及存储介质
CN116708356B (zh) * 2023-08-02 2023-11-14 苏州迈科网络安全技术股份有限公司 Ip特征库生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102724187A (zh) * 2012-06-06 2012-10-10 奇智软件(北京)有限公司 一种针对网址的安全检测方法及装置
CN102739653A (zh) * 2012-06-06 2012-10-17 奇智软件(北京)有限公司 一种针对网址的检测方法及装置
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106302438A (zh) * 2016-08-11 2017-01-04 国家计算机网络与信息安全管理中心 一种多渠道的基于行为特征的主动监测钓鱼网站的方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8869269B1 (en) * 2008-05-28 2014-10-21 Symantec Corporation Method and apparatus for identifying domain name abuse
CN102523210B (zh) * 2011-12-06 2014-11-05 中国科学院计算机网络信息中心 钓鱼网站检测方法及装置
CN102663000B (zh) * 2012-03-15 2016-08-03 北京百度网讯科技有限公司 恶意网址数据库的建立方法、恶意网址的识别方法和装置
CN105718577B (zh) * 2016-01-22 2020-01-21 中国互联网络信息中心 一种针对新增域名自动检测网络钓鱼的方法与***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096781A (zh) * 2011-01-18 2011-06-15 南京邮电大学 一种基于网页关联性的钓鱼检测方法
CN102724187A (zh) * 2012-06-06 2012-10-10 奇智软件(北京)有限公司 一种针对网址的安全检测方法及装置
CN102739653A (zh) * 2012-06-06 2012-10-17 奇智软件(北京)有限公司 一种针对网址的检测方法及装置
CN105338001A (zh) * 2015-12-04 2016-02-17 北京奇虎科技有限公司 识别钓鱼网站的方法及装置
CN106302438A (zh) * 2016-08-11 2017-01-04 国家计算机网络与信息安全管理中心 一种多渠道的基于行为特征的主动监测钓鱼网站的方法

Also Published As

Publication number Publication date
WO2019109529A1 (zh) 2019-06-13
CN108092963A (zh) 2018-05-29

Similar Documents

Publication Publication Date Title
CN108092963B (zh) 网页识别方法、装置、计算机设备及存储介质
Rao et al. Jail-Phish: An improved search engine based phishing detection system
EP2803031B1 (en) Machine-learning based classification of user accounts based on email addresses and other account information
CN110099059B (zh) 一种域名识别方法、装置及存储介质
CN112804210B (zh) 数据关联方法、装置、电子设备和计算机可读存储介质
CN103973651B (zh) 基于加盐密码库的账户密码标识设置、查询方法及装置
US11165793B2 (en) Method and system for detecting credential stealing attacks
CN109690547A (zh) 用于检测在线欺诈的***和方法
US20180131708A1 (en) Identifying Fraudulent and Malicious Websites, Domain and Sub-domain Names
CN110035075A (zh) 钓鱼网站的检测方法、装置、计算机设备及存储介质
CN108718341B (zh) 数据的共享和搜索的方法
CN103067347B (zh) 侦测钓鱼网站方法以及其网络装置
CN116366338B (zh) 一种风险网站识别方法、装置、计算机设备及存储介质
US10462257B2 (en) Method and apparatus for obtaining user account
CN110572359A (zh) 基于机器学习的钓鱼网页检测方法
CN112333185B (zh) 一种基于dns解析的域名阴影检测方法和装置
CN105530251A (zh) 识别钓鱼网站的方法及装置
CN102882889A (zh) 基于钓鱼网站ip集中性的收集与鉴定的方法和***
CN112751804B (zh) 一种仿冒域名的识别方法、装置和设备
KR101099537B1 (ko) 웹사이트 검색 기반의 피싱 사이트 선별시스템 및 그 방법
CN105320691A (zh) 一种账号信息的识别方法及装置
US9160807B2 (en) System and method for deriving a name for association with a device
CN108418809A (zh) 聊天数据处理方法、装置、计算机设备及存储介质
CN115794780A (zh) 网络空间资产的采集方法、装置、电子设备及存储介质
CN103716419B (zh) 一种跨终端的域名处理方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant