CN108900581A

CN108900581A - 一种大型网站的关键特征知识库的建立方法

Info

Publication number: CN108900581A
Application number: CN201810599236.XA
Authority: CN
Inventors: 张振涛; 王小华; 陈晓光; 孟艳青; 金红; 杨满智; 刘长永
Original assignee: Heng Jia Jia (beijing) Technology Co Ltd
Current assignee: Heng Jia Jia (beijing) Technology Co Ltd; Eversec Beijing Technology Co Ltd
Priority date: 2018-06-12
Filing date: 2018-06-12
Publication date: 2018-11-27

Abstract

本发明公开了一种大型网站的关键特征知识库的建立方法，所述方法包括：采集大型互联网网站的主站点域名信息及其关联属性信息；采集大型互联网网站的网页形式及证书形式的子站点域名信息；将大型互联网网站的主站点域名和子站点域名进行关联，形成大型互联网网站的域名知识库；采集大型互联网网站的主站点域名、子站点域名对应的IP地址信息；将主站点域名IP、子站点域名IP进行集合归并，形成大型互联网网站的IP地址知识库。本发明解决现有的主动爬取方式无法对大型互联网网站的域名和IP信息进行有效刻划的问题。

Description

一种大型网站的关键特征知识库的建立方法

技术领域

本发明属于互联网和大数据应用技术领域，具体涉及一种大型网站的关键特征知识库的建立方法。

背景技术

互联网迅猛发展，大型网站在互联网中无论是用户规模、访问频度、社会影响都是具有重要的作用。随着网络安全、信息安全的进一步发展，大型互联网网站的安全问题和问题日益突出，而对大型网站进行有效管理的基础是其域名特征和IP地址特征，大型网站的域名数量和IP地址数量一般来说数量较多，而且也会随着不同的访问者的地域和时段的变化体现出不断变化的特征。针对大型网站的域名和IP地址进行收集有两种常见的方法：

方法一：通过流量进行采集，提取域名和IP地址信息，并逐渐形成域名特征库和IP地址特征库，但这种方法有两大缺陷，一是需要部署的采集设备数量庞大、投资极高；二是只有发生访问行为的域名和IP地址才能被采集，知识库收敛时间不可控。

方法二：通过主动爬取的方式，提取大型网站的域名和IP地址信息，并逐渐形成域名特征库和IP地址库。但是，现有如何根据公开资源对大型互联网网站的域名特征和IP特征进行有效刻划，是目前亟待解决的问题。

发明内容

本发明所要解决的技术问题在于，提供一种大型网站的关键特征知识库的建立方法，以解决现有的主动爬取方式无法对大型互联网网站的域名和IP信息进行有效刻划的问题。

为解决上述技术问题，本发明所采用的技术方案如下：

一种大型网站的关键特征知识库的建立方法，所述方法包括：

自动采集大型互联网网站的主站点域名信息；

自动采集大型互联网网站的关联属性信息；

自动采集大型互联网网站的网页形式的子站点域名信息；

自动采集大型互联网网站的证书形式的子站点域名信息；

将大型互联网网站的主站点域名、网页形式的子站点域名、证书形式的子站点域名进行关联，形成大型互联网网站的域名知识库；

自动采集大型互联网网站的主站点域名、子站点域名(包括网页形式和证书形式)对应的IP地址信息；

将大型互联网网站的主站点域名IP、子站点域名IP进行集合归并，形成大型互联网网站的IP地址知识库；

定期(日、周)更新子站点域名(包括网页形式和证书形式)、IP地址等数据，保证知识库数据的实时性。

进一步地，所述采集网站主站点信息，共计包括118个国家，每个国家总计500个网站，总计形成世界范围内的5.9万个大型网站的主站点域名列表，并进行去重处理，形成无重的大型网站主站点域名总表。

进一步地，基于每个主站点域名在alexa.chinaz.com(或www.123cha.com)上获取网站的关联属性信息，具体包括：网站名称、综合排名、所属国家、网站简介、反向链接、访问速度、网站站长、联系地址等。

基于每个主站点域名在alexa.chinaz.com(或www.123cha.com)上获取网页形式的子站点域名列表信息，具体包括：子站点域名、网站访问比例、页面访问比例、人均页面浏览量等。

基于每个主站点域名获取其网站对应的证书信息，并提取子站点域名列表，具体为：基于每个主站点域名进行https访问，如果是安全网站链接，则获取证书信息，并提取其中的“使用者”和“使用者备用名称”对应的子站点域名列表信息。

基于每个主站点域名，将子站点域名(包括网页形式和证书形式)列表与其进行关联，形成每个主站点域名对应的大型网站的域名知识库，具体为：针对每个大型网站，建立主站点域名和子站点域名的对应关系，所有的大型网站对应的所有主站点域名、子站点域名及其关联属性信息共同构成了全世界重要的大型网站的整体域名知识库。

基于每个主站点域名及其关联的子站点域名(包括网页形式和证书形式)，通过DNS解析访问获取IP地址数据，具体为：在全国31省3大运营商共计93个点上的云主机(取决于关注的域名对应的IP地址的地域范围的业务需要，如果想要掌握和了解国外的IP地址解析情况，可以通过租用相应国家的不同地区、不同运营商的云主机实现)，进行基于以上每个域名知识库中域名(包括主站点域名、子站点域名)的DNS解析访问，并获取解析得到的IP地址数据。

基于DNS解析访问获得的IP地址数据进行集合归并，形成大型网站的IP地址列表知识库，具体为：针对每个大型网站所关联的主站点域名、每个子站点域名，针对不同地点不同运营商返回的IP地址集合进行集合求并运算，形成每个大型网站的IP地址集合，所有数据归并到一起，最终形成了全世界重要网站的IP地址资源库。

与现有技术相比，本发明所提供的一种大型网站的关键特征知识库的建立方法，采用主动爬取的方式，但与传统的方式不同之处在于充分利用了互联网公开资源的主站点域名、网页形式的子站点域名、证书形式的子站点域名，并结合分布式部署的多点DNS爬虫实现IP地址的及时有效爬取。

附图说明

图1为本发明实施例所述的大型网站的关键特征知识库的建立方法的流程示意图。

图2为本发明实施例所述的大型网站主站域名及关联属性信息采集的流程示意图。

图3为本发明实施例所述的大型网站子域名及关联属性信息采集的流程示意图。

图4为本发明实施例所述的IP地址提取的流程示意图。

图5为本发明实施例所述的域名知识库生成的流程示意图。

图6为本发明实施例所述的形成的域名知识库的结构示意图。

图7为本发明实施例所述的IP地址知识库生成的流程示意图。

图8为本发明实施例所述的形成的IP地址知识库的结构示意图。

图9为本发明实施例所述的大型网站的关键特征知识库建立总体流程示意图。

具体实施方式

以下结合附图对本发明作进一步详细说明，但不作为对本发明的限定。

在对本发明实施例所公开的一种大型网站的关键特征知识库的建立方法进行叙述之前，先对本实施例中涉及的如下技术名词进行解释。

1、定义

1.1互联网网站

本文中所指的互联网网站是指通过HTTP协议或HTTPS协议以域名形式进行访问的网站。如百度、新浪、谷歌、脸书等。

1.2大型互联网网站

本文中所指的大型互联网网站是指alexa排名比较靠前的互联网网站，具体来说，是alexa.chinaz.com收录的网站。简称大型网站。

1.3主站点域名

本文中所指的主站点域名是指网站的主站地址，例如：百度的主站点域名为***.com。

1.4网页形式的子站点域名

本文中所指的网页形式的子站点域名是指在alexa.chinaz.com或www.123cha.com上与主站点域名相关联的所有下级域名，例如：百度的子站点域名为：www.***.com、app.***.com等。

1.5证书形式的子站点域名

本文中所指的证书形式的子站点域名是指在大型互联网网站的证书上提取出来的子站点域名，例如：百度的证书子站点域名为：www.***.cn、baifubao.com等。针对有些不是采用https方式访问的大型互联网网站，不存在证书形式的子站点域名。

1.6域名库

本文中所指的域名库是指对应于大型互联网网站的主站点域名、网页形式的子站点域名、证书形式的子站点域名的全体构成的具有关联关系的集合。

1.7IP地址库

本文中所指的IP地址库是指对应于域名库通过DNS解析出来的所有IP地址全体按照关联关系形成的集合。

2、要素分析

大型互联网网站的域名由主站点域名、网页形式的子站点域名、证书形式的子站点域名组成，而每一级域名都有对应的IP地址，因此，要最终形成域名库和IP地址库，核心的要素包括如下2.1～2.5所述：

2.1大型互联网网站

大型互联网网站采用alexa.chinaz.com中列举的所有网站。

2.2主站点域名

主站点域名采用alexa.chinaz.com中列举的网站对应的主站点域名。

2.3网页形式的子站点域名

网页形式的子站点域名采用alexa.chinaz.com或www.123cha.com中主站点域名对应的子站点域名，一般来说这两个网站上列举的子站点域名完全一致，因此，以alexa.chinaz.com中的为准，但有时由于某些原因alexa.chinaz.com不能访问，这时以www.123cha.com中的为准。

2.4证书形式的子站点域名

针对采用安全链接https协议访问的大型互联网网站主站点域名，提取证书中的主体名称和主体备用名称，构成该主站点域名的证书子站点域名。

2.5IP地址

针对以上每类域名，在分布式DNS解析平台的各个解析节点上进行DNS解析，获取所有可能的IP地址，并将IP地址进行归并存储。

参照图1所示，下面来对本发明实施例中的大型网站的关键特征知识库的构建过程进行详细描述。

步骤101，大型网站主域名及关联属性信息的采集

通过http爬虫连接alexa.chinaz.com网站，依次按照每个地区获取大型网站的主域名，然后在首页针对每个域名进行“查看分析”，获取该主域名的关联属性信息，具体流程如图2所示：

1、爬虫(http)访问排名网站alexa.chinaz.com；

2、访问“地区”页；

3、采集118个国家的网站主站点，从“中国”开始，一直遍历到“波斯尼亚和黑塞尔维亚”，共118个国家；

a)针对每个国家，进入下级页面；

b)提取当前页中的25个“主域名”和对应的“网站简介”信息；

c)点击页面中的下一页，如b)提取信息，直到遍历完20页；

d)获得当前国家的500(25个/页*20页)个“主域名”和对应的“网站简介”信息；

4、共获得5.9万个“主域名”信息、对应“网站简介”信息和“国家”信息；

5、针对4中的结果，按照“主域名”进行去重归并，形成M(小于5.9万，不同的国家可能会有同一个主域名)个主域名构成的信息列表；

6、针对5中的每个主域名，在alexa.chinaz.com首页中输入主域名，并点击“查看分析”，在进入的页面中获取主域名关联的“网站名称”、“综合排名”、“网站简介”、“反向链接”、“访问速度”、“网站站长”、“联系地址”等信息；由于某种原因，有些特定的主域名可能不能访问，此时可访问www.123cha.com获取以上主域名关联信息；

7、形成M个主域名及其关联属性信息的总表。

步骤102、子域名及其关联属性信息的采集

网站的主站点相关联的子站点域名有两个采集渠道，一个是通过alexa.chinaz.com或www.123cha.com等网页进行查询获得，另一个，如果网站支持SSL方式访问，那么从网站的证书中也可以提取子站点域名。具体流程如图3所示。

1、针对去重后的主域名列表中的每个域名：

a)在alexa.chinaz.com上查询其对应的子站点域名信息；

b)如果alexa.chinaz.com不能查询，则在www.123cha.com上进行查询；其中，在使用alexa.chinaz.com进行查询时，提取“子站点被访问比例/人均页面浏览量”栏目中的“被访问网址”、“近月网站访问比例”、“近月页面访问比例”、“人均页面浏览量”，形成该主域名关联的子域名列表，然后继续遍历其它主站点域名的子域名。在使用www.123cha.com进行“123查！”时，提取“计入Alexa统计的下属子站点被访问比例及人均页面浏览量列表”栏目中的“关联网址”、“网站访问比例”、“页面访问比例”、“页面浏览量”。

c)基于以上a)或b)搜集该主域名的网页子域名列表；

d)进行https访问主域名，如果能够访问，提取证书中的子域名列表；

其中，先提取SSL证书中的“使用者”、“使用者备用名称”，然后提取“使用者”中的“CN”字段，接着提取“使用者备用名称”中的“DNS Name＝”后面的子域名串列表，最后形成该主域名关联的证书子域名列表。

2、针对主域名将网页子域名、证书子域名进行归并关联，形成所有主域名站点的子域名信息列表。

步骤103、IP地址的提取

针对网站主域名总表和对应的子域名总表中的每个域名，在分布到各地各个运营商的解析节点上进行DNS解析，并获得对应的IP地址信息，将所有的IP地址信息进行汇总收集，形成IP地址总表。具体流程如图4所示：

1、总控节点将主站点域名总部和子站点域名总部作为一个域名列表发送给各个解析节点；

2、解析节点获取域名列表中的域名；

3、对域名进行DNS解析，获得域名对应的IP地址；

4、总控节点搜集每一个解析点的数据，进行归纳，形成所有域名对应的IP地址总表。

步骤104、将采集的大型互联网网站的主站点域名和子站点域名进行关联；步骤105、生成域名知识库。其中，步骤104和105对域名知识库的建立和生成步骤可放在步骤103之前。

基于主站点域名、子站点域名及其相关联的属性信息，通过去重、关联形成网站的树状域名知识库，具体流程参照图5所示：

1、输入主站点域名、子站点域名列表；

2、对主站点域名去重归并，针对不同国家中出现的统一域名按照主体所在的国家确定；

3、对子域名去重归并；

4、将去重归并后的主站点域名和子站点域名关联；

5、形成网站的树状域名知识库。

其中，最终形成的知识库结构如图6所示。

图6中，该知识库包含M个主站域名，每个主站域名搜集了网站名称、综合排名、所属国家、网站简介、反向链接、访问速度、网站站长和联系地址等数据特征，每一个主站点域名下包含N个子站点域名，每一个子站点域名都搜集了网站访问比例、页面访问比例和页面浏览量等数据特征。

步骤106、将采集的主站点域名IP、子站点域名IP进行集合归并，形成大型互联网网站的IP地址知识库。

基于网站域名知识库中的每个域名和所有解析节点返回的IP地址列表，进行IP地址去重处理，形成树状的网站IP地址知识库。本发明在全国31省3大运营商共计93个点上的云主机(取决于关注的域名对应的IP地址的地域范围的业务需要，如果想要掌握和了解国外的IP地址解析情况，可以通过租用相应国家的不同地区、不同运营商的云主机实现)，进行基于以上每个域名知识库中域名(包括主站点域名、子站点域名)的DNS解析访问，并获取解析得到的IP地址数据。针对每个大型网站所关联的主站点域名、每个子站点域名，针对不同地点不同运营商返回的IP地址集合进行集合求并运算，形成每个大型网站的IP地址集合，所有数据归并到一起，最终形成了全世界重要网站的IP地址资源库。

具体流程如图7所示。

1、输入网站域名知识库、IP地址列表；

2、针对每个域名(包括主站点域名和子站点域名)所有的解析节点的IP地址数据进行去重归并；

3、IP地址与域名(包括主站点域名和子站点域名)关联；

4、形成网站的树状IP地址知识库。

其中，所形成的知识库结构如图8所示：

图8中，知识库涵盖M个主站域名，每个主站域名解析形成有多个IP地址，每个主站域名又包含N个子站点域名，每个子站点域名解析形成有多个IP地址。

基于上述步骤101～105所述，参照图9所示，本发明的方法还包括：定期更新子站点域名及IP地址数据，保证知识库数据的实时性。

本发明实施例公开的一种大型网站的关键特征知识库的建立方法能够在利用互联网公开资源的前提下，快速积累和建立大型网站的关键特征知识库，从而可以为大型网站的基础资源管理、网络安全管理和信息安全管理提供基础数据支撑。

上述说明示出并描述了本发明的若干推荐实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述指导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种大型网站的关键特征知识库的建立方法，其特征在于，所述方法包括：

采集大型互联网网站的主站点域名信息及其关联属性信息；

采集大型互联网网站的网页形式及证书形式的子站点域名信息；

将大型互联网网站的主站点域名和子站点域名进行关联，形成大型互联网网站的域名知识库；

采集大型互联网网站的主站点域名、子站点域名对应的IP地址信息；

将主站点域名IP、子站点域名IP进行集合归并，形成大型互联网网站的IP地址知识库。

2.如权利要求1所述的大型网站的关键特征知识库的建立方法，其特征在于，所述主站点域名信息、主站点的关联属性信息，子站点域名的采集过程包括：

从域名排名网站上按照地区维度，依次采集每个国家的大型网站的主站点列表；

基于以上列表进行主站点域名的去重处理，形成无重的大型网站主站点域名总表；

基于每个主站点域名总表中的域名在域名排名网站上获取网页形式的子站点的域名列表；

基于每个主站点域名总表中的域名获取其网站对应的证书信息，并提取证书子站点域名，获取证书形式的子站点域名列表。

3.如权利要求2所述的大型网站的关键特征知识库的建立方法，其特征在于，每个主站点域名的关联属性信息包括：网站名称、综合排名、所属国家、网站简介、反向链接、访问速度、网站站长、联系地址。

4.如权利要求2所述的大型网站的关键特征知识库的建立方法，其特征在于，网页形式的子站点域名列表信息包括：子站点域名、网站访问比例、页面访问比例、人均页面浏览量。

5.如权利要求2所述的大型网站的关键特征知识库的建立方法，其特征在于，获取证书形式的子站点域名列表过程包括：

基于每个主站点域名进行https访问，如果是安全网站链接，则获取证书信息，并提取其中的“使用者”和“使用者备用名称”对应的子站点域名列表信息。

6.如权利要求1所述的大型网站的关键特征知识库的建立方法，其特征在于，所述方法还包括：定期更新子站点域名及IP地址数据，保证知识库数据的实时性。

7.如权利要求1所述的大型网站的关键特征知识库的建立方法，其特征在于，获取各站点的IP地址信息的过程具体为：

总控节点将主站点域名总部和子站点域名总部作为一个域名列表发送给各个解析节点；

解析节点获取域名列表中的域名；

对域名进行DNS解析，获得域名对应的IP地址；

总控节点搜集每一个解析点的数据，进行归纳，形成所有域名对应的IP地址总表。

8.如权利要求1所述的大型网站的关键特征知识库的建立方法，其特征在于，形成所述域名知识库的过程具体为：

输入主站点域名、子站点域名列表；

对主站点域名去重归并，针对不同国家中出现的统一域名按照主体所在的国家确定；

对子域名去重归并；

将去重归并后的主站点域名和子站点域名关联；

形成网站的树状域名知识库。

9.如权利要求1所述的大型网站的关键特征知识库的建立方法，其特征在于，形成所述IP地址知识库的过程具体为：

输入网站域名知识库、IP地址列表；

针对每个域名(包括主站点域名和子站点域名)所有的解析节点的IP地址数据进行去重归并；

IP地址与域名(包括主站点域名和子站点域名)关联；

形成网站的树状IP地址知识库。

10.如权利要求2所述的大型网站的关键特征知识库的建立方法，其特征在于，所述域名排名网站为：alexa.chinaz.com或www.123cha.com。