CN108900581A - 一种大型网站的关键特征知识库的建立方法 - Google Patents

一种大型网站的关键特征知识库的建立方法 Download PDF

Info

Publication number
CN108900581A
CN108900581A CN201810599236.XA CN201810599236A CN108900581A CN 108900581 A CN108900581 A CN 108900581A CN 201810599236 A CN201810599236 A CN 201810599236A CN 108900581 A CN108900581 A CN 108900581A
Authority
CN
China
Prior art keywords
domain name
website
knowledge base
scale
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810599236.XA
Other languages
English (en)
Inventor
张振涛
王小华
陈晓光
孟艳青
金红
杨满智
刘长永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heng Jia Jia (beijing) Technology Co Ltd
Eversec Beijing Technology Co Ltd
Original Assignee
Heng Jia Jia (beijing) Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heng Jia Jia (beijing) Technology Co Ltd filed Critical Heng Jia Jia (beijing) Technology Co Ltd
Priority to CN201810599236.XA priority Critical patent/CN108900581A/zh
Publication of CN108900581A publication Critical patent/CN108900581A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/09Mapping addresses
    • H04L61/10Mapping addresses of different types
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L61/00Network arrangements, protocols or services for addressing or naming
    • H04L61/45Network directories; Name-to-address mapping
    • H04L61/4505Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
    • H04L61/4511Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种大型网站的关键特征知识库的建立方法,所述方法包括:采集大型互联网网站的主站点域名信息及其关联属性信息;采集大型互联网网站的网页形式及证书形式的子站点域名信息;将大型互联网网站的主站点域名和子站点域名进行关联,形成大型互联网网站的域名知识库;采集大型互联网网站的主站点域名、子站点域名对应的IP地址信息;将主站点域名IP、子站点域名IP进行集合归并,形成大型互联网网站的IP地址知识库。本发明解决现有的主动爬取方式无法对大型互联网网站的域名和IP信息进行有效刻划的问题。

Description

一种大型网站的关键特征知识库的建立方法
技术领域
本发明属于互联网和大数据应用技术领域,具体涉及一种大型网站的关键特征知识库的建立方法。
背景技术
互联网迅猛发展,大型网站在互联网中无论是用户规模、访问频度、社会影响都是具有重要的作用。随着网络安全、信息安全的进一步发展,大型互联网网站的安全问题和问题日益突出,而对大型网站进行有效管理的基础是其域名特征和IP地址特征,大型网站的域名数量和IP地址数量一般来说数量较多,而且也会随着不同的访问者的地域和时段的变化体现出不断变化的特征。针对大型网站的域名和IP地址进行收集有两种常见的方法:
方法一:通过流量进行采集,提取域名和IP地址信息,并逐渐形成域名特征库和IP地址特征库,但这种方法有两大缺陷,一是需要部署的采集设备数量庞大、投资极高;二是只有发生访问行为的域名和IP地址才能被采集,知识库收敛时间不可控。
方法二:通过主动爬取的方式,提取大型网站的域名和IP地址信息,并逐渐形成域名特征库和IP地址库。但是,现有如何根据公开资源对大型互联网网站的域名特征和IP特征进行有效刻划,是目前亟待解决的问题。
发明内容
本发明所要解决的技术问题在于,提供一种大型网站的关键特征知识库的建立方法,以解决现有的主动爬取方式无法对大型互联网网站的域名和IP信息进行有效刻划的问题。
为解决上述技术问题,本发明所采用的技术方案如下:
一种大型网站的关键特征知识库的建立方法,所述方法包括:
自动采集大型互联网网站的主站点域名信息;
自动采集大型互联网网站的关联属性信息;
自动采集大型互联网网站的网页形式的子站点域名信息;
自动采集大型互联网网站的证书形式的子站点域名信息;
将大型互联网网站的主站点域名、网页形式的子站点域名、证书形式的子站点域名进行关联,形成大型互联网网站的域名知识库;
自动采集大型互联网网站的主站点域名、子站点域名(包括网页形式和证书形式)对应的IP地址信息;
将大型互联网网站的主站点域名IP、子站点域名IP进行集合归并,形成大型互联网网站的IP地址知识库;
定期(日、周)更新子站点域名(包括网页形式和证书形式)、IP地址等数据,保证知识库数据的实时性。
进一步地,所述采集网站主站点信息,共计包括118个国家,每个国家总计500个网站,总计形成世界范围内的5.9万个大型网站的主站点域名列表,并进行去重处理,形成无重的大型网站主站点域名总表。
进一步地,基于每个主站点域名在alexa.chinaz.com(或www.123cha.com)上获取网站的关联属性信息,具体包括:网站名称、综合排名、所属国家、网站简介、反向链接、访问速度、网站站长、联系地址等。
基于每个主站点域名在alexa.chinaz.com(或www.123cha.com)上获取网页形式的子站点域名列表信息,具体包括:子站点域名、网站访问比例、页面访问比例、人均页面浏览量等。
基于每个主站点域名获取其网站对应的证书信息,并提取子站点域名列表,具体为:基于每个主站点域名进行https访问,如果是安全网站链接,则获取证书信息,并提取其中的“使用者”和“使用者备用名称”对应的子站点域名列表信息。
基于每个主站点域名,将子站点域名(包括网页形式和证书形式)列表与其进行关联,形成每个主站点域名对应的大型网站的域名知识库,具体为:针对每个大型网站,建立主站点域名和子站点域名的对应关系,所有的大型网站对应的所有主站点域名、子站点域名及其关联属性信息共同构成了全世界重要的大型网站的整体域名知识库。
基于每个主站点域名及其关联的子站点域名(包括网页形式和证书形式),通过DNS解析访问获取IP地址数据,具体为:在全国31省3大运营商共计93个点上的云主机(取决于关注的域名对应的IP地址的地域范围的业务需要,如果想要掌握和了解国外的IP地址解析情况,可以通过租用相应国家的不同地区、不同运营商的云主机实现),进行基于以上每个域名知识库中域名(包括主站点域名、子站点域名)的DNS解析访问,并获取解析得到的IP地址数据。
基于DNS解析访问获得的IP地址数据进行集合归并,形成大型网站的IP地址列表知识库,具体为:针对每个大型网站所关联的主站点域名、每个子站点域名,针对不同地点不同运营商返回的IP地址集合进行集合求并运算,形成每个大型网站的IP地址集合,所有数据归并到一起,最终形成了全世界重要网站的IP地址资源库。
与现有技术相比,本发明所提供的一种大型网站的关键特征知识库的建立方法,采用主动爬取的方式,但与传统的方式不同之处在于充分利用了互联网公开资源的主站点域名、网页形式的子站点域名、证书形式的子站点域名,并结合分布式部署的多点DNS爬虫实现IP地址的及时有效爬取。
附图说明
图1为本发明实施例所述的大型网站的关键特征知识库的建立方法的流程示意图。
图2为本发明实施例所述的大型网站主站域名及关联属性信息采集的流程示意图。
图3为本发明实施例所述的大型网站子域名及关联属性信息采集的流程示意图。
图4为本发明实施例所述的IP地址提取的流程示意图。
图5为本发明实施例所述的域名知识库生成的流程示意图。
图6为本发明实施例所述的形成的域名知识库的结构示意图。
图7为本发明实施例所述的IP地址知识库生成的流程示意图。
图8为本发明实施例所述的形成的IP地址知识库的结构示意图。
图9为本发明实施例所述的大型网站的关键特征知识库建立总体流程示意图。
具体实施方式
以下结合附图对本发明作进一步详细说明,但不作为对本发明的限定。
在对本发明实施例所公开的一种大型网站的关键特征知识库的建立方法进行叙述之前,先对本实施例中涉及的如下技术名词进行解释。
1、定义
1.1互联网网站
本文中所指的互联网网站是指通过HTTP协议或HTTPS协议以域名形式进行访问的网站。如百度、新浪、谷歌、脸书等。
1.2大型互联网网站
本文中所指的大型互联网网站是指alexa排名比较靠前的互联网网站,具体来说,是alexa.chinaz.com收录的网站。简称大型网站。
1.3主站点域名
本文中所指的主站点域名是指网站的主站地址,例如:百度的主站点域名为***.com。
1.4网页形式的子站点域名
本文中所指的网页形式的子站点域名是指在alexa.chinaz.com或www.123cha.com上与主站点域名相关联的所有下级域名,例如:百度的子站点域名为:www.***.com、app.***.com等。
1.5证书形式的子站点域名
本文中所指的证书形式的子站点域名是指在大型互联网网站的证书上提取出来的子站点域名,例如:百度的证书子站点域名为:www.***.cn、baifubao.com等。针对有些不是采用https方式访问的大型互联网网站,不存在证书形式的子站点域名。
1.6域名库
本文中所指的域名库是指对应于大型互联网网站的主站点域名、网页形式的子站点域名、证书形式的子站点域名的全体构成的具有关联关系的集合。
1.7IP地址库
本文中所指的IP地址库是指对应于域名库通过DNS解析出来的所有IP地址全体按照关联关系形成的集合。
2、要素分析
大型互联网网站的域名由主站点域名、网页形式的子站点域名、证书形式的子站点域名组成,而每一级域名都有对应的IP地址,因此,要最终形成域名库和IP地址库,核心的要素包括如下2.1~2.5所述:
2.1大型互联网网站
大型互联网网站采用alexa.chinaz.com中列举的所有网站。
2.2主站点域名
主站点域名采用alexa.chinaz.com中列举的网站对应的主站点域名。
2.3网页形式的子站点域名
网页形式的子站点域名采用alexa.chinaz.com或www.123cha.com中主站点域名对应的子站点域名,一般来说这两个网站上列举的子站点域名完全一致,因此,以alexa.chinaz.com中的为准,但有时由于某些原因alexa.chinaz.com不能访问,这时以www.123cha.com中的为准。
2.4证书形式的子站点域名
针对采用安全链接https协议访问的大型互联网网站主站点域名,提取证书中的主体名称和主体备用名称,构成该主站点域名的证书子站点域名。
2.5IP地址
针对以上每类域名,在分布式DNS解析平台的各个解析节点上进行DNS解析,获取所有可能的IP地址,并将IP地址进行归并存储。
参照图1所示,下面来对本发明实施例中的大型网站的关键特征知识库的构建过程进行详细描述。
步骤101,大型网站主域名及关联属性信息的采集
通过http爬虫连接alexa.chinaz.com网站,依次按照每个地区获取大型网站的主域名,然后在首页针对每个域名进行“查看分析”,获取该主域名的关联属性信息,具体流程如图2所示:
1、爬虫(http)访问排名网站alexa.chinaz.com;
2、访问“地区”页;
3、采集118个国家的网站主站点,从“中国”开始,一直遍历到“波斯尼亚和黑塞尔维亚”,共118个国家;
a)针对每个国家,进入下级页面;
b)提取当前页中的25个“主域名”和对应的“网站简介”信息;
c)点击页面中的下一页,如b)提取信息,直到遍历完20页;
d)获得当前国家的500(25个/页*20页)个“主域名”和对应的“网站简介”信息;
4、共获得5.9万个“主域名”信息、对应“网站简介”信息和“国家”信息;
5、针对4中的结果,按照“主域名”进行去重归并,形成M(小于5.9万,不同的国家可能会有同一个主域名)个主域名构成的信息列表;
6、针对5中的每个主域名,在alexa.chinaz.com首页中输入主域名,并点击“查看分析”,在进入的页面中获取主域名关联的“网站名称”、“综合排名”、“网站简介”、“反向链接”、“访问速度”、“网站站长”、“联系地址”等信息;由于某种原因,有些特定的主域名可能不能访问,此时可访问www.123cha.com获取以上主域名关联信息;
7、形成M个主域名及其关联属性信息的总表。
步骤102、子域名及其关联属性信息的采集
网站的主站点相关联的子站点域名有两个采集渠道,一个是通过alexa.chinaz.com或www.123cha.com等网页进行查询获得,另一个,如果网站支持SSL方式访问,那么从网站的证书中也可以提取子站点域名。具体流程如图3所示。
1、针对去重后的主域名列表中的每个域名:
a)在alexa.chinaz.com上查询其对应的子站点域名信息;
b)如果alexa.chinaz.com不能查询,则在www.123cha.com上进行查询;其中,在使用alexa.chinaz.com进行查询时,提取“子站点被访问比例/人均页面浏览量”栏目中的“被访问网址”、“近月网站访问比例”、“近月页面访问比例”、“人均页面浏览量”,形成该主域名关联的子域名列表,然后继续遍历其它主站点域名的子域名。在使用www.123cha.com进行“123查!”时,提取“计入Alexa统计的下属子站点被访问比例及人均页面浏览量列表”栏目中的“关联网址”、“网站访问比例”、“页面访问比例”、“页面浏览量”。
c)基于以上a)或b)搜集该主域名的网页子域名列表;
d)进行https访问主域名,如果能够访问,提取证书中的子域名列表;
其中,先提取SSL证书中的“使用者”、“使用者备用名称”,然后提取“使用者”中的“CN”字段,接着提取“使用者备用名称”中的“DNS Name=”后面的子域名串列表,最后形成该主域名关联的证书子域名列表。
2、针对主域名将网页子域名、证书子域名进行归并关联,形成所有主域名站点的子域名信息列表。
步骤103、IP地址的提取
针对网站主域名总表和对应的子域名总表中的每个域名,在分布到各地各个运营商的解析节点上进行DNS解析,并获得对应的IP地址信息,将所有的IP地址信息进行汇总收集,形成IP地址总表。具体流程如图4所示:
1、总控节点将主站点域名总部和子站点域名总部作为一个域名列表发送给各个解析节点;
2、解析节点获取域名列表中的域名;
3、对域名进行DNS解析,获得域名对应的IP地址;
4、总控节点搜集每一个解析点的数据,进行归纳,形成所有域名对应的IP地址总表。
步骤104、将采集的大型互联网网站的主站点域名和子站点域名进行关联;步骤105、生成域名知识库。其中,步骤104和105对域名知识库的建立和生成步骤可放在步骤103之前。
基于主站点域名、子站点域名及其相关联的属性信息,通过去重、关联形成网站的树状域名知识库,具体流程参照图5所示:
1、输入主站点域名、子站点域名列表;
2、对主站点域名去重归并,针对不同国家中出现的统一域名按照主体所在的国家确定;
3、对子域名去重归并;
4、将去重归并后的主站点域名和子站点域名关联;
5、形成网站的树状域名知识库。
其中,最终形成的知识库结构如图6所示。
图6中,该知识库包含M个主站域名,每个主站域名搜集了网站名称、综合排名、所属国家、网站简介、反向链接、访问速度、网站站长和联系地址等数据特征,每一个主站点域名下包含N个子站点域名,每一个子站点域名都搜集了网站访问比例、页面访问比例和页面浏览量等数据特征。
步骤106、将采集的主站点域名IP、子站点域名IP进行集合归并,形成大型互联网网站的IP地址知识库。
基于网站域名知识库中的每个域名和所有解析节点返回的IP地址列表,进行IP地址去重处理,形成树状的网站IP地址知识库。本发明在全国31省3大运营商共计93个点上的云主机(取决于关注的域名对应的IP地址的地域范围的业务需要,如果想要掌握和了解国外的IP地址解析情况,可以通过租用相应国家的不同地区、不同运营商的云主机实现),进行基于以上每个域名知识库中域名(包括主站点域名、子站点域名)的DNS解析访问,并获取解析得到的IP地址数据。针对每个大型网站所关联的主站点域名、每个子站点域名,针对不同地点不同运营商返回的IP地址集合进行集合求并运算,形成每个大型网站的IP地址集合,所有数据归并到一起,最终形成了全世界重要网站的IP地址资源库。
具体流程如图7所示。
1、输入网站域名知识库、IP地址列表;
2、针对每个域名(包括主站点域名和子站点域名)所有的解析节点的IP地址数据进行去重归并;
3、IP地址与域名(包括主站点域名和子站点域名)关联;
4、形成网站的树状IP地址知识库。
其中,所形成的知识库结构如图8所示:
图8中,知识库涵盖M个主站域名,每个主站域名解析形成有多个IP地址,每个主站域名又包含N个子站点域名,每个子站点域名解析形成有多个IP地址。
基于上述步骤101~105所述,参照图9所示,本发明的方法还包括:定期更新子站点域名及IP地址数据,保证知识库数据的实时性。
本发明实施例公开的一种大型网站的关键特征知识库的建立方法能够在利用互联网公开资源的前提下,快速积累和建立大型网站的关键特征知识库,从而可以为大型网站的基础资源管理、网络安全管理和信息安全管理提供基础数据支撑。
上述说明示出并描述了本发明的若干推荐实施例,但如前所述,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述指导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。

Claims (10)

1.一种大型网站的关键特征知识库的建立方法,其特征在于,所述方法包括:
采集大型互联网网站的主站点域名信息及其关联属性信息;
采集大型互联网网站的网页形式及证书形式的子站点域名信息;
将大型互联网网站的主站点域名和子站点域名进行关联,形成大型互联网网站的域名知识库;
采集大型互联网网站的主站点域名、子站点域名对应的IP地址信息;
将主站点域名IP、子站点域名IP进行集合归并,形成大型互联网网站的IP地址知识库。
2.如权利要求1所述的大型网站的关键特征知识库的建立方法,其特征在于,所述主站点域名信息、主站点的关联属性信息,子站点域名的采集过程包括:
从域名排名网站上按照地区维度,依次采集每个国家的大型网站的主站点列表;
基于以上列表进行主站点域名的去重处理,形成无重的大型网站主站点域名总表;
基于每个主站点域名总表中的域名在域名排名网站上获取网页形式的子站点的域名列表;
基于每个主站点域名总表中的域名获取其网站对应的证书信息,并提取证书子站点域名,获取证书形式的子站点域名列表。
3.如权利要求2所述的大型网站的关键特征知识库的建立方法,其特征在于,每个主站点域名的关联属性信息包括:网站名称、综合排名、所属国家、网站简介、反向链接、访问速度、网站站长、联系地址。
4.如权利要求2所述的大型网站的关键特征知识库的建立方法,其特征在于,网页形式的子站点域名列表信息包括:子站点域名、网站访问比例、页面访问比例、人均页面浏览量。
5.如权利要求2所述的大型网站的关键特征知识库的建立方法,其特征在于,获取证书形式的子站点域名列表过程包括:
基于每个主站点域名进行https访问,如果是安全网站链接,则获取证书信息,并提取其中的“使用者”和“使用者备用名称”对应的子站点域名列表信息。
6.如权利要求1所述的大型网站的关键特征知识库的建立方法,其特征在于,所述方法还包括:定期更新子站点域名及IP地址数据,保证知识库数据的实时性。
7.如权利要求1所述的大型网站的关键特征知识库的建立方法,其特征在于,获取各站点的IP地址信息的过程具体为:
总控节点将主站点域名总部和子站点域名总部作为一个域名列表发送给各个解析节点;
解析节点获取域名列表中的域名;
对域名进行DNS解析,获得域名对应的IP地址;
总控节点搜集每一个解析点的数据,进行归纳,形成所有域名对应的IP地址总表。
8.如权利要求1所述的大型网站的关键特征知识库的建立方法,其特征在于,形成所述域名知识库的过程具体为:
输入主站点域名、子站点域名列表;
对主站点域名去重归并,针对不同国家中出现的统一域名按照主体所在的国家确定;
对子域名去重归并;
将去重归并后的主站点域名和子站点域名关联;
形成网站的树状域名知识库。
9.如权利要求1所述的大型网站的关键特征知识库的建立方法,其特征在于,形成所述IP地址知识库的过程具体为:
输入网站域名知识库、IP地址列表;
针对每个域名(包括主站点域名和子站点域名)所有的解析节点的IP地址数据进行去重归并;
IP地址与域名(包括主站点域名和子站点域名)关联;
形成网站的树状IP地址知识库。
10.如权利要求2所述的大型网站的关键特征知识库的建立方法,其特征在于,所述域名排名网站为:alexa.chinaz.com或www.123cha.com。
CN201810599236.XA 2018-06-12 2018-06-12 一种大型网站的关键特征知识库的建立方法 Pending CN108900581A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810599236.XA CN108900581A (zh) 2018-06-12 2018-06-12 一种大型网站的关键特征知识库的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810599236.XA CN108900581A (zh) 2018-06-12 2018-06-12 一种大型网站的关键特征知识库的建立方法

Publications (1)

Publication Number Publication Date
CN108900581A true CN108900581A (zh) 2018-11-27

Family

ID=64344570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810599236.XA Pending CN108900581A (zh) 2018-06-12 2018-06-12 一种大型网站的关键特征知识库的建立方法

Country Status (1)

Country Link
CN (1) CN108900581A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245281A (zh) * 2019-05-22 2019-09-17 中国平安人寿保险股份有限公司 互联网资产信息收集方法及终端设备
CN110798545A (zh) * 2019-11-05 2020-02-14 中国人民解放军国防科技大学 一种基于Web的域名数据获取方法
CN112015910A (zh) * 2020-08-20 2020-12-01 恒安嘉新(北京)科技股份公司 域名知识库的生成方法、装置、计算机设备及存储介质
CN113079034A (zh) * 2021-03-10 2021-07-06 国家计算机网络与信息安全管理中心 互联网基础资源及其关系模型、及模型的构建、应用方法
CN115378905A (zh) * 2022-07-22 2022-11-22 北京华顺信安科技有限公司 一种域名收集方法、装置、设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571404A (zh) * 2010-12-31 2012-07-11 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计***
US20130111040A1 (en) * 2011-10-26 2013-05-02 Ramprasad Vempati Auto-Split DNS
CN103399871A (zh) * 2013-07-09 2013-11-20 北京奇虎科技有限公司 获取一个主域名相关联的二级域名信息的设备和方法
CN105407186A (zh) * 2015-12-23 2016-03-16 北京奇虎科技有限公司 获取子域名的方法和装置
CN107666444A (zh) * 2017-10-10 2018-02-06 网宿科技股份有限公司 一种数据流量路由的方法和***

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102571404A (zh) * 2010-12-31 2012-07-11 北京新媒传信科技有限公司 网站访问统计方法和网站访问统计***
US20130111040A1 (en) * 2011-10-26 2013-05-02 Ramprasad Vempati Auto-Split DNS
CN103399871A (zh) * 2013-07-09 2013-11-20 北京奇虎科技有限公司 获取一个主域名相关联的二级域名信息的设备和方法
CN105407186A (zh) * 2015-12-23 2016-03-16 北京奇虎科技有限公司 获取子域名的方法和装置
CN107666444A (zh) * 2017-10-10 2018-02-06 网宿科技股份有限公司 一种数据流量路由的方法和***

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
网易安全应急响应中心(企业账号): "子域名搜集思路与技巧梳理", 《FREEBUF.COM》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245281A (zh) * 2019-05-22 2019-09-17 中国平安人寿保险股份有限公司 互联网资产信息收集方法及终端设备
CN110245281B (zh) * 2019-05-22 2023-07-21 中国平安人寿保险股份有限公司 互联网资产信息收集方法及终端设备
CN110798545A (zh) * 2019-11-05 2020-02-14 中国人民解放军国防科技大学 一种基于Web的域名数据获取方法
CN110798545B (zh) * 2019-11-05 2020-08-18 中国人民解放军国防科技大学 一种基于Web的域名数据获取方法
CN112015910A (zh) * 2020-08-20 2020-12-01 恒安嘉新(北京)科技股份公司 域名知识库的生成方法、装置、计算机设备及存储介质
CN112015910B (zh) * 2020-08-20 2024-05-17 恒安嘉新(北京)科技股份公司 域名知识库的生成方法、装置、计算机设备及存储介质
CN113079034A (zh) * 2021-03-10 2021-07-06 国家计算机网络与信息安全管理中心 互联网基础资源及其关系模型、及模型的构建、应用方法
CN113079034B (zh) * 2021-03-10 2022-12-20 国家计算机网络与信息安全管理中心 互联网基础资源及其关系模型、及模型的构建、应用方法
CN115378905A (zh) * 2022-07-22 2022-11-22 北京华顺信安科技有限公司 一种域名收集方法、装置、设备及计算机可读存储介质
CN115378905B (zh) * 2022-07-22 2023-11-14 北京华顺信安科技有限公司 一种域名收集方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN108900581A (zh) 一种大型网站的关键特征知识库的建立方法
CN100559374C (zh) 网页信息单元截取、合并的方法
CN107241319A (zh) 基于vpn的分布式网络爬虫***及调度方法
O'callaghan et al. Uncovering the wider structure of extreme right communities spanning popular online networks
CN103546326B (zh) 一种网站流量统计的方法
CN103294732B (zh) 网页抓取方法及爬虫
CN101370024A (zh) 信息的分布式采集方法及***
CN109905288A (zh) 一种应用服务分类方法及装置
US20170053031A1 (en) Information forecast and acquisition method based on webpage link parameter analysis
CN106790530A (zh) 域名服务的跟踪和聚合方法
CN109241292A (zh) 一种基于主被动数据建立域名服务器体系知识图谱的方法
CN103051637A (zh) 用户识别方法与装置
CN107547671A (zh) 一种url匹配方法及装置
CN105787074A (zh) 基于用户线下lbs轨迹结合线上浏览行为的大数据***
CN107438111B (zh) 域名查询的方法以及域名代理的方法、服务器和***
Zhu et al. A random digit search (RDS) method for sampling of blogs and other user-generated content
CN106776693A (zh) 一种网站数据采集方法及装置
CN109165334A (zh) 一种建立cdn厂家基础知识库的方法
CN106649476A (zh) 一种 ip 地址信息查询***
JP2019514303A (ja) インターネットトラフィックの送信元と宛先の分析方法
CN103414608A (zh) 快速的web流量采集统计***和方法
CN107846460A (zh) 一种军事信息***信息流的复现***及方法
CN110825950B (zh) 一种基于元搜索的隐藏服务发现方法
Kim et al. Implementation of hybrid P2P networking distributed web crawler using AWS for smart work news big data
Consoli et al. An urban fault reporting and management platform for smart cities

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181127