CN113676374A - 目标网站线索检测方法、装置、计算机设备和介质 - Google Patents
目标网站线索检测方法、装置、计算机设备和介质 Download PDFInfo
- Publication number
- CN113676374A CN113676374A CN202110932460.8A CN202110932460A CN113676374A CN 113676374 A CN113676374 A CN 113676374A CN 202110932460 A CN202110932460 A CN 202110932460A CN 113676374 A CN113676374 A CN 113676374A
- Authority
- CN
- China
- Prior art keywords
- domain name
- data packet
- information
- link
- packet group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000007789 sealing Methods 0.000 claims abstract description 49
- 238000012216 screening Methods 0.000 claims abstract description 39
- 238000000034 method Methods 0.000 claims description 36
- 238000004590 computer program Methods 0.000 claims description 20
- 230000002265 prevention Effects 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 7
- 230000001788 irregular Effects 0.000 claims description 5
- 230000003287 optical effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/09—Mapping addresses
- H04L61/10—Mapping addresses of different types
- H04L61/103—Mapping addresses of different types across network layers, e.g. resolution of network layer into physical layer addresses or address resolution protocol [ARP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/45—Network directories; Name-to-address mapping
- H04L61/4505—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols
- H04L61/4511—Network directories; Name-to-address mapping using standardised directories; using standardised directory access protocols using domain name system [DNS]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L61/00—Network arrangements, protocols or services for addressing or naming
- H04L61/50—Address allocation
- H04L61/5007—Internet protocol [IP] addresses
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1095—Replication or mirroring of data, e.g. scheduling or transport for data synchronisation between network nodes
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Transfer Between Computers (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请涉及一种目标网站线索检测方法、装置、计算机设备、以及计算机可读存储介质,根据检测域名特征及域名防封***的特征对待检测的城域网的镜像流量经过多层筛选,提取经筛选后的数据包的文件体的url链接信息,将url链接信息的真实链接作为目标网站线索,自动高效地实现目标网站线索检测。
Description
技术领域
本申请涉及互联网技术领域,特别是涉及一种目标网站线索检测方法、装置、计算机设备和计算机可读存储介质。
背景技术
相关技术中,通过人工从大数据引擎中搜索目标网站线索。
然而,依靠人工从大数据引擎中搜索目标网站线索,这种方法获取的信息中存在大量的无用线索,且完全依靠人工的方式导致目标网站线索检测效率低。针对相关技术中,存在的目标网站线索检测效率低的问题,目前尚未提出有效的解决方案。
发明内容
基于此,有必要针对上述技术问题,提供一种目标网站线索检测方法、装置、计算机设备和计算机可读存储介质,以解决相关技术中存在目标网站线索检测效率低的问题。
第一个方面,本申请实施例了一种目标网站线索检测方法,包括以下步骤:
获取待检测的城域网的镜像流量;
从所述镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;
提取所述第一数据包组中的所有数据包的HOST信息,基于所述HOST信息,从所述第一数据包组中筛选出部署有域名防封***的第二数据包组;
提取所述第二数据包组中的所有数据包的文件体的url链接信息,并获取所述文件体的url链接信息的真实链接,所述真实链接即为所述目标网站线索。
在其中一些实施例中,所述从所述镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组,包括以下步骤:
从所述镜像流量中筛选出数据头信息包含预设的关键字库中的关键字信息且文件体的url的值为不规则短域名的数据包,作为所述第一数据包组。
在其中一些实施例中,所述提取所述第一数据包组中的所有数据包的HOST 信息,基于所述HOST信息,从所述第一数据包组中筛选出部署有域名防封***的第二数据包组,包括以下步骤:
判断所述HOST信息对应的一级域名是否存在于预设的第一域名库中;所述第一域名库中保存部署了所述域名防封***的域名;
若所述HOST信息对应的一级域名在所述第一域名库中,则基于所述HOST 信息对应的数据包,生成第一数据包集合;
若所述HOST信息对应的一级域名不在所述第一域名库中,则判断所述 HOST信息对应的一级域名是否部署了所述域名防封***;在所述HOST信息对应的一级域名部署了所述域名防封***的情况下,将所述HOST信息对应的一级域名存入所述第一域名库中,基于所述HOST信息对应的数据包,生成第二数据包集合;基于所述第一数据包集合与所述第二数据包集合,生成所述第二数据包组。
在其中一些实施例中,所述提取所述第二数据包组中的所有数据包的文件体的url链接信息,并获取所述文件体的url链接信息的真实链接,包括以下步骤:
对所述url链接信息进行访问;
如果所述url链接信息未发生跳转,则判定所述url链接信息为所述真实链接并进行获取;
如果所述url链接信息发生跳转,则判定最终跳转的链接为所述真实链接并进行获取。
在其中一些实施例中,在所述获取所述文件体的url链接信息的真实链接之后,所述方法还包括:
在所述真实链接可以访问的情况下,获取所述真实链接的域名代码信息;
在所述真实链接的域名代码信息包含预设的关键词库中的关键词的情况下,将所述真实链接作为目标网站输出;
在所述真实链接不能访问的情况下,获取所述真实链接的解析IP;
获取所述解析IP绑定的其他域名,遍历所述解析IP绑定的其他域名,在所述解析IP绑定的其他域名可以访问的情况下,获取所述解析IP绑定的其他域名的域名代码信息;
判断所述解析IP绑定的其他域名的域名代码信息中,是否包含所述关键词库中的关键词,若是,则将所述真实链接作为可疑目标网站输出;若否,将所述真实链接作为误判目标网站输出。
在其中一些实施例中,所述获取待检测的城域网的镜像流量,包括以下步骤:
通过交换机配置镜像端口对所述待检测的城域网的原始流量进行复制,得到所述镜像流量;
或者,通过分光器分光对所述待检测的城域网的原始流量进行复制,得到所述镜像流量。
在其中一些实施例中,在所述获取待检测的城域网的镜像流量之后,在所述从所述镜像流量中筛选出具有检测域名特征的数据包之前,所述方法还包括:
对所述镜像流量进行筛选,保留其中的所有POST数据包,根据过滤结果更新所述镜像流量。
第二个方面,在本实施例中提供了一种目标网站线索检测装置,所述装置包括:获取模块、筛选模块、第一提取模块、第二提取模块和结果模块:
所述获取模块,用于获取待检测的城域网的镜像流量;
所述筛选模块,用于从所述镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;
所述第一提取模块,用于提取所述第一数据包组中的所有数据包的HOST 信息,基于所述HOST信息,从所述第一数据包组中筛选出部署有域名防封***的第二数据包组;
所述第二提取模块,用于提取所述第二数据包组中的所有数据包的文件体的url链接信息,并获取所述文件体的url链接信息的真实链接,所述真实链接即为所述目标网站线索。
第三个方面,在本实施例中提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一个方面所述方法的步骤。
第四个方面,在本实施例中提供了计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一个方面所述的方法的步骤。
上述目标网站线索检测方法、装置、计算机设备以及计算机可读存储介质,通过获取待检测的城域网的镜像流量;从镜像流量中筛选出具有域名检测规则特征的数据包,作为第一数据包组;提取第一数据包组中的所有数据包的HOST 信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。由于目标网站的数据都具有检测域名特征,以及都部署有域名防封***,本申请根据检测域名特征及域名防封***的特征对待检测的城域网的镜像流量经过多层筛选,提取经筛选后的数据包的文件体的url链接信息,将url链接信息的真实链接作为目标网站线索,自动高效地实现目标网站线索检测。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的目标网站线索检测方法的应用场景图;
图2是根据本申请实施例提供的目标网站线索检测方法的流程图一;
图3是根据本申请实施例提供的目标网站线索检测方法的流程图二;
图4是根据本申请实施例提供的目标网站线索检测装置的结构示意图;
图5是根据本申请实施例提供的计算机设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
图1为本申请一个实施例提供的目标网站线索检测方法的应用场景图。如图1所示,服务器101与移动终端102之间均可以通过网络进行数据传输。其中,移动终端102用于采集待检测的城域网的镜像流量,并将镜像流量传输至服务器101中。在服务器101接收到该镜像流量后,从镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。其中,服务器101可以由独立的服务器或者是多个服务器组成的服务器集群来实现,移动终端102可以为任意一种带输入功能的显示屏。
本申请实施例提供了一种目标网站线索检测方法,可用于互联网技术领域中的目标网站线索检测,如图2所示,该方法包括如下步骤:
步骤S210,获取待检测的城域网的镜像流量。
城域网的业务***进行数据交互的过程中产生的流量被称为原始流量,原始流量包含了城域网业务***的原始数据包,原始流量按照城域网原有配置进行正常转发即可。镜像流量是对原始流量进行复制得到的流量,镜像流量包含的内容和原始流量一模一样。获取待检测的城域网的镜像流量可以在不影响城域网正常工作的情况下,对和原始流量含有相同数据的镜像流量进行操作。具体地,可以通过在交换机配置镜像端口的方式,对待检测的城域网的原始流量进行复制获取镜像流量。也可以是通过分光器分光对待检测的城域网的原始流量进行复制,得到待检测的城域网的镜像流量。
步骤S212,从镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组。
具体地,由于目标网站的数据都具有检测域名特征,所以根据域名检测特征对镜像流量进行筛选,从而得到第一数据包组。域名检测特征是预先从现有的部署有域名防封***的网站上进行抓包分析获取的。携带有检测域名特征的数据包一般数据头的信息包含“check”,“geetest_challenge”等关键字特征。
步骤S214,提取第一数据包组中的所有数据包的HOST(服务端)信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组。
具体地,部署有域名防封***的域名不会被微信、QQ等社交软件封禁,判断域名是否部署有域名防封***,可以通过对该域名进行抓包分析,判断请求包中是否携带有检测域名特征,若请求包中携带有检测域名特征,则证明该域名部署有域名防封***。或者对该域名进行抓包分析,验证该域名是否进行多层域名跳转,若该域名进行多层域名跳转,则证明该域名部署有域名防封***。经过上述步骤S212筛选出来的第一数据包组有可能是具有目标案件线索的数据包,但还需要根据第一数据包组中的数据包的HOST信息对应的域名是否部署有域名防封***来进一步筛选出具有目标案件线索的数据包。基于HOST信息,从第一数据包组中筛选出部署有域名防封***的数据包,作为第二数据包组,第二数据包组中的数据包就是具有目标案件线索的数据包。
步骤S216,提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。
具体地,经过上述步骤S214,最终确定具有目标案件线索的第二数据包组,经过步骤S216,获取到第二数据包组的文件体的url链接信息的真实链接,此真实链接即为目标网站线索。文件体的url链接信息的真实链接即为url链接信息最终跳转的链接。
相关技术中,没有利用检测域名特征及域名防封***的特征来检测目标网站线索,而是通过人工从大数据引擎中搜索目标网站线索,存在目标网站线索检测效率低的问题。本申请通过上述步骤S210至S216,通过获取待检测的城域网的镜像流量;从镜像流量中筛选出具有域名检测规则特征的数据包,作为第一数据包组;提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。由于目标网站的数据都具有检测域名特征,以及都部署有域名防封***,根据检测域名特征及域名防封***的特征对待检测的城域网的镜像流量经过多层筛选,提取经筛选后的数据包的文件体的url链接信息,将url链接信息的真实链接作为目标网站线索,自动高效地实现目标网站线索检测。
作为一种可实施方式,上述步骤S210,获取待检测的城域网的镜像流量,可以通过以下方式实现:
通过交换机配置镜像端口对待检测的城域网的原始流量进行复制,得到镜像流量;或者,通过分光器分光对待检测的城域网的原始流量进行复制,得到镜像流量。
也可以采用其他现有的流量复制方式对待检测的城域网的原始流量进行复制,以快速且高效地获取待检测的城域网的镜像流量。
在其中一个实施例中,在上述步骤S210获取待检测的城域网的镜像流量之后,在上述步骤S212从镜像流量中筛选出携带有检测域名特征的数据包之前,目标网站线索检测方法还包括以下步骤:
步骤S211,对镜像流量进行筛选,保留其中的所有POST(设置)数据包,根据过滤结果更新镜像流量。
具体地,由于镜像流量中包含GET(获取)数据包和POST数据包,但GET 数据包流量密集,从全部镜像流量分析检测出目标网站线索,资源消耗太大且检测效率太低。基于镜像流量中的POST数据包已经可以满足目标网站线索检测需求,所以本申请通过上述步骤S211将GET数据包过滤掉,保留POST数据包作为镜像流量进行分析检测,可以提高目标网站线索的检测效率。
具体地,上述步骤S212从镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组,包括以下步骤:
步骤S2121,从镜像流量中筛选出数据头信息包含预设的关键字库中的关键字信息且文件体的url的值为不规则短域名的数据包,作为第一数据包组。
具体地,预先对现有的部署有域名防封***的网站的防红链接生成动作及防红检测动作进行抓包分析,对抓取的数据包的数据头内容进行提取,获取提交相关动作的关键字,如“check”,“geetest_challenge”等,将此类关键字保存在预先建立好的预设的关键字库中,作为后续检测目标网站线索的基础。规则短域名是已知的常规域名,可以直观的判断这些域名不是目标网站使用的域名,比如***.com、***.com等。为了操作方便,可以将规则短域名存放在预设的第二域名库中,在进行数据包筛选的时候,将文件体的url的值与预设的第二域名库中保存的域名进行比对即可。为了提高后续检测目标网站线索的准确率,关键字库和第二域名库会进行不断地更新完善。
通过上述步骤S2121,根据检测域名特征,可以快速地从镜像流量中初步筛选出可能具有目标案件线索的数据包,为后续目标案件线索检测奠定基础。
具体地,上述步骤S214提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组,包括以下步骤:
步骤S2141,判断HOST信息对应的一级域名是否存在于预设的第一域名库中;第一域名库中保存部署了域名防封***的域名。
由于互联网是不断更新的,所以第一域名库可能没有保存所有的部署了域名防封***的网站。所以需要经过步骤S2141来判断HOST信息对应的一级域名是否存在于预设的第一域名库中。
步骤S2142,若HOST信息对应的一级域名在第一域名库中,则基于HOST 信息对应的数据包,生成第一数据包集合。
步骤S2143,若HOST信息对应的一级域名不在第一域名库中,则判断HOST 信息对应的一级域名是否部署了域名防封***;在HOST信息对应的一级域名部署了域名防封***的情况下,将HOST信息对应的一级域名存入第一域名库中,基于HOST信息对应的数据包,生成第二数据包集合;基于第一数据包集合与第二数据包集合,生成第二数据包组。
具体地,由于即使HOST信息对应的一级域名不在第一域名库中,也有可能HOST信息对应的一级域名部署了域名防封***。域名是否部署了域名防封***的判断方法已经在上文中说明,此处不作赘述。
通过上述步骤S2141至S2143,可以将部署了域名防封***的数据包完整地筛选出来,且同时完善了第一域名库。
具体地,上述步骤S216提取第二数据包组中的所有数据包的文件体的url 链接信息,并获取文件体的url链接信息的真实链接,包括以下步骤:
步骤S2161,对url链接信息进行访问。
具体地,由于url链接信息并不一定是真实链接,所以需要经过步骤S2161 对url链接信息进行访问验证。
步骤S2162,如果url链接信息未发生跳转,则判定url链接信息为真实链接并进行获取。
步骤S2163,如果url链接信息发生跳转,则判定最终跳转的链接为真实链接并进行获取。
通过上述步骤S2161至S2163,可以准确地获取目标案件线索。
在其中一个实施例中,如图3所示,在上述步骤S216在获取文件体的url 链接信息的真实链接之后,目标网站线索检测方法还包括以下步骤:
步骤S218,在真实链接可以访问的情况下,获取真实链接的域名代码信息。
具体地,域名代码信息是最终展示在网页上的信息。
步骤S220,在真实链接的域名代码信息包含预设的关键词库中的关键词的情况下,将真实链接作为目标网站输出。
具体地,此关键词库在使用过程中也可以不断更新完善。在真实链接的域名代码信息包含预设的关键词库中的关键词的情况下,即可确定此真实链接是目标网站。
步骤S222,在真实链接不能访问的情况下,获取真实链接的解析IP。
具体地,在真实链接不能访问的情况下,对真实链接进行解析,可以获取真实链接的解析IP。
步骤S224,获取解析IP绑定的其他域名,遍历解析IP绑定的其他域名,在解析IP绑定的其他域名可以访问的情况下,获取解析IP绑定的其他域名的域名代码信息。
具体地,真实链接的解析IP对应的域名远远不止真实链接,在真实链接不能访问的情况下,根据解析IP绑定的其他域名对目标案件线索进一步判断。
步骤S226,判断解析IP绑定的其他域名的域名代码信息中,是否包含关键词库中的关键词,若是,则将真实链接作为可疑目标网站输出;若否,将真实链接作为误判目标网站输出。
具体地,在解析IP绑定的其他域名的域名代码信息中,只要包含了关键词库中的关键词,则将真实链接作为可疑目标网站输出,后续可以对此真实链接的流量进行重点监测,一旦出现异常,立刻报警。若解析IP绑定的其他域名的域名代码信息中都不包含关键词库中的关键词,则将真实链接作为误判目标网站输出。
通过上述步骤S218至S226,可以对目标案件线索进一步判断,确认此目标案件线索是目标网站、可疑目标网站还是误判目标网站,针对不同的判断结果做出不同的管控动作,可以有效打击目标网站。
本实施例还提供了一种目标网站线索检测装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。上述目标网站线索检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能被构想的。
图4是根据本发明实施例中目标网站线索检测装置的示意图,如图4所示,提供了一种目标网站线索检测装置30,该装置包括流量获取模块31、筛选模块 32、第一提取模块33和第二提取模块34,其中:
获取模块31,用于获取待检测的城域网的镜像流量;
筛选模块32,用于从镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;
第一提取模块33,用于提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;
第二提取模块34,用于提取第二数据包组中的所有数据包的文件体的url 链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。
上述目标网站线索检测装置30,通过获取待检测的城域网的镜像流量;从镜像流量中筛选出具有域名检测规则特征的数据包,作为第一数据包组;提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。由于目标网站的数据都具有检测域名特征,以及都部署有域名防封***,根据检测域名特征及域名防封***的特征对待检测的城域网的镜像流量经过多层筛选,提取经筛选后的数据包的文件体的url链接信息,将url链接信息的真实链接作为目标网站线索,自动高效地实现目标网站线索检测。
在其中一个实施例中,筛选模块32还用于从镜像流量中筛选出数据头信息包含预设的关键字库中的关键字信息且文件体的url的值为不规则短域名的数据包,作为第一数据包组。
在其中一个实施例中,第一提取模块33还用于判断HOST信息对应的一级域名是否存在于预设的第一域名库中;第一域名库中保存部署了域名防封***的域名;
若HOST信息对应的一级域名在第一域名库中,则基于HOST信息对应的数据包,生成第一数据包集合;
若HOST信息对应的一级域名不在第一域名库中,则判断HOST信息对应的一级域名是否部署了域名防封***;在HOST信息对应的一级域名部署了域名防封***的情况下,将HOST信息对应的一级域名存入第一域名库中,基于 HOST信息对应的数据包,生成第二数据包集合;基于第一数据包集合与第二数据包集合,生成第二数据包组。
在其中一个实施例中,第二提取模块34还用于对url链接信息进行访问;如果url链接信息未发生跳转,则判定url链接信息为真实链接并进行获取;如果url链接信息发生跳转,则判定最终跳转的链接为真实链接并进行获取。
在其中一个实施例中,目标网站线索检测装置30还包括分类模块,在获取文件体的url链接信息的真实链接之后,用于在真实链接可以访问的情况下,获取真实链接的域名代码信息;
在真实链接的域名代码信息包含预设的关键词库中的关键词的情况下,将真实链接作为目标网站输出;
在真实链接不能访问的情况下,获取真实链接的解析IP;
获取解析IP绑定的其他域名,遍历解析IP绑定的其他域名,在解析IP绑定的其他域名可以访问的情况下,获取解析IP绑定的其他域名的域名代码信息;
判断解析IP绑定的其他域名的域名代码信息中,是否包含关键词库中的关键词,若是,则将真实链接作为可疑目标网站输出;若否,将真实链接作为误判目标网站输出。
在其中一个实施例中,获取模块31还用于通过交换机配置镜像端口对待检测的城域网的原始流量进行复制,得到镜像流量;
或者,通过分光器分光对待检测的城域网的原始流量进行复制,得到镜像流量。
在其中一个实施例中,目标网站线索检测装置30还包括过滤模块,在获取待检测的城域网的镜像流量之后,在从镜像流量中筛选出具有检测域名特征的数据包之前,用于对镜像流量进行筛选,保留其中的所有POST数据包,根据过滤结果更新镜像流量。
需要说明地是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件实现,也可以通过硬件来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储预设配置信息集合。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述目标网站线索检测方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端。该计算机设备包括通过***总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***和计算机程序。该存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种目标网站线索检测方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待检测的城域网的镜像流量;
从镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;
提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;
提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
从镜像流量中筛选出数据头信息包含预设的关键字库中的关键字信息且文件体的url的值为不规则短域名的数据包,作为第一数据包组。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
判断HOST信息对应的一级域名是否存在于预设的第一域名库中;第一域名库中保存部署了域名防封***的域名;
若HOST信息对应的一级域名在第一域名库中,则基于HOST信息对应的数据包,生成第一数据包集合;
若HOST信息对应的一级域名不在第一域名库中,则判断HOST信息对应的一级域名是否部署了域名防封***;在HOST信息对应的一级域名部署了域名防封***的情况下,将HOST信息对应的一级域名存入第一域名库中,基于 HOST信息对应的数据包,生成第二数据包集合;基于第一数据包集合与第二数据包集合,生成第二数据包组。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对url链接信息进行访问;
如果url链接信息未发生跳转,则判定url链接信息为真实链接并进行获取;
如果url链接信息发生跳转,则判定最终跳转的链接为真实链接并进行获取。
在一个实施例中,在获取文件体的url链接信息的真实链接之后,处理器执行计算机程序时还实现以下步骤:
在真实链接可以访问的情况下,获取真实链接的域名代码信息;
在真实链接的域名代码信息包含预设的关键词库中的关键词的情况下,将真实链接作为目标网站输出;
在真实链接不能访问的情况下,获取真实链接的解析IP;
获取解析IP绑定的其他域名,遍历解析IP绑定的其他域名,在解析IP绑定的其他域名可以访问的情况下,获取解析IP绑定的其他域名的域名代码信息;
判断解析IP绑定的其他域名的域名代码信息中,是否包含关键词库中的关键词,若是,则将真实链接作为可疑目标网站输出;若否,将真实链接作为误判目标网站输出。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
通过交换机配置镜像端口对待检测的城域网的原始流量进行复制,得到镜像流量;
或者,通过分光器分光对待检测的城域网的原始流量进行复制,得到镜像流量。
在一个实施例中,在获取待检测的城域网的镜像流量之后,在从镜像流量中筛选出具有检测域名特征的数据包之前,处理器执行计算机程序时还实现以下步骤:
对镜像流量进行筛选,保留其中的所有POST数据包,根据过滤结果更新镜像流量。
上述存储介质,通过获取待检测的城域网的镜像流量;从镜像流量中筛选出具有域名检测规则特征的数据包,作为第一数据包组;提取第一数据包组中的所有数据包的HOST信息,基于HOST信息,从第一数据包组中筛选出部署有域名防封***的第二数据包组;提取第二数据包组中的所有数据包的文件体的url链接信息,并获取文件体的url链接信息的真实链接,真实链接即为目标网站线索。由于目标网站的数据都具有检测域名特征,以及都部署有域名防封***,根据检测域名特征及域名防封***的特征对待检测的城域网的镜像流量经过多层筛选,提取经筛选后的数据包的文件体的url链接信息,将url链接信息的真实链接作为目标网站线索,自动高效地实现目标网站线索检测。
应该明白的是,这里描述的具体实施例只是用来解释这个应用,而不是用来对它进行限定。根据本申请提供的实施例,本领域普通技术人员在不进行创造性劳动的情况下得到的所有其它实施例,均属本申请保护范围。
显然,附图只是本申请的一些例子或实施例,对本领域的普通技术人员来说,也可以根据这些附图将本申请适用于其他类似情况,但无需付出创造性劳动。另外,可以理解的是,尽管在此开发过程中所做的工作可能是复杂和漫长的,但是,对于本领域的普通技术人员来说,根据本申请披露的技术内容进行的某些设计、制造或生产等更改仅是常规的技术手段,不应被视为本申请公开的内容不足。
“实施例”一词在本申请中指的是结合实施例描述的具体特征、结构或特性可以包括在本申请的至少一个实施例中。该短语出现在说明书中的各个位置并不一定意味着相同的实施例,也不意味着与其它实施例相互排斥而具有独立性或可供选择。本领域的普通技术人员能够清楚或隐含地理解的是,本申请中描述的实施例在没有冲突的情况下,可以与其它实施例结合。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对专利保护范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种目标网站线索检测方法,其特征在于,包括以下步骤:
获取待检测的城域网的镜像流量;
从所述镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;
提取所述第一数据包组中的所有数据包的HOST信息,基于所述HOST信息,从所述第一数据包组中筛选出部署有域名防封***的第二数据包组;
提取所述第二数据包组中的所有数据包的文件体的url链接信息,并获取所述文件体的url链接信息的真实链接,所述真实链接即为所述目标网站线索。
2.根据权利要求1所述的目标网站线索检测方法,其特征在于,所述从所述镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组,包括以下步骤:
从所述镜像流量中筛选出数据头信息包含预设的关键字库中的关键字信息且文件体的url的值为不规则短域名的数据包,作为所述第一数据包组。
3.根据权利要求1所述的目标网站线索检测方法,其特征在于,所述提取所述第一数据包组中的所有数据包的HOST信息,基于所述HOST信息,从所述第一数据包组中筛选出部署有域名防封***的第二数据包组,包括以下步骤:
判断所述HOST信息对应的一级域名是否存在于预设的第一域名库中;所述第一域名库中保存部署了所述域名防封***的域名;
若所述HOST信息对应的一级域名在所述第一域名库中,则基于所述HOST信息对应的数据包,生成第一数据包集合;
若所述HOST信息对应的一级域名不在所述第一域名库中,则判断所述HOST信息对应的一级域名是否部署了所述域名防封***;在所述HOST信息对应的一级域名部署了所述域名防封***的情况下,将所述HOST信息对应的一级域名存入所述第一域名库中,基于所述HOST信息对应的数据包,生成第二数据包集合;基于所述第一数据包集合与所述第二数据包集合,生成所述第二数据包组。
4.根据权利要求1所述的目标网站线索检测方法,其特征在于,所述提取所述第二数据包组中的所有数据包的文件体的url链接信息,并获取所述文件体的url链接信息的真实链接,包括以下步骤:
对所述url链接信息进行访问;
如果所述url链接信息未发生跳转,则判定所述url链接信息为所述真实链接并进行获取;
如果所述url链接信息发生跳转,则判定最终跳转的链接为所述真实链接并进行获取。
5.根据权利要求1所述的目标网站线索检测方法,其特征在于,在所述获取所述文件体的url链接信息的真实链接之后,所述方法还包括:
在所述真实链接可以访问的情况下,获取所述真实链接的域名代码信息;
在所述真实链接的域名代码信息包含预设的关键词库中的关键词的情况下,将所述真实链接作为目标网站输出;
在所述真实链接不能访问的情况下,获取所述真实链接的解析IP;
获取所述解析IP绑定的其他域名,遍历所述解析IP绑定的其他域名,在所述解析IP绑定的其他域名可以访问的情况下,获取所述解析IP绑定的其他域名的域名代码信息;
判断所述解析IP绑定的其他域名的域名代码信息中,是否包含所述关键词库中的关键词,若是,则将所述真实链接作为可疑目标网站输出;若否,将所述真实链接作为误判目标网站输出。
6.根据权利要求1至5任一项所述的目标网站线索检测方法,其特征在于,所述获取待检测的城域网的镜像流量,包括以下步骤:
通过交换机配置镜像端口对所述待检测的城域网的原始流量进行复制,得到所述镜像流量;
或者,通过分光器分光对所述待检测的城域网的原始流量进行复制,得到所述镜像流量。
7.根据权利要求1所述的目标网站线索检测方法,其特征在于,在所述获取待检测的城域网的镜像流量之后,在所述从所述镜像流量中筛选出具有检测域名特征的数据包之前,所述方法还包括:
对所述镜像流量进行筛选,保留其中的所有POST数据包,根据过滤结果更新所述镜像流量。
8.一种目标网站线索检测装置,其特征在于,所述装置包括:获取模块、筛选模块、第一提取模块、第二提取模块和结果模块:
所述获取模块,用于获取待检测的城域网的镜像流量;
所述筛选模块,用于从所述镜像流量中筛选出携带有检测域名特征的数据包,作为第一数据包组;
所述第一提取模块,用于提取所述第一数据包组中的所有数据包的HOST信息,基于所述HOST信息,从所述第一数据包组中筛选出部署有域名防封***的第二数据包组;
所述第二提取模块,用于提取所述第二数据包组中的所有数据包的文件体的url链接信息,并获取所述文件体的url链接信息的真实链接,所述真实链接即为所述目标网站线索。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110932460.8A CN113676374B (zh) | 2021-08-13 | 2021-08-13 | 目标网站线索检测方法、装置、计算机设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110932460.8A CN113676374B (zh) | 2021-08-13 | 2021-08-13 | 目标网站线索检测方法、装置、计算机设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113676374A true CN113676374A (zh) | 2021-11-19 |
CN113676374B CN113676374B (zh) | 2024-03-22 |
Family
ID=78542840
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110932460.8A Active CN113676374B (zh) | 2021-08-13 | 2021-08-13 | 目标网站线索检测方法、装置、计算机设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113676374B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6102406A (en) * | 1999-06-07 | 2000-08-15 | Steven A. Miles | Internet-based advertising scheme employing scavenger hunt metaphor |
CN101727471A (zh) * | 2008-10-30 | 2010-06-09 | 鸿富锦精密工业(深圳)有限公司 | 网站内容检索***及方法 |
CN105376217A (zh) * | 2015-10-15 | 2016-03-02 | 中国互联网络信息中心 | 一种恶意跳转及恶意嵌套类不良网站的自动判定方法 |
CN107092826A (zh) * | 2017-03-24 | 2017-08-25 | 北京国舜科技股份有限公司 | 网页内容安全实时监测方法 |
CN108173814A (zh) * | 2017-12-08 | 2018-06-15 | 深信服科技股份有限公司 | 钓鱼网站检测方法、终端设备及存储介质 |
CN109450880A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于决策树的钓鱼网站检测方法、装置及计算机设备 |
WO2020135233A1 (zh) * | 2018-12-26 | 2020-07-02 | 中兴通讯股份有限公司 | 僵尸网络检测方法、***及存储介质 |
-
2021
- 2021-08-13 CN CN202110932460.8A patent/CN113676374B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6102406A (en) * | 1999-06-07 | 2000-08-15 | Steven A. Miles | Internet-based advertising scheme employing scavenger hunt metaphor |
CN101727471A (zh) * | 2008-10-30 | 2010-06-09 | 鸿富锦精密工业(深圳)有限公司 | 网站内容检索***及方法 |
CN105376217A (zh) * | 2015-10-15 | 2016-03-02 | 中国互联网络信息中心 | 一种恶意跳转及恶意嵌套类不良网站的自动判定方法 |
CN107092826A (zh) * | 2017-03-24 | 2017-08-25 | 北京国舜科技股份有限公司 | 网页内容安全实时监测方法 |
CN108173814A (zh) * | 2017-12-08 | 2018-06-15 | 深信服科技股份有限公司 | 钓鱼网站检测方法、终端设备及存储介质 |
CN109450880A (zh) * | 2018-10-26 | 2019-03-08 | 平安科技(深圳)有限公司 | 基于决策树的钓鱼网站检测方法、装置及计算机设备 |
WO2020135233A1 (zh) * | 2018-12-26 | 2020-07-02 | 中兴通讯股份有限公司 | 僵尸网络检测方法、***及存储介质 |
Non-Patent Citations (1)
Title |
---|
ADMIN: "防红域名生成 如何辨别钓鱼网站诈骗,避免受骗", Retrieved from the Internet <URL:http://www.kmw.com/news/4467750, html> * |
Also Published As
Publication number | Publication date |
---|---|
CN113676374B (zh) | 2024-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110233849B (zh) | 网络安全态势分析的方法及*** | |
KR101547999B1 (ko) | 악성링크 자동 탐지 장치 및 방법 | |
CN105553917B (zh) | 一种网页漏洞的检测方法和*** | |
CN103888490B (zh) | 一种全自动的web客户端人机识别的方法 | |
CN109586282B (zh) | 一种电网未知威胁检测***及方法 | |
CN109766719B (zh) | 一种敏感信息检测方法、装置及电子设备 | |
CN108632219B (zh) | 一种网站漏洞检测方法、检测服务器、***及存储介质 | |
KR101132197B1 (ko) | 악성 코드 자동 판별 장치 및 방법 | |
CN111404937B (zh) | 一种服务器漏洞的检测方法和装置 | |
CN111008405A (zh) | 一种基于文件Hash的网站指纹识别方法 | |
CN114465741B (zh) | 一种异常检测方法、装置、计算机设备及存储介质 | |
CN111191243A (zh) | 一种漏洞检测方法、装置和存储介质 | |
CN114003794A (zh) | 资产收集方法、装置、电子设备和介质 | |
CN114422271B (zh) | 数据处理方法、装置、设备及可读存储介质 | |
US11797617B2 (en) | Method and apparatus for collecting information regarding dark web | |
CN114157568B (zh) | 一种浏览器安全访问方法、装置、设备及存储介质 | |
CN116488872A (zh) | JavaWeb应用的攻击行为的识别和防御方法及其装置 | |
CN111597422A (zh) | 埋点映射方法、装置、计算机设备和存储介质 | |
CN107786529B (zh) | 网站的检测方法、装置及*** | |
CN111314326B (zh) | Http漏洞扫描主机的确认方法、装置、设备及介质 | |
KR101725404B1 (ko) | 웹사이트 점검 장치 및 그 방법 | |
CN111651658A (zh) | 一种基于深度学习的自动化识别网站的方法和计算机设备 | |
CN112100620A (zh) | 代码安全检测方法、装置、设备和可读存储介质 | |
CN113676374B (zh) | 目标网站线索检测方法、装置、计算机设备和介质 | |
CN116932381A (zh) | 小程序安全风险自动化评估方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |