CN102857572A - 一种http访问请求处理方法、装置及网关设备 - Google Patents

一种http访问请求处理方法、装置及网关设备 Download PDF

Info

Publication number
CN102857572A
CN102857572A CN2012103428271A CN201210342827A CN102857572A CN 102857572 A CN102857572 A CN 102857572A CN 2012103428271 A CN2012103428271 A CN 2012103428271A CN 201210342827 A CN201210342827 A CN 201210342827A CN 102857572 A CN102857572 A CN 102857572A
Authority
CN
China
Prior art keywords
url
effective
keyword
http
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012103428271A
Other languages
English (en)
Inventor
魏逢一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Star Net Ruijie Networks Co Ltd
Original Assignee
Beijing Star Net Ruijie Networks Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Star Net Ruijie Networks Co Ltd filed Critical Beijing Star Net Ruijie Networks Co Ltd
Priority to CN2012103428271A priority Critical patent/CN102857572A/zh
Publication of CN102857572A publication Critical patent/CN102857572A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种HTTP访问请求处理方法、装置及网关设备,用以判断URL的有效性,达到提高搜索引擎搜索审计效率,节约设备处理资源的目的,其中,HTTP访问请求处理方法包括:获得HTTP请求报文,所述HTTP请求报文中携带有URL;根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征;若判断结果为是,确定所述URL为无效URL;若判断结果为否,确定所述URL为有效URL。

Description

一种HTTP访问请求处理方法、装置及网关设备
技术领域
本发明涉及网络通信技术领域,尤其涉及一种HTTP访问请求处理方法、装置及网关设备。
背景技术
互联网的高速发展使得互联网已经渗透到社会生活的每一个角落,成为人们学***台。但是互联网给我们带来诸多便利的同时,也为各种不和谐的行为提供了滋生的温床,网络恶搞、诽谤中伤、传播违法反动信息等等,越来越对国家安定、社会和谐、企业效率提出了严峻的挑战。互联网给企业带来的诸多负面问题主要体现在如下几个方面:1)企业员工工作效率低下。据调查显示,普通企业员工每天的互联网访问活动中40%与工作无关。在线聊天、浏览娱乐网页、论坛、博客等无时无刻不在占用正常的工作时间。2)企业敏感信息泄露。电子邮件、论坛等网络应用,已经成为信息获取与提高工作效率的重要工具,但如果不加监管,这些工具极可能也为泄密等提供了途径。3)法律风险。企业员工如果通过企业网络在互联网论坛上发表违法、反动言论的话,不但给企业形象带来不好的影响,如果找不到是何人所为,还可能导致企业为此承担法律风险。
为解决互联网给企业带来的诸多负面问题,上网行为管理概念应运而生。上网行为管理是指帮助互联网用户控制和管理对互联网的使用,包括对网页访问过滤、网络应用控制、带宽流量管理、信息收发审计、用户行为分析,从而实现对互联网访问行为的全面管理。在点对点(P2P)流量管理、防止内网泄密、防范法规风险、互联网访问行为记录、上网安全等多个方面提供最有效的解决方案。
其中,搜索引擎作为信息获取的重要工具,在上网行为管理中也显得尤为重要。可以说搜索引擎搜索审计已经成为上网行为管理所不可或缺的重要功能之一。
通过对主流的搜索引擎(以百度、Google、Yahoo为例进行说明)分析发现,搜索引擎的搜索关键字通常都记录在URL中,以搜索“testkeyword”为例,几个主流搜索引擎的URL如下所示:
百度:http://www.***.com/s?wd=testkeyword,可见,URL中wd字段值即为搜索关键字;
Google:http://www.***.com.hk/search?hl=zh-CN&source=hp&q=testkeyword&meta=&aq=f&aqi=&aql=&oq=&gs_rfai=,可见,URL中q字段值即为搜索关键字。
Yahoo:http://search.cn.yahoo.com/s?p=testkeyword&v=web&pid=ysearch,可见,URL中p字段值即为搜索关键字。
基于这个特征,在对内网用户的搜索行为进行审计时,只需要从该类URL中提取指定字段值即可。通常处理步骤如下:
1)网关或上网行为管理设备窥探、截获HTTP请求报文,并从中提取出URL。
2)对URL进行识别,如果是搜索引擎的URL,则进行搜索行为审计。
3)根据预设的关键字字段名,从URL中提取搜索关键字,从而完成审计。
但是,在实际应用中发现,搜索引擎搜索产生的URL并不是只有上述那些,通常还会伴随有大量其他类似的URL信息同样存在搜索关键字字段,如下所示:
http://suggestion.***.com/su?wd=t&p=3&cb=window.bdsug.sug&t=1335583602530
http://suggestion.***.com/su?wd=te&p=3&cb=window.bdsug.sug&t=1335583602531
http://suggestion.***.com/su?wd=tes&p=3&cb=window.bdsug.sug&t=1335583602532
http://suggestion.***.com/su?wd=test&p=3&cb=window.bdsug.sug&t=1335583602533
http://suggestion.***.com/su?wd=testk&p=3&cb=window.bdsug.sug&t=1335583602534
http://suggestion.***.com/su?wd=testke&p=3&cb=window.bdsug.sug&t=1335583602535
http://suggestion.***.com/su?wd=testkey&p=3&cb=window.bdsug.sug&t=1335583602536
http://suggestion.***.com/su?wd=testkeyw&p=3&cb=window.bdsug.sug&t=1335583602537
http://suggestion.***.com/su?wd=testkeywo&p=3&cb=window.bdsug.sug&t=1335583602538
http://suggestion.***.com/su?wd=testkeywor&p=3&cb=window.bdsug.sug&t=1335583602539
这些大量的非有效URL,通常都是自动补齐等产生的,还有部分是搜索引擎相关的图片等资源请求,所有这些都给搜索行为审计带来很大的干扰,降低了审计效率,造成设备处理资源的浪费。因此,判断URL是否有效,成为现有技术亟待解决的技术问题之一。
发明内容
本发明实施例提供一种HTTP访问请求处理方法、装置及网关设备,用以判断URL的有效性,达到提高搜索引擎搜索审计效率,节约设备处理资源的目的。
本发明实施例提供一种HTTP访问请求处理方法,包括:
获得超文本传输协议HTTP请求报文,所述HTTP请求报文中携带有统一资源定位符URL;
根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征;
若判断结果为是,确定所述URL为无效URL;
若判断结果为否,确定所述URL为有效URL。
本发明实施例提供一种HTTP访问请求处理装置,包括:
获得单元,用于获得超文本传输协议HTTP请求报文,所述HTTP请求报文中携带有统一资源定位符URL;
判断单元,用于根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征;
确定单元,用于若所述判断单元的判断结果为是,确定所述URL为无效URL;若所述判断单元的判断结果为否,确定所述URL为有效URL。
本发明实施例提供一种网关设备,包括上述HTTP访问请求处理装置。
本发明实施例提供的HTTP访问请求处理方法、装置及网关设备,在获得HTTP请求报文中携带的URL之后,通过判断获得的URL中是否包含非有效URL特征来确定URL的有效性,确定出URL是否有效之后,后续在进行搜索引擎搜索审计时,可以将无效URL过滤掉,只需要对有效URL进行审计,从而,能够提高审计效率,节约设备处理资源。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
图1为本发明实施例中,HTTP访问请求处理方法的实施流程示意图;
图2为本发明实施例中,HTTP访问请求处理方法的完全实施流程示意图;
图3为本发明实施例中,HTTP访问请求处理装置的结构示意图。
具体实施方式
为了准确判断URL的有效性,以提高搜索行为搜索审计的效率,节约设备处理资源,本发明实施例提供了一种HTTP访问请求处理方法、装置及网关设备。
以下结合说明书附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明,并且在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施一
如图1所示,为本发明实施例提供的HTTP访问请求处理方法的实施流程示意图,包括以下步骤:
S101、获得HTTP(超文本传输协议)请求报文;
具体实施时,网关设备或者上网行为管理设备窥探并截获HTTP请求报文,在HTTP请求报文中携带有URL(统一资源定位符);
S102、根据预先存储的非有效URL特征列表,判断获得的URL中是否包含非有效URL特征,如果是,执行步骤S103,否则执行步骤S104;
具体实施时,可以通过收集非有效URL并提取其中的特征,建立非有效URL特征列表,如?gif,?su等。后续过程中,可以对非有效URL特征列表进行自动更新。
S103、确定该URL为无效URL;
S104、确定该URL为有效URL。
具体实施时,为了进一步提高审计效率,在获得了HTTP请求报文之后,执行步骤S102之前,可以首先确定提取到的URL是否为搜索引擎对应的URL,具体的,可以预先收集各主流搜索引擎的HOST域值,并建立HOST域值列表,例如,百度的HOST域值为www.***.com,Google的HOST域值为www.***.com.hk,雅虎的HOST域值为search.cn.yahoo.com,当有新增或者需要修改的HOST域值时,可以手动将新增的HOST域值添加至HOST域值列表中,或者对已有的表项进行修改。当确定提取到的URL包含的HOST字段的值存在于预先存储的HOST域值列表中时,则继续执行步骤S102,否则,结束流程。
实施例二
较佳地,由于非有效URL特征列表中收集的非有效URL特征可能并不完备,因此,有可能导致判断结果出现错误。为了进一步提高URL有效性判断的准确性,本发明实施例中对于根据非有效URL特征列表判断为有效URL可以进行进一步判断。具体的,本发明实施例中,根据接收到的该URL对应的HTTP回应信息,并通过对HTTP回应信息包含的某些指定字段进行检测,若指定字段满足预设条件,才确定该URL为有效URL。
其中,指定字段可以但不限于包括Content-Length和Content-Type,当指定字段为Content-Length时,预设条件可以为Content-Length对应的字段值大于等于预设阈值;当指定字段为Content-Type时,预设条件可以为Content-Type对应的字段值为非指定值。这是因为,如果回应信息很短(短过指定的阀值,HTTP回应报文的Content-Length值即为回应信息的大小),则认为该URL无效。因为如果正常的搜索,通常都会返回一个页面,如果返回的信息长度很小,低于一个页面可能的最小长度,则可以认为该URL无效;而对于Content-Type来说,如果HTTP回应信息的Content-Type字段为诸如图片(image/gif等)等信息,则认为该回应不是一个网页,则可以认为该URL无效。
具体实施时,可以根据实际需要对上述两个字段进行检测,当然也可以值检测其中任一个,如果对两个字段均进行检测时,本发明实施例对于两个字段的检测顺序不作限定,即既可以先检测Content-Length字段,也可以先检测Content-Type字段。
具体实施时,HTTP请求报文中还携带有用户标识,其中,用户标识可以但不限于为IP地址,这样,在完成URL的有效性检测之后,可以提取该URL中包含的关键字,将该关键字及其对应的URL添加至该用户标识对应的关键字列表中,如表1所示,为关键字列表一种可能的格式:
表1
  用户标识   关键字   URL
  IP1   Key1   URL1
  IP1   Key2   URL2
根据RFC2616,URL的语法格式如下所示:
HTTP_URL:="http:""//"host[:port][abs_path["?"query]]
其中http代表HTTP协议,host[:port]为HTTP请求报文首部HOST域的值(即资源站点的地址,可以是域名,也可以是IP),如果port为空,则代表port为80。abs_path["?"query]即资源的统一资源标识符(URI,UniformResource Identifier)。当用户在搜索引擎中进行搜索时,对应URI中即包含用户提交的搜索关键字,如http://www.***.com/s?wd=testkeyword。
同时,通过对主流搜索引擎的URL进行分析可知,其关键字的字段名为指定值,例如,百度的URL关键字字段名为“wd”,Google的URL关键字字段名为“q”,雅虎的URL关键字字段名为“p”,基于此,可以预先建立关键字字段名列表,这样,在获得了URL之后,根据关键字字段名列表从该URL中提取对应字段的字段值作为关键字。
针对每一用户建立了关键字列表之后,通过定期对关键字列表进行检测分析,如果该用户的关键字列表中存在大量前缀公共子串,如下所示:
t;
te;
tes;
test;
testk。
则可以认为这些都是自动补齐产生的URL对应的关键字,通过这些关键字对应的URL,提取这些URL的共同特征,并将提取到的共同特征添加至非有效URL特征列表中,从而实现了非有效URL特征列表的自动更新。
为了更好的理解本发明实施例,以下对HTTP访问请求处理的完全流程进行说明,如图2所示,可以包括以下步骤:
S201、网关设备获得HTTP请求报文;
其中,HTTP请求报文中携带有URL和用户的用户标识。
S202、判断获得的URL包含的HOST的值是否在预先设置的HOST域值列表中,如果是,执行步骤S203,否则,流程结束。
S203、网关设备根据本地存储的非有效URL特征列表,判断获得的URL中是否包含非有效URL特征,如果是,执行步骤S208,否则执行步骤S204;
S204、接收获得的URL对应的HTTP回应信息;
S205、判断接收到的HTTP回应信息包含的Content-Length字段值是否大于等于预设阈值,如果是,执行步骤S206,否则执行步骤S208;
例如,预设阈值可以但不限于设置为500。
S206、判断接收到的HTTP回应信息包含的Content-Type字段值是否为指定值,如果是,执行步骤S208,否则执行步骤S207;
例如,若指定值可以但不限于为以下任一值:image/gif、image/bmp、image/jpeg、image/png、application/x-javascrIPt。
需要说明的是,具体实施时,步骤S206也可以先于步骤S205执行。
S207、确定该URL为有效URL,并执行步骤S209;
S208、确定该URL为无效URL,流程结束;
S209、提取该URL中包含的关键字;
S210、将提取到的关键字及其对应的URL添加至该用户标识对应的关键字列表中;
S211、分析该用户的关键字列表中包含的每一关键字;
具体实施时,可以按照预设周期对该用户的关键字列表进行分析,无需每次执行步骤S201~步骤S209之后均对用户的关键字列表进行分析。
S212、针对包含相同前缀公共子串的关键字,提取各关键字对应的URL包含的共同特征;
S213、将提取到的共同特征添加至非有效URL特征列表中,流程结束。
基于同一发明构思,本发明实施例中还提供了一种HTTP访问请求处理装置及网关设备,由于上述装置及设备解决问题的原理与HTTP访问请求处理方法相似,因此上述装置及设备的实施可以参见方法的实施,重复之处不再赘述。
如图3所示,为本发明实施例提供的HTTP访问请求处理装置的结构示意图,包括:
获得单元301,用于获得HTTP请求报文,该HTTP请求报文中携带有统一资源定位符URL;
判断单元302,用于判断根据预先存储的非有效URL特征列表,判断获得单元301获得的URL中是否包含非有效URL特征;
确定单元303,用于若判断单元302的判断结果为是,确定该URL为无效URL;若判断单元302的判断结果为否,确定该URL为有效URL。
具体实施时,HTTP访问请求处理装置,还可以包括接收单元,其中:
接收单元,用于接收该URL对应的HTTP回应信息;
确定单元303,还用于若判断单元302的判断结果为否,在确定该URL为有效URL之前,确定接收到的HTTP回应信息中包含的指定字段的字段值满足预设条件。
较佳地,确定单元303,还可以用于在判断单元302根据预先存储的非有效URL特征列表,判断获得的URL中是否包含非有效URL特征之前,确定该URL中包含的HOST字段的值为预设值。
具体实施时,HTTP请求报文中还携带有用户标识;以及
HTTP访问请求处理装置,还可以包括:
第一提取单元,用于根据预设的关键字字段名列表,提取获得单元301获得的URL中包含的关键字;
第一更新单元,用于在确定单元303确定提取到的关键字有效时,将该关键字及其对应的URL添加至该用户标识对应的关键字列表中;
分析单元,用于分析关键字列表中包含的每一关键字;
第二提取单元,用于针对包含相同前缀公共子串的关键字,提取各关键字对应的URL包含的共同特征;
第二更新单元,用于将第二提取单元提取到的共同特征添加至非有效URL特征列表中。
具体实施时,上述HTTP访问请求处理装置可以设置于网关设备中,由网管设备判断HTTP请求报文中包含的URL是否有效,需要说明的是,将上述HTTP访问请求处理装置设置于网关设备中只是本发明实施例较佳地实施方式,具体实施时,也可以将HTTP访问请求处理装置设置于专门的上网管理设备中或者新增设备中。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种HTTP访问请求处理方法,其特征在于,包括:
获得超文本传输协议HTTP请求报文,所述HTTP请求报文中携带有统一资源定位符URL;
根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征;
若判断结果为是,确定所述URL为无效URL;
若判断结果为否,确定所述URL为有效URL。
2.如权利要求1所述的方法,其特征在于,若判断结果为否,在确定所述URL为有效URL之前,还包括:
接收所述URL对应的HTTP回应信息;并
确定接收到的HTTP回应信息中包含的指定字段的字段值满足预设条件。
3.如权利要求2所述的方法,其特征在于,所述指定字段包括Content-Length和/或Content-Type;以及
当所述指定字段为Content-Length时,所述预设条件为:Content-Length对应的字段值大于等于预设阈值;
当所述指定字段包括Content-Type时,所述预设条件为:Content-Type对应的字段值为非指定值。
4.如权利要求1所述的方法,其特征在于,在根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征之前,还包括:
确定所述URL中包含的HOST字段的值存在于预先存储的HOST域值列表中。
5.如权利要求1所述的方法,其特征在于,所述HTTP请求报文中还携带有用户标识;以及
所述方法,还包括:
根据预设的关键字字段名列表,提取所述URL中包含的关键字;
将所述关键字及其对应的URL添加至所述用户标识对应的关键字列表中;并
分析所述关键字列表中包含的每一关键字;
针对包含相同前缀公共子串的关键字,提取各关键字对应的URL包含的共同特征添加至所述URL非有效特征列表中。
6.一种HTTP访问请求处理装置,其特征在于,包括:
获得单元,用于获得超文本传输协议HTTP请求报文,所述HTTP请求报文中携带有统一资源定位符URL;
判断单元,用于根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征;
确定单元,用于若所述判断单元的判断结果为是,确定所述URL为无效URL;若所述判断单元的判断结果为否,确定所述URL为有效URL。
7.如权利要求6所述的装置,其特征在于,还包括接收单元,其中:
所述接收单元,用于接收所述URL对应的HTTP回应信息;
所述确定单元,还用于若判断结果为否,在确定所述URL为有效URL之前,确定接收到的HTTP回应信息中包含的指定字段的字段值满足预设条件。
8.如权利要求6所述的装置,其特征在于,还包括
所述确定单元,还用于在所述判断单元根据预先存储的非有效URL特征列表,判断所述URL中是否包含非有效URL特征之前,确定所述URL中包含的HOST字段的值为预设值。
9.如权利要求6所述的装置,其特征在于,所述HTTP请求报文中还携带有用户标识;以及
所述装置,还包括:
第一提取单元,用于根据预设的关键字字段名列表,提取所述URL中包含的关键字;
第一更新单元,用于在所述确定单元确定所述关键字有效时,将所述关键字添加至所述用户标识对应的关键字列表中;
分析单元,用于分析所述关键字列表中包含的每一关键字;
第二提取单元,用于针对包含相同前缀公共子串的关键字,提取各关键字对应的URL包含的共同特征;
第二更新单元,用于将所述第二提取单元提取到的共同特征添加至所述非有效URL特征列表中。
10.一种网关设备,其特征在于,包括权利要求6~9任一权利要求所述的装置。
CN2012103428271A 2012-09-14 2012-09-14 一种http访问请求处理方法、装置及网关设备 Pending CN102857572A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2012103428271A CN102857572A (zh) 2012-09-14 2012-09-14 一种http访问请求处理方法、装置及网关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2012103428271A CN102857572A (zh) 2012-09-14 2012-09-14 一种http访问请求处理方法、装置及网关设备

Publications (1)

Publication Number Publication Date
CN102857572A true CN102857572A (zh) 2013-01-02

Family

ID=47403760

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012103428271A Pending CN102857572A (zh) 2012-09-14 2012-09-14 一种http访问请求处理方法、装置及网关设备

Country Status (1)

Country Link
CN (1) CN102857572A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118007A (zh) * 2013-01-06 2013-05-22 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和***
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN103646113A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 关键字的还原方法及装置
CN103973812A (zh) * 2014-05-23 2014-08-06 上海斐讯数据通信技术有限公司 基于http协议中统一资源定位符的服务接口提供方法及***
CN105631050A (zh) * 2016-03-01 2016-06-01 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及***
WO2016119420A1 (zh) * 2015-01-26 2016-08-04 中兴通讯股份有限公司 一种对网络资源的恶意访问检测方法、装置及通信网关
CN105938472A (zh) * 2015-08-26 2016-09-14 杭州迪普科技有限公司 一种网页访问控制方法和装置
CN105991331A (zh) * 2015-02-16 2016-10-05 杭州迪普科技有限公司 一种论坛审计方法、装置及日志管理装置
CN106250497A (zh) * 2016-08-02 2016-12-21 北京集奥聚合科技有限公司 一种app应用商店搜索关键字的分析方法
CN106330563A (zh) * 2016-08-30 2017-01-11 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN106815247A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 统一资源定位符获取方法及装置
CN109740076A (zh) * 2018-12-28 2019-05-10 北京字节跳动网络技术有限公司 网页显示方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605129A (zh) * 2009-06-23 2009-12-16 北京理工大学 一种用于url过滤***的url查找方法
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102567337A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 一种通过链接快速识别网页类型的方法及***

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101605129A (zh) * 2009-06-23 2009-12-16 北京理工大学 一种用于url过滤***的url查找方法
CN102004770A (zh) * 2010-11-16 2011-04-06 杭州迪普科技有限公司 一种网页审计方法及装置
CN102567337A (zh) * 2010-12-15 2012-07-11 盛乐信息技术(上海)有限公司 一种通过链接快速识别网页类型的方法及***

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103118007B (zh) * 2013-01-06 2016-02-03 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和***
CN103118007A (zh) * 2013-01-06 2013-05-22 瑞斯康达科技发展股份有限公司 一种用户访问行为的获取方法和***
CN103646119A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 用户行为记录的生成方法及装置
CN103646113A (zh) * 2013-12-26 2014-03-19 北京西塔网络科技股份有限公司 关键字的还原方法及装置
CN103973812A (zh) * 2014-05-23 2014-08-06 上海斐讯数据通信技术有限公司 基于http协议中统一资源定位符的服务接口提供方法及***
CN103973812B (zh) * 2014-05-23 2018-05-25 上海斐讯数据通信技术有限公司 基于http协议中统一资源定位符的服务接口提供方法及***
WO2016119420A1 (zh) * 2015-01-26 2016-08-04 中兴通讯股份有限公司 一种对网络资源的恶意访问检测方法、装置及通信网关
CN105897664A (zh) * 2015-01-26 2016-08-24 中兴通讯股份有限公司 一种对网络资源的恶意访问检测方法、装置及通信网关
CN105991331A (zh) * 2015-02-16 2016-10-05 杭州迪普科技有限公司 一种论坛审计方法、装置及日志管理装置
CN105938472A (zh) * 2015-08-26 2016-09-14 杭州迪普科技有限公司 一种网页访问控制方法和装置
CN106815247A (zh) * 2015-11-30 2017-06-09 北京国双科技有限公司 统一资源定位符获取方法及装置
CN106815247B (zh) * 2015-11-30 2020-05-22 北京国双科技有限公司 统一资源定位符获取方法及装置
CN105631050A (zh) * 2016-03-01 2016-06-01 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及***
CN105631050B (zh) * 2016-03-01 2019-09-17 国家计算机网络与信息安全管理中心 一种基于规则配置的url搜索关键词提取的方法及***
CN106250497A (zh) * 2016-08-02 2016-12-21 北京集奥聚合科技有限公司 一种app应用商店搜索关键字的分析方法
CN106330563A (zh) * 2016-08-30 2017-01-11 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN106330563B (zh) * 2016-08-30 2019-09-17 北京神州绿盟信息安全科技股份有限公司 一种确定内网http通信流服务类型的方法及装置
CN109740076A (zh) * 2018-12-28 2019-05-10 北京字节跳动网络技术有限公司 网页显示方法及装置

Similar Documents

Publication Publication Date Title
CN102857572A (zh) 一种http访问请求处理方法、装置及网关设备
US9251157B2 (en) Enterprise node rank engine
KR100723867B1 (ko) 피싱웹페이지 차단 장치 및 방법
CN102663062B (zh) 一种处理搜索结果中无效链接的方法及装置
Cohen et al. A short walk in the Blogistan
RU2011122657A (ru) Устройство сбора данных, система сбора данных и способ сбора данных
CN106951557B (zh) 日志关联方法、装置和应用其的计算机***
CN103067387B (zh) 一种反钓鱼监测***和方法
CN104615627B (zh) 一种基于微博平台的事件舆情信息提取方法及***
US9792370B2 (en) Identifying equivalent links on a page
JP2014528136A (ja) ネットデータの採集方法及びシステム
CN112257032B (zh) 一种确定app责任主体的方法及***
CN106547803B (zh) 爬取网站增量资源的方法和装置
JP2007140603A (ja) アーリーアダプタ抽出方法及び装置及びプログラム及び話題語予測方法及び装置及びプログラム
JP2007188330A (ja) 構造化文書抽出装置、構造化文書抽出方法および構造化文書抽出プログラム
Hansen et al. Comparing open source search engine functionality, efficiency and effectiveness with respect to digital forensic search
CN103714174B (zh) 用于互联网中加速经验知识积累的信息采集方法及***
US9092338B1 (en) Multi-level caching event lookup
KR20120071827A (ko) 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법
CN108038233B (zh) 一种采集文章的方法、装置、电子设备及存储介质
CN111177518A (zh) 网页净化方法、***及计算机可读存储介质
CN107784054B (zh) 一种页面发布方法和装置
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
Bamrah et al. Web forum crawling techniques
CN111723400A (zh) 一种js敏感信息泄露检测方法、装置、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130102