CN109302383A - 一种url监控方法及装置 - Google Patents

一种url监控方法及装置 Download PDF

Info

Publication number
CN109302383A
CN109302383A CN201811018419.4A CN201811018419A CN109302383A CN 109302383 A CN109302383 A CN 109302383A CN 201811018419 A CN201811018419 A CN 201811018419A CN 109302383 A CN109302383 A CN 109302383A
Authority
CN
China
Prior art keywords
target
url
monitoring
signature
monitored
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811018419.4A
Other languages
English (en)
Other versions
CN109302383B (zh
Inventor
熊庆昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811018419.4A priority Critical patent/CN109302383B/zh
Publication of CN109302383A publication Critical patent/CN109302383A/zh
Application granted granted Critical
Publication of CN109302383B publication Critical patent/CN109302383B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请实施例公开了一种URL监控方法及装置,其中方法包括:获取目标数据对应的N个目标特征,并获取接收到的目标请求中携带的目标URL,若该目标URL不属于监控集合,则检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控。采用本申请实施例,可以实现对URL的监控,从而实现对目标数据的监控,进而提高监控处理效率,降低监控成本,防止目标数据泄露给用户带来的财产损失。

Description

一种URL监控方法及装置
技术领域
本申请涉及互联网技术领域,尤其涉及一种URL监控方法及装置。
背景技术
目前,网站中的数据都是通过网页的页面内容呈现。而现有的网站都未对该网站中存在的数据(比如保单数据、客户信息等)进行监控,那么网站中的数据就很可能存在被恶意利用的风险。比如,当网站中存在越权漏洞时,这些数据就可能泄露,或者拥有权限查看数据的人员受到诱惑主动泄露等。一旦这些数据被泄露,就可能对客户造成严重的财产损失。
目前对于这些数据的监控主要是通过人工来实现的,但人工监控费时费力,且处理效率低,监控成本高。
发明内容
本申请实施例提供一种URL监控方法及装置,可提高监控处理效率,降低监控成本。
第一方面,本申请实施例提供了一种URL监控方法,该方法包括:
获取目标数据对应的N个目标特征;
获取接收到的目标请求中携带的目标统一资源定位符URL;
若该目标URL不属于监控集合,则检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,其中该监控集合中包括已监控URL,该已监控URL对应的页面内容与该N个目标特征中的至少一个目标特征匹配;
若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控;
其中,该N和该M均为大于或等于1的整数,且该M小于或等于该N。
结合第一方面,在一种可能的实施方式中,获取接收到的目标请求中携带的目标URL之后,该方法还包括:
检测该目标URL的文件名后缀是否与目标后缀匹配,该目标后缀包括至少一种非监控文件的文件名后缀;若该目标URL的文件名后缀与该目标后缀不匹配,则检测该目标URL是否属于监控集合。
结合第一方面,在一种可能的实施方式中,该监控集合中包括历史监控记录的已监控URL。检测该目标URL是否属于监控集合包括:计算该目标URL的哈希值;确定该监控集合中各个已监控URL的哈希值,检测该各个已监控URL的哈希值中是否存在与该目标URL的哈希值匹配的哈希值;若该各个已监控URL的哈希值中不存在与该目标URL的哈希值匹配的哈希值,则确定该目标URL不属于该监控集合。
结合第一方面,在一种可能的实施方式中,该监控集合中包括的已监控URL为空。检测该目标URL是否属于监控集合包括:若该监控集合中包括的已监控URL为空,则确定该目标URL不属于该监控集合。
结合第一方面,在一种可能的实施方式中,该方法还包括:若该目标URL属于该监控集合,获取针对该目标URL的请求频率;若该请求频率在目标范围外,则输出报警提示信息。其中,该报警提示信息包括该目标URL,该报警提示信息用于提示该目标URL的请求频率异常。
结合第一方面,在一种可能的实施方式中,若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控,包括:若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,对该目标URL的请求频率进行监控,并将该目标URL加入该监控集合。
第二方面,本申请实施例提供了一种URL监控装置,该装置包括:
第一获取模块,用于获取目标数据对应的N个目标特征;
第二获取模块,用于获取接收到的目标请求中携带的目标统一资源定位符URL;
第一检测模块,用于当该目标URL不属于监控集合时,检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,其中该监控集合中包括已监控URL,该已监控URL对应的页面内容与该N个目标特征中的至少一个目标特征匹配;
监控模块,用于当该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配时,对该目标URL进行监控;
其中,该N和该M均为大于或等于1的整数,且该M小于或等于该N。
结合第二方面,在一种可能的实施方式中,该装置,还包括:
第二检测模块,用于检测该目标URL的文件名后缀是否与目标后缀匹配,该目标后缀包括至少一种非监控文件的文件名后缀;
第三检测模块,用于当该目标URL的文件名后缀与该目标后缀不匹配时,则检测该目标URL是否属于监控集合。
结合第二方面,在一种可能的实施方式中,该监控集合中包括历史监控记录的已监控URL。上述第三检测模块具体用于计算该目标URL的哈希值;确定该监控集合中各个已监控URL的哈希值,检测该各个已监控URL的哈希值中是否存在与该目标URL的哈希值匹配的哈希值;若该各个已监控URL的哈希值中不存在与该目标URL的哈希值匹配的哈希值,则确定该目标URL不属于该监控集合。
结合第二方面,在一种可能的实施方式中,该监控集合中包括的已监控URL为空。上述第三检测模块还具体用于:当该监控集合中包括的已监控URL为空时,确定该目标URL不属于该监控集合。
结合第二方面,在一种可能的实施方式中,该装置还包括:第三获取模块,用于当该目标URL属于该监控集合时,获取针对该目标URL的请求频率;输出模块,用于当该请求频率在目标范围外时,输出报警提示信息。其中,该报警提示信息包括该目标URL,该报警提示信息用于提示该目标URL的请求频率异常。
结合第二方面,在一种可能的实施方式中,该监控模块具体用于当该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配时,对该目标URL的请求频率进行监控,并将该目标URL加入该监控集合。
第三方面,本申请实施例提供了一种服务器,包括处理器和存储器,该处理器和存储器相互连接,其中,该存储器用于存储支持服务器执行上述方法的计算机程序,该计算机程序包括程序指令,该处理器被配置用于调用该程序指令,执行上述第一方面的URL监控方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面的URL监控方法。
本申请实施例通过获取目标数据对应的N个目标特征,并获取接收到的目标请求中携带的目标URL,若该目标URL不属于监控集合,则检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控,可以实现对URL的监控,从而实现对目标数据的监控,进而提高监控处理效率,降低监控成本,防止目标数据泄露给用户带来的财产损失。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种URL监控方法的一示意流程图;
图2是本申请实施例提供的一种URL监控方法的另一示意流程图;
图3是本申请实施例提供的一种URL监控装置的一示意性框图;
图4是本申请实施例提供的一种服务器的一示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、***、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
还应当理解,在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例中的目标请求可以为超文本传输协议(hyper text transferprotocol,HTTP)请求。由于本申请实施例所涉及的目标数据均以网页的页面内容呈现。因此,本申请实施例可以通过检测HTTP请求返回的页面内容是否携带目标数据的特征,来发现该页面内容中是否包括目标数据。由于HTTP请求中携带有统一资源定位符(uniformresource locator,URL),同时服务器针对HTTP请求返回的页面内容通常是URL对应的页面内容。因此,本申请实施例可以监控包含目标数据的页面内容对应的URL来达到监控目标数据的目的,通过监控这些URL可以实现在一定程度上预防和发现目标数据泄露的问题,从而提高监控处理效率,降低监控成本以及监控难度,防止目标数据泄露给用户带来的财产损失。
下面将结合图1至图4,对本申请实施例提供的URL监控方法及装置进行说明。
参见图1,是本申请实施例提供的一种URL监控方法的一示意流程图,如图1所示,该URL监控方法可包括:
S101,获取目标数据对应的N个目标特征。
在一些可行的实施方式中,服务器可以获取人工预设的N个目标特征,该目标特征可以用于表示目标数据,该目标数据可以是网站中自定义的需要进行监控的数据如保单数据、客户信息等,N可以为大于或等于1的整数。本申请实施例中的目标数据通常是指与客户密切相关的一些数据和/或信息,例如保单数据、客户信息等等。该目标特征可以包括关键字段,如客户姓名、手机、邮箱、身份证ID、车牌、车架号、保单号、地址、年龄、性别、用户名、密码、银行***、订单号等字段;该目标特征也可以包括文件类型,如PDF文档、word文档等。
在一些可行的实施方式中,服务器可以获取人工预设的至少一个预设特征,利用大数据分析各个预设特征在爬虫爬取到的所有页面内容中具体用哪些关键字段表示,分别提取表示该至少一个预设特征中各个预设特征的所有关键字段,并可从表示该至少一个预设特征的关键字段中确定为N个目标特征。其中,一个关键字段可以为一个目标特征,N可以为大于或等于1的整数。关键字段可以包括客户姓名、手机、邮箱、身份证ID、车牌、车架号、保单号、地址、年龄、性别、用户名、密码、银行***、订单号等与客户信息相关的字段。例如,假设预设特征为“连续11位数字”,服务器利用大数据分析爬虫爬取到的所有页面内容中“连续11位数字”由“手机号码”、“Tel”、“Mobile”这3个关键字段表示,服务器就将这3个关键字段“手机号码”、“Tel”、“Mobile”确定为3个目标特征。又如预设特征为“数字/字母(包括大小写)+@+数字/字母.com”,服务器利用大数据分析爬虫爬取到的所有页面内容中预设特征“数字/字母(包括大小写)+@+数字/字母.com”由“邮箱”、“Email”这2个关键字段表示,服务器就将这2个关键字段“邮箱”、“Email”确定为2个目标特征。本申请实施例通过大数据分析预设特征在页面内容中由哪些关键字段表示,从而确定出用于表示目标数据的目标特征,可以在不知道网站的页面内容是如何设计(如页面内容中由哪些字段或哪些内容)的情况下,仍能提取出用于表示目标数据的目标特征(关键字段)。
在一些可行的实施方式中,服务器在提取到表示各个预设特征的关键字段之后,可以输出表示该各个预设特征的所有关键字段。服务器可以将用户在表示该各个预设特征的所有关键字段中选择的关键字段确定为目标关键字段,并可以将该目标关键字段确定为目标特征。其中,一个关键字段可以为一个目标特征。可选的,服务器在提取到表示各个预设特征的关键字段之后,可以基于预设的筛选规则,从表示该各个预设特征的关键字段中筛选出部分关键字段作为表示目标数据的目标特征。例如,服务器可以统计“手机号码”、“Tel”、“Mobile”这3个关键字段出现的次数,根据出现次数的大小关系,只保留出现次数最多的关键字段,假设“手机号码”出现次数最多,则将关键字段“手机号码”作为目标特征,其他2个关键字段“Tel”和“Mobile”舍弃。本申请实施例通过人工对表示预设特征的关键字段进行筛选或增删后得到表示目标数据的目标特征,或者基于预设的筛选规则筛选出部分关键字段作为表示目标数据的目标特征,排除一些出现次数低的关键字段和明显不能表示目标数据的关键字段,可以提高准确性。
S102,获取接收到的目标请求中携带的目标统一资源定位符URL。
在一些可行的实施方式中,服务器可以接收终端发送的任意一个目标HTTP请求,并可以获取该目标HTTP请求中携带的目标URL。其中,该目标HTTP请求用于请求该目标URL对应的页面内容。一个URL的结构通常可以为“协议://服务器名称(IP地址)/路径?参数”,其中URL中的路径用于表示主机上的一个目录或文件地址。
S103,若目标URL不属于监控集合,则检测目标请求所请求的页面内容是否与N个目标特征中的M个目标特征匹配。
在一些可行的实施方式中,服务器可以获取预设的监控集合,并可以检测该监控集合中是否存在与上述目标URL相同的已监控URL。若该监控集合中存在与上述目标URL相同的已监控URL,说明上述目标URL属于该监控集合,则可以检测针对上述目标URL的请求频率是否在目标范围外。若该监控集合中不存在与上述目标URL相同的已监控URL,说明上述目标URL不属于该监控集合,则可以检测上述目标HTTP请求所请求的页面内容是否与上述N个目标特征中的M个目标特征匹配。其中,该监控集合中包括已监控URL,该已监控URL对应的页面内容与上述N个目标特征中的至少一个目标特征匹配。N和M均可以为大于或等于1的整数,且M可以小于或等于N。
例如,假设N个目标特征中包括手机、身份证ID、车牌、保单号、地址、用户名、密码、银行***、订单号这9个关键字段以及PDF文档、word文档这2个文件类型。监控集合中包括4个已监控URL,分别为URL3、URL5、URL7、URL8。上述目标HTTP请求携带的目标URL为URL9。服务器可以利用字符匹配的方法检测监控集合中是否存在与目标URL相同的已监控URL。由于监控集合中不存在与URL9相同的已监控URL,说明URL9不属于监控集合,服务器检测目标HTTP请求所请求的页面内容中是否包含手机、身份证ID、车牌、保单号、地址、用户名、密码、银行***、订单号这9个关键字段中的任一关键字段。若目标HTTP请求所请求的页面内容中包含这9个关键字段中的至少一个关键字段,则说明目标HTTP请求所请求的页面内容与N个目标特征中的至少一个目标特征匹配。若目标HTTP请求所请求的页面内容中不包含这9个关键字段中的任意关键字段,服务器可以获取目标HTTP请求所请求的页面内容的头文件的前3个字符。判断该头文件的前3个字符是否与PDF文档或word文档头文件的前3个字符相同,若相同,说明目标HTTP请求所请求的页面内容与N个目标特征中的1个目标特征匹配。若不相同,说明目标HTTP请求所请求的页面内容与N个目标特征中的任意特征都不匹配。可选的,服务器可以并行执行检测目标HTTP请求所请求的页面内容是否包括这9个关键字段中的任意关键字段,以及检测目标HTTP请求所请求的页面内容的头文件的前3个字符是否与PDF文档或word文档头文件的前3个字符相同。当目标HTTP请求所请求的页面内容包括这9个关键字段中的任意关键字段,和/或目标HTTP请求所请求的页面内容的头文件的前3个字符与PDF文档或word文档头文件的前3个字符相同时,则说明目标请求所请求的页面内容与N个目标特征中的M个目标特征匹配。
在一些可行的实施方式中,监控列表可以是一个可配置的列表,可通过界面对监控集合中的已监控URL进行增加和/或删除等操作。其中,初始的监控集合可以不包含任何已监控URL,也可包含人工设置的一个或多个URL。若监控集合中未包含任何已监控URL(即监控集合为空),那么上述目标URL一定不属于该监控集合,则服务器可以检测上述目标HTTP请求所请求的页面内容是否与上述N个目标特征中的M个目标特征匹配。
S104,若目标请求所请求的页面内容与N个目标特征中的M个目标特征匹配,则对目标URL进行监控。
在一些可行的实施方式中,当上述目标请求所请求的页面内容与上述获取到的N个目标特征中的一个或多个目标特征匹配时,服务器可以对上述目标URL进行监控。如监控针对上述目标URL的请求频率、时间分布,或监控上述目标URL对应的页面内容为PDF文档或word文档的下载频率,以及记录每次下载的IP地址,或监控单个IP地址(该IP地址可以为人工设置的,也可以为请求频率在前100的某个IP地址)针对上述目标URL的请求频率以及时间分布等。当上述目标请求所请求的页面内容与上述获取到的N个目标特征中的任意特征都不匹配,说明上述目标请求所请求的页面内容不包含目标数据,服务器可以将上述目标URL加入非监控集合中,以便于服务器下一次接收到包含该目标URL的请求后直接丢弃,不再判断该目标URL对应的页面内容是否包括目标数据。本申请实施例通过对目标URL进行监控,从而实现对目标数据的监控,进而提高监控处理效率,降低监控成本,防止目标数据泄露给用户带来的财产损失。
在一些可行的实施方式中,服务器在对上述目标URL进行监控之后,可以将上述目标URL加入上述监控集合中得到新的监控集合。服务器在接收到下一个HTTP请求时,判断该下一个HTTP请求中包含的URL是否属于新的监控集合。本申请实施例通过自动更新监控集合,可实时发现和/或监控网站中新增的包含目标数据的页面内容,进而使得URL监控更加准确。
在本申请实施例中,服务器通过获取目标数据对应的N个目标特征,并获取接收到的目标请求中携带的目标URL,若该目标URL不属于监控集合,则检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控,可以实现对URL的监控,从而实现对目标数据的监控,进而提高监控处理效率,降低监控成本,防止目标数据泄露给用户带来的财产损失。
参见图2,是本申请实施例提供的一种URL监控方法的另一示意流程图,如图2所示,该URL监控方法可包括:
S201,获取目标数据对应的N个目标特征。
S202,获取接收到的目标请求中携带的目标统一资源定位符URL。
本申请实施例中上述步骤S201-步骤S202的实现方式可参考图1所示实施例的步骤S101-步骤S102所提供的实现方式,在此不再赘述。
S203,检测目标URL的文件名后缀是否与目标后缀匹配。
S204,若目标URL的文件名后缀与目标后缀不匹配,则检测目标URL是否属于监控集合。
在一些可行的实施方式中,服务器可以检测上述目标URL的文件名后缀是否与预设的目标后缀相同,若上述目标URL的文件名后缀与预设的目标后缀不相同,则检测上述目标URL是否属于预设的监控集合。若上述目标URL的文件名后缀与预设的目标后缀相同,说明上述目标URL对应的页面内容不包括目标数据,服务器可以接收下一个HTTP请求,并可以判断该下一个HTTP请求中携带的URL的文件名后缀是否与目标后缀相同。其中,该目标后缀可以包括至少一种非监控文件的文件名后缀,该非监控文件可以为人工预设的不包含目标数据的文件。由于网站中存在一些不可能包括目标数据的页面内容,所以本申请实施例通过URL的文件名后缀排除明显不包括目标数据的页面内容,可以提高处理效率。
例如,非监控文件包括js文件、css文件、图片和视频。js文件的文件名后缀为“.js”,css文件的文件名后缀为“.css”,图片的文件名后缀为“.jpg或.png”,视频的文件名后缀为“.mp4”。服务器检测目标URL的文件名后缀是否与“.js”、“.css”、“.jpg”、“.png”以及“.mp4”中任一个相同,来判断该目标URL对应的页面内容是否为js文件、css文件、图片或视频。若该目标URL的文件名后缀与“.js”、“.css”、“.jpg”、“.png”以及“.mp4”中各个都不相同,服务器可以检测上述目标URL是否属于预设的监控集合。
在一些可行的实施方式中,服务器可以获取预设的监控集合,该监控集合中包括历史监控记录的已监控URL。服务器在检测上述目标URL是否属于预设的监控集合时,可以利用预设的哈希函数计算上述目标URL的哈希值,并可以利用该预设的哈希函数计算该监控集合中各个已监控URL的哈希值。服务器检测该各个已监控URL的哈希值中是否存在与上述目标URL的哈希值相同的已监控URL的哈希值。若该各个已监控URL的哈希值中不存在与该目标URL的哈希值相同的已监控URL的哈希值,则可以确定上述目标URL不属于该监控集合,并可以检测上述目标HTTP请求所请求的页面内容是否与上述N个目标特征中的M个目标特征匹配。若该各个已监控URL的哈希值中存在与该目标URL的哈希值相同的已监控URL的哈希值,则确定上述目标URL属于该监控集合。由于哈希函数是将任意长度的数据转换成特定长度的数据的函数,且通常来说,URL的字符长度较长,所以本申请实施例通过比较已监控URL的哈希值和目标URL的哈希值,可以解决逐字符比较URL时检测速率低的问题,提高检测效率。
例如,假设监控集合中包括4个已监控URL,分别为URL3、URL5、URL7、URL8。目标URL为URL4。服务器利用预设的哈希函数计算URL4的哈希值为09,并分别计算URL3的哈希值01,URL5的哈希值12,URL7的哈希值04以及URL8的哈希值11。由于URL4的哈希值09与监控集合中各个已监控URL的哈希值(01、12、04以及11)都不相同,说明URL4不属于监控集合,则可以检测上述目标HTTP请求所请求的页面内容是否与上述N个目标特征中的M个目标特征匹配。
在一些可行的实施方式中,若上述监控集合中包括的已监控URL为空,服务器可以确定上述目标URL不属于该监控集合。
S205,若目标URL不属于监控集合,则检测目标请求所请求的页面内容是否与N个目标特征中的M个目标特征匹配。
S206,若目标请求所请求的页面内容与N个目标特征中的M个目标特征匹配,则对目标URL进行监控。
本申请实施例中上述步骤S205-步骤S206的实现方式可参考图1所示实施例的步骤S103-步骤S104所提供的实现方式,在此不再赘述。
S207,若目标URL属于监控集合,获取针对目标URL的请求频率。
S208,若请求频率在目标范围外,则输出报警提示信息。
在一些可行的实施方式中,当上述目标URL属于上述监控集合时,说明该目标URL是已监控URL,服务器可以获取一段时间内接收到的包含该目标URL的HTTP请求的请求频率。服务器可以获取预设的请求频率范围,并可以检测针对该目标URL的请求频率是否在该请求频率范围内。若该请求频率在该请求频率范围内,则说明该目标URL的请求频率正常,未发生突变,则可以对该目标URL继续进行监控。若该请求频率在该请求频率范围外,则说明该目标URL的请求频率异常,可能发生了突变,则可以输出报警提示信息,该报警提示信息可以包括该目标URL,该报警提示信息可以用于提示监控人员该目标URL的请求频率异常,以便于监控人员及时发现可能出现的目标数据泄露的问题。其中,该请求频率范围可以为历史记录的一段时间内针对该目标URL的请求频率的平均值加/减该请求频率的标准差,即请求频率范围为 表示请求频率的平均值,δf表示请求频率的标准值。
在一些可行的实施方式中,服务器在获取针对该目标URL的请求频率之后,还可以获取历史记录中该目标URL的请求频率曲线F(用于描绘接收到的包含该目标URL的HTTP请求个数与时间的关系)。服务器可以比较获取到的针对该目标URL的请求频率是否满足该请求频率曲线F的趋势,或与该请求频率曲线F相比,该目标URL的请求频率是否发生了突变。若该目标URL的请求频率不满足该请求频率曲线F的趋势,或与该请求频率曲线F相比,该目标URL的请求频率发生了突变,则可以输出报警提示信息。其中,突变可以指该请求频率曲线F中突然出现的尖峰。例如,假设请求频率曲线F的趋势比较平稳(在1000次/分钟上下波动),而此时针对该目标URL的请求频率f1为10000次/分钟(即突现的尖峰),此时就可以认为发生了突变。
在一些可行的实施方式中,当上述目标URL属于上述监控集合时,若上述目标URL对应的页面内容中包括PDF文档或word文档,服务器可以获取该目标URL对应的页面内容中PDF文档或word文档的下载频率。服务器可以获取预设的下载频率范围,并可以检测该目标URL对应的页面内容中PDF文档或word文档的下载频率是否在该下载频率范围内。若该下载频率在该下载频率范围内,则说明该PDF文档或word文档的下载频率正常,未发生突变,则可以对该目标URL继续进行监控。若该下载频率在该下载频率范围外,则说明该目标URL的下载频率异常,可能发生了突变,则可以输出报警提示信息,该报警提示信息可以包括该目标URL,该报警提示信息可以用于提示监控人员该目标URL对应的页面内容中PDF文档或word文档的下载频率异常,以便于监控人员及时发现可能出现的目标数据泄露的问题。其中,该下载频率范围可以为历史记录的一段时间内针对该PDF文档或word文档的下载频率的平均值加/减该下载频率的标准差,即下载频率范围为 表示下载频率的平均值,δd表示下载频率的标准值。
在本申请实施例中,服务器通过获取目标数据对应的N个目标特征,并获取接收到的目标请求中携带的目标URL,再检测该目标URL的文件名后缀是否与目标后缀匹配,若该目标URL的文件名后缀与该目标后缀不匹配,则检测该目标URL是否属于监控集合,当该目标URL不属于该监控集合时,检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,若是,即该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控,当该目标URL属于该监控集合时,获取针对该目标URL的请求频率,当该请求频率在目标范围外时,输出报警提示信息。不仅可以实现对URL的监控,从而实现对目标数据的监控,并且可以明显排出不包含目标数据的页面内容,提高监控效率,通过对请求频率进行监控,可以及时发现可能出现的目标数据泄露的情况。
参见图3,是本申请实施例提供的一种URL监控装置的一示意性框图。本实施例的URL监控装置300包括:
第一获取模块10,用于获取目标数据对应的N个目标特征;
第二获取模块20,用于获取接收到的目标请求中携带的目标统一资源定位符URL;
第一检测模块30,用于当该目标URL不属于监控集合时,检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,其中该监控集合中包括已监控URL,该已监控URL对应的页面内容与该N个目标特征中的至少一个目标特征匹配;
监控模块40,用于当该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配时,对该目标URL进行监控;
其中,该N和该M均为大于或等于1的整数,且该M小于或等于该N。
在一些可行的实施方式中,该URL监控装置300还包括第二检测模块50和第三检测模块60。该第二检测模块50,用于检测该目标URL的文件名后缀是否与目标后缀匹配,该目标后缀包括至少一种非监控文件的文件名后缀;该第三检测模块60,用于当该目标URL的文件名后缀与该目标后缀不匹配时,则检测该目标URL是否属于监控集合。
在一些可行的实施方式中,该监控集合中包括历史监控记录的已监控URL。上述第三检测模块60具体用于:
计算该目标URL的哈希值;确定该监控集合中各个已监控URL的哈希值,检测该各个已监控URL的哈希值中是否存在与该目标URL的哈希值匹配的哈希值;若该各个已监控URL的哈希值中不存在与该目标URL的哈希值匹配的哈希值,则确定该目标URL不属于该监控集合。
在一些可行的实施方式中,该监控集合中包括的已监控URL为空。上述第三检测模块60还具体用于:当该监控集合中包括的已监控URL为空时,确定该目标URL不属于该监控集合。
在一些可行的实施方式中,该URL监控装置300还包括第三获取模块70和输出模块80。该第三获取模块70,用于当该目标URL属于该监控集合时,获取针对该目标URL的请求频率;输出模块80,用于当该请求频率在目标范围外时,输出报警提示信息。其中,该报警提示信息包括该目标URL,该报警提示信息用于提示该目标URL的请求频率异常。
在一些可行的实施方式中,该监控模块40具体用于当该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配时,对该目标URL的请求频率进行监控,并将该目标URL加入该监控集合。
具体实现中,上述URL监控装置可通过上述各个模块执行上述图1或图2所提供的实现方式中各个步骤所提供的实现方式,实现上述各实施例中所实现的功能,具体可参见上述图1或图2所示的方法实施例中各个步骤提供的相应描述,在此不再赘述。
在本申请实施例中,URL监控装置通过获取目标数据对应的N个目标特征,并获取接收到的目标请求中携带的目标URL,若该目标URL不属于监控集合,则检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控,可以实现对URL的监控,从而实现对目标数据的监控,进而提高监控处理效率,降低监控成本,防止目标数据泄露给用户带来的财产损失。
参见图4,是本申请实施例提供的一种服务器的一示意性框图。如图4所示,本申请实施例中的服务器400可以包括:一个或多个处理器401和存储器402。上述处理器401和存储器402通过总线403连接。存储器402用于存储计算机程序,所述计算机程序包括程序指令,处理器401用于执行存储器402存储的程序指令。其中,处理器401被配置用于调用该程序指令执行:
获取目标数据对应的N个目标特征;
获取接收到的目标请求中携带的目标统一资源定位符URL;
若该目标URL不属于监控集合,则检测该目标请求所请求的页面内容是否与该N个目标特征中的M个目标特征匹配,其中该监控集合中包括已监控URL,该已监控URL对应的页面内容与该N个目标特征中的至少一个目标特征匹配;
若该目标请求所请求的页面内容与该N个目标特征中的M个目标特征匹配,则对该目标URL进行监控;
其中,该N和该M均为大于或等于1的整数,且该M小于或等于该N。
应当理解,在一些可行的实施方式中,所称处理器401可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integratedcircuit,ASIC)、现成可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
该存储器402可以包括只读存储器和随机存取存储器,并向处理器401提供指令和数据。存储器402的一部分还可以包括非易失性随机存取存储器。例如,存储器402还可以存储设备类型的信息。
具体实现中,本申请实施例中所描述的处理器401可执行本申请实施例提供的URL监控方法中所描述的实现方式,也可执行本申请实施例所描述的URL监控装置的实现方式,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现图1或图2所示的URL监控方法,具体细节请参照图1或图2所示实施例的描述,在此不再赘述。
上述计算机可读存储介质可以是前述任一实施例所述的统一资源定位符URL去重装置或电子设备的内部存储单元,例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备,例如该电子设备上配备的插接式硬盘,智能存储卡(smart media card,SMC),安全数字(secure digital,SD)卡,闪存卡(flash card)等。进一步地,该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请是参照本申请实施例的方法、装置(终端)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管结合具体特征及其实施例对本申请进行了描述,显而易见的,在不脱离本申请的精神和范围的情况下,可对其进行各种修改和组合。相应地,本说明书和附图仅仅是所附权利要求所界定的本申请的示例性说明,且视为已覆盖本申请范围内的任意和所有修改、变化、组合或等同物。显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种URL监控方法,其特征在于,包括:
获取目标数据对应的N个目标特征;
获取接收到的目标请求中携带的目标统一资源定位符URL;
若所述目标URL不属于监控集合,则检测所述目标请求所请求的页面内容是否与所述N个目标特征中的M个目标特征匹配,其中所述监控集合中包括已监控URL,所述已监控URL对应的页面内容与所述N个目标特征中的至少一个目标特征匹配;
若所述目标请求所请求的页面内容与所述N个目标特征中的M个目标特征匹配,则对所述目标URL进行监控;
其中,所述N和所述M均为大于或等于1的整数,且所述M小于或等于所述N。
2.根据权利要求1所述的方法,其特征在于,所述获取接收到的目标请求中携带的目标URL之后,所述方法还包括:
检测所述目标URL的文件名后缀是否与目标后缀匹配,所述目标后缀包括至少一种非监控文件的文件名后缀;
若所述目标URL的文件名后缀与所述目标后缀不匹配,则检测所述目标URL是否属于监控集合。
3.根据权利要求2所述的方法,其特征在于,所述监控集合中包括历史监控记录的已监控URL;
所述检测所述目标URL是否属于监控集合包括:
计算所述目标URL的哈希值;
确定所述监控集合中各个已监控URL的哈希值,检测所述各个已监控URL的哈希值中是否存在与所述目标URL的哈希值匹配的哈希值;
若所述各个已监控URL的哈希值中不存在与所述目标URL的哈希值匹配的哈希值,则确定所述目标URL不属于所述监控集合。
4.根据权利要求2所述的方法,其特征在于,所述监控集合中包括的已监控URL为空;
所述检测所述目标URL是否属于监控集合包括:
若所述监控集合中包括的已监控URL为空,则确定所述目标URL不属于所述监控集合。
5.根据权利要求1所述的方法,其特征在于,所述方法,还包括:
若所述目标URL属于所述监控集合,获取针对所述目标URL的请求频率;
若所述请求频率在目标范围外,则输出报警提示信息,所述报警提示信息包括所述目标URL,所述报警提示信息用于提示所述目标URL的请求频率异常。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述若所述目标请求所请求的页面内容与所述N个目标特征中的M个目标特征匹配,则对所述目标URL进行监控,包括:
若所述目标请求所请求的页面内容与所述N个目标特征中的M个目标特征匹配,对所述目标URL的请求频率进行监控,并将所述目标URL加入所述监控集合。
7.一种URL监控装置,其特征在于,包括:
第一获取模块,用于获取目标数据对应的N个目标特征;
第二获取模块,用于获取接收到的目标请求中携带的目标统一资源定位符URL;
第一检测模块,用于当所述目标URL不属于监控集合时,检测所述目标请求所请求的页面内容是否与所述N个目标特征中的M个目标特征匹配,其中所述监控集合中包括已监控URL,所述已监控URL对应的页面内容与所述N个目标特征中的至少一个目标特征匹配;
监控模块,用于当所述目标请求所请求的页面内容与所述N个目标特征中的M个目标特征匹配时,对所述目标URL进行监控;
其中,所述N和所述M均为大于或等于1的整数,且所述M小于或等于所述N。
8.根据权利要求7所述的装置,其特征在于,所述装置,还包括:
第二检测模块,用于检测所述目标URL的文件名后缀是否与目标后缀匹配,所述目标后缀包括至少一种非监控文件的文件名后缀;
第三检测模块,用于当所述目标URL的文件名后缀与所述目标后缀不匹配时,则检测所述目标URL是否属于监控集合。
9.一种服务器,其特征在于,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-6任一项所述的方法。
CN201811018419.4A 2018-08-31 2018-08-31 一种url监控方法及装置 Active CN109302383B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811018419.4A CN109302383B (zh) 2018-08-31 2018-08-31 一种url监控方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811018419.4A CN109302383B (zh) 2018-08-31 2018-08-31 一种url监控方法及装置

Publications (2)

Publication Number Publication Date
CN109302383A true CN109302383A (zh) 2019-02-01
CN109302383B CN109302383B (zh) 2022-04-29

Family

ID=65166081

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811018419.4A Active CN109302383B (zh) 2018-08-31 2018-08-31 一种url监控方法及装置

Country Status (1)

Country Link
CN (1) CN109302383B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240948A (zh) * 2019-11-18 2020-06-05 北京博睿宏远数据科技股份有限公司 一种体验数据处理方法、装置、计算机设备及存储介质
CN112437356A (zh) * 2020-11-13 2021-03-02 珠海大横琴科技发展有限公司 一种流媒体数据处理方法和装置
CN112561715A (zh) * 2020-12-22 2021-03-26 海腾保险代理有限公司 电子保单管理方法、装置、电子设备和存储介质
CN113904879A (zh) * 2021-12-10 2022-01-07 北京指掌易科技有限公司 移动端的文件追踪方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2505370A1 (en) * 2004-04-26 2005-10-26 Watchfire Corporation Method and system for website analysis
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机***有限公司 一种钓鱼网站的检测方法及装置
US20110083185A1 (en) * 2009-10-07 2011-04-07 At&T Intellectual Property I, L.P. Method and System for Improving Website Security
CN102769632A (zh) * 2012-07-30 2012-11-07 珠海市君天电子科技有限公司 钓鱼网站分级检测和提示的方法及***
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
US8943039B1 (en) * 2006-08-25 2015-01-27 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
CN106874165A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2505370A1 (en) * 2004-04-26 2005-10-26 Watchfire Corporation Method and system for website analysis
US8943039B1 (en) * 2006-08-25 2015-01-27 Riosoft Holdings, Inc. Centralized web-based software solution for search engine optimization
CN101534306A (zh) * 2009-04-14 2009-09-16 深圳市腾讯计算机***有限公司 一种钓鱼网站的检测方法及装置
US20110083185A1 (en) * 2009-10-07 2011-04-07 At&T Intellectual Property I, L.P. Method and System for Improving Website Security
CN102769632A (zh) * 2012-07-30 2012-11-07 珠海市君天电子科技有限公司 钓鱼网站分级检测和提示的方法及***
CN103685307A (zh) * 2013-12-25 2014-03-26 北京奇虎科技有限公司 基于特征库检测钓鱼欺诈网页的方法及***、客户端、服务器
CN106874165A (zh) * 2015-12-14 2017-06-20 北京国双科技有限公司 网页检测方法和装置
CN107943954A (zh) * 2017-11-24 2018-04-20 杭州安恒信息技术有限公司 网页敏感信息的检测方法、装置及电子设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111240948A (zh) * 2019-11-18 2020-06-05 北京博睿宏远数据科技股份有限公司 一种体验数据处理方法、装置、计算机设备及存储介质
CN112437356A (zh) * 2020-11-13 2021-03-02 珠海大横琴科技发展有限公司 一种流媒体数据处理方法和装置
CN112437356B (zh) * 2020-11-13 2021-09-28 珠海大横琴科技发展有限公司 一种流媒体数据处理方法和装置
CN112561715A (zh) * 2020-12-22 2021-03-26 海腾保险代理有限公司 电子保单管理方法、装置、电子设备和存储介质
CN113904879A (zh) * 2021-12-10 2022-01-07 北京指掌易科技有限公司 移动端的文件追踪方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109302383B (zh) 2022-04-29

Similar Documents

Publication Publication Date Title
US11647039B2 (en) User and entity behavioral analysis with network topology enhancement
US10262145B2 (en) Systems and methods for security and risk assessment and testing of applications
US11582207B2 (en) Detecting and mitigating forged authentication object attacks using an advanced cyber decision platform
CN109302383A (zh) 一种url监控方法及装置
US20220232040A1 (en) Advanced cybersecurity threat mitigation using software supply chain analysis
US10348757B2 (en) System for the measurement and automated accumulation of diverging cyber risks, and corresponding method thereof
US8769679B1 (en) Tuning of data loss prevention signature effectiveness
JP5483033B2 (ja) ネットワーク照会を利用した最適定義配信による集中型スキャナデータベース
US10382461B1 (en) System for determining anomalies associated with a request
CN113489713B (zh) 网络攻击的检测方法、装置、设备及存储介质
US20120259753A1 (en) System and method for managing collaborative financial fraud detection logic
CN109711155A (zh) 一种预警确定方法和装置
EP2805286A1 (en) Online fraud detection dynamic scoring aggregation systems and methods
CN104798079A (zh) 自动资产关键度评估
CN108769070A (zh) 一种越权漏洞检测方法及装置
US10505736B1 (en) Remote cyber security validation system
US20230388278A1 (en) Detecting and mitigating forged authentication object attacks in multi - cloud environments with attestation
US20230319019A1 (en) Detecting and mitigating forged authentication attacks using an advanced cyber decision platform
JP6823201B2 (ja) 分類装置、分類方法、および、分類プログラム
CN110443039A (zh) 插件安全性的检测方法、装置以及电子设备
CN105224880B (zh) 信息采集方法和装置
CN116226865A (zh) 云原生应用的安全检测方法、装置、服务器、介质及产品
CN106790160B (zh) 密级标识与校验方法及装置
CN112085589B (zh) 规则模型的安全性的确定方法、装置和服务器
KR101436114B1 (ko) 디지털 컨텐츠의 다운로드 감지 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant