CN110825947A - Url去重方法、装置、设备与计算机可读存储介质 - Google Patents
Url去重方法、装置、设备与计算机可读存储介质 Download PDFInfo
- Publication number
- CN110825947A CN110825947A CN201911065342.0A CN201911065342A CN110825947A CN 110825947 A CN110825947 A CN 110825947A CN 201911065342 A CN201911065342 A CN 201911065342A CN 110825947 A CN110825947 A CN 110825947A
- Authority
- CN
- China
- Prior art keywords
- url
- deduplicated
- urls
- difference feature
- feature set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000001914 filtration Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims description 19
- 238000010276 construction Methods 0.000 claims description 16
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000008030 elimination Effects 0.000 abstract description 11
- 238000003379 elimination reaction Methods 0.000 abstract description 11
- 238000012360 testing method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 4
- 230000009193 crawling Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/50—Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
- G06F21/57—Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
- G06F21/577—Assessing vulnerabilities and evaluating computer system security
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Information Transfer Between Computers (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种URL去重方法,包括:获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;根据泛化结果,确定并剔除重复URL。本发明还公开了一种URL去重装置、设备和计算机可读存储介质。本发明采用双重去重,在一开始过滤明显重复的URL,再通过泛化处理,将存在差异的但实际所属同一类的URL进行剔除,进而提高URL的去重精度。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及URL去重方法、装置、设备与计算机可读存储介质。
背景技术
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,去重技术被引入银行等金融机构日常服务中,在银行等金融机构日常服务过程中,不可避免的会出现漏洞问题,针对漏洞问题,银行等金融机构一般是通过网站爬虫爬取相关网站的URL(UniformResource Locator,统一资源定位符),并通过存储有相关特征的漏洞仓库进行漏洞扫描,当扫描到有对应的特征时,即认为当前网站有漏洞存在。而URL去重则是指将重复爬取的URL去除,避免多次抓取同一页面,增加扫描工作量。
现有的URL去重通常采用Hash表、Bloom Filter(布隆过滤器)等工具对URL进行去重,其基本原理都是将待去重URL与其他URL进行比较,剔除重复的URL,然而现有的URL去重工具,都不太友好,要么去重标准过于严苛,导致扫描任务加重,扫描效率偏低;要么去重标准过于宽松,导致未能发现潜藏的漏洞,使得漏洞发现覆盖率偏低,影响扫描结果等,因此,如何平衡扫描效率以及扫描结果,从而提高URL的去重精度,是亟待解决的技术问题。
发明内容
本发明的主要目的在于提出一种URL去重方法、装置、设备与计算机可读存储介质,旨在提高URL的去重精度。
为实现上述目的,本发明提供一种URL去重方法,所述URL去重方法包括如下步骤:
获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;
确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;
根据泛化结果,确定并剔除重复URL。
优选地,所述构建所述待去重URL集合中各待去重URL之间的差异特征集合的步骤包括:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL,确定当前待去重URL与各个所述比较URL之间的相同特征的位置和差异特征的位置;
基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合。
优选地,所述基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合的步骤包括:
从所述当前待去重URL对应的一个以上的所述比较URL中依次选取出当前比较URL,将所述当前待去重URL与所述当前比较URL的相同特征的位置和差异特征的位置分别作为目标相同位置和目标差异位置;
判断在已构建的差异特征集合中,是否存在同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合;
若未存在,则基于所述目标相同位置、所述目标差异位置和预设的初始同类相似值,构建所述差异特征集合;
若存在,则将所述差异特征集合中的同类相似值进行更新。
优选地,所述构建所述待去重URL集合中各待去重URL之间的差异特征集合的步骤包括:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性;
若当前比较URL不具备泛化属性,则构建当前待去重URL与所述当前比较URL的差异特征集合。
优选地,所述依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性的步骤之后,所述URL去重方法还包括:
若所述当前比较URL具备泛化属性,则获取所述当前比较URL的泛化结果,以及所述当前比较URL对应的差异特征集合;
基于所述泛化结果,检测当前待去重URL与所述当前比较URL是否属于同一类URL类型;
若是,则更新所述当前比较URL对应的差异特征集合中同类相似值。
优选地,所述确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理的步骤包括:
确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并确定所述目标差异特征集合对应的差异URL的泛化内容;
基于所述预设算法,对所述泛化内容进行泛化处理,以得到对应的泛化结果。
优选地,所述获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合的步骤包括:
获取预设的原始URL集合,并对所述原始URL集合中的URL进行预处理,以得到所述原始URL集合中各URL对应的关键特征;
基于所述关键特征,将所述原始URL集合中的URL进行两两比较,并过滤重复的URL,以得到待去重URL集合。
此外,为实现上述目的,本发明还提供一种URL去重装置,所述URL去重装置包括:
基础去重模块,用于获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
差异构建模块,用于构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;
泛化处理模块,用于确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;
泛化去重模块,用于根据泛化结果,确定并剔除重复URLL。
优选地,所述差异构建模块还用于:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL,确定当前待去重URL与各个所述比较URL之间的相同特征的位置和差异特征的位置;
基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合。
优选地,所述差异构建模块还用于:
从所述当前待去重URL对应的一个以上的所述比较URL中依次选取出当前比较URL,将所述当前待去重URL与所述当前比较URL的相同特征的位置和差异特征的位置分别作为目标相同位置和目标差异位置;
判断在已构建的差异特征集合中,是否存在同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合;
若未存在,则基于所述目标相同位置、所述目标差异位置和预设的初始同类相似值,构建所述差异特征集合;
若存在,则将所述差异特征集合中的同类相似值进行更新。
优选地,所述差异构建模块还用于:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性;
若当前比较URL不具备泛化属性,则构建当前待去重URL与所述当前比较URL的差异特征集合。
优选地,所述差异构建模块还用于:
若所述当前比较URL具备泛化属性,则获取所述当前比较URL的泛化结果,以及所述当前比较URL对应的差异特征集合;
基于所述泛化结果,检测当前待去重URL与所述当前比较URL是否属于同一类URL类型;
若是,则更新所述当前比较URL对应的差异特征集合中同类相似值。
优选地,所述泛化处理模块还用于:
确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并确定所述目标差异特征集合对应的差异URL的泛化内容;
基于所述预设算法,对所述泛化内容进行泛化处理,以得到对应的泛化结果。
优选地,所述基础去重模块还用于:
获取预设的原始URL集合,并对所述原始URL集合中的URL进行预处理,以得到所述原始URL集合中各URL对应的关键特征;
基于所述关键特征,将所述原始URL集合中的URL进行两两比较,并过滤重复的URL,以得到待去重URL集合。
此外,为实现上述目的,本发明还提供一种URL去重设备,所述URL去重设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的URL去重程序,所述URL去重程序被所述处理器执行时实现如上所述的URL去重方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有URL去重程序,所述URL去重程序被处理器执行时实现如上所述的URL去重方法的步骤。
本发明提出的URL去重方法,获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;根据泛化结果,确定并剔除重复URL。本发明采用双重去重,在一开始过滤明显重复的URL,再通过泛化处理,将存在差异的但实际所属同一类的URL进行剔除,进而提高URL的去重精度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明URL去重方法第一实施例的流程示意图;
图3为本发明URL去重方法第二实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是PC机或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作***、网络通信模块、用户接口模块以及URL去重程序。
其中,操作***是管理和控制URL去重设备与软件资源的程序,支持网络通信模块、用户接口模块、URL去重程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的URL去重设备中,所述URL去重设备通过处理器1001调用存储器1005中存储的URL去重程序,并执行下述URL去重方法各个实施例中的操作。
基于上述硬件结构,提出本发明URL去重方法实施例。
参照图2,图2为本发明URL去重方法第一实施例的流程示意图,所述方法包括:
步骤S10,获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
步骤S20,构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;
步骤S30,确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;
步骤S40,根据泛化结果,确定并剔除重复URL。
本实施例URL去重方法运用于理财机构或者银行等金融机构的URL去重设备中,URL去重设备可以是终端、机器人或者PC设备,为描述方便,URL去重设备以去重设备进行描述。去重设备通过URL去重队列与URL爬取设备连接,URL爬取设备通过爬虫程序爬取目标网站的URL,并将爬取的URL***URL去重队列中,去重设备即可获取URL去重队列中的URL进行去重处理,在本实施例中,具体包括两重去重,第一重为基础去重,第二重为泛化去重,其中基础去重主要针对相同的URL,具体将相同的URL进行过滤,仅保留其中一个URL;泛化去重则是针对伪静态URL结构参数类似,但值不一致,相似度较高的URL,如http://test.com/ext/sact/XDeda/1231,与http://test.com/ext/sact/SPOLMA/271341,虽然从结构上看,两者属于不同的URL,但是对于漏洞扫描工具来说,其实质是属于同类功能型参数,即两者为同一类URL类型,属于同一类接口,因此,需要去重,具体通过泛化处理,从两者不同的泛化内容提炼出共性特征,以确定是否属于同一类URL类型,进而对同一类URL类型的URL进行去重。
以下将对各个步骤进行详细说明:
步骤S10,获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合。
在本实施例中,去重设备可获取预设的原始URL集合,其中,原始URL集合即为爬取设备爬取的目标网站的一手URL的集合,并将其***到URL去重队列中,以便去重设备从URL去重队列中获取,原始URL集合在具体实施时,至少包括两个URL。去重设备在获取到原始URL集合后,对原始URL集合进行第一重去重,也即基础去重,具体将重复的URL去重,从而过滤掉相同的URL,得到待去重URL集合,也即待去重URL集合中的URL不完全相同,各待去重URL之间存在差异。
具体的,去重设备将原始URL集合中的各个URL进行两两比较,判断是否存在相同的URL,若是存在,则将重复的URL去除,以得到待去重URL集合。
进一步地,步骤S10包括:
步骤a,获取预设的原始URL集合,并对所述原始URL集合中的URL进行预处理,以得到所述原始URL集合中各URL对应的关键特征;
在该步骤中,为加快第一重去重,去重设备先对原始URL集合中的URL进行预处理,从而得到各URL的关键特征,接着,判断原始URL集合中,各URL之间的关键特征是否相同。
具体的,确定原始URL集合中各URL的关键特征,并以所述关键特征作为分割点,对各URL进行拆分标识,其中,关键特征包括URL主机Host头、请求方法GET\POST、PATH路径、请求参数等。如当前URL为http://test.com/?in_track=home_tuan_content&tag=leixing_shushixing,通过预处理后,得到的关键特征为:请求Host头:test.com,请求方法:GET,PATH路径:/,请求参数名:in_track、tag等。
步骤b,基于所述关键特征,将所述原始URL集合中的URL进行两两比较,并过滤重复的URL,以得到待去重URL集合。
在该步骤中,去重设备根据预处理得到的关键特征,将原始URL集合中的URL进行两两比较,也即,将两两之间的关键特征进行比较,若是关键特征相同,则确定当前进行比较的两个URL为相同URL,此时,过滤掉重复的URL,从而得到待去重URL集合。
需要说明的是在过滤重复的URL时,可保留相同URL中的任意一个,其他URL则去除,也可以将当前URL作为保留对象。
步骤S20,构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量。
在本实施例中,去重设备通过第一重基础去重后,得到待去重URL集合,此时待去重URL集合中的待去重URL属于结构不同,但还不能排除存在重复嫌疑的URL,因此,需要搜集差异特征,以便确定是否属于同一类URL类型,为后续的第二重去重,也即泛化去重做准备。因此,去重设备构建待去重URL集合中各待去重URL之间的差异特征集合,其中,需要说明的是,差异特征集合中包含同类相似值,同类相似值用于表征与当前差异特征集合满足预设同类条件的差异特征集合的数量,在具体实施时,判断两两差异特征集合是否满足预设同类条件,若是,则更新上述两差异特征集合中的同类相似值,如与当前差异特征集合满足预设同类条件的差异特征集合有1个,则差异特征集合中的同类相似值为2,与当前差异特征集合满足预设同类条件的差异特征集合有2个,则差异特征集合中的同类相似值为3,以此类推,其中,预设同类条件为两差异特征集合包含有同样的相同特征的位置和差异特征的位置,如差异特征集合M与差异特征集合N同时包含有同样的相同特征的位置和差异特征的位置,则认为差异特征集合M与差异特征集合N满足预设同类条件;或者,两差异特征集合对应的待去重URL的泛化结果相同,如差异特征集合M对应的待去重URLm和o的泛化结果,与差异特征集合N对应的待去重URLm和o的泛化结果相同,则认为差异特征集合M与差异特征集合N满足预设同类条件等。
在另一实施例中,同类相似值还可用于表征与当前待去重URL满足预设同类条件的待去重URL的数量,在具体实施时,若当前待去重URL已构建的差异特征集合中同时包含的相同特征的位置和差异特征的位置,与当前待去重URL与其他待去重URL的相同特征的位置和差异特征的位置一致,则认为该其他待去重URL与当前待去重URL满足预设同类条件,该其他待去重URL的数量即为同类相似值,如待去重URLm与待去重URLn满足预设同类条件,则m与n构建的差异特征集合中同类相似值为1,若此时待去重URLo与m也满足预设同类条件,则m对应的差异特征集合中同类相似值则为2,以此类推;在另一实施例中,若存在与当前待去重URL的泛化结果相同的待去重URL,则认为该待去重URL与当前待去重URL满足预设同类条件,该待去重URL的数量即为同类相似值等。如该待去重URL的数量为1,那么该待去重URL与当前待去重URL构建的差异特征集合中包含的同类相似值则为1,若该待去重URL为n个,则同类相似值为n等。
具体的,步骤S20包括:
步骤c,依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL,确定当前待去重URL与各个所述比较URL之间的相同特征的位置和差异特征的位置;
在该步骤中,去重设备依次从待去重URL集合中选择当前待去重URL,并确定当前待去重URL对应的一个以上的比较URL,其中,比较URL为待去重URL集合中,除当前待去重URL以外的其他待去重URL,如当前有A,B,C,D四个URL,那么A的比较URL为B,C,D,而B的比较URl为A,C,D;在另一实施例中,为减少比较量,避免重复比较,若是当前待去重URL曾作为比较URL,则当前待去重URL作为比较URL时,对应的待去重URL无需再作为当前待去重URL的比较URL,如当前有A,B,C,D四个URL,那么A的比较URL为B,C,D,当当前待去重URL为B时,由于B曾作为A的比较URL,因此,B的比较URL为C,D,而没有A,同理,C的比较URL为D等。
接着,将各待去重URL与对应的比较URL进行两两比较,依次确定当前待去重URL与对应的比较URL的相同特征和差异特征,并确定相同特征的相同位置和差异特征的差异位置。
具体的,将当前待去重URL的关键特征与比较URL的关键特征进行比较,确定哪些特征是相同,哪些特征是不同的,然后,以相同特征的相同位置以及差异特征的差异位置作为参数,构建差异特征集合,在具体实施时,定义similar_location_index表示相似的位置索引集合,unsimlar_location_index表示不相似位置索引集合,similar_location_index和unsimlar_location_index构成的整体即为一对一差异特征集合。
步骤d,基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合。
在该步骤中,去重设备根据相同位置和差异位置,构建当前待去重URL与比较URL的差异特征集合。
如有A,B,C三个URL,其中,A为:http://test.com/ext/sact/XDeda/1231;
B为:http://test.com/ext/sact/SPOLMA/271341;
C为:http://test.com/ext/sact/jkBMa/1412313
对上述三个URL进行预处理,得到A的关键特征为[“test.com”,“ext”,“sact”,“XDeda”,“1231”],B的关键特征为[“test.com”,“ext”,“sact”,“SPOLMA”,“271341”],C的关键特征为[“test.com”,“ext”,“sact”,“jkBMa”,“1412313”]通过两两进行比较,确定A与B的相同特征为“test.com”,“ext”,“sact”,差异特征为“XDeda”,“1231”与“SPOLMA”,“271341”,并进一步确定相同特征的相同位置为1,2,3,差异特征的差异位置为4,5,因此,A与B的差异特征集合为{“similar_location_index”:[1,2,3],“unsimlar_location_index”:[4,5]},同理,A与C的差异特征集合为{“similar_location_index”:[1,2,3],“unsimlar_location_index”:[4,5]},也即A所对应的差异特征集合为两个{“similar_location_index”:[1,2,3],“unsimlar_location_index”:[4,5]},在本实施例中,同类相似值也可设为固定值,如1等,并且可省略表示。在另一实施例中,在后续进行泛化处理,确定同类相似值时,即计算差异特征集合相同的数量,如上所示例子,由于A与B,A与C的差异特征集合相同,则同类相似值为2,如上所述例子最终A对应的差异特征集合为{“similar_location_index”:[1,2,3],“unsimlar_location_index”:[4,5],“count”:2}。
进一步地,为方便后续确定同类相似值,步骤d包括:
从所述当前待去重URL对应的一个以上的所述比较URL中依次选取出当前比较URL,将所述当前待去重URL与所述当前比较URL的相同特征的位置和差异特征的位置分别作为目标相同位置和目标差异位置;
在该步骤中,在确定了当前待去重URL与比较URL的相同位置和差异位置后,进一步确定是否存在对应的差异特征集合,也即确定在此之前是否已构建过相同的差异特征集合,若是,则无需再重复构建。
具体的,从当前待去重URL对应的一个以上的比较URL中依次选取出当前比较URL,将当前待去重URL与当前比较URL进行比较,确定两者的相同特征的位置和差异特征的位置,并将相同特征的位置和差异特征的位置分别作为目标相同位置和目标差异位置。
判断在已构建的差异特征集合中,是否存在同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合;
在该步骤中,去重设备为避免重复构建差异特征集合,会先判断已构建的差异特征集合中,是否存在同时包含全部目标相同位置和目标差异位置的差异特征集合,也即确定是否存在一个差异差异特征集合,与即将要构建的差异特征集合满足预设同类条件,若是存在,则说明已构建过相同的差异特征集合;若是未存在,则说明未构建过相同的差异特征集合。
若未存在,则基于所述目标相同位置、所述目标差异位置和预设的初始同类相似值,构建对应的差异特征集合;
若是未存在,则说明需要进行构建,因此,基于确定的目标相同位置、目标差异位置和预设的初始同类相似值,构建对应的差异特征集合,构建方式与上述类似,在具体实施时,由于是第一次构建差异特征集合,因此,初始同类相似值赋值为1,在本实例中,定义“count”:1,然后,根据确定的相同位置、差异位置,以及初始同类相似值,构建差异特征集合,如上述所示例子的情况,则最终A与B的差异特征集合为{“similar_location_index”:[1,2,3],“unsimlar_location_index”:[4,5],“count”:1}。
若存在,则将同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合中的同类相似值进行更新。
若是存在,则无需再重复构建,因此,只需在已构建的同时包含全部目标相同位置和目标差异位置的差异特征集合中更新同类相似值的值即可,如上所示例子,由于A与C的差异特征集合与A与B的差异特征集合一样,因此,A最终的差异特征集合为{“similar_location_index”:[1,2,3],“unsimlar_location_index”:[4,5],“count”:2},即将原先差异特征集合中的“count”:1,更新为“count”:2。
步骤S30,确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理。
在本实施例中,在依次构建好当前待去重URL的差异特征集合,直至遍历所有的待去重URL后,去重设备确定差异特征集合中,同类相似值超过预设阈值的目标差异特征,如预设阈值为4,那么只需锁定差异特征集合中,count值大于4的差异特征集合即为目标差异特征集合,或者,统计相同差异特征集合个数超过的4的那一类差异特征集合即为目标差异特征集合。
也即同类相似值超过预设阈值的即符合泛化条件,此时,对目标差异特征集合对应的待泛化URL进行泛化处理,其中,预设阈值为一个经验值,根据爬取的目标网站的URL的不同而设置不同的预设阈值。
具体的,步骤S30包括:
步骤e,确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并确定所述目标差异特征集合对应的差异URL的泛化内容;
在该步骤中,先确定包含的同类相似值超过预设阈值的目标差异特征集合,然后,确定目标差异特征集合对应的差异URL的泛化位置,再确定泛化位置上的泛化内容,其中,差异URL为目标差异特征集合对应的待去重URL,如目标差异特征集合是通过待去重URLA、B、C构建的,那么,目标差异特征集合对应的差异URL即为待去重URLA、B和C。
可以理解的,由于伪静态URL的结构与静态URL和动态URL都不尽相同,因此,在确定泛化内容时,先读取当前差异URl的功能参数以及功能参数值,根据功能参数和功能参数值,确定当前差异URL的泛化位置,再确定泛化内容,其中,在具体实施时,功能参数包括URL参数和URL路径参数,如当前差异URL的功能参数和功能参数值为in_track=home_tuan_content&tag=12345,即确定泛化位置为URL参数,泛化内容即为home_tuan_content,12345;若当前待去重URL的功能参数和功能参数值为ext/sact/XDeda/1231,即确定泛化位置为URL路径参数(假设为“/”分隔符后两位)泛化内容即为XDeda,1231。
步骤f,基于所述预设算法,对所述泛化内容进行泛化处理,以得到对应的泛化结果。
在该步骤中,根据预设算法,对泛化内容进行泛化处理,从而得到对应的泛化结果。
具体的,根据泛化内容,选择对应的预设算法对泛化内容进行泛化处理,其中,预设算法在具体实施时,定义为当泛化内容包括字符串时,用{hash}特征符标识,当泛化内容包括数字时,用{number}特征符标识,也即,字符串用Hash算法进行转换,数字则以数字显示,如上述所示例子,泛化内容为home_tuan_content,12345的泛化结果为in_track={hash}&tag={number};泛化内容为XDeda,1231的泛化结果为ext/sact/{hash}/{number}。
步骤S40,根据泛化结果,确定并剔除重复URL。
在本实施例中,在得到泛化结果后,即可根据泛化结果确定重复URL,并剔除重复URL,具体的,将泛化结果进行两两比较,确定当前待去重URL与比较URL的泛化结果是否相同,若是相同,则确定两者为同类URL,因此,需要剔除重复URL。
需要注意的是,在将当前待去重URL的泛化结果与比较URL的泛化结果进行比较时,是将当前待去重URL的{hash}与比较URL的{hash}进行比较,将当前待去重URL的{number}与比较URL的{number}进行比较,两者相同即确定当前待去重URL与比较URL互为重复URL,此时,保留其中任意一个,其他重复URL剔除。
本实施例获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;根据泛化结果,确定并剔除重复URL。本发明采用双重去重,在一开始过滤明显重复的URL,再通过泛化处理,将存在差异的但实际所属同一类的URL进行剔除,进而提高URL的去重精度。
进一步地,基于本发明URL去重方法第一实施例,提出本发明URL去重方法第二实施例。
URL去重方法的第二实施例与URL去重方法的第一实施例的区别在于,参照图3,步骤S20包括:
步骤S21,依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性;
步骤S22,若当前所述比较URL不具备泛化属性,则构建当前待去重URL与所述当前比较URL的差异特征集合。
本实施例是一个循环遍历结构,上一个待去重URL集合在进行第二重去重后,会保留泛化结果以及对应的差异特征集合,因此,在进行当前待去重URL的差异特征集合的构建时,先确定当前待去重URl对应的比较URL是否具备泛化属性,若不具备,则正常构建差异特征集合;若是具备,则应当先确定当前待去重URL与比较URL是否为同一类URL类型,若是的话,则不需要再构建差异特征集合,而是对比较URL对应的差异特征集合中的同类相似值进行更新。
以下将对各个步骤进行详细说明:
步骤S21,依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性。
在本实施例中,去重设备在进行待去重URL两两比较时,依次从待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定当前待去重URL对应的一个以上的比较URL是否具备泛化属性,也即依次确定当前待去重URL对应的各个比较URL是否已构建过相应的差异特征集合,并且已被泛化处理,在上一实施例中可知,泛化处理后,对应的URL为泛化结果值,若是未被泛化处理,对应的URL还是URL数据。因此,只需判断当前比较URL为泛化结果值还是URL数据即可确定当前比较URL是否具备泛化属性,其中,若为泛化结果值,则确定比较URL具备泛化属性,反之,则不具备。
步骤S22,若当前比较URL不具备泛化属性,则构建当前待去重URL与所述当前比较URL的差异特征集合。
在本实施例中,若是确定当前待去重URL对应的当前比较URL不具备泛化属性,则说明当前比较URL还是URL数据,并且还是经过了第一重去重之后的URL数据,因此,应当正常构建当前待去重URL与当前比较URL的差异特征集合。
进一步地,步骤S22包括:
若当前比较URL不具备泛化属性,则确定当前待去重URL与所述当前比较URL的相同特征的数量是否大于差异特征的数量;
若是,则构建当前待去重URL与所述当前比较URL的差异特征集合。
在该步骤中,在确定当前比较URL不具备泛化属性后,将当前待去重URL与当前比较URL进行一对一差异比较,从而得到当前待去重URL与当前比较URL的相同特征和差异特征,此时,分别统计相同特征的数量以及差异特征的数量,确定相同特征的数量是否大于差异特征的数量,若是大于,在构建差异特征集合,若是不大于,则说明两者的差异较大,可直接保留,减少构建差异特征集合的次数,以提高URL的去重效率。
需要说明的是,在确定当前比较URL不具备泛化属性后,在将当前待去重URL与当前比较URL进行比较时,也可以两者PATH路径最后一位的泛化结果来判断,若两者PATH路径最后一位的泛化结果相同,则构建差异特征集合;若不相同,则无需构建,保留当前待去重URL,以达到减少构建差异特征集合的次数的目的。
进一步地,步骤S21之后,所述URL去重方法还包括:
步骤g,若所述当前比较URL具备泛化属性,则获取所述当前比较URL的泛化结果,以及所述当前比较URL对应的差异特征集合;
在该步骤中,由于经过第一重去重后,得到的各待去重URL已明显不完全相同,但是是否真的是不同的URL还不能确定,有可能存在结构上不同,但属于同一类URL类型的重复URL,因此,需要依次判断当前待去重URL与各个比较URL是否属于同一类URL类型,因此,若是确定当前待去重URL对应的当前比较URL具备泛化属性,则获取当前比较URL的泛化结果,以及对应的差异特征集合,作为后续判断的标准。
步骤h,基于所述泛化结果,检测当前待去重URL与所述当前比较URL是否属于同一类URL类型;
在该步骤中,根据当前比较URL的泛化结果,检测当前待去重URL与当前比较URL是否属于同一类URL类型,具体将当前待去重URL进行泛化处理,得到当前待去重URL的泛化结果,并将当前待去重URL的泛化结果与已经得到的当前比较URL的泛化结果进行比较,判断是否相同,从而确定当前待去重URL与当前比较URL是否属于同一类URL类型。
步骤i,若是,则更新所述当前比较URL对应的差异特征集合中同类相似值。
若确定当前待去重URL与当前比较URL属于同一类URL类型,则无需再另外构建当前待去重URL与当前比较URL的差异特征集合,而是在当前比较URL对应的差异特征集合中更新同类相似值,在具体实施时,将同类相似值加1。
进一步地,若否,即确定当前待去重URL与当前比较URL不属于同一类URL类型,说明当前待去重URL在结构上与其他待去重URL不同,在功能上,也与其他待去重URL不同,不属于同一类URL类型,则保留当前待去重URL。
本实施例若是确定当前待去重URL对应的比较URL具备泛化属性,则确定比较URL已被泛化处理过,那么其应当也有相应的差异特征集合,那么只需确定当前待去重URL是否与比较URL属于同一类URL类型,若是,则无需再构建差异特征集合,只需更新比较URL对应的差异特征集合中同类相似值即可,若不是,则直接保留当前待去重URL;若是不具备泛化属性,则应当正常构建差异特征集合,以便对当前待去重URl进行进一步确认,可有效减少比较次数以及差异特征集合的构建次数,从而提高URL去重的效率。
本发明还提供一种URL去重装置。本发明URL去重装置包括:
基础去重模块,用于获取URL去重队列中的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
基础去重模块,用于获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
差异构建模块,用于构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;
泛化处理模块,用于确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;
泛化去重模块,用于根据泛化结果,确定并剔除重复URL。
进一步地,所述差异构建模块还用于:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL,确定当前待去重URL与各个所述比较URL之间的相同特征的位置和差异特征的位置;
基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合。
进一步地,所述差异构建模块还用于:
从所述当前待去重URL对应的一个以上的所述比较URL中依次选取出当前比较URL,将所述当前待去重URL与所述当前比较URL的相同特征的位置和差异特征的位置分别作为目标相同位置和目标差异位置;
判断在已构建的差异特征集合中,是否存在同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合;
若未存在,则基于所述目标相同位置、所述目标差异位置和预设的初始同类相似值,构建对应的差异特征集合;
若存在,则将同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合中的同类相似值进行更新。
进一步地,所述差异构建模块还用于:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性;
若当前比较URL不具备泛化属性,则构建当前待去重URL与所述当前比较URL的差异特征集合。
进一步地,所述差异构建模块还用于:
若所述当前比较URL具备泛化属性,则获取所述当前比较URL的泛化结果,以及所述当前比较URL对应的差异特征集合;
基于所述泛化结果,检测当前待去重URL与所述当前比较URL是否属于同一类URL类型;
若是,则更新所述当前比较URL对应的差异特征集合中同类相似值。
进一步地,所述泛化处理模块还用于:
确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并确定所述目标差异特征集合对应的差异URL的泛化内容;
基于所述预设算法,对所述泛化内容进行泛化处理,以得到对应的泛化结果。
进一步地,所述基础去重模块还用于:
获取预设的原始URL集合,并对所述原始URL集合中的URL进行预处理,以得到所述原始URL集合中各URL对应的关键特征;
基于所述关键特征,将所述原始URL集合中的URL进行两两比较,并过滤重复的URL,以得到待去重URL集合。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有URL去重程序,所述URL去重程序被处理器执行时实现如上所述的URL去重方法的步骤。
其中,在所述处理器上运行的URL去重程序被执行时所实现的方法可参照本发明URL去重方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者***不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者***所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者***中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种URL去重方法,其特征在于,所述URL去重方法包括如下步骤:
获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;
确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;
根据泛化结果,确定并剔除重复URL。
2.如权利要求1所述的URL去重方法,其特征在于,所述构建所述待去重URL集合中各待去重URL之间的差异特征集合的步骤包括:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL,确定当前待去重URL与各个所述比较URL之间的相同特征的位置和差异特征的位置;
基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合。
3.如权利要求2所述的URL去重方法,其特征在于,所述基于所述相同特征的位置和所述差异特征的位置,构建当前待去重URL与所述比较URL的差异特征集合的步骤包括:
从所述当前待去重URL对应的一个以上的所述比较URL中依次选取出当前比较URL,将所述当前待去重URL与所述当前比较URL的相同特征的位置和差异特征的位置分别作为目标相同位置和目标差异位置;
判断在已构建的差异特征集合中,是否存在同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合;
若未存在,则基于所述目标相同位置、所述目标差异位置和预设的初始同类相似值,构建对应的差异特征集合;
若存在,则将同时包含全部所述目标相同位置和所述目标差异位置的差异特征集合中的同类相似值进行更新。
4.如权利要求1所述的URL去重方法,其特征在于,所述构建所述待去重URL集合中各待去重URL之间的差异特征集合的步骤包括:
依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性;
若当前比较URL不具备泛化属性,则构建当前待去重URL与所述当前比较URL的差异特征集合。
5.如权利要求4所述的URL去重方法,其特征在于,所述依次从所述待去重URL集合中选择当前待去重URL,并从其他的待去重URL中确定所述当前待去重URL对应的一个以上的比较URL是否具备泛化属性的步骤之后,所述URL去重方法还包括:
若所述当前比较URL具备泛化属性,则获取所述当前比较URL的泛化结果,以及所述当前比较URL对应的差异特征集合;
基于所述泛化结果,检测当前待去重URL与所述当前比较URL是否属于同一类URL类型;
若是,则更新所述当前比较URL对应的差异特征集合中同类相似值。
6.如权利要求1所述的URL去重方法,其特征在于,所述确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理的步骤包括:
确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并确定所述目标差异特征集合对应的差异URL的泛化内容;
基于所述预设算法,对所述泛化内容进行泛化处理,以得到对应的泛化结果。
7.如权利要求1-6任一项所述的URL去重方法,其特征在于,所述获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合的步骤包括:
获取预设的原始URL集合,并对所述原始URL集合中的URL进行预处理,以得到所述原始URL集合中各URL对应的关键特征;
基于所述关键特征,将所述原始URL集合中的URL进行两两比较,并过滤重复的URL,以得到待去重URL集合。
8.一种URL去重装置,其特征在于,所述URL去重装置包括:
基础去重模块,用于获取预设的原始URL集合,并对所述原始URL集合进行过滤处理,以得到待去重URL集合;
差异构建模块,用于构建所述待去重URL集合中各待去重URL之间的差异特征集合,所述差异特征集合中包含同类相似值,所述同类相似值用于表征与该所述差异特征集合满足预设同类条件的差异特征集合的数量;
泛化处理模块,用于确定包含的所述同类相似值超过预设阈值的目标差异特征集合,并对所述目标差异特征集合对应的待泛化URL进行泛化处理;
泛化去重模块,用于根据泛化结果,确定并剔除重复URL。
9.一种URL去重设备,其特征在于,所述URL去重设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的URL去重程序,所述URL去重程序被所述处理器执行时实现如权利要求1至7中任一项所述的URL去重方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有URL去重程序,所述URL去重程序被处理器执行时实现如权利要求1至7中任一项所述的URL去重方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911065342.0A CN110825947B (zh) | 2019-10-31 | 2019-10-31 | Url去重方法、装置、设备与计算机可读存储介质 |
PCT/CN2020/121225 WO2021082938A1 (zh) | 2019-10-31 | 2020-10-15 | Url去重方法、装置、设备与计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911065342.0A CN110825947B (zh) | 2019-10-31 | 2019-10-31 | Url去重方法、装置、设备与计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110825947A true CN110825947A (zh) | 2020-02-21 |
CN110825947B CN110825947B (zh) | 2024-03-08 |
Family
ID=69552658
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911065342.0A Active CN110825947B (zh) | 2019-10-31 | 2019-10-31 | Url去重方法、装置、设备与计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110825947B (zh) |
WO (1) | WO2021082938A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112287201A (zh) * | 2020-12-31 | 2021-01-29 | 北京精准沟通传媒科技股份有限公司 | 对爬虫的请求去重的方法、装置、介质以及电子设备 |
WO2021082938A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933056A (zh) * | 2014-03-18 | 2015-09-23 | 腾讯科技(深圳)有限公司 | 统一资源定位符去重方法及装置 |
CN106095979A (zh) * | 2016-06-20 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | Url合并处理方法和装置 |
CN106407485A (zh) * | 2016-12-20 | 2017-02-15 | 福建六壬网安股份有限公司 | 一种基于相似度比较的url去重方法和*** |
CN106503244A (zh) * | 2016-11-08 | 2017-03-15 | 天津海量信息技术股份有限公司 | 一种统一资源定位符相似度的处理方法 |
US10007733B1 (en) * | 2015-06-09 | 2018-06-26 | EMC IP Holding Company LLC | High-performance network data capture and storage |
CN108984703A (zh) * | 2018-07-05 | 2018-12-11 | 平安科技(深圳)有限公司 | 一种统一资源定位符url去重方法及装置 |
CN109359250A (zh) * | 2018-08-31 | 2019-02-19 | 阿里巴巴集团控股有限公司 | 统一资源定位符处理方法、装置、服务器及可读存储介质 |
CN110008419A (zh) * | 2019-03-11 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 网页去重方法、装置及设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8768926B2 (en) * | 2010-01-05 | 2014-07-01 | Yahoo! Inc. | Techniques for categorizing web pages |
US9330093B1 (en) * | 2012-08-02 | 2016-05-03 | Google Inc. | Methods and systems for identifying user input data for matching content to user interests |
CN106919570B (zh) * | 2015-12-24 | 2020-12-22 | 国家新闻出版广电总局广播科学研究院 | 一种面向网络新媒体的页面链接去重扫描方法及装置 |
CN110825947B (zh) * | 2019-10-31 | 2024-03-08 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
-
2019
- 2019-10-31 CN CN201911065342.0A patent/CN110825947B/zh active Active
-
2020
- 2020-10-15 WO PCT/CN2020/121225 patent/WO2021082938A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104933056A (zh) * | 2014-03-18 | 2015-09-23 | 腾讯科技(深圳)有限公司 | 统一资源定位符去重方法及装置 |
US10007733B1 (en) * | 2015-06-09 | 2018-06-26 | EMC IP Holding Company LLC | High-performance network data capture and storage |
CN106095979A (zh) * | 2016-06-20 | 2016-11-09 | 百度在线网络技术(北京)有限公司 | Url合并处理方法和装置 |
CN106503244A (zh) * | 2016-11-08 | 2017-03-15 | 天津海量信息技术股份有限公司 | 一种统一资源定位符相似度的处理方法 |
CN106407485A (zh) * | 2016-12-20 | 2017-02-15 | 福建六壬网安股份有限公司 | 一种基于相似度比较的url去重方法和*** |
CN108984703A (zh) * | 2018-07-05 | 2018-12-11 | 平安科技(深圳)有限公司 | 一种统一资源定位符url去重方法及装置 |
CN109359250A (zh) * | 2018-08-31 | 2019-02-19 | 阿里巴巴集团控股有限公司 | 统一资源定位符处理方法、装置、服务器及可读存储介质 |
CN110008419A (zh) * | 2019-03-11 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 网页去重方法、装置及设备 |
Non-Patent Citations (3)
Title |
---|
JYOTI G. LANGHI; SHAILAJA JADHAV: "Parallel Crawling for Detection and Removal of DUST Using DUSTER", IEEE, pages 1 - 5 * |
侯美静;崔艳鹏;胡建伟;: "基于爬虫的智能爬行算法研究", 计算机应用与软件, no. 11, pages 215 - 219 * |
段馨凝: "金融领域多通道信息监控***设计与实现", 中国优秀硕士学位论文全文数据库, pages 140 - 472 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021082938A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳前海微众银行股份有限公司 | Url去重方法、装置、设备与计算机可读存储介质 |
CN112287201A (zh) * | 2020-12-31 | 2021-01-29 | 北京精准沟通传媒科技股份有限公司 | 对爬虫的请求去重的方法、装置、介质以及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN110825947B (zh) | 2024-03-08 |
WO2021082938A1 (zh) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9448999B2 (en) | Method and device to detect similar documents | |
CN105447184B (zh) | 信息抓取方法及装置 | |
WO2022174759A1 (zh) | 告警处理方法、装置、电子设备、计算机程序产品及计算机可读存储介质 | |
JP6827116B2 (ja) | ウェブページのクラスタリング方法及び装置 | |
JP2014502753A (ja) | ウェブページ情報の検出方法及びシステム | |
CN111026765A (zh) | 严格平衡二叉树的动态处理方法、设备、存储介质及装置 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
CN110825947B (zh) | Url去重方法、装置、设备与计算机可读存储介质 | |
CN101959178A (zh) | 一种用于识别无线终端的终端属性的方法与设备 | |
CN107862068B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
CN107357794A (zh) | 优化键值数据库的数据存储结构的方法和装置 | |
US10885038B2 (en) | System and method for adaptive information storage management | |
EP3108400B1 (en) | Virus signature matching method and apparatus | |
EP3564833B1 (en) | Method and device for identifying main picture in web page | |
CN113254577A (zh) | 敏感文件检测方法、装置、设备及存储介质 | |
CN112860736A (zh) | 大数据查询优化方法、设备及可读存储介质 | |
CN107862016A (zh) | 一种专题页面的配置方法 | |
CN110990834A (zh) | 一种android恶意软件的静态检测方法、***及介质 | |
CN115437930B (zh) | 网页应用指纹信息的识别方法及相关设备 | |
CN115208938B (zh) | 用户行为管控方法及装置、计算机可读存储介质 | |
US20150032749A1 (en) | Method of creating classification pattern, apparatus, and recording medium | |
JP2019175334A (ja) | 情報処理装置、制御方法、及びプログラム | |
CN115392238A (zh) | 一种设备识别方法、装置、设备及可读存储介质 | |
CN107861969B (zh) | 语句修改方法、扫描平台和计算机可读存储介质 | |
CN111209284A (zh) | 基于元数据的分表方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |