CN111259282A - Url去重方法、装置、电子设备及计算机可读存储介质 - Google Patents

Url去重方法、装置、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111259282A
CN111259282A CN202010095078.1A CN202010095078A CN111259282A CN 111259282 A CN111259282 A CN 111259282A CN 202010095078 A CN202010095078 A CN 202010095078A CN 111259282 A CN111259282 A CN 111259282A
Authority
CN
China
Prior art keywords
field
url
parameter
fields
hash value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010095078.1A
Other languages
English (en)
Other versions
CN111259282B (zh
Inventor
周雨阳
马松松
李相垚
胡享梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010095078.1A priority Critical patent/CN111259282B/zh
Publication of CN111259282A publication Critical patent/CN111259282A/zh
Application granted granted Critical
Publication of CN111259282B publication Critical patent/CN111259282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及网络应用技术领域,公开了一种URL去重方法、装置、电子设备及计算机可读存储介质,URL去重方法包括:获取待处理的URL;所述URL包括多个字段,各个字段分别设置有对应的字段值;若多个字段中第一预设字段的字段值符合预设条件,从多个字段中确定出参数字段;基于所确定的参数字段获取与所述URL对应的哈希值;若所述哈希值与预存的记录信息中的至少一个哈希值相匹配,删除所述URL以进行去重。本申请提供的URL去重方法可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率,从而在网络入侵检测时可以更有效的对***进行防护。

Description

URL去重方法、装置、电子设备及计算机可读存储介质
技术领域
本申请涉及网络应用技术领域,具体而言,本申请涉及一种URL去重方法、装置、电子设备及计算机可读存储介质。
背景技术
URL(Uniform Resource Locator,统一资源定位符)是因特网的万维网服务程序上用于指定信息位置的表示方法,包括:协议、域名、路径、参数等多个部分。
URL检测过滤是网络入侵检测***的重要环节,目前,URL去重通常采用路径重写(Rewrite)去重,基于URL的路径部分的动态参数的打标、去重,当不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,采用路径重写去重会导致不同的URL被误判为相同的URL,去重准确率较低。
发明内容
本申请的目的旨在至少能解决上述的技术缺陷之一,特提出以下技术方案:
第一方面,提供了一种URL去重方法,包括:
获取待处理的URL;URL包括多个字段,各个字段分别设置有对应的字段值;
若多个字段中第一预设字段的字段值符合预设条件,从多个字段中确定出参数字段;
基于所确定的参数字段获取与URL对应的哈希值;
若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重。
在第一方面的可选实施例中,获取待处理的URL之前,还包括:
获取初始URL,将初始URL拆分为多个字段;
基于预设的转换信息分别确定与各个字段对应的字段值,得到待处理的URL。
在第一方面的可选实施例中,第一预设字段包括去重字段、域名字段和路径字段;
多个字段中第一预设字段的字段值符合预设条件,包括如下情况:
去重字段为第一预设值,域名字段与预设域名相匹配,且路径字段与预设路径相匹配。
在第一方面的可选实施例中,从多个字段中确定出参数字段,包括:
获取多个字段中的第二预设字段的字段值,基于第二预设字段的字段值从多个字段中确定出参数字段。
在第一方面的可选实施例中,基于所确定的参数字段获取与URL对应的哈希值,包括:
获取多个字段中的匹配逻辑字段的字段值,查询与匹配逻辑字段的字段值对应的计算规则;
确定参数字段中的参数名;
基于计算规则、参数名和参数字段获取哈希值。
在第一方面的可选实施例中,确定参数字段中的参数名,包括:
获取参数字段的传递形式,基于传递形式确定参数名在参数字段中的位置;
基于所确定的位置从参数字段中提取参数名。
在第一方面的可选实施例中,基于计算规则、参数名和参数字段获取哈希值,包括:
若计算规则为合并规则,获取参数字段中的参数值;基于多个字段中的域名字段、路径字段、参数名和参数值计算得到哈希值;
若计算规则为排除规则,基于域名字段、路径字段和参数名计算得到哈希值。
在第一方面的可选实施例中,URL去重方法还包括:
若哈希值与预存的记录信息中的任一哈希值均不匹配,将URL写入去重后的URL集合。
在第一方面的可选实施例中,URL去重方法还包括:
将哈希值存储于记录信息中以对记录信息进行更新。
第二方面,提供了一种URL去重装置,包括:
第一获取模块,用于获取待处理的URL;URL包括多个字段,各个字段分别设置有对应的字段值;
确定模块,用于若多个字段中第一预设字段的字段值符合预设条件,从多个字段中确定出参数字段;
第二获取模块,用于基于所确定的参数字段获取与URL对应的哈希值;
去重模块,用于若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重。
在第二方面的可选实施例中,URL去重装置还包括转换模块,转化模块用于:
获取初始URL,将初始URL拆分为多个字段;
基于预设的转换信息分别确定与各个字段对应的字段值,得到待处理的URL。
在第二方面的可选实施例中,第一预设字段包括去重字段、域名字段和路径字段;
多个字段中第一预设字段的字段值符合预设条件,包括如下情况:
去重字段为第一预设值,域名字段与预设域名相匹配,且路径字段与预设路径相匹配。
在第二方面的可选实施例中,确定模块在从多个字段中确定出参数字段时,具体用于:
获取多个字段中的第二预设字段的字段值,基于第二预设字段的字段值从多个字段中确定出参数字段。
在第二方面的可选实施例中,第二获取模块在基于所确定的参数字段获取与URL对应的哈希值时,具体用于:
获取多个字段中的匹配逻辑字段的字段值,查询与匹配逻辑字段的字段值对应的计算规则;
确定参数字段中的参数名;
基于计算规则、参数名和参数字段获取哈希值。
在第二方面的可选实施例中,第二获取模块在确定参数字段中的参数名时,具体用于:
获取参数字段的传递形式,基于传递形式确定参数名在参数字段中的位置;
基于所确定的位置从参数字段中提取参数名。
在第二方面的可选实施例中,第二获取模块在基于计算规则、参数名和参数字段获取哈希值时,具体用于:
若计算规则为合并规则,获取参数字段中的参数值;基于多个字段中的域名字段、路径字段、参数名和参数值计算得到哈希值;
若计算规则为排除规则,基于域名字段、路径字段和参数名计算得到哈希值。
在第二方面的可选实施例中,URL去重装置还包括:
写入模块,用于若哈希值与预存的记录信息中的任一哈希值均不匹配,将URL写入去重后的URL集合。
在第二方面的可选实施例中,URL去重装置还包括:
更新模块,用于将哈希值存储于记录信息中以对记录信息进行更新。
第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现本申请第一方面所示的URL去重方法。
第四方面,提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现本申请第一方面所示的URL去重方法。
本申请提供的技术方案带来的有益效果是:
通过获取待处理的URL,URL的各个字段分别设置有对应的字段值;在多个字段中第一预设字段的字段值符合预设条件时,再确定出参数字段,并基于参数字段获取与URL对应的哈希值,若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重,精确到参数字段以及参数字段对应哈希值进行去重,可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率。
进一步的,对于不同传递形式的参数字段确定参数名,可以针对适配了参数是JSON、XML形式的URL去重,进一步提高URL去重的准确性。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为现有的路径重写去重方案的流程示意图;
图2为现有的结合路径和参数名进行哈希值比对去重的方案的流程示意图;
图3为现有的混合网页内容相似度进行URL特征泛化去重的方案的流程示意图;
图4为本申请实施例提供的一个示例中URL结构示意图;
图5为本申请实施例提供的一个示例中URL参数部分的数据结构示意图;
图6为本申请实施例提供的一个示例中URL结构示意图;
图7为本申请实施例提供的一个示例中URL结构示意图;
图8为本申请实施例提供的一个示例中URL结构示意图;
图9为本申请实施例提供的一个示例中URL结构示意图;
图10为本申请实施例提供的一种URL去重方法的流程示意图;
图11为本申请一个示例中不同传递形式的参数名的位置的示意图;
图12为本申请示例提供的一种URL去重方法的流程示意图;
图13为本申请实施例提供的一种URL去重装置的结构示意图;
图14为本申请实施例提供的一种URL去重的电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式***,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
云安全(Cloud Security)是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全融合了并行处理、网格计算、未知病毒行为判断等新兴技术和概念,通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,并发送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。
云安全主要研究方向包括:1.云计算安全,主要研究如何保障云自身及云上各种应用的安全,包括云计算机***安全、用户数据的安全存储与隔离、用户接入认证、信息传输安全、网络攻击防护、合规审计等;2.安全基础设施的云化,主要研究如何采用云计算新建与整合安全基础设施资源,优化安全防护机制,包括通过云计算技术构建超大规模安全事件、信息采集与处理平台,实现对海量信息的采集与关联分析,提升全网安全事件把控能力及风险控制能力;3.云安全服务,主要研究各种基于云计算平台为用户提供的安全服务,如防病毒服务等。
在云安全服务中,URL检测过滤是网络入侵检测***的重要环节。现有URL去重的技术方案及专利,按针对URL子部分及策略分,存在三类主流方式,包括:针对路径部分/路径重写(URL Rewrite)去重、针对URL整体去重以及混合网页相似度比对与URL整体泛化特征的去重。
上述方案的技术细节,总结如下:
1、“路径重写(Rewrite)去重”:是一种针对动态参数位于URL路径的去重技术,如图1所示,使用特定算法,将相似URL聚类,并将路径部分(Path)按“/”分割;接着,基于特定算法,识别出路径中动态参数部分,替换为特殊记号,生成结构化规则存储;最后,匹配所有路径部分满足规则条件且参数名相同的URL记录,去重仅保留一条。
2、“URL路径+参数名哈希值比对去重”:是一种针对URL整体的去重技术,如图2所示,提取URL的协议、域名、路径及参数名合并计算并比对哈希值,相同哈希的URL保留其中一条。
3、“混合网页内容相似度、URL特征泛化去重”:是一种混合网页内容比对、URL特征泛化的去重技术,如图3所示,根据已经采集网页内容信息生成指纹,随后泛化指纹相同页面URL中的数值不同的部分,生成去重规则,从而应用于后续URL记录的去重。
一般业务场景下,URL共由5部分组成,如图4所示,包括:协议、域名/主机名、端口、路径(文件名)、参数。
值得一提的是,URL的参数部分,通常包括GET、POST参数两种类型,如图5所示,不仅能以“用等号(=)相连的参数名、值表示”,还能以JSON(JavaScript Object Notation,JS对象简谱,是一种轻量级的数据交换格式)、XML(Extensible Markup Language,可扩展标记语言,是一种用于标记电子文件使其具有结构性的标记语言)等形式传递。
通常来说,Web应用依赖路径和参数定位、转发用户发起HTTP请求时要到达的代码逻辑,以下称场景[1],如图6所示,类似场景[1]的Web应用,路径部分直/间接对应服务器主机本地的文件,不可动态变化。
与之不同的是,也有许多业务会使用“虚拟路径”,即,URL的路径部分包含动态参数。如图7所示,依赖“虚拟路径”与参数定位、转发用户发起HTTP请求时要到达的代码逻辑。此类形态多见于遵循RESTful API设计规范的Web应用,以下称场景[2]。
由于Web应用映射URL具有高度灵活性,还有相当一部分业务会共用路径部分(也被称为“入口文件”),仅基于参数值转发应用程序内的处理逻辑,包括但不限于:采用特定MVC框架的业务,如图8所示,以及如图9所示的前置代理层的微服务模块化业务等。此外,还有业务会使用随机字符串作为参数名。下文统称场景[3]。
现有的URL去重技术方案,主要能覆盖场景[1]、场景[2]类Web应用程序URL的去重需求。在场景[3]下,存在将正常URL误去重、错误保留重复URL的缺陷,影响Web安全扫描的效果。也有少部分方案,能部分覆盖场景[3],但存在资源消耗大的问题。更重要的是,目前已公开的专利方案中,均未明确阐释参数类型是JSON、XML时,如何进行URL去重。
1.“路径重写(Rewrite)去重”。专用于覆盖场景[2]下的去重,通常会与“URL路径+参数名哈希值比对去重”技术复合使用。由于仅关注URL路径部分动态参数的打标、去重,在场景[3]下,会有去重不彻底或过度的问题。
2.“URL路径+参数名哈希值比对去重”。能覆盖场景[1]的去重,场景[2]、[3]下会有会有去重不彻底或过度的问题。例如:场景[2]下,采用RESTful API设计形式的Web程序,两条路径部分分别是“/user_profile/1”、“/user_profile/2”的URL,由于哈希值不同,均会被保留。但实际上,路径中“1”、“2”的位置是动态参数,如参数部分相同,两条URL仅需保留一条。场景[3]下,形如“/index.php?m=&c=blog&a=index”、“/index.php?m=&c=page&a=index”的两条URL,基于参数值转发应用程序内的处理逻辑,但由于路径与所有参数名的哈希值相同,仅会保留一条,产生过度去重的问题。
3.“混合网页内容相似度、URL特征泛化去重”。理论上能覆盖场景[1]、[2]、[3],存在的缺陷有:1)资源消耗大,需要获取/记录URL的响应内容,计算相似度指纹;2)未考虑参数是JSON、XML形式的URL去重。
区别于现有方案,在不依赖比对URL对应页面内容相似度辅助的前提下,本发明提出一种结构化去重规则表示方式,以及基于该规则实施去重的装置,能低成本、高效率地解决场景[3]下的URL去重问题。更重要的是,还首次补充了参数是JSON、XML形式的URL去重能力。
本申请提供的URL去重方法、装置、电子设备及计算机可读存储介质,旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种可能的实现方式,如图10所示,提供了一种URL去重方法,可以应用于服务器中,也可以应用于终端中,URL去重方法可以包括以下步骤:
步骤S1001,获取待处理的URL;URL包括多个字段,各个字段分别设置有对应的字段值。
其中,URL字段为URL的组成部分,包括用于表示域名的字段、用于表示路径的字段等。
具体的,获取待处理的URL字段之前,可以采用预设的规则信息获取各个字段对应的字段值。
步骤S1002,若多个字段中第一预设字段的字段值符合预设条件,从多个字段中确定出参数字段。
具体的,第一预设字段可以包括去重字段、域名字段和路径字段。
在具体实施过程中,多个字段中第一预设字段的字段值符合预设条件,可以包括如下情况:
去重字段为第一预设值,域名字段与预设域名相匹配,且路径字段与预设路径相匹配。
例如,以is_spcase表示去重字段,domain表示域名字段,cgi表示路径字段。当is_spcase=1时,用预设域名和domain进行匹配,并用预设路径与cgi进行匹配,若is_spcase=1时,预设域名和domain相匹配,且预设路径与cgi相匹配,则从URL中确定出参数字段。
步骤S1003,基于所确定的参数字段获取与URL对应的哈希值。
其中,哈希值是指将数据元素的关键字作为自变量,通过哈希函数计算出的值,具体基于参数字段获取与URL对应的哈希值的过程将在下文进行详细阐述。
步骤S1004,若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重。
具体的,预存的记录信息中包括多个已经处理过的URL的哈希值,若哈希值与预存的记录信息中的至少一个哈希值相匹配,说明当前待处理的URL对应的哈希值已经在记录信息中出现,因此,删除URL进行去重。
上述的URL去重方法,获取待处理的URL,URL的各个字段分别设置有对应的字段值;在多个字段中第一预设字段的字段值符合预设条件时,再确定出参数字段,并基于参数字段获取与URL对应的哈希值,若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重,精确到参数字段以及参数字段对应哈希值进行去重,可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率。
本申请实施例中提供了一种可能的实现方式,步骤S1001的获取待处理的URL之前,还可以包括:
(1)获取初始URL,将初始URL拆分为多个字段;
(2)基于预设的转换信息分别确定与各个字段对应的字段值,得到待处理的URL。
具体的,预设的转换信息可以包括多个预存的字段和与各个字段分别对应的字段值,可以将初始URL拆分为多个字段,基于转换信息查询与每一个字段对应的字段值,得到待处理的URL。
例如,字段名、含义、填写格式及示例如下:
Figure BDA0002383805380000111
Figure BDA0002383805380000121
在具体实施过程中,基于转换信息对初始URL进行拆分,得到各个字段对应的字段值,从而获取包括多个字段、且各个字段设置有字段值的待处理的URL,将待处理的URL写入数据库中等待去重处理。
本申请实施例中提供了一种可能的实现方式,步骤S1002的从多个字段中确定出参数字段,可以包括:
获取多个字段中的第二预设字段的字段值,基于第二预设字段的字段值从多个字段中确定出参数字段。
其中,第二预设字段可以是用于表示特殊去重位置的字段,可以是spcase_pos,第二预设字段的字段值可以包括GET、POST或ALL中的任一种,当spcase_pos的字段值为GET时,可以将用于表示GET参数特殊去重特征正则的get_regex_rule字段确定为参数字段;当spcase_pos的字段值为POST时,可以将用于表示POST参数特殊去重特征正则的post_regex_rule字段确定为参数字段;当spcase_pos的字段值为ALL时,可以将用于表示POST参数特殊去重特征正则的post_regex_rule字段和确定为参数字段用于表示POST参数特殊去重特征正则的post_regex_rule字段均确定为参数字段。
本申请实施例中提供了一种可能的实现方式,步骤S1003的基于所确定的参数字段获取与URL对应的哈希值,可以包括:
(1)获取多个字段中的匹配逻辑字段的字段值,查询与匹配逻辑字段的字段值对应的计算规则。
具体的,匹配逻辑字段为用于表示特殊参数匹配逻辑的spcase_logic,匹配逻辑字段的字段值包括IN或EX;当匹配逻辑字段的字段值为IN时,表示合并规则,即将规则匹配到的部分作为一个完整的参数名参与哈希运算;当匹配逻辑字段的字段值为EX时,表示排除规则,即表示将规则匹配到的部分排除于哈希运算。
(2)确定参数字段中的参数名。
具体的,确定参数字段中的参数名,可以包括:
a、获取参数字段的传递形式,基于传递形式确定参数名在参数字段中的位置;
b、基于所确定的位置从参数字段中提取参数名。
在具体实施过程中,参数字段的传递形式即不同的参数格式,即不同参数格式的参数名所指的位置略有差异。
如图11所示,包括三种情况:普通参数、JSON格式参数和XML格式参数;当参数格式为普通参数时,取等号左侧的字符串为参数名,如上图,g_tk为参数名;当参数格式为JSON格式参数时,取每一层的JSON键为参数名,如图11:11168、req、school_id均为参数名;当参数格式为XML格式参数时,取每层子级标签名为参数名,如图11,id为参数名。
(3)基于计算规则、参数名和参数字段获取哈希值。
具体的,匹配逻辑字段的不同的字段值对应不同的计算规则。
若计算规则为合并规则,即匹配逻辑字段的字段值为IN时,获取参数字段中的参数值;基于多个字段中的域名字段、路径字段、参数名和参数值计算得到哈希值;
若计算规则为排除规则,即匹配逻辑字段的字段值为EX时,基于域名字段、路径字段和参数名计算得到哈希值。
在具体实施过程中,哈希值的计算方式可以采用MD5信息摘要算法、安全哈希算法等,具体的计算方式在此不作限制。
上述实施例中,对于不同传递形式的参数字段确定参数名,可以针对适配了参数是JSON、XML形式的URL去重,进一步提高URL去重的准确性。
本申请实施例中提供了一种可能的实现方式,URL去重方法还可以包括:
若哈希值与预存的记录信息中的任一哈希值均不匹配,将URL写入去重后的URL集合。
具体的,若哈希值与预存的记录信息中的任一哈希值均不匹配,说明该URL对应的哈希值从未在记录信息中出现,即改URL可以保留,写入去重后的RUL集合。
本申请实施例中提供了一种可能的实现方式,URL去重方法还可以包括:
将哈希值存储于记录信息中以对记录信息进行更新。
具体的,若哈希值与预存的记录信息中的任一哈希值均不匹配,说明该URL对应的哈希值从未在记录信息中出现,可以将当前处理后的URL哈希值记录信息中以对记录信息进行更新。
上述的URL去重方法,通过获取待处理的URL,URL的各个字段分别设置有对应的字段值;在多个字段中第一预设字段的字段值符合预设条件时,再确定出参数字段,并基于参数字段获取与URL对应的哈希值,若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重,精确到参数字段以及参数字段对应哈希值进行去重,可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率。
进一步的,对于不同传递形式的参数字段确定参数名,可以针对适配了参数是JSON、XML形式的URL去重,进一步提高URL去重的准确性。
为了便于理解,以下将结合示例对本申请的URL去重方法进行进一步详细阐述。
在一个示例中,本申请提供的URL去重方法,如图12所示,可以包括如下步骤:
1)将初始URL拆分为多个字段,基于预设的规则信息查询与每一字段对应的字段值,得到待处理的URL;即图12中所示的加载规则;
2)按指定算法提取URL的domain、cgi字段,用所有预加载的domain、cgi规则信息与之进行匹配;如果匹配命中,则进入针对本条URL记录的后续去重步骤;若不匹配,直接将本条URL写入去重后的URL集合;实际使用中,cgi字段的匹配,可支持字符串全等匹配、基于正则的模糊匹配;
3)读取预加载规则的spcase_pos字段,确定要去重的参数点位:如果spcase_pos值为ALL,则加载get_regex_rule、post_regex_rule分别用于在下一步对GET、POST参数内容做处理;如为GET,仅加载get_regex_rule;如果为POST,仅加载post_regex_rule;
4)根据上一步确定的参数点位及规则,提取参数中的指定内容,即提取参数值;
5)根据spcase_logic将提取的参数中指定内容,与域名、URL路径(也可与Rewrite去重组合,该部分使用泛化符号表示)、指定参数内容拼接并计算哈希值:如果spcase_logic为IN,则将域名、URL路径、除参数指定内容外的参数名与提取的参数内容合并,计算哈希值;若spcase_logic为EX,则表示将参数中的指定内容排除在外计算哈希值。
上述示例的URL去重方法,可以解决“业务共用路径部分,仅基于参数值转发应用程序内的处理逻辑”场景下,涉及URL参数部分的精细、精确去重问题,并且适配了参数是JSON、XML形式的URL去重,可以提高URL去重的准确性。
本申请实施例中提供了一种可能的实现方式,如图13所示,提供了一种URL去重装置1300,包括第一获取模块1301、确定模块1302、第二获取模块1303和去重模块1304,其中,
第一获取模块1301,用于获取待处理的URL;URL包括多个字段,各个字段分别设置有对应的字段值;
确定模块1302,用于若多个字段中第一预设字段的字段值符合预设条件,从多个字段中确定出参数字段;
第二获取模块1303,用于基于所确定的参数字段获取与URL对应的哈希值;
去重模块1304,用于若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重。
本申请实施例中提供了一种可能的实现方式,URL去重装置还包括转换模块,转化模块用于:
获取初始URL,将初始URL拆分为多个字段;
基于预设的转换信息分别确定与各个字段对应的字段值,得到待处理的URL。
本申请实施例中提供了一种可能的实现方式,第一预设字段包括去重字段、域名字段和路径字段;
多个字段中第一预设字段的字段值符合预设条件,包括如下情况:
去重字段为第一预设值,域名字段与预设域名相匹配,且路径字段与预设路径相匹配。
本申请实施例中提供了一种可能的实现方式,确定模块1302在从多个字段中确定出参数字段时,具体用于:
获取多个字段中的第二预设字段的字段值,基于第二预设字段的字段值从多个字段中确定出参数字段。
本申请实施例中提供了一种可能的实现方式,第二获取模块1303在基于所确定的参数字段获取与URL对应的哈希值时,具体用于:
获取多个字段中的匹配逻辑字段的字段值,查询与匹配逻辑字段的字段值对应的计算规则;
确定参数字段中的参数名;
基于计算规则、参数名和参数字段获取哈希值。
本申请实施例中提供了一种可能的实现方式,第二获取模块1303在确定参数字段中的参数名时,具体用于:
获取参数字段的传递形式,基于传递形式确定参数名在参数字段中的位置;
基于所确定的位置从参数字段中提取参数名。
本申请实施例中提供了一种可能的实现方式,第二获取模块1303在基于计算规则、参数名和参数字段获取哈希值时,具体用于:
若计算规则为合并规则,获取参数字段中的参数值;基于多个字段中的域名字段、路径字段、参数名和参数值计算得到哈希值;
若计算规则为排除规则,基于域名字段、路径字段和参数名计算得到哈希值。
本申请实施例中提供了一种可能的实现方式,URL去重装置还包括:
写入模块,用于若哈希值与预存的记录信息中的任一哈希值均不匹配,将URL写入去重后的URL集合。
本申请实施例中提供了一种可能的实现方式,URL去重装置还包括:
更新模块,用于将哈希值存储于记录信息中以对记录信息进行更新。
上述的URL去重装置,通过获取待处理的URL,URL的各个字段分别设置有对应的字段值;在多个字段中第一预设字段的字段值符合预设条件时,再确定出参数字段,并基于参数字段获取与URL对应的哈希值,若哈希值与预存的记录信息中的至少一个哈希值相匹配,删除URL以进行去重,精确到参数字段以及参数字段对应哈希值进行去重,可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率。
进一步的,对于不同传递形式的参数字段确定参数名,可以针对适配了参数是JSON、XML形式的URL去重,进一步提高URL去重的准确性。
本公开实施例的图片的URL去重装置可执行本公开的实施例所提供的一种图片的URL去重方法,其实现原理相类似,本公开各实施例中的图片的URL去重装置中的各模块所执行的动作是与本公开各实施例中的图片的URL去重方法中的步骤相对应的,对于图片的URL去重装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的URL去重方法中的描述,此处不再赘述。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的URL去重方法。与现有技术相比,本申请中的URL去重方法可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率。
在一个可选实施例中提供了一种电子设备,如图14所示,图14所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图14中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图14示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请中的URL去重方法可以在不同的URL共用路径部分,仅基于参数值转发应用程序内的处理逻辑时,避免不同的URL被误判为相同的URL,提高去重的准确率。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,第一获取模块还可以被描述为“用于获取待处理的URL的模块”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (12)

1.一种URL去重方法,其特征在于,包括:
获取待处理的URL;所述URL包括多个字段,各个字段分别设置有对应的字段值;
若所述多个字段中第一预设字段的字段值符合预设条件,从所述多个字段中确定出参数字段;
基于所确定的参数字段获取与所述URL对应的哈希值;
若所述哈希值与预存的记录信息中的至少一个哈希值相匹配,删除所述URL以进行去重。
2.根据权利要求1所述的URL去重方法,其特征在于,所述获取待处理的URL之前,还包括:
获取初始URL,将所述初始URL拆分为所述多个字段;
基于预设的转换信息分别确定与各个字段对应的所述字段值,得到待处理的所述URL。
3.根据权利要求1所述的URL去重方法,其特征在于,所述第一预设字段包括去重字段、域名字段和路径字段;
所述多个字段中第一预设字段的字段值符合预设条件,包括如下情况:
所述去重字段为第一预设值,所述域名字段与预设域名相匹配,且所述路径字段与预设路径相匹配。
4.根据权利要求1所述的URL去重方法,其特征在于,所述从所述多个字段中确定出参数字段,包括:
获取所述多个字段中的第二预设字段的字段值,基于所述第二预设字段的字段值从所述多个字段中确定出所述参数字段。
5.根据权利要求1所述的URL去重方法,其特征在于,所述基于所确定的参数字段获取与所述URL对应的哈希值,包括:
获取所述多个字段中的匹配逻辑字段的字段值,查询与所述匹配逻辑字段的字段值对应的计算规则;
确定所述参数字段中的参数名;
基于所述计算规则、所述参数名和所述参数字段获取所述哈希值。
6.根据权利要求5所述的URL去重方法,其特征在于,所述确定所述参数字段中的参数名,包括:
获取所述参数字段的传递形式,基于所述传递形式确定所述参数名在所述参数字段中的位置;
基于所确定的位置从所述参数字段中提取所述参数名。
7.根据权利要求5所述的URL去重方法,其特征在于,所述基于所述计算规则、所述参数名和所述参数字段获取所述哈希值,包括:
若所述计算规则为合并规则,获取所述参数字段中的参数值;基于所述多个字段中的域名字段、路径字段、所述参数名和所述参数值计算得到所述哈希值;
若所述计算规则为排除规则,基于所述域名字段、所述路径字段和所述参数名计算得到所述哈希值。
8.根据权利要求1所述的URL去重方法,其特征在于,还包括:
若所述哈希值与预存的所述记录信息中的任一哈希值均不匹配,将所述URL写入去重后的URL集合。
9.根据权利要求8所述的URL去重方法,其特征在于,还包括:
将所述哈希值存储于所述记录信息中以对所述记录信息进行更新。
10.一种URL去重装置,其特征在于,包括:
第一获取模块,用于获取待处理的URL;所述URL包括多个字段,各个字段分别设置有对应的字段值;
确定模块,用于若所述多个字段中第一预设字段的字段值符合预设条件,从所述多个字段中确定出参数字段;
第二获取模块,用于基于所确定的参数字段获取与所述URL对应的哈希值;
去重模块,用于若所述哈希值与预存的记录信息中的至少一个哈希值相匹配,删除所述URL以进行去重。
11.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-9任一项所述的URL去重方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1-9任一项所述的URL去重方法。
CN202010095078.1A 2020-02-13 2020-02-13 Url去重方法、装置、电子设备及计算机可读存储介质 Active CN111259282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010095078.1A CN111259282B (zh) 2020-02-13 2020-02-13 Url去重方法、装置、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010095078.1A CN111259282B (zh) 2020-02-13 2020-02-13 Url去重方法、装置、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111259282A true CN111259282A (zh) 2020-06-09
CN111259282B CN111259282B (zh) 2023-08-29

Family

ID=70945564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010095078.1A Active CN111259282B (zh) 2020-02-13 2020-02-13 Url去重方法、装置、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN111259282B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214673A (zh) * 2020-10-13 2021-01-12 中国联合网络通信集团有限公司 一种舆情分析方法及装置
CN112436943A (zh) * 2020-10-29 2021-03-02 南阳理工学院 基于大数据的请求去重方法、装置、设备及存储介质
CN112463774A (zh) * 2020-10-23 2021-03-09 完美世界控股集团有限公司 数据去重方法、设备及存储介质
CN112906005A (zh) * 2021-02-02 2021-06-04 浙江大华技术股份有限公司 Web漏洞扫描方法、装置、***、电子装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278306A1 (en) * 2004-05-28 2005-12-15 International Business Machines Corporation Linked logical fields
CN104933056A (zh) * 2014-03-18 2015-09-23 腾讯科技(深圳)有限公司 统一资源定位符去重方法及装置
CN105302815A (zh) * 2014-06-23 2016-02-03 腾讯科技(深圳)有限公司 网页的统一资源定位符url的过滤方法和装置
US20180196643A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation Generating web api specification from online documentation
CN109359250A (zh) * 2018-08-31 2019-02-19 阿里巴巴集团控股有限公司 统一资源定位符处理方法、装置、服务器及可读存储介质
WO2020006908A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 一种url去重方法及装置
CN110717036A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050278306A1 (en) * 2004-05-28 2005-12-15 International Business Machines Corporation Linked logical fields
CN104933056A (zh) * 2014-03-18 2015-09-23 腾讯科技(深圳)有限公司 统一资源定位符去重方法及装置
CN105302815A (zh) * 2014-06-23 2016-02-03 腾讯科技(深圳)有限公司 网页的统一资源定位符url的过滤方法和装置
US20180196643A1 (en) * 2017-01-10 2018-07-12 International Business Machines Corporation Generating web api specification from online documentation
WO2020006908A1 (zh) * 2018-07-05 2020-01-09 平安科技(深圳)有限公司 一种url去重方法及装置
CN110717036A (zh) * 2018-07-11 2020-01-21 阿里巴巴集团控股有限公司 一种统一资源定位符的去重方法、装置及电子设备
CN109359250A (zh) * 2018-08-31 2019-02-19 阿里巴巴集团控股有限公司 统一资源定位符处理方法、装置、服务器及可读存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112214673A (zh) * 2020-10-13 2021-01-12 中国联合网络通信集团有限公司 一种舆情分析方法及装置
CN112214673B (zh) * 2020-10-13 2023-06-16 中国联合网络通信集团有限公司 一种舆情分析方法及装置
CN112463774A (zh) * 2020-10-23 2021-03-09 完美世界控股集团有限公司 数据去重方法、设备及存储介质
CN112463774B (zh) * 2020-10-23 2021-10-12 完美世界控股集团有限公司 文本数据的去重方法、设备及存储介质
CN112436943A (zh) * 2020-10-29 2021-03-02 南阳理工学院 基于大数据的请求去重方法、装置、设备及存储介质
CN112906005A (zh) * 2021-02-02 2021-06-04 浙江大华技术股份有限公司 Web漏洞扫描方法、装置、***、电子装置和存储介质

Also Published As

Publication number Publication date
CN111259282B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
US10560465B2 (en) Real time anomaly detection for data streams
CN111259282B (zh) Url去重方法、装置、电子设备及计算机可读存储介质
US10073864B1 (en) Systems and methods for automated aggregation of information-source metadata
US9100426B1 (en) Systems and methods for warning mobile device users about potentially malicious near field communication tags
US10521423B2 (en) Apparatus and methods for scanning data in a cloud storage service
US20220029787A1 (en) Citation and Attribution Management Methods and Systems
CN110297995B (zh) 用于收藏信息的方法和装置
CN113343312B (zh) 基于前端埋点技术的页面防篡改方法及***
CN110929128A (zh) 一种数据爬取方法、装置、设备和介质
CN111858486B (zh) 一种文件分类方法和装置
US9684668B1 (en) Systems and methods for performing lookups on distributed deduplicated data systems
CN113918659A (zh) 数据操作方法、装置、存储介质及电子设备
US20220083507A1 (en) Trust chain for official data and documents
US9146950B1 (en) Systems and methods for determining file identities
CN110674082A (zh) 移除在线文档的方法、装置、电子设备及计算机可读介质
CN107526530B (zh) 数据处理方法和设备
US11762984B1 (en) Inbound link handling
CN114756837A (zh) 一种基于区块链的数字内容溯源方法及***
CN112182603B (zh) 反爬虫方法和装置
CN111666449B (zh) 视频检索方法、装置、电子设备和计算机可读介质
CN114417102A (zh) 文本去重方法、装置和电子设备
CN113760876A (zh) 一种数据过滤方法和装置
US20160259810A1 (en) Global file index
CN111539028A (zh) 档案存储方法、装置、存储介质及电子设备
KR101620782B1 (ko) 사전 데이터를 활용한 데이터 저장 방법 및 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40024033

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant