CN117555853A - 一种数据热度计算方法、装置、设备以及可读存储介质 - Google Patents

一种数据热度计算方法、装置、设备以及可读存储介质 Download PDF

Info

Publication number
CN117555853A
CN117555853A CN202311540489.7A CN202311540489A CN117555853A CN 117555853 A CN117555853 A CN 117555853A CN 202311540489 A CN202311540489 A CN 202311540489A CN 117555853 A CN117555853 A CN 117555853A
Authority
CN
China
Prior art keywords
data
information
record information
data file
heat
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311540489.7A
Other languages
English (en)
Inventor
田闯
赵辉
潘丹
冯春锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Du Xiaoman Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Du Xiaoman Technology Beijing Co Ltd filed Critical Du Xiaoman Technology Beijing Co Ltd
Priority to CN202311540489.7A priority Critical patent/CN117555853A/zh
Publication of CN117555853A publication Critical patent/CN117555853A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/24765Rule-based classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据热度计算方法、装置、设备以及可读存储介质,该方法包括:数据提交模块根据文件***中数据文件的度和/或写记录生成数据文件的第一记录信息和/或第二记录信息,第一记录信息用于表征数据文件的读取时间,第二记录信息用于表征数据文件的写入时间;数据提交模块将第一信息发送给数据统计模块,第一信息中包括加密后的第一记录信息和加密后的第二记录信息;数据统计模块根据第一信息和分类规则对数据文件进行分类,得到多个分类数据文件,并统计每个分类数据文件的第一信息,得到每个分类数据文件的统计信息;数据热度计算模块根据统计信息计算每个分类数据文件的数据热度。

Description

一种数据热度计算方法、装置、设备以及可读存储介质
技术领域
本申请涉及数据热度计算技术领域,尤其涉及一种数据热度计算方法、装置、设备以及可读存储介质。
背景技术
数据热度是指数据在一定时间内的被访问或使用的频繁程度,通常用于描述***、应用或网站等在某一时段内用户对某个数据集或资源的访问频率。对于大数据应用里说,了解用户对不同数据的资源的访问热度有助于更好地理解用户行为和需求,从而进行更加精准的进行数据分析和数据处理。
因此,如何精准计算数据仓库中的数据热度是技术人员日益关注的问题。
发明内容
本申请实施例提供一种数据热度计算方法、装置、设备以及可读存储介质,该方法解决了数据热度计算不准确的问题。
第一方面,本申请实施例提供了一种数据热度计算方法,应用于数据处理***,数据处理***包括数据提交模块、数据统计模块和数据热度计算模块,方法包括:数据提交模块根据文件***中数据文件的读和/或写时间生成数据文件的第一记录信息和/或第二记录信息,第一记录信息用于表征数据文件的读取时间,第二记录信息用于表征数据文件的写入时间;数据提交模块将第一信息发送给数据统计模块,第一信息中包括加密后的第一记录信息和加密后的第二记录信息;数据统计模块根据第一信息和分类规则对数据文件进行分类,得到多个分类数据文件,并统计每个分类数据文件的第一信息,得到每个分类数据文件的统计信息;数据热度计算模块根据统计信息计算每个分类数据文件的数据热度。
在上述实施例中,通过对数据文件的写入时间和读取时间进行记录从而生成记录信息,基于数据文件的记录信息来计算数据的热度,计算的数据热度能够准确表征数据被使用的频繁程度。此外,由于数据文件的数据热度是由数据热度计算模块周期性地计算的,无需人工标注数据热度,也大大节约了人力成本和时间成本。
结合第一方面,在一种可能实现的方式中,数据提交模块将第一信息发送给数据统计模块之前,还包括:对第一记录信息和/或第二记录信息进行加密。
结合第一方面,在一种可能实现的方式中,对第一记录信息和第二记录信息进行加密,包括:通过哈希算法对第一记录信息和第二记录信息进行加密,得到加密后的第一记录信息和/或加密后的第二记录信息。
结合第一方面,在一种可能实现的方式中,对第一记录信息和第二记录信息进行加密,包括:通过公式对第一记录信息和/或第二记录信息进行加密,得到加密后的第一记录信息和/或第二记录信息;其中,H(i)为加密前的第一记录信息和/或第二记录信息,M为第一记录信息和/或第二记录信息对应的存储空间存储的中所有数据文件所占空间大小,N为第一记录信息和/或第二记录信息所占存储空间的大小,x为数据文件所在存储空间对应的加密参数,x预先存储在数据提交模块中,t为数据文件的数字标识信息,H(i)′为加密后的第一记录信息和/或第二记录信息。
结合第一方面,在一种可能实现的方式中,数据统计模块根据第一信息和分类规则对数据文件进行分类,得到多个分类数据文件,包括:获取数据文件的路径信息;将路径信息中一级路径和二级路径相同的数据文件作为同类数据文件。
结合第一方面,在一种可能实现的方式中,数据热度计算模块根据统计信息计算每个分类数据文件的数据热度,具体包括:将每类数据文件的第一记录信息和/或第二记录信息通过预先训练好的数据热度计算模型进行处理,得到每类数据文件对应的数据热度。
结合第一方面,在一种可能实现的方式中,数据热度计算模块根据统计信息计算每个分类数据文件的数据热度,具体包括:计算当前时间与单个种类的数据文件的第一时间的差值;将差值的倒数作为数据文件的热度值;其中,第一时间为数据文件中最近时间的第一记录信息或第二记录信息。
第二方面,本申请实施例提供了一种数据热度计算设备,所述数据热度计算设备包括存储器、通信模块和处理器;
其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器存储的程序代码,执行上述第一方面及其各种可能实现的方式中的数据热度计算方法。
第三方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现上述第一方面及其各种可能实现的方式中数据热度计算方法。
第四方面,本申请实施例提供了一种计算机程序,该计算机程序包括指令,当所述计算机程序被计算机执行时,使得计算机可以执行上述第一方面及其各种可能实现的方式中计算机所执行的流程。
附图说明
下面对本申请实施例用到的附图进行介绍。
图1是本申请实施例提供的一种数据热度计算方法的***架构图;
图2是本申请实施例提供的一种数据热度计算方法的流程图;
图3是本申请实施例提供的一种数据热度计算设备30的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或者特性可以包含在本实施例申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是相同的实施例,也不是与其它实施例互斥的独立的或是备选的实施例。本领域技术人员可以显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及所述附图中术语“第一”、“第二”、“第三”等是区别于不同的对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元,或者可选地,还包括没有列出的步骤或单元,或者可选地还包括这些过程、方法、产品或设备固有的其它步骤或单元。
附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前,应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在本说明书中使用的术语“部件”、“模块”、“***”、“单元”等用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件或执行中的软件。例如,单元可以是但不限于在处理器上运行的进程、处理器、对象、可执行文件、执行线程、程序和/或分布在两个或多个计算机之间。此外,这些单元可从在上面存储有各种数据结构的各种计算机可读介质执行。单元可例如根据具有一个或多个数据分组(例如来自与本地***、分布式***和/或网络间的另一单元交互的第二单元数据。例如,通过信号与其它***交互的互联网)的信号通过本地和/或远程进程来通信。
数据热度用于表征数据在一定时间内的被访问或使用的频繁程度,通常用于描述***、应用或网站等在某一时段内用户对某个数据集或资源的访问频率。对于大数据应用里说,了解用户对不同数据的资源的访问热度有助于更好地理解用户行为和需求,从而进行更加精准的进行数据分析和数据处理。
在一些实施例中,用户可以对数据仓库中的数据手动标注热度,即:用户可以定期对一些数据进行手动标注,确定底层存储数据的使用热度。这种方法通过用户对数据的主观判断和标注,用户可以根据其对数据的了解和经验,将数据分为不同的热度级别。
在一些实施例中,还可以基于加工平台标注数据热度,当用户在开发平台进行数据加工时,平台可以分析用户提交的代码,并从中提取出读写数据的信息。通过使用元数据,平台能够定位到用户对数据的操作,从而确定数据的热度。这种方法利用了代码分析和元数据的技术手段。
但是,针对上述实施例中,基于用户手动标注数据热度的方法,一方面具有主观性和不确定性。这是因为,用户的主观判断和标注可能受到个人经验和偏好的影响,使得不同用户对于数据的理解和评估可能存在差异,从而导致热度划分不准确。另一方面,这种方法进行数据热度的标注所带来的工作量很大,不仅会增加时间成本,而且也需要消耗用户大量的精力。尤其是对于大规模数据集来说,这一过程可能非常繁琐和耗时。再一方面,使用这种方法,更新和维护也存在着一定的困难,随着数据的变化和演化,需要用户定期更新和维护数据的热度标注,这也会增加额外的工作负担和管理难度。
而基于加工平台标注数据热度也有一些缺点,首先,平台要获取元数据需要依赖hive meta,若hive meta出问题也会影响数据热度计算的准确性。其次,这种方式需要依赖平台功能,要求用户在开发平台上进行数据加工和代码提交。然而,在金融领域中,部分业务流程(如模型计算等)需要采取高度保密措施,因此无法使用统一的开发平台和入口。此外,基于保密要求,无法对业务任务进行解析和分析,以防止在解析过程中泄漏训练逻辑等重要信息。同时,这种方式也受限于可用元数据,准确定位用户对数据的操作需要可靠的元数据支持。然而,并非所有数据都有完备的元数据信息,这可能限制了标注数据热度的准确性和全面性。最后,无法考虑数据外部因素,这种方法通常只考虑了用户对数据的操作,而忽略了数据被其他***或业务过程使用的情况。因此,在评估数据热度时可能忽略了一些重要的外部因素。
综上所述,基于用户手动标注数据热度和基于加工平台标注数据热度的方法存在主观性、不确定性、工作量、依赖用户行为和元数据等缺点。因此,为了解决上述问题,本申请实施例又提出了一种数据热度计算方法。
下面,结合附图,对本申请实施例提供的一种数据热度计算方法的***架构和流程进行介绍。
首先,结合图1,对本申请实施例提供的一种数据热度计算方法的***架构进行介绍。请参见图1,图1是本申请实施例提供的一种数据热度计算方法的***架构图。在图1中,包括文件***、数据提交模块、数据统计模块、数据热度计算模块、第一数据库。
其中,文件***用于存储和管理数据仓库中的各类文件,文件可以包括用户信息,也可以路径信息,也可以任务执行过程中所需读取的数据,也可以任务执行过程中生成的数据,还可以包括上述信息和/或数据的元数据等,本申请实施例对此不做限制。
数据提交模块用于读取文件***中的文件,并生成读取的文件的第一记录信息(该第一记录信息可以用于表征读取的文件的时间),将读取的文件的第一记录信息进行加密打包,发送给数据统计模块。
数据提交模块还可以用于在文件***中写入文件,并生成写入文件***中的文件的第二记录信息(该第二记录信息可以用于表征写入文件的时间),将写入文件的第二记录信息进行加密打包,发送给数据统计模块。
数据统计模块用于接收来自数据提交模块的第一记录信息和/或第二记录信息,将第一记录信息和/或第二记录信息进行解密后,将同一父目录或同一路径下的记录信息进行统计整理。然后,数据统计模块将整理后的记录信息发送到消息队列(例如,KAFKA)中。
数据热度计算模块用于周期性地/实时地在消息队列中获取整理后的记录信息,并计算相同路径下的文件在一段时间内的读和/或写次数,基于读和/或写次数分区和/或Hive表路径的热度信息,并将计算出的数据的热度信息保存到第一数据库(例如,MySQL)中供用户后续查询和分析使用。
上述图1对本申请实施例提供的一种数据热度计算方法的***架构图进行了介绍。下面,结合附图,对本申请实施例提供的一种数据热度计算方法的流程进行介绍。
请参见图2,图2是本申请实施例提供的一种数据热度计算方法的流程图,图2中包括文件***、数据提交模块、数据统计模块、数据热度计算模块,具体流程如下:
S201:数据提交模块根据文件***中数据文件的读和/或写记录生成所述数据文件的第一记录信息和/或第二记录信息,所述第一记录信息用于表征所述数据文件的读取时间,所述第二记录信息用于表征所述数据文件的写入时间。
具体的,数据文件***用于存储和管理数据文件,在数据文件***中存储有各类数据文件,每个数据文件都存储在存储空间中,这些数据文件中的数据可以为进程运行过程中产生的数据,也可以为进程执行过程中需要读取的数据,还可以为用户写入到数据文件***中的数据,本申请实施例对此不做限制。在数据文件***中每个数据文件都对应路径信息,该路径信息用于表征存储数据文件的内存空间对应的地址。
数据提交模块用于实时监测数据文件***中每个数据文件的读取情况,当数据提交模块检测到数据文件***中数据文件被读取时,会生成该数据文件的第一记录信息,第一记录信息用于表征该数据文件被读取的时间,第一记录信息还可以包括该数据文件的路径信息,所述路径信息用于表征存储该数据文件的存储空间的地址。当数据提交模块检测到数据文件***中写入数据文件时,数据提交模块可以生成该数据文件的第二记录信息,第二记录信息用于表征该数据文件写入该数据文件***的时间,第二记录信息还可以包括该写入的数据文件的路径信息,所述路径信息用于表征该数据文件写入的存储空间的地址。
S202:所述数据提交模块将所述数据文件的第一记录信息和/或所述数据文件的第二记录信息进行加密,得到第一信息,所述第一信息中包括加密后的所述第一记录信息和/或所述第二记录信息。
具体的,数据提交模块在检测到数据文件读取和/或写入后,数据提交模块可以对其生成的第一记录信息和/或第二记录信息进行加密,从而得到第一信息。在第一信息中包括加密后的第一记录信息和/或第二记录信息。
示例性的,数据提交模块可以通过哈希算法对第一记录信息和/或第二记录信息进行加密。
在一种可能实现的方式中,数据提交模块可以通过公式(1)对第一记录信息和/或第二记录信息进行加密,公式(1)如下所示:
其中,所述H(i)为加密前的第一记录信息和/或第二记录信息,所述M为所述第一记录信息和/或所述第二记录信息对应的存储空间存储的所有数据文件所占空间大小,所述N为所述第一记录信息和/或所述第二记录信息所占存储空间的大小,所述x为所述数据文件所在存储空间对应的加密参数,所述加密参数预先存储在所述数据提交模块中,所述t为所述数据文件的数字标识信息(用于区分文件***中同一目录下的数据文件),所述H(i)′为加密后的第一记录信息和/或第二记录信息。
通过将第一记录信息和/或第二记录信息进行加密,可以保证数据安全,这样,在数据提交模块将第一信息发送给其它模块时,能够有效避免因数据泄露而导致的数据安全问题。
S203:所述数据提交模块向数据统计模块发送第一消息,所述第一消息包括所述第一信息和所述数据文件的路径信息,所述数据文件的路径信息用于表征存储所述数据文件的存储空间的地址。
具体的,数据提交模块在生成第一信息后,数据提交模块可以向数据统计模块发送第一消息,第一消息中可以包括所述第一信息,在第一消息中还可以包括第一指示信息和第一记录信息和/或第二记录信息对应的路径信息。其中,第一指示信息用于指示数据统计模块对第一消息中的第一信息进行统计处理。
在一些实施例中,第一信息中还可以包括数据提交模块对第一记录信息和/或第二记录信息进行加密的加密算法的标识信息。这样,以便数据统计模块在接收到第一信息后,可以根据加密算法的标识信息确定预先存储的解密算法,从而根据该解密算法对第一记录信息和/或第二记录信息进行解密,从而根据解密后的第一记录信息和/或第二记录信息进行统计处理。
S204:所述数据统计模块根据所述数据文件的路径信息和分类规则对所述数据文件进行分类,得到多个分类数据文件,并统计每个分类数据文件的第一信息,得到每个分类数据文件的统计信息。
具体的,数据统计模块在接收到第一消息后,可以先对第一信息中的第一记录信息和/或第二记录信息进行解密,从而得到解密后的第一记录信息和/或第二记录信息。
在对第一记录信息和/或第二记录信息进行解密后,可以根据分类规则对第一记录信息和/或第二记录信息的数据文件进行分类,从而得到多个分类的数据文件。
在一些实施例中,可以基于数据文件的路径信息对数据文件进行分类。一般而言,数据文件的路径信息至少包括两级路径信息,分别为:一级路径信息、二级路径信息。其中,二级路径是一级路径的子路径。示例性的,假设数据文件1的路径信息为xxx1/xxx2/xxx3,那么,xxx1为一级路径,xxx2为二级路径,xxx3为三级路径,xxx2为xxx1的子路径,xxx3为xxx2和xxx1的子路径。数据统计模块可以将二级路径相同的数据文件作为同类数据文件。
在一些实施例中,数据统计模块可以获取Hive表,将同一张Hive表中的数据文件作为同类数据文件。
数据统计模块在将数据文件分类后,统计每类数据文件的第一记录信息,得到第一统计集合,统计每类数据文件的第二记录信息,得到第二统计集合。
S205:所述数据统计模块将所述每个分类数据文件的统计信息发送至消息队列。
具体的,每个分类文件的统计信息包括该分类数据文件的第一统计集合和第二统计集合。
S206:数据热度计算模块从所述消息队列中获取所述每个分类数据文件的统计信息。
S207:所述数据热度计算模块根据所述每个分类数据文件的统计信息计算所述每个分类数据文件的热度值。
具体的,可以计算每类数据文件的第一统计值与第二统计值的和值,并将该和值作为该类数据文件的热度值。
在一种可能实现的方式中,可以根据时间模式规则来计算数据文件的热度。示例性的,可以计算当前时间与该类数据文件的第一时间的差值,将该差值的倒数作为该类数据文件的热度值。其中,第一时间可以为该类数据文件中最近时间的第一记录信息或第二记录信息。
在一种可能实现的方式中,可以将每类数据文件的第一统计集合和/或第二统计集合作为预先训练好的数据热度计算模型的输入,数据热度计算模型输出每类数据文件对应的数据热度。
S208:所述数据热度计算模块将所述每个分类数据文件的热度值存储到所述第一数据库中。
在上述实施例中,通过对数据文件的写入时间和读取时间进行记录从而生成记录信息,基于数据文件的记录信息来计算数据的热度,计算的数据热度能够准确表征数据被使用的频繁程度。此外,由于数据文件的数据热度是由数据热度计算模块周期性地计算的,无需人工标注数据热度,也大大节约了人力成本和时间成本。
应当理解的是,上述图2实施例仅是本申请实施例的示例性说明,上述图2实施例中的各步骤的执行顺序可以进行调整和/或删减部分步骤,从而得到不同的实施例,得到的实施例仍属于本申请实施例的保护范围。
上述详细阐述了本申请实施例的方法,下面介绍本申请实施例的相关装置、设备、计算机可读存储介质、计算机程序。
请参见图3,图3是本申请实施例提供的一种数据热度计算设备30的结构示意图,所述数据热度计算设备30可以包括存储器301和处理器302;其中,各个单元的详细描述如下:
存储器301用于存储程序代码。
处理器302用于调用存储器存储的程序代码执行如下步骤:
根据文件***中数据文件的读和/或写记录生成数据文件的第一记录信息和/或第二记录信息,第一记录信息用于表征数据文件的读取时间,第二记录信息用于表征数据文件的写入时间;
根据第一信息和分类规则对数据文件进行分类,得到多个分类数据文件,并统计每个分类数据文件的第一信息,得到每个分类数据文件的统计信息;第一信息中包括加密后的第一记录信息和加密后的第二记录信息;
根据统计信息计算每个分类数据文件的数据热度。
在一种可能实现的方式中,根据第一信息和分类规则对数据文件进行分类之前,还包括:对第一记录信息和/或第二记录信息进行加密。
在一种可能实现的方式中,对第一记录信息和第二记录信息进行加密,包括:通过哈希算法对第一记录信息和第二记录信息进行加加密,得到加密后的第一记录信息和/或加密后的第二记录信息。
在一种可能实现的方式中,对第一记录信息和第二记录信息进行加密,包括:通过公式对第一记录信息和/或第二记录信息进行加密,得到加密后的第一记录信息和/或第二记录信息;其中,H(i)为加密前的第一记录信息和/或第二记录信息,M为第一记录信息和/或第二记录信息对应的存储空间存储的中所有数据文件所占空间大小,N为第一记录信息和/或第二记录信息所占存储空间的大小,x为数据文件所在存储空间对应的加密参数,x预先存储在数据提交模块中,t为数据文件的数字标识信息,H(i)′为加密后的第一记录信息和/或第二记录信息。
在一种可能实现的方式中,根据第一信息和分类规则对数据文件进行分类,得到多个分类数据文件,包括:获取数据文件的路径信息;将路径信息中一级路径和二级路径相同的数据文件作为同类数据文件。
在一种可能实现的方式中,根据统计信息计算每个分类数据文件的数据热度,具体包括:将每类数据文件的第一记录信息和/或第二记录信息通过预先训练好的数据热度计算模型进行处理,得到每类数据文件对应的数据热度。
在一种可能实现的方式中,根据统计信息计算每个分类数据文件的数据热度,具体包括:计算当前时间与单个种类的数据文件的第一时间的差值;将差值的倒数作为数据文件的热度值;其中,第一时间为数据文件中最近时间的第一记录信息或第二记录信息。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现上述实施例及其各种可能的实现方式中的数据热度计算方法。
本申请实施例提供了一种计算机程序,该计算机程序包括指令,当所述计算机程序被计算机执行时,使得该计算机可以执行上述实施例及其各种可能的实现方式中计算机所执行的流程。
需要说明的是,上述实施例中的存储器,可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,随机存储器(random accessmemory,RAM)或者可存储信息和指令的其它类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于于此。存储器可以是独立存在,通过总线于处理器相连接。存储器可以和处理器集成在一起。
上述实施例中的处理器,可以是通用中央处理器(CPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制以上方案程序执行的集成电路。
对于前述各方法实施例,为了简单描述,故将其都表达为一系列的动作组合,但是本领域的技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可能可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置,可通过其它方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个***,或一些特征可以忽略,或不执行。
上述作为分离部件说明的单元可以是或者不是也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本申请各个实施例上述方法的全部或部分步骤。其中,前述的存储介质可包括:U盘、移动硬盘、磁碟、光盘、只读存储器(read-only memory,ROM)或者随机存取存储器(random access memory,RAM)等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种数据热度计算方法,其特征在于,应用于数据处理***,所述数据处理***包括数据提交模块、数据统计模块和数据热度计算模块,所述方法包括:
所述数据提交模块根据文件***中数据文件的读取和/或写入时间生成所述数据文件的第一记录信息和/或第二记录信息,所述第一记录信息用于表征所述数据文件的读取时间,所述第二记录信息用于表征所述数据文件的写入时间;
所述数据提交模块将第一信息发送给所述数据统计模块,所述第一信息中包括加密后的所述第一记录信息和加密后的所述第二记录信息;
所述数据统计模块根据所述第一信息和分类规则对所述数据文件进行分类,得到多个分类数据文件,并统计每个分类数据文件的第一信息,得到每个分类数据文件的统计信息;
所述数据热度计算模块根据所述统计信息计算每个分类数据文件的数据热度。
2.如权利要求1所述的方法,其特征在于,所述数据提交模块将第一信息发送给所述数据统计模块之前,还包括:
对所述第一记录信息和/或所述第二记录信息进行加密。
3.如权利要求2所述的方法,其特征在于,所述对所述第一记录信息和所述第二记录信息进行加密,包括:
通过哈希算法对所述第一记录信息和所述第二记录信息进行加密,得到加密后的所述第一记录信息和/或加密后的所述第二记录信息。
4.如权利要求2所述的方法,其特征在于,所述对所述第一记录信息和所述第二记录信息进行加密,包括:
通过公式对所述第一记录信息和/或第二记录信息进行加密,得到加密后的第一记录信息和/或第二记录信息;
其中,所述H(i)为加密前的第一记录信息和/或第二记录信息,所述M为所述第一记录信息和/或所述第二记录信息对应的存储空间存储的中所有数据文件所占空间大小,所述N为所述第一记录信息和/或所述第二记录信息所占存储空间的大小,所述x为所述数据文件所在存储空间对应的加密参数,所述x预先存储在所述数据提交模块中,所述t为所述数据文件的数字标识信息,所述H(i)为加密后的第一记录信息和/或第二记录信息。
5.如权利要求1所述的方法,其特征在于,所述数据统计模块根据所述第一信息和分类规则对所述数据文件进行分类,得到多个分类数据文件,包括:
获取所述数据文件的路径信息;
将所述路径信息中一级路径和二级路径相同的数据文件作为同类数据文件。
6.如权利要求1所述的方法,其特征在于,所述数据热度计算模块根据所述统计信息计算每个分类数据文件的数据热度,具体包括:
将每类数据文件的第一记录信息和/或第二记录信息通过预先训练好的数据热度计算模型进行处理,得到所述每类数据文件对应的数据热度。
7.如权利要求1所述的方法,其特征在于,所述数据热度计算模块根据所述统计信息计算每个分类数据文件的数据热度,具体包括:
计算当前时间与单个种类的数据文件的第一时间的差值;
将所述差值的倒数作为所述数据文件的热度值;
其中,所述第一时间为所述数据文件中最近时间的第一记录信息或第二记录信息。
8.一种数据热度计算装置,其特征在于,包括执行如权利要求1-7任意一项所述的计算数据热度方法的单元。
9.一种数据热度计算设备,其特征在于,包括:存储器和处理器,其中:
所述存储器,用于存储计算机程序,所述计算机程序包括程序指令;
所述处理器用于调用所述程序指令,使得所述数据热度计算设备执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求1-7任意一项所述的方法。
CN202311540489.7A 2023-11-17 2023-11-17 一种数据热度计算方法、装置、设备以及可读存储介质 Pending CN117555853A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311540489.7A CN117555853A (zh) 2023-11-17 2023-11-17 一种数据热度计算方法、装置、设备以及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311540489.7A CN117555853A (zh) 2023-11-17 2023-11-17 一种数据热度计算方法、装置、设备以及可读存储介质

Publications (1)

Publication Number Publication Date
CN117555853A true CN117555853A (zh) 2024-02-13

Family

ID=89820089

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311540489.7A Pending CN117555853A (zh) 2023-11-17 2023-11-17 一种数据热度计算方法、装置、设备以及可读存储介质

Country Status (1)

Country Link
CN (1) CN117555853A (zh)

Similar Documents

Publication Publication Date Title
US11468192B2 (en) Runtime control of automation accuracy using adjustable thresholds
US20200356901A1 (en) Target variable distribution-based acceptance of machine learning test data sets
CN104731816A (zh) 一种处理异常业务数据的方法和装置
CN107092535B (zh) 用于测试接口的数据存储的方法及设备
US10192278B2 (en) Traceable data audit apparatus, method, and non-transitory computer readable storage medium thereof
CN112514349B (zh) 利用对加密匹配索引进行的精确和模糊匹配来检测重复
CN107292618B (zh) 数据库中密文数据换密失败的处理方法和装置
US11295027B2 (en) System and method for protecting electronic documents containing confidential information from unauthorized access
JP2023512338A (ja) コンテキスト駆動型データプロファイリング
CN110457182A (zh) 一种负载均衡集群实例运行指标监控***
CN115329381A (zh) 基于敏感数据的分析预警方法、装置、计算机设备及介质
CN110347678B (zh) 一种金融数据的存储方法、***、装置及设备
US9734229B1 (en) Systems and methods for mining data in a data warehouse
CN107515807B (zh) 一种存储监控数据的方法及装置
CN114638005A (zh) 基于区块链的数据处理方法、装置及***、存储介质
CN117555853A (zh) 一种数据热度计算方法、装置、设备以及可读存储介质
CN115659045A (zh) 用户操作的识别方法、装置、存储介质以及电子设备
JP6631091B2 (ja) 情報処理装置及び情報処理プログラム
CN112632211A (zh) 用于移动机器人的语义信息处理方法与设备
CN117910021B (zh) 一种数据安全管理方法、装置、电子设备及介质
EP3933634B1 (en) Anonymity evaluation device, anonymity evaluation method, and program
CN110209679B (zh) 一种用于提升访问效率的数据存储方法、终端设备
JP6065657B2 (ja) 電子データ承認方法、及び電子データ承認サーバ
CN109598393A (zh) 一种事件对企业产生的影响信息的分析方法及装置
JP7290169B2 (ja) 識別推定リスク評価装置、識別推定リスク評価方法、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination