CN114371810A - Hdfs的数据存储方法及装置 - Google Patents

Hdfs的数据存储方法及装置 Download PDF

Info

Publication number
CN114371810A
CN114371810A CN202011101718.1A CN202011101718A CN114371810A CN 114371810 A CN114371810 A CN 114371810A CN 202011101718 A CN202011101718 A CN 202011101718A CN 114371810 A CN114371810 A CN 114371810A
Authority
CN
China
Prior art keywords
data
stored
hdfs
record number
upper limit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011101718.1A
Other languages
English (en)
Other versions
CN114371810B (zh
Inventor
高宗宝
陈燕雷
李晓
周波
李光锴
吴兴耀
耿禄博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Design Institute Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202011101718.1A priority Critical patent/CN114371810B/zh
Publication of CN114371810A publication Critical patent/CN114371810A/zh
Application granted granted Critical
Publication of CN114371810B publication Critical patent/CN114371810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0604Improving or facilitating administration, e.g. storage management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/0608Saving storage space on storage systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0655Vertical data movement, i.e. input-output transfer; data movement between one or more hosts and one or more storage devices
    • G06F3/0656Data buffering arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Memory System Of A Hierarchy Structure (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据存储技术领域,具体涉及一种HDFS的数据存储方法及装置。所述方法包括:获取将待存储数据存入当前数据缓存器中后,所述当前数据缓存器的数据记录数;若所述数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将所述待存储数据存入所述当前数据缓存器中;对所述当前数据缓存器中缓存的数据进行HDFS写入;其中,所述预设上限值为所述数据块的数据记录数上限与预设系数之积。本发明实施例提供的HDFS的数据存储方法及装置,可以最大程度地在保留待存储数据原有特征的情况下合并小规模数据,使得数据在HDFS中的存储可以趋近于块大小,从而减少HDFS中小数据块的数量。

Description

HDFS的数据存储方法及装置
技术领域
本发明涉及数据存储技术领域,具体涉及一种HDFS的数据存储方法及装置。
背景技术
对于HDFS(Hadoop Distributed File System,分布式文件***)中数据的存储,现有技术主要采用如下方案:
方案1:直接在客户端中向HDFS写入数据,如使用hdfs shell或FileSystem类的copyFromLocalFile方法进行上传,不考虑上传后数据块的规模,在实际场景下再进行数据的整理。
该方案是HDFS文件上传的基础方法,不考虑上传数据的规模,在运行场景中再去考虑数据的整理,费时费力。
方案2:通过Hadoop提供的API实现文件内容追加,在客户端中通过FileSystem类的append方法得到追加文件流,再向此流中写入其它数据完成文件的追加。
该方案主要是向已有的HDFS文件中追加数据,无法在客户端中很好地控制文件块大小从而导致大小分布的不均匀性。
因此,如何提出一种HDFS的数据存储方法,能够充分考虑数据的规模,使得数据在HDFS中的存储可以趋近于块大小,具有十分重要的意义。
发明内容
针对现有技术中的缺陷,本发明实施例提出一种HDFS的数据存储方法,包括:
获取将待存储数据存入当前数据缓存器中后,所述当前数据缓存器的数据记录数;
若所述数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将所述待存储数据存入所述当前数据缓存器中;
对所述当前数据缓存器中缓存的数据进行HDFS写入;
其中,所述预设上限值为所述数据块的数据记录数上限与预设系数之积。
在一个实施例中,所述方法还包括:
若所述数据记录数大于所述数据块的数据记录数上限,则进行计数,并获取将所述待存储数据存入下一数据缓存器中后,所述下一数据缓存器的数据记录数。
在一个实施例中,所述方法还包括:
若所述数据记录数小于所述预设上限值,则对所述当前数据缓存器进行继续存储操作;
所述继续存储操作包括:
将所述待存储数据存入所述当前数据缓存器中,并获取将下一待存储数据存入所述当前数据缓存器中后,所述当前数据缓存器的数据记录数。
在一个实施例中,若计数值大于预设阈值,则对所述待存储数据进行HDFS写入。
在一个实施例中,所述获取将所述待存储数据存入下一数据缓存器中后,所述下一数据缓存器的数据记录数之前,所述方法还包括:
将所述待存储数据存入等待队列缓存器中。
在一个实施例中,若进行所述继续存储操作的耗时达到预设时长,则对所述当前数据缓存器中缓存的数据进行HDFS写入。
在一个实施例中,所述预设系数的取值范围为0.8至1。
另一方面,本发明实施例还提供一种HDFS的数据存储装置,包括:
获取模块,用于获取将待存储数据存入当前数据缓存器中后,所述当前数据缓存器的数据记录数;
判断模块,用于当所述数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限时,将所述待存储数据存入所述当前数据缓存器中;
写入模块,用于对所述当前数据缓存器中缓存的数据进行HDFS写入;
其中,所述预设上限值为所述数据块的数据记录数上限与预设系数之积。
另一方面,本发明实施例还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一种的HDFS的数据存储方法的步骤。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种的HDFS的数据存储方法的步骤。
本发明实施例提供的HDFS的数据存储方法及装置,由于在数据缓存器的数据记录数接近数据块的数据记录数上限时,才对数据缓存器中存储的数据进行HDFS写入,因此可以最大程度地在保留待存储数据原有特征的情况下合并小规模数据,使得数据在HDFS中的存储可以趋近于块大小,从而减少HDFS中小数据块的数量。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为根据本发明实施例的HDFS的数据存储方法的流程示意图;
图2为根据本发明实施例的HDFS的数据存储装置的结构示意图;
图3为根据本发明实施例的电子设备的实体结构示意图。
具体实施方式
下面结合附图和实施例对本发明的实施方式作进一步详细描述。以下实施例用于说明本发明,但不能用来限制本发明的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
图1为根据本发明实施例的HDFS的数据存储方法的流程示意图,参照图1,本发明实施例提供一种HDFS的数据存储方法,包括:
S110、获取将待存储数据存入当前数据缓存器中后,当前数据缓存器的数据记录数;
S120、若数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将待存储数据存入当前数据缓存器中;
S130、对当前数据缓存器中缓存的数据进行HDFS写入;
其中,预设上限值为数据块的数据记录数上限与预设系数之积。
本发明实施例提供的HDFS的数据存储方法的执行主体可以是计算机,例如智能手机、便携式计算机、平板计算机、个人计算机、可穿戴装置等。
需要说明的是,数据记录数上限由数据块的默认大小确定。例如,具有128M默认大小的存储块,其所具有的数据记录数上限约为30万。
数据缓存器为结构化数据记录的缓存设备。数据缓存器的名称可以根据具体的业务场景确定。例如,普通数据可以采用文件名,移动MRO数据可以采用“province-city-enbid”等。与数据缓存器同时存在的是数据行记录器,用于记录当前数据缓存器中的数据记录数。
具体地,当具有待存储数据时,可以首先获取将待存储数据存入当前数据缓存器中后当前数据缓存器的数据记录数cu,并根据数据记录数cu来确定对待存储数据采用何种方式进行存储。
当获取到将待存储数据存入当前数据缓存器中后当前数据缓存器的数据记录数cu后,会判断数据记录数cu与预设上限值l1以及数据块的数据记录数上限l0的大小关系,若数据记录数cu不小于预设上限值l1,并且不大于数据块的数据记录数上限l0(即l1≤cu≤l0,其中,l1=p×l0,p为预设系数),则将待存储数据存入当前数据缓存器中。
其中,预设系数p的取值范围可以为0.8至1,则预设上限值l1的取值范围为0.8l0至1l0。预设系数p的具体取值范围可以根据实际需要进行调整,本发明实施例对此不作限定。
当将待存储数据存入当前数据缓存器时,可以记录待存储数据的元数据,包括客户端编号、文件名(取决于数据输入源)、起始行号、结束行号、文件位置(即HDFS中的文件名,须保证集群唯一性,用于后续处理的寻址)。记录元数据可以有效的对已存储的结构化数据进行校验或行抽取处理等操作。
在将待存储数据存入当前数据缓存器中后,即可对当前数据缓存器中缓存的数据进行HDFS写入并元数据落盘。
可以理解的是,当数据缓存器中存储的数据达不到数据块的数据记录数上限,汇入待存储数据后又超出,此时如果进行HDFS写入,那么HDFS切块后会出现小数据块,且待存储数据也会被切割。
而本发明实施例提供的HDFS的数据存储方法,由于在数据缓存器的数据记录数接近数据块的数据记录数上限时,才对数据缓存器中存储的数据进行HDFS写入,因此可以最大程度地在保留待存储数据原有特征的情况下合并小规模数据,使得数据在HDFS中的存储可以趋近于块大小,从而减少HDFS中小数据块的数量。
当HDFS中小数据块的数量减少时,可以显著提高后续基于HDFS中的数据块来执行的任务的处理效率。
进一步地,在一个实施例中,本发明实施例提供的HDFS的数据存储方法还可以包括:
若数据记录数cu大于数据块的数据记录数上限l0,则进行计数,并获取将待存储数据存入下一数据缓存器中后,下一数据缓存器的数据记录数。
当cu>l0时,即将待存储数据存入当前数据缓存器中后,当前数据缓存器中存储的数据超过数据块的存储上限时,则会进行计数,并更新计数值,并获取将待存储数据存入下一数据缓存器中后,下一数据缓存器的数据记录数cu’。
可以理解的是,当获取到下一数据缓存器的数据记录数cu’后,即可将该数据记录数cu’与预设上限值l1以及数据块的数据记录数上限l0进行比较,若cu’≤l0,则将待存储数据存入该下一数据缓存器中。
若cu’>l0,则继续进行计数,并更新计数值,并获取将待存储数据存入再下一数据缓存器中后,该再下一数据缓存器的数据记录数cu”,以此类推,直至有后续数据缓存器可以存储待存储数据,或者计数值达到预设阈值。
通过多次尝试将待存储数据存入数据缓存器中,可以提高待存储数据存入合适的数据缓存器中的几率,从而降低待存储数据进行HDFS写入后被拆分以及产生小数据块的几率,进而进一步保证了数据在HDFS中的存储可以趋近于块大小。
当计数值达到预设阈值,例如9时,则表明已经尝试了9次对待存储数据的存储,但没有合适的数据缓存器可以存储该待存储数据。则当进行第10次尝试(即当计数值大于预设阈值)时,可直接对待存储数据进行HDFS写入。预设阈值的具体取值可以根据实际需要进行调整,本发明实施例对此不作限定。
通过在计数值大于预设阈值时直接对待存储数据进行HDFS写入,可以避免过多浪费资源,提高了HDFS的数据存储效率。
在一个实施例中,获取将待存储数据存入下一数据缓存器中后,下一数据缓存器的数据记录数之前,本发明实施例提供的HDFS的数据存储方法还包括:
将待存储数据存入等待队列缓存器中。
该等待队列缓存器的结构与上述数据缓存器的结构一致。
通过在进行进一步存储判定时,将待存储数据存入到等待队列缓存器中,可以避免耽误下一待存储数据存入到当前数据缓存器中,从而提高了本发明实施例提供的HDFS的数据存储方法的运行效率。
在一个实施例中,本发明实施例提供的HDFS的数据存储方法还可以包括:
若数据记录数cu小于预设上限值l1,则对当前数据缓存器进行继续存储操作;
继续存储操作包括:
将待存储数据存入当前数据缓存器中,并获取将下一待存储数据存入当前数据缓存器中后,当前数据缓存器的数据记录数cu1
可以理解的是,当cu<l1时,即表明当前数据缓存器还可以存储下一待存储数据,此时则可以使当前数据缓存器进行继续存储操作,以便使当前数据缓存器中存储的数据进一步趋近数据块大小。
进一步地,在一个实施例中,本发明实施例提供的HDFS的数据存储方法还可以包括:
若进行继续存储操作的耗时达到预设时长,则对当前数据缓存器中缓存的数据进行HDFS写入。
其中,预设时长的大小可以为例如10ms,其具体大小可以根据实际需要进行调整,本发明实施例对此不作限定。
可以理解的是,通过在进行继续存储操作的耗时达到预设时长时对当前数据缓存器中缓存的数据进行HDFS写入,可以避免当前数据缓存器因为等待后续待存储数据的存储而耽误较多时间,从而保证本发明实施例提供的HDFS的数据存储方法的高效运行。
综上所述,本发明实施例提供的HDFS的数据存储方法,可以最大程度地在保留数据原有特征的情况下合并小规模数据,以减少HDFS中小数据块的数量,从而使HDFS中的数据块分布更加均衡。
图2为根据本发明实施例的HDFS的数据存储装置的结构示意图,参照图2,本发明实施例还提供一种HDFS的数据存储装置,包括:
获取模块210,用于获取将待存储数据存入当前数据缓存器中后,当前数据缓存器的数据记录数;
判断模块220,用于当数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限时,将待存储数据存入当前数据缓存器中;
写入模块230,用于对当前数据缓存器中缓存的数据进行HDFS写入;
其中,预设上限值为数据块的数据记录数上限与预设系数之积。
本发明实施例提供的HDFS的数据存储装置,由于在数据缓存器的数据记录数接近数据块的数据记录数上限时,才对数据缓存器中存储的数据进行HDFS写入,因此可以最大程度地在保留待存储数据原有特征的情况下合并小规模数据,使得数据在HDFS中的存储可以趋近于块大小,从而减少HDFS中小数据块的数量。
图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communication interface)320、存储器(memory)330和总线(bus)340,其中,处理器310,通信接口320,存储器330通过总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行如下方法:
获取将待存储数据存入当前数据缓存器中后,当前数据缓存器的数据记录数;
若数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将待存储数据存入当前数据缓存器中;
对当前数据缓存器中缓存的数据进行HDFS写入。
此外,上述的存储器中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
进一步地,本发明实施例公开一种计算机程序产品,该计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,计算机程序包括程序指令,当程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
获取将待存储数据存入当前数据缓存器中后,当前数据缓存器的数据记录数;
若数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将待存储数据存入当前数据缓存器中;
对当前数据缓存器中缓存的数据进行HDFS写入。
另一方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的方法,例如包括:
获取将待存储数据存入当前数据缓存器中后,当前数据缓存器的数据记录数;
若数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将待存储数据存入当前数据缓存器中;
对当前数据缓存器中缓存的数据进行HDFS写入。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种HDFS的数据存储方法,其特征在于,包括:
获取将待存储数据存入当前数据缓存器中后,所述当前数据缓存器的数据记录数;
若所述数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限,则将所述待存储数据存入所述当前数据缓存器中;
对所述当前数据缓存器中缓存的数据进行HDFS写入;
其中,所述预设上限值为所述数据块的数据记录数上限与预设系数之积。
2.根据权利要求1所述的HDFS的数据存储方法,其特征在于,还包括:
若所述数据记录数大于所述数据块的数据记录数上限,则进行计数,并获取将所述待存储数据存入下一数据缓存器中后,所述下一数据缓存器的数据记录数。
3.根据权利要求1所述的HDFS的数据存储方法,其特征在于,还包括:
若所述数据记录数小于所述预设上限值,则对所述当前数据缓存器进行继续存储操作;
所述继续存储操作包括:
将所述待存储数据存入所述当前数据缓存器中,并获取将下一待存储数据存入所述当前数据缓存器中后,所述当前数据缓存器的数据记录数。
4.根据权利要求2所述的HDFS的数据存储方法,其特征在于,若计数值大于预设阈值,则对所述待存储数据进行HDFS写入。
5.根据权利要求2所述的HDFS的数据存储方法,其特征在于,所述获取将所述待存储数据存入下一数据缓存器中后,所述下一数据缓存器的数据记录数之前,所述方法还包括:
将所述待存储数据存入等待队列缓存器中。
6.根据权利要求3所述的HDFS的数据存储方法,其特征在于,若进行所述继续存储操作的耗时达到预设时长,则对所述当前数据缓存器中缓存的数据进行HDFS写入。
7.根据权利要求1-6任一项所述的HDFS的数据存储方法,其特征在于,所述预设系数的取值范围为0.8至1。
8.一种HDFS的数据存储装置,其特征在于,包括:
获取模块,用于获取将待存储数据存入当前数据缓存器中后,所述当前数据缓存器的数据记录数;
判断模块,用于当所述数据记录数不小于预设上限值,并且不大于数据块的数据记录数上限时,将所述待存储数据存入所述当前数据缓存器中;
写入模块,用于对所述当前数据缓存器中缓存的数据进行HDFS写入;
其中,所述预设上限值为所述数据块的数据记录数上限与预设系数之积。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述的HDFS的数据存储方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的HDFS的数据存储方法的步骤。
CN202011101718.1A 2020-10-15 2020-10-15 Hdfs的数据存储方法及装置 Active CN114371810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011101718.1A CN114371810B (zh) 2020-10-15 2020-10-15 Hdfs的数据存储方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011101718.1A CN114371810B (zh) 2020-10-15 2020-10-15 Hdfs的数据存储方法及装置

Publications (2)

Publication Number Publication Date
CN114371810A true CN114371810A (zh) 2022-04-19
CN114371810B CN114371810B (zh) 2023-10-27

Family

ID=81138069

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011101718.1A Active CN114371810B (zh) 2020-10-15 2020-10-15 Hdfs的数据存储方法及装置

Country Status (1)

Country Link
CN (1) CN114371810B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071842A1 (en) * 2006-09-20 2008-03-20 Hitachi, Ltd. Database management system to reduce capacity of storage volume
CN104503703A (zh) * 2014-12-16 2015-04-08 华为技术有限公司 缓存的处理方法和装置
CN105446893A (zh) * 2014-07-14 2016-03-30 阿里巴巴集团控股有限公司 数据存储方法及设备
CN105511802A (zh) * 2015-11-24 2016-04-20 北京达沃时代科技有限公司 写缓存的方法和装置以及磁盘缓存区的同步方法和装置
CN108572930A (zh) * 2017-03-14 2018-09-25 航天信息股份有限公司 缓存控制方法及装置
US10114754B1 (en) * 2015-09-30 2018-10-30 Veritas Technologies Llc Techniques for space reservation in a storage environment
CN109426438A (zh) * 2017-08-31 2019-03-05 ***通信集团广东有限公司 实时大数据镜像存储方法及装置
WO2019154221A1 (zh) * 2018-02-07 2019-08-15 华为技术有限公司 发送流数据的方法及数据发送设备
WO2019218468A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 一种数据的存储方法及设备
WO2020041928A1 (zh) * 2018-08-27 2020-03-05 深圳市锐明技术股份有限公司 数据存储方法、***及终端设备

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071842A1 (en) * 2006-09-20 2008-03-20 Hitachi, Ltd. Database management system to reduce capacity of storage volume
CN105446893A (zh) * 2014-07-14 2016-03-30 阿里巴巴集团控股有限公司 数据存储方法及设备
CN104503703A (zh) * 2014-12-16 2015-04-08 华为技术有限公司 缓存的处理方法和装置
US10114754B1 (en) * 2015-09-30 2018-10-30 Veritas Technologies Llc Techniques for space reservation in a storage environment
CN105511802A (zh) * 2015-11-24 2016-04-20 北京达沃时代科技有限公司 写缓存的方法和装置以及磁盘缓存区的同步方法和装置
CN108572930A (zh) * 2017-03-14 2018-09-25 航天信息股份有限公司 缓存控制方法及装置
CN109426438A (zh) * 2017-08-31 2019-03-05 ***通信集团广东有限公司 实时大数据镜像存储方法及装置
WO2019154221A1 (zh) * 2018-02-07 2019-08-15 华为技术有限公司 发送流数据的方法及数据发送设备
WO2019218468A1 (zh) * 2018-05-14 2019-11-21 平安科技(深圳)有限公司 一种数据的存储方法及设备
WO2020041928A1 (zh) * 2018-08-27 2020-03-05 深圳市锐明技术股份有限公司 数据存储方法、***及终端设备

Also Published As

Publication number Publication date
CN114371810B (zh) 2023-10-27

Similar Documents

Publication Publication Date Title
CN105117351B (zh) 向缓存写入数据的方法及装置
CN110764708A (zh) 一种数据读取方法、装置、设备及存储介质
CN107197359B (zh) 视频文件缓存方法及装置
CN112954244B (zh) 监控录像的存储实现方法、装置、设备及存储介质
CN113419824A (zh) 数据处理方法、装置、***及计算机存储介质
CN109471843B (zh) 一种元数据缓存方法、***及相关装置
CN109981702B (zh) 一种文件存储方法及***
CN110543495A (zh) 游标遍历存储方法及装置
CN112148736B (zh) 缓存数据的方法、设备及存储介质
CN109947718A (zh) 一种数据存储方法、存储平台及存储装置
CN107133183B (zh) 一种基于tcmu虚拟块设备的缓存数据访问方法及***
CN106201918A (zh) 一种基于大数据量和大规模缓存快速释放的方法和***
CN106899558A (zh) 访问请求的处理方法和装置
CN117130792A (zh) 缓存对象的处理方法、装置、设备及存储介质
CN109977074B (zh) 一种基于hdfs的lob数据处理方法及装置
CN114371810A (zh) Hdfs的数据存储方法及装置
CN112667847A (zh) 数据缓存方法、数据缓存装置和电子设备
CN114968851A (zh) 基于存储桶的数据处理方法及装置、电子设备、存储介质
CN110658999B (zh) 一种信息更新方法、装置、设备及计算机可读存储介质
CN114089912A (zh) 基于消息中间件的数据处理方法及装置、存储介质
CN109471898B (zh) 一种用于对数据进行共享分发的方法及***
CN110825652B (zh) 淘汰磁盘块上的缓存数据的方法、装置及设备
CN113806249B (zh) 一种对象存储有序列举方法、装置、终端及存储介质
CN115509763B (zh) 指纹计算方法及装置
CN112671918B (zh) 基于二进制的分布式数据下载方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant