CN113791742B - 一种高性能的数据湖***及数据存储方法 - Google Patents

一种高性能的数据湖***及数据存储方法 Download PDF

Info

Publication number
CN113791742B
CN113791742B CN202111368382.XA CN202111368382A CN113791742B CN 113791742 B CN113791742 B CN 113791742B CN 202111368382 A CN202111368382 A CN 202111368382A CN 113791742 B CN113791742 B CN 113791742B
Authority
CN
China
Prior art keywords
array
data
file
storage method
data lake
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111368382.XA
Other languages
English (en)
Other versions
CN113791742A (zh
Inventor
刘昊
陈志凌
张涛
王朋
王秋烨
郁晨熹
陈巍
刘荫隆
刘哲峰
屠勇刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Big Data Advanced Technology Research Institute
Nanhu Laboratory
Original Assignee
Beijing Big Data Advanced Technology Research Institute
Nanhu Laboratory
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Big Data Advanced Technology Research Institute, Nanhu Laboratory filed Critical Beijing Big Data Advanced Technology Research Institute
Priority to CN202111368382.XA priority Critical patent/CN113791742B/zh
Publication of CN113791742A publication Critical patent/CN113791742A/zh
Application granted granted Critical
Publication of CN113791742B publication Critical patent/CN113791742B/zh
Priority to NL2033534A priority patent/NL2033534B1/en
Priority to US17/988,834 priority patent/US11789899B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/116Details of conversion of file system types or formats
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0602Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
    • G06F3/061Improving I/O performance
    • G06F3/0611Improving I/O performance in relation to response time
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/0643Management of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种高性能的数据湖***及数据存储方法,数据存储方法包括以下步骤:S1.将文件转成文件流;S2.将文件流转成一个数组嵌套多个子数组的形式;S3.将所述的转成RDD后存储至数据湖的存储层中。本方案提出嵌套的字段结构,为出湖过程的并行处理提供字段结构基础,有效提高出湖性能,并且根据硬件内核灵活生成嵌套的子数组数量,使数据湖具有更强的扩展性能,针对不同的用户均能够保持最佳的入湖效率,满足用户需求。

Description

一种高性能的数据湖***及数据存储方法
技术领域
本发明属于数据出入湖技术领域,尤其是涉及一种高性能的数据湖***及数据存储方法。
背景技术
数据湖是一个用于存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖的一部分价值是把不同种类的数据汇聚到一起,另一部分价值是不需要预定义的模型就能进行数据分析。
数据湖对文件进行格式转变,存储为数据湖支持的parquet,具体如图1所示,数据湖采用api接口将需要入湖的文件转成文件流,然后将文件流转成字节数组,再将字节数组转变成一个RDD,这个RDD包含文件的原始数据(字节数组)和元数据(文件名称,大小等),数据湖底层代码将RDD以parquet格式进行存储,以使数据符合数据湖格式。申请人在使用目前的数据湖***过程中发现随着文件的增大,文件从湖中读出的速度成倍增长,严重影响数据湖出湖性能。
为了解决上述技术问题,申请人查阅了大量资料,没有查询到能够有效解决数据湖出湖性能的方案。申请人经过大量的研究发现,在一些非关系型数据库中,一个字段可以包含多个字段,对应多种字段类型,而目前的数据湖在将文件流转成数组的时候所有字段都只对应一种字段类型,为此,申请人从字段结构入手,对字段结构提出了改进,并获得了显著的效果。
发明内容
本发明的目的是针对上述问题,提供一种高性能的数据湖***;
本发明的另一目的是针对上述问题,提供一种能够帮助数据湖***提高性能的数据存储方法。
为达到上述目的,本发明采用了下列技术方案:
一种数据湖***的数据存储方法,包括以下步骤:
S1.将文件转成文件流;
S2.将文件流转成一个数组嵌套多个子数组的形式;
S3.将所述的数组转成RDD后存储至数据湖的存储层中。
在上述的数据湖***的数据存储方法中,步骤S2中,所述数组嵌套子数组的数量为2-8个。
在上述的数据湖***的数据存储方法中,步骤S2中,所述数组嵌套子数组的数量与当前硬件环境CPU内核数量相一致。
在上述的数据湖***的数据存储方法中,***通过读取配置文件的方式获取当前硬件环境CPU内核数量从而动态确定相应数量的子数组。
在上述的数据湖***的数据存储方法中,步骤S2与S3之间还包括:
检测当前数组大小,若在设定值之内,则以单行形式存储当前数组;若超过设定值,则将当前数组切分以分行存储,且每行的数组大小均小于设定值。
在上述的数据湖***的数据存储方法中,当数组大小大于设定值时,分行数量n为n=m/s+1,其中m表示数组大小,s表示设定值,/表示整除取商。
在上述的数据湖***的数据存储方法中,对大于设定值的数组切分成多个后返回包含多个RDD的迭代器。
在上述的数据湖***的数据存储方法中,还包括通过轮询自动存储方法:
A1.轮询监听文件,在每次轮询中,获得指定路径下所有文件的绝对路径,将其放入到一个数组中,作为最新的偏移量;
A2.取上一次轮询的结果,两个数组做差集;
A3.根据差集结果获得在此次轮询中,新增文件的绝对路径,随后通过步骤S1-S3将新增文件存入数据湖。
在上述的数据湖***的数据存储方法中,本***通过继承FileFormat类对数据湖***重写批读和批写以使数据湖***支持批读和批写。
一种高性能的数据湖***,采用上述存储方法进行数据存储。
本发明的优点在于:
提出嵌套的字段结构,为出湖过程的并行处理提供字段结构基础,有效提高出湖性能;
嵌套+多行存储的方式,提升大文件存储能力,提高存储上限;
通过轮询监听的方式主动将新增文件存入数据湖,实现对新增文件的流处理,提高数据湖的存储性能;
根据硬件内核灵活生成嵌套的子数组数量,使数据湖具有更强的扩展性能,针对不同的用户均能够保持最佳的入湖效率,满足用户需求;
将数组按照指定大小切分成多个后通过迭代器返回,不使用列表返回,能够有效避免OutOfMemoryError(产生栈内存溢出)错误。
附图说明
图1为文件入湖的流程图;
图2为现有出入湖***单个txt文件写入写出耗时实验结果图;
图3为现有出入湖***单个pdf文件写入写出耗时实验结果图;
图4为现有出入湖***单个mp4文件写入写出耗时实验结果图;
图5为现有出入湖***单个gz文件写入写出耗时实验结果图;
图6为本方案出入湖***单个txt文件写入耗时实验结果图;
图7为本方案出入湖***单个txt文件读出耗时实验结果图;
图8为本方案出入湖***单个pdf文件写入耗时实验结果图;
图9为本方案出入湖***单个pdf文件读出耗时实验结果图;
图10为本方案出入湖***单个mp4文件写入耗时实验结果图;
图11为本方案出入湖***单个mp4文件读出耗时实验结果图;
图12为本方案出入湖***单个gz文件写入耗时实验结果图;
图13为本方案出入湖***单个gz文件读出耗时实验结果图。
具体实施方式
下面结合附图和具体实施方式对本发明做进一步详细的说明。
本实施例公开了一种数据湖***的数据存储方法,包括以下步骤:
S1.将文件转成文件流;
S2.将文件流转成一个数组嵌套多个子数组的形式;
S3.将所述的数组转成RDD,使其满足数据湖的parquet格式要求后存储至数据湖的存储层中。
优选地,本方案通过读取配置文件的方式获取当前硬件环境CPU内核数量从而动态确定相应的嵌套数量,具体为,将文件流转成然后将该数组嵌套子数组的数量与当前硬件环境CPU内核数量相一致的数组。如一个文件流以非嵌套方式转换的数组形式为[1,2,3,4,5,6,7,8],则,若当前硬件环境CPU内核数量为2核,经过本方案嵌套方式转换后的数组形式为嵌套两个子数组的形式,即[[1,2,3,4],[5,6,7,8]];若当前硬件环境CPU内核数量为4核,经过本方案嵌套方式转换后的数组形式为嵌套四个子数组的形式,即[[1,2],[3,4][5,6],[7,8]]。其它内核数量的情况依此类推。当嵌套数量与CPU内核数量一致时,可以获得最快的读出速度,经过前述自适应方式,能够使数组的嵌套数量与CPU内核相适配,从而保持最佳的读出速度,有效提高出湖性能。
优选地,本实施例步骤S2与S3之间还包括:
检测当前数组大小,若在设定值之内,则以单行形式存储当前数组;若超过设定值,则将当前数组切分以分行存储,且每行的数组大小均小于设定值。且当数组大小大于设定值时,分行数量n为n=m/s+1,其中m表示数组大小,s表示设定值,/表示整除取商。如数组大小为50Mb,设定值为60Mb,则n=50/60+1=0+1=1;
如数组大小为100Mb,设定值为60Mb,则n=100/60+1=1+1=2。在切分为多行时,可以使前面几行每行大小为设定值,最后一行为当前数组的剩余字节,也可以每一行平均分配,还可以根据数组情况自由分配,例如可以优选使属于同一子数组的字节放在同一行。
进一步地,对大于设定值的数组切分成多个后返回包含多个RDD的迭代器。将数组按照指定大小切分成多个后通过迭代器返回,不使用列表返回,能够有效避免OutOfMemoryError(产生栈内存溢出)错误。
进一步地,本方法还包括通过轮询自动存储方法,主要是在代码层面,通过轮询(polling)的方式,监听某文件夹下的文件是否有新增,若有新增则将新增文件存入数据湖,具体过程如下:
A1.在每次轮询中,获得指定路径下所有文件的绝对路径,将其放入到一个数组中,作为最新的偏移量;
A2.取上一次轮询的结果,两个数组做差集;
A3.根据差集结果获得在此次轮询中,新增文件的绝对路径,随后通过步骤S1-S3将新增文件存入数据湖。
本方案通过轮询的方式监听文件夹,能够主动将新增文件加入到数据湖,在将数据湖连接数据源后,用户启动针对该数据源的轮询自动存储功能,无需用户手动将新增文件,满足实际业务需求,进一步提高数据湖存储性能。
进一步地,本方法还通过继承FileFormat类对数据湖***重写buildReader(批读)和prepareWrite(批写)两个方法来实现批读和批写功能。
buildReader的实现与目前spark公司的类似,但数据湖底层将RDD以parquet进行存储后向数据湖返回RDD格式的类型不同,spark返回单个RDD,本方案返回多个迭代器,包含多个RDD,每次返回一小部分,计算机处理完成当前部分后再返回下一部分进行处理,能够有效避免OutOfMemoryError。
prepareWrite的实现方法为,获取多个相关数组,将多个相关数组拼接成一个数组,并通过输出流输出。
本实施例还提供一种采用上述存储方法进行数据存储的高性能的数据湖***。
为了验证本方案数据湖***的数据存储方法的优越性,对基于本方法存储的数据湖***和现有普通存储的数据湖***进行出入湖实验对比:
实验环境:
硬件环境,li7 10代8核,l16G内存;
软件环境,lhadoop 伪分布式存储,lubuntu 18.04;
JVM环境,l-Xms2048m(初始堆大小),l-Xmx4096m(最大堆大小)。
部分测试数据:
不同格式文件的单个写入写出测试:
文本文件(txt,pdf);视频文件(mp4);压缩文件(gz)
本次采用真实实验数据,没有采用代码随机生成的文件,每组数据写入写出重复3-5次,取平均值为结果。
部分实验结果如图2-13所示,图2-图5为现有技术普通存储方式的出入湖***的出入湖实验结果图,其中,
图2为单个txt文件写入写出耗时,由图可知,在写入写出文件达到356张时,写出耗时143347ms,写入耗时13240ms。
图3为单个pdf文件写入写出耗时,由图可知,在写入写出文件达到200.8MB时,写出耗时78663ms,写入耗时8796ms。
图4为单个mp4文件写入写出耗时,由图可知,在写入写出文件达到391MB时,写出耗时44242ms,写入耗时11003ms。
图5为单个gz文件写入写出耗时,由图可知,在写入写出文件达到325MB时,写出耗时309683ms,写入耗时9754ms。
图6-图13为采用本方案存储方式的出入湖***的出入湖实验结果图,其中,
图6为单个txt文件写入耗时,由图可知,在写入文件达到356张时,嵌套子数组数量为2、4、6和8的数组结构写入耗时分别需要10417ms、11328ms、10636ms、9978ms。与图2对比可以看到写入速度比普通数据湖***稍快。
图7为单个txt文件读出耗时,由图可知,在读出文件达到356张时,嵌套子数组数量为2、4、6和8的数组结构读出耗时分别需要42439ms、14849ms、12103ms、9868ms。与图2对比可以看到,各嵌套数量情形的读出速度均比普通数据湖***提高很多。
图8为单个pdf文件写入耗时,由图可知,在写入文件达到200.8Mb时,嵌套子数组数量为2、4、6和8的数组结构写入耗时分别需要7664ms、77107ms、7038ms、7307ms。与图3对比可以看到写入速度比普通数据湖***稍快。
图9为单个pdf文件读出耗时,由图可知,在读出文件达到200.8Mb时,嵌套子数组数量为2、4、6和8的数组结构读出耗时分别需要22114ms、7724ms、5702ms、6549ms。与图3对比可以看到,各嵌套数量情形的读出速度均比普通数据湖***提高很多。
图10为单个mp4文件写入耗时,由图可知,在写入文件达到391Mb时,嵌套子数组数量为2、4、6和8的数组结构写入耗时分别需要11732ms、9702ms、10861ms、11008ms。与图4对比可以看到写入速度接近于普通数据湖***。
图11为单个mp4文件读出耗时,由图可知,在读出文件达到391Mb时,嵌套子数组数量为2、4、6和8的数组结构读出耗时分别需要114045ms、33027ms、16389ms、14851ms。与图4对比可以看到,嵌套数量为2的读出速度比普通数据湖***要慢,但是其余嵌套数量为4、6和8时均比普通数据湖***快,尤其是嵌套数量为8时,读出速度明显比普通数据湖***快。
图12为单个gz文件写入耗时,由图可知,在写入文件达到325Mb时,嵌套子数组数量为2、4、6和8的数组结构写入耗时分别需要10002ms、9415ms、8633ms、8417ms。与图5对比可以看到写入速度接近于普通数据湖***。
图13为单个gz文件读出耗时,由图可知,在读出文件达到325Mb时,嵌套子数组数量为2、4、6和8的数组结构读出耗时分别需要81297ms、25790ms、12503ms、9386ms。与图5对比可以看到各嵌套数量情形的读出速度均比普通数据湖***提高很多。
由以上实验图可以看到,采用本方案方式存储的数据湖***相较于现有技术的数据湖***在入湖性能上略有提升,但是在出湖性能上却能够大幅度提升,所以本方案能够有效提高数据湖出湖性能。另外,本实验的实验环境是8核内核,所以嵌套数量为8的数组结构具有最高的出入湖性能,这可以从图6-13中与嵌套数量分别为2、4和6的对比可以明显看出。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
尽管本文较多地使用了数组、存储层、文件流、嵌套、迭代器等术语,但并不排除使用其它术语的可能性。使用这些术语仅仅是为了更方便地描述和解释本发明的本质;把它们解释成任何一种附加的限制都是与本发明精神相违背的。

Claims (8)

1.一种数据湖***的数据存储方法,其特征在于,包括以下步骤:
S1.将文件转成文件流;
S2.将文件流转成一个数组嵌套多个子数组的形式,且数组嵌套子数组的数量与当前硬件环境CPU内核数量相一致;
S3.将所述的数组转成RDD后存储至数据湖的存储层中。
2.根据权利要求1所述的数据湖***的数据存储方法,其特征在于,***通过读取配置文件的方式获取当前硬件环境CPU内核数量从而动态确定相应数量的子数组。
3.根据权利要求2所述的数据湖***的数据存储方法,其特征在于,步骤S2与S3之间还包括:
检测当前数组大小,若在设定值之内,则以单行形式存储当前数组;若超过设定值,则将当前数组切分以分行存储,且每行的数组大小均小于或等于设定值。
4.根据权利要求3所述的数据湖***的数据存储方法,其特征在于,当数组大小大于设定值时,分行数量n为n=m/s+1,其中m表示数组大小,s表示设定值,/表示整除取商。
5.根据权利要求4所述的数据湖***的数据存储方法,其特征在于,对大于设定值的数组切分成多个后返回包含多个RDD的迭代器。
6.根据权利要求5所述的数据湖***的数据存储方法,其特征在于,还包括通过轮询自动存储方法:
A1.轮询监听文件,在每次轮询中,获得指定路径下所有文件的绝对路径,将其放入到一个数组中,作为最新的偏移量;
A2.取上一次轮询的结果,两个数组做差集;
A3.根据差集结果获得在此次轮询中, 新增文件的绝对路径,随后通过步骤S1-S3将新增文件存入数据湖。
7.根据权利要求6所述的数据湖***的数据存储方法,其特征在于,本***通过继承FileFormat类对数据湖***重写批读和批写以使数据湖***支持批读和批写。
8.一种高性能的数据湖***,其特征在于,采用权利要求1-7任意一项所述的存储方法进行数据存储。
CN202111368382.XA 2021-11-18 2021-11-18 一种高性能的数据湖***及数据存储方法 Active CN113791742B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202111368382.XA CN113791742B (zh) 2021-11-18 2021-11-18 一种高性能的数据湖***及数据存储方法
NL2033534A NL2033534B1 (en) 2021-11-18 2022-11-15 High-performance data lake system and data storage method
US17/988,834 US11789899B2 (en) 2021-11-18 2022-11-17 High-performance data lake system and data storage method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111368382.XA CN113791742B (zh) 2021-11-18 2021-11-18 一种高性能的数据湖***及数据存储方法

Publications (2)

Publication Number Publication Date
CN113791742A CN113791742A (zh) 2021-12-14
CN113791742B true CN113791742B (zh) 2022-03-25

Family

ID=78955413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111368382.XA Active CN113791742B (zh) 2021-11-18 2021-11-18 一种高性能的数据湖***及数据存储方法

Country Status (3)

Country Link
US (1) US11789899B2 (zh)
CN (1) CN113791742B (zh)
NL (1) NL2033534B1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521367A (zh) * 2011-12-16 2012-06-27 清华大学 面向海量数据的分布式处理方法
CN107122170A (zh) * 2017-03-22 2017-09-01 武汉斗鱼网络科技有限公司 一种数据数组的大容量存储方法及装置
CN111061806A (zh) * 2019-11-21 2020-04-24 中国航空无线电电子研究所 面向分布式的海量地理瓦片的存储方法与网络化访问方法
CN111291047A (zh) * 2020-01-16 2020-06-16 北京明略软件***有限公司 一种时空数据存储方法、装置、存储介质及电子设备
CN111367984A (zh) * 2020-03-11 2020-07-03 中国工商银行股份有限公司 高时效的数据加载入数据湖的方法及***
CN111400301A (zh) * 2019-01-03 2020-07-10 阿里巴巴集团控股有限公司 一种数据查询方法、装置及设备
CN113297057A (zh) * 2020-03-26 2021-08-24 阿里巴巴集团控股有限公司 内存分析方法、装置及***

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8032701B1 (en) * 2004-03-26 2011-10-04 Emc Corporation System and method for managing provisioning of storage resources in a network with virtualization of resources in such a network
JP4758429B2 (ja) * 2005-08-15 2011-08-31 株式会社ターボデータラボラトリー 共有メモリ型マルチプロセッサシステム及びその情報処理方法
US9639403B2 (en) * 2013-03-15 2017-05-02 Genband Us Llc Receive-side scaling in a computer system using sub-queues assigned to processing cores
KR101663547B1 (ko) * 2016-02-26 2016-10-07 주식회사 아미크 데이터베이스의 아카이빙 방법 및 장치, 아카이빙된 데이터베이스의 검색 방법 및 장치
WO2018039264A1 (en) * 2016-08-22 2018-03-01 Oracle International Corporation System and method for metadata-driven external interface generation of application programming interfaces
CN106383886B (zh) * 2016-09-21 2019-08-30 深圳市博瑞得科技有限公司 一种基于大数据分布式编程框架的大数据预统***及方法
EP3535974A1 (en) * 2016-12-08 2019-09-11 Zhejiang Dahua Technology Co., Ltd Methods and systems for video synopsis
US10831773B2 (en) * 2017-03-01 2020-11-10 Next Pathway Inc. Method and system for parallelization of ingestion of large data sets
CN106982356B (zh) * 2017-04-08 2020-12-22 复旦大学 一种分布式大规模视频流处理***
WO2019183062A1 (en) * 2018-03-19 2019-09-26 Facet Labs, Llc Interactive dementia assistive devices and systems with artificial intelligence, and related methods
US20190370599A1 (en) * 2018-05-29 2019-12-05 International Business Machines Corporation Bounded Error Matching for Large Scale Numeric Datasets
US10810224B2 (en) * 2018-06-27 2020-10-20 International Business Machines Corporation Computerized methods and programs for ingesting data from a relational database into a data lake
US11182354B1 (en) * 2018-11-27 2021-11-23 Tekion Corp Data analysis and processing engine
US11119980B2 (en) * 2018-11-30 2021-09-14 International Business Machines Corporation Self-learning operational database management
CN109886074B (zh) * 2018-12-27 2020-11-13 浙江工业大学 一种基于视频流处理的电梯乘客数并行检测方法
CN109889907B (zh) * 2019-04-08 2021-06-01 北京东方国信科技股份有限公司 一种基于html5的视频osd的显示方法及装置
KR20200122900A (ko) * 2019-04-19 2020-10-28 고려대학교 산학협력단 감시 영상 기반의 차량 추적 시스템
US20200394455A1 (en) * 2019-06-15 2020-12-17 Paul Lee Data analytics engine for dynamic network-based resource-sharing
CN110704193B (zh) * 2019-10-12 2022-12-16 中国电子科技集团公司第三十八研究所 一种适合向量处理的多核软件架构的实现方法及装置
US11063612B1 (en) * 2020-03-02 2021-07-13 International Business Machines Corporation Parallelizing encoding of binary symmetry-invariant product codes
US11210271B1 (en) * 2020-08-20 2021-12-28 Fair Isaac Corporation Distributed data processing framework
CN114218595A (zh) * 2021-12-21 2022-03-22 田明太 一种云计算平台中文件保护方法及***

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102521367A (zh) * 2011-12-16 2012-06-27 清华大学 面向海量数据的分布式处理方法
CN107122170A (zh) * 2017-03-22 2017-09-01 武汉斗鱼网络科技有限公司 一种数据数组的大容量存储方法及装置
CN111400301A (zh) * 2019-01-03 2020-07-10 阿里巴巴集团控股有限公司 一种数据查询方法、装置及设备
CN111061806A (zh) * 2019-11-21 2020-04-24 中国航空无线电电子研究所 面向分布式的海量地理瓦片的存储方法与网络化访问方法
CN111291047A (zh) * 2020-01-16 2020-06-16 北京明略软件***有限公司 一种时空数据存储方法、装置、存储介质及电子设备
CN111367984A (zh) * 2020-03-11 2020-07-03 中国工商银行股份有限公司 高时效的数据加载入数据湖的方法及***
CN113297057A (zh) * 2020-03-26 2021-08-24 阿里巴巴集团控股有限公司 内存分析方法、装置及***

Also Published As

Publication number Publication date
CN113791742A (zh) 2021-12-14
NL2033534B1 (en) 2024-01-08
NL2033534A (en) 2023-06-12
US20230153267A1 (en) 2023-05-18
US11789899B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
CN102867071B (zh) 一种网管海量历史数据管理方法
CA2997061C (en) Method and system for parallelization of ingestion of large data sets
US8914415B2 (en) Serial and parallel methods for I/O efficient suffix tree construction
CN109712674B (zh) 注释数据库索引结构、快速注释遗传变异的方法及***
US10545960B1 (en) System and method for set overlap searching of data lakes
US6266665B1 (en) Indexing and searching across multiple sorted arrays
US20140052727A1 (en) Data processing for database aggregation operation
CN111061758A (zh) 数据存储方法、装置及存储介质
CN103019855A (zh) MapReduce作业执行时间预测方法
WO2014122441A1 (en) Improvements relating to use of columnar databases
US9183320B2 (en) Data managing method, apparatus, and recording medium of program, and searching method, apparatus, and medium of program
CN111625520A (zh) 一种通用的异构数据库字段类型的映射方法及***
JP4511469B2 (ja) 情報処理方法及び情報処理システム
CN113791742B (zh) 一种高性能的数据湖***及数据存储方法
Liu et al. Parallel and space-efficient construction of Burrows-Wheeler transform and suffix array for big genome data
CN112434085A (zh) 基于Roaring Bitmap的用户数据统计方法
CN112835932B (zh) 业务表的批量处理方法及装置、非易失性存储介质
US20230273875A1 (en) Method for searching free blocks in bitmap data, and related components
JP4772506B2 (ja) 情報処理方法、情報処理システムおよびプログラム
CN114443670B (zh) 数据的存储、读取方法及装置
US20240088913A1 (en) Graph data compression method and apparatus
CN113704340A (zh) 数据处理方法、装置、服务器及存储介质
CN101414309A (zh) 大规模数据信息排重处理***
CN114817390A (zh) 一种基于Sqoop程序的数据处理方法及装置
JP5419069B2 (ja) データベース装置、データベースの管理方法、データベースのデータ構造、データベースの管理プログラムおよびそれを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Liu Hao

Inventor after: Tu Yonggang

Inventor after: Chen Zhiling

Inventor after: Zhang Tao

Inventor after: Wang Peng

Inventor after: Wang Qiuye

Inventor after: Yu Chenxi

Inventor after: Chen Wei

Inventor after: Liu Yinlong

Inventor after: Liu Zhefeng

Inventor before: Liu Hao

Inventor before: Wang Peng

Inventor before: Tu Yonggang

Inventor before: Zhang Tao

Inventor before: Chen Zhiling

Inventor before: Yu Chenxi

Inventor before: Chen Wei

Inventor before: Liu Zhefeng

Inventor before: Liu Yinlong

Inventor before: Wang Qiuye

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220303

Address after: 314001 Building 29, Xianghu villa, Qixing street, Nanhu District, Jiaxing City, Zhejiang Province

Applicant after: Nanhu Laboratory

Applicant after: Beijing big data advanced technology research institute

Address before: 314001 Building 29, Xianghu villa, Qixing street, Nanhu District, Jiaxing City, Zhejiang Province

Applicant before: Nanhu Laboratory

GR01 Patent grant
GR01 Patent grant