CN111078635A - 基于Hadoop的数据采集优先级判定及处理方法 - Google Patents

基于Hadoop的数据采集优先级判定及处理方法 Download PDF

Info

Publication number
CN111078635A
CN111078635A CN201911253880.2A CN201911253880A CN111078635A CN 111078635 A CN111078635 A CN 111078635A CN 201911253880 A CN201911253880 A CN 201911253880A CN 111078635 A CN111078635 A CN 111078635A
Authority
CN
China
Prior art keywords
priority
node
block
data
hadoop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911253880.2A
Other languages
English (en)
Other versions
CN111078635B (zh
Inventor
林森
唐宁
马娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin kuaiyou Century Technology Co., Ltd
Original Assignee
Beijing Adview Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Adview Technology Co ltd filed Critical Beijing Adview Technology Co ltd
Priority to CN201911253880.2A priority Critical patent/CN111078635B/zh
Publication of CN111078635A publication Critical patent/CN111078635A/zh
Application granted granted Critical
Publication of CN111078635B publication Critical patent/CN111078635B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Hadoop的数据采集优先级判定及处理方法,该方法利用Hadoop分布式文件***来处理海量数据,所述的Hadoop分布式文件***包括用户节点、命名节点、扫描模块和子节点,所述的用户节点包括JAVA虚拟机,所述的JAVA虚拟机包括Hadoop用户端,该Hadoop用户端分别与分布式文件子***和数据输出流交互;所述命名节点储存调用频率检测信息,调用频率检测信息包括各调用子节点的频率次数,所述命名节点根据所述子节点的频率次数依次将所述子节点进行优先权划分,所述子节点的频率次数越高,优先权越大。

Description

基于Hadoop的数据采集优先级判定及处理方法
技术领域
本发明涉及数据处理技术领域,具体涉及一种基于Hadoop的数据采集优先级判定及处理方法。
背景技术
Hadoop是一个由Apache基金会所开发的分布式***基础架构。Hadoop实现了一个分布式文件***,有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。Hadoop分布式文件***可以以流的形式访问(streamingaccess)文件***中的数据。
Hadoop由Apache Software Foundation公司于2005年秋天作为Lucene的子项目Nutch的一部分正式引入。它受到最先由Google Lab开发的Map/Reduce和Google FileSystem(GFS)的启发。
Hadoop原本来自于谷歌一款名为MapReduce的编程模型包。谷歌的MapReduce框架可以把一个应用程序分解为许多并行计算指令,跨大量的计算节点运行非常巨大的数据集。使用该框架的一个典型例子就是在网络数据上运行的搜索算法。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。
Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载(Reduce)到数据仓库里。
Hadoop设计之初的目标就定位于高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop一出现就受到众多大公司的青睐,同时也引起了研究界的普遍关注。到目前为止,Hadoop技术在互联网领域已经得到了广泛的运用,例如,Yahoo使用4000个节点的Hadoop集群来支持广告***和Web搜索的研究;Facebook使用1000个节点的集群运行Hadoop,存储日志数据,支持其上的数据分析和机器学习;百度用Hadoop处理每周200TB的数据,从而进行搜索日志分析和网页数据挖掘工作;***研究院基于Hadoop开发了“大云”(Big Cloud)***,不但用于相关数据分析,还对外提供服务;淘宝的Hadoop***用于存储并处理电子商务交易的相关数据。国内的高校和科研院所基于Hadoop在数据存储、资源管理、作业调度、性能优化、***高可用性和安全性方面进行研究,相关研究成果多以开源形式贡献给Hadoop社区。
现有技术中Hadoop分布式文件***的文件是一次写入的,并且在任何时候都只有一个写入器。也就是说,Hadoop分布式文件***的文件支持一次写入多次读取,这意味着一旦写入信息,就无法修改,但可以多次读取。
发明内容
为了克服现有技术中存在的问题,本发明提供一种基于Hadoop的数据采集优先级判定及处理方法,该方法利用Hadoop分布式文件***来处理海量数据,所述的Hadoop分布式文件***包括用户节点、命名节点、扫描模块和子节点,所述的用户节点包括JAVA虚拟机,所述的JAVA虚拟机包括Hadoop用户端,该Hadoop用户端分别与分布式文件子***和数据输出流交互;所述命名节点储存调用频率检测信息,调用频率检测信息包括各调用子节点的频率次数,命名节点根据子节点中各子节点的频率次数依次将各子节点进行优先权划分,各子节点的频率次数越高,优先权越大;
所述处理分析方法还包括优先域,所述命名节点从用户端获取调用信息并对命名节点的优先权划分信息生成后,所述命名节点对各所述子节点进行重新命名;所述优先域部分子节点划分到所述优先块内,同时,所述优先域将信息发送给所述命名节点,所述命名节点将所述优先域中的节点信息命名为优先节点;所述扫描模块优先扫描所述优先域中的所述优先节点。
进一步地,当所述子节点认定为二类或三类优先权时,所述优先域将所述子节点划分到所述优先块内,同时,所述优先域将信息发送到所述命名节点,所述命名节点将所述优先域外的节点信息命名为优先节点;所述扫描模块优先扫描所述优先域外的优先节点。
进一步地,优先权包括一类优先权、二类优先权和三类优先权,优先权的判定方式包括:在预定时间内全部子节点的调用频率为P,当子节点在预定时间内的被调用次数超过P/2,所述子节点认定具有一类优先权,当子节点在预定时间内的被调用次数超过P/4,所述子节点认定具有二类优先权,其它子节点认定具有三类优先权。
进一步地,当所述子节点在预定时间内的调用频率大于任意四个其它所述子节点被调用的频率之和时,所述字节点认定为具有一类优先权,当所述子节点在预定时间内的调用频率大于任意两个其它所述子节点被调用的频率,所述字节点认定为具有二类优先权。
进一步地,所述命名节点在收到附加命令后将生成的优先权判定类型信息发送到所述扫描模块,所述扫描模块接收到优先权判定类型后开始对各扫描节点进行扫描工作;所述扫描模块在初次接收到优先权判定类型后依然开始逐个对各所述子节点进行扫描,以标记和分类认定为一类优先权、二类优先权和三类优先权的子节点;在所述扫描模块进行初次扫描后,所述命名节点生成优先块规则,优先块规则包括将所有一类优先权子节点标记的第一优先扫描块;将所有二类优先权子节点标记的第二优先扫描块和将所有三类优先权子节点标记的第三优先扫描块;所述扫描模块接下来的扫描程序中,依次对所述第一优先扫描块、所述第二优先扫描块和所述第三优先扫描块进行扫描,并扫寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充所述元数据。
进一步地,所述的命名节点用定位块数据结构响应Hadoop用户端,该定位块数据结构包括所有将数据块的副本附加到现有文件的数据节点标识符,Hadoop用户端通过将包括数据块的ID和数据的扩展块数据结构的一部分发送到所识别的数据节点,直接请求所识别的数据节点将数据块附加到现有文件。
进一步地,接收扩展块数据结构的数据节点使用所接收的扩展块数据结构中的数据块的ID来访问现有文件的相应块和所接收的扩展块数据结构中的数据,以将数据写入所访问的块。
进一步地,所述的文件放置优化模块用于调整能够存储在单个数据节点或单个服务器上的数据量。
进一步地,所述的块扫描模块扫描数据节点以寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充元数据,从而使元数据反映块的位置和副本的数量,所述的块扫描模块从单个数据节点返回连续的块文件的位置,以向Hadoop用户端提供该块文件被放置的错觉。
进一步地,所述的块扫描模块获得数据节点的名称和数据块的地址,创建数据块的块ID并将该块ID存储在元数据中,命名节点使用从块扫描模块接收的信息来更新块列表和每个块的每个副本的位置。
与现有技术相比,本发明具有如下优点:本发明所述的基于Hadoop的数据采集优先级判定及处理方法与现有技术相比,采用Hadoop分布式文件***来处理海量数据,通过Hadoop用户端向命名节点发送附加命令,该附加命令具有标识要附加的现有文件的名称和要追加的数据的参数。本发明使用附加来写入文件,克服了现有技术中Hadoop分布式文件***一旦写入信息就无法修改的问题。
进一步地,命名节点中储存调用频率检测信息,调用频率检测信息包括各调用子节点的频率次数,命名节点根据子节点中各子节点的频率次数依次将各子节点进行优先权划分,各子节点的频率次数越高,优先权越大,以提高各子节点的调用效率。
附图说明
图1为本发明所述的服务器的一种实施例整体结构示意图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。
参阅图1所示,本发明提供一种基于Hadoop的数据采集优先级判定及处理方法,该方法利用Hadoop分布式文件***来处理海量数据,Hadoop分布式文件***包括用户节点261、命名节点301、块扫描模块560和子节点(图1所示的实施例包括多个子节点,即第一子节点311、第二子节点312……第n子节点31n),用户节点261包括JAVA虚拟机401,JAVA虚拟机401包括Hadoop用户端221,该Hadoop用户端221分别与分布式文件子***402和数据输出流403交互;子节点包括数据节点(第一子节点311包括第一数据节点341、第二子节点312包括第二数据节点342……第n子节点31n包括第n数据节点34n);用户端221在调用个子节点时,命名节点301储存调用频率检测信息,调用频率检测信息包括各调用子节点的频率次数,命名节点根据子节点中各子节点的频率次数依次将各子节点进行优先权划分,各子节点的频率次数越高,优先权越大。
具体而言,优先块302用于调整能够存储在单个数据节点或单个服务器上的数据量,块扫描模块560扫描数据节点341-34n以寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充元数据530,从而使元数据反映块的位置和副本的数量;块扫描模块560获得数据节点的名称和数据块的地址,创建数据块的块ID并将该块ID存储在元数据530中。块扫描模块560从单个数据节点返回连续的块文件的位置,以向Hadoop用户端221提供该块文件被放置的错觉。命名节点301使用从块扫描模块560接收的信息来更新块列表和每个块的每个副本的位置。
具体而言,优先权包括一类优先权、二类优先权和三类优先权,优先权的设定用以缩短调用程序;在本发明的一些实施例中,优先权的判定方式包括:在预定时间内全部子节点的调用频率为P,若有子节点在预定时间内的被调用次数超过P/2,则该子节点被认定具有一类优先权,若有子节点在预定时间内的被调用次数超过P/4,则该子节点被认定具有二类优先权,其它剩余子节点被认定具有三类优先权。
在本发明的另一些实施例中,若存在一个或多个子节点,且这些子节点在预定时间内被调用的频率大于任意四个其它子节点被调用的频率之和,则这些字节点被认定为具有一类优先权,若这些子节点在预定时间内被调用的频率大于任意两个其它子节点被调用的频率,则这些字节点被认定为具有二类优先权。
具体而言,命名节点可接受用户端发送的附加命令发出的附加命令,该附加命令用于确定P的设置或者选用优先权判定类型。
具体而言,命名节点在收到附加命令后将生成的优先权判定类型信息发送到扫描模块560,扫描模块560接收到优先权判定类型后开始对各扫描节点进行扫描工作。
在本发明的一些实施例中,扫描模块560在初次接收到优先权判定类型后依然开始逐个对各子节点进行扫描,以标记和分类认定为一类优先权、二类优先权和三类优先权的子节点;同时,扫描模块560寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充元数据530,从而使元数据反映块的位置和副本的数量;在扫描模块560进行初次扫描后,生成优先块规则,优先块规则包括将所有一类优先权子节点标记的第一优先扫描块;将所有二类优先权子节点标记的第二优先扫描块和将所有三类优先权子节点标记的第三优先扫描块;扫描模块560在除第一次以后的扫描程序中,依次对第一优先扫描块、第二优先扫描块和第三优先扫描块进行扫描,并扫寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充元数据530。
在本发明的另一些实施例中,还包括优先域302,命名节点301从用户端获取调用信息并对命名节点的优先权划分信息生成后,命名节点301对各子节点进行重新命名;例如,第一子节点311、第二子节点312认定为一类优先权,优先域302将第一子节点311和第二子节点312划分到该优先块内,同时,优先域302将信息发送给命名节点301,命名节点301将优先域302中的节点信息命名为优先节点311和优先节点312;扫描模块560优先扫描优先域302中的优先节点,在扫描完优先节点后,扫描模块560继续对剩余子节点进行扫描;再例如:第一子节点311、第二子节点312认定为二类或三类优先权,优先域302将第一子节点311和第二子节点312划分到该优先块内,同时,优先域302将信息发送给命名节点301,命名节点301将优先域302中的外节点信息命名为优先节点;扫描模块560优先扫描优先节点,在扫描完优先节点后,扫描模块560继续对剩余子节点进行扫描。
具体而言,用户端221向命名节点301发送具有参数的打开命令,该参数标识要读取的文件的名称;命名节点301使用定位块数据结构响应Hadoop用户端,该定位块数据结构包括存储的文件的所有命名节点的标识符和文件中所有块的块ID;Hadoop用户端通过为每个请求的块发送包含所请求块的块ID,从所识别的数据节点直接请求文件的块;接收请求的数据节点使用所请求块的块ID来访问它正在存储的相应块之一,并用所访问块的数据响应Hadoop用户端;Hadoop用户端向命名节点指示想要将数据块附加到现有文件;命名节点接收Hadoop用户端发送的附加命令,该附加命令具有标识要附加的现有文件的名称和要追加的数据的参数。
具体而言,所述的命名节点301用定位块数据结构响应Hadoop用户端221,该定位块数据结构包括所有将数据块的副本附加到现有文件的数据节点标识符,Hadoop用户端221通过将包括数据块的ID和数据的扩展块数据结构的一部分发送到所识别的数据节点,直接请求所识别的数据节点将数据块附加到现有文件。
具体而言,接收扩展块数据结构的数据节点使用所接收的扩展块数据结构中的数据块的ID来访问现有文件的相应块和所接收的扩展块数据结构中的数据,以将数据写入所访问的块。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (10)

1.一种基于Hadoop的数据采集优先级判定及处理方法,其特征在于,该方法利用Hadoop分布式文件***来处理海量数据,所述的Hadoop分布式文件***包括用户节点、命名节点、扫描模块和子节点,所述的用户节点包括JAVA虚拟机,所述的JAVA虚拟机包括Hadoop用户端,该Hadoop用户端分别与分布式文件子***和数据输出流交互;所述命名节点储存调用频率检测信息,调用频率检测信息包括各调用子节点的频率次数,所述命名节点根据所述子节点的频率次数依次将所述子节点进行优先权划分,所述子节点的频率次数越高,优先权越大;
所述处理分析方法还包括优先域,所述命名节点从用户端获取调用信息并对命名节点的优先权划分信息生成后,所述命名节点对各所述子节点进行重新命名;所述优先域部分子节点划分到所述优先块内,同时,所述优先域将信息发送给所述命名节点,所述命名节点将所述优先域中的节点信息命名为优先节点;所述扫描模块优先扫描所述优先域中的所述优先节点。
2.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,当所述子节点认定为二类或三类优先权时,所述优先域将所述子节点划分到所述优先块内,同时,所述优先域将信息发送到所述命名节点,所述命名节点将所述优先域外的节点信息命名为优先节点;所述扫描模块优先扫描所述优先域外的优先节点。
3.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,优先权包括一类优先权、二类优先权和三类优先权,优先权的判定方式包括:在预定时间内全部子节点的调用频率为P,当子节点在预定时间内的被调用次数超过P/2,所述子节点认定具有一类优先权,当子节点在预定时间内的被调用次数超过P/4,所述子节点认定具有二类优先权,其它子节点认定具有三类优先权。
4.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,当所述子节点在预定时间内的调用频率大于任意四个其它所述子节点被调用的频率之和时,所述字节点认定为具有一类优先权,当所述子节点在预定时间内的调用频率大于任意两个其它所述子节点被调用的频率,所述字节点认定为具有二类优先权。
5.根据权利要求3或4任一项所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,所述命名节点在收到附加命令后将生成的优先权判定类型信息发送到所述扫描模块,所述扫描模块接收到优先权判定类型后开始对各扫描节点进行扫描工作;所述扫描模块在初次接收到优先权判定类型后依然开始逐个对各所述子节点进行扫描,以标记和分类认定为一类优先权、二类优先权和三类优先权的子节点;在所述扫描模块进行初次扫描后,所述命名节点生成优先块规则,优先块规则包括将所有一类优先权子节点标记的第一优先扫描块;将所有二类优先权子节点标记的第二优先扫描块和将所有三类优先权子节点标记的第三优先扫描块;所述扫描模块接下来的扫描程序中,依次对所述第一优先扫描块、所述第二优先扫描块和所述第三优先扫描块进行扫描,并扫寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充所述元数据。
6.根据权利要求1所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,所述的命名节点用定位块数据结构响应Hadoop用户端,该定位块数据结构包括所有将数据块的副本附加到现有文件的数据节点标识符,Hadoop用户端通过将包括数据块的ID和数据的扩展块数据结构的一部分发送到所识别的数据节点,直接请求所识别的数据节点将数据块附加到现有文件。
7.根据权利要求6所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,接收扩展块数据结构的数据节点使用所接收的扩展块数据结构中的数据块的ID来访问现有文件的相应块和所接收的扩展块数据结构中的数据,以将数据写入所访问的块。
8.根据权利要求7所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,所述的文件放置优化模块用于调整能够存储在单个数据节点或单个服务器上的数据量。
9.根据权利要求7所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,所述的块扫描模块扫描数据节点以寻找需要的文件,获得文件块的块位置,然后根据扫描内容填充元数据,从而使元数据反映块的位置和副本的数量,所述的块扫描模块从单个数据节点返回连续的块文件的位置,以向Hadoop用户端提供该块文件被放置的错觉。
10.根据权利要求7所述的基于Hadoop的数据采集优先级判定及处理方法,其特征在于,所述的块扫描模块获得数据节点的名称和数据块的地址,创建数据块的块ID并将该块ID存储在元数据中,命名节点使用从块扫描模块接收的信息来更新块列表和每个块的每个副本的位置。
CN201911253880.2A 2019-12-09 2019-12-09 基于Hadoop的数据处理方法 Active CN111078635B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911253880.2A CN111078635B (zh) 2019-12-09 2019-12-09 基于Hadoop的数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911253880.2A CN111078635B (zh) 2019-12-09 2019-12-09 基于Hadoop的数据处理方法

Publications (2)

Publication Number Publication Date
CN111078635A true CN111078635A (zh) 2020-04-28
CN111078635B CN111078635B (zh) 2021-03-19

Family

ID=70313469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911253880.2A Active CN111078635B (zh) 2019-12-09 2019-12-09 基于Hadoop的数据处理方法

Country Status (1)

Country Link
CN (1) CN111078635B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021223A (zh) * 2014-06-25 2014-09-03 国家电网公司 一种集群数据库测点的访问方法及装置
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件***存储策略
US20170154039A1 (en) * 2015-11-30 2017-06-01 International Business Machines Corporation Enabling a hadoop file system with posix compliance
CN109299057A (zh) * 2018-10-09 2019-02-01 北京快友世纪科技股份有限公司 Hadoop多管道数据处理分析方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104021223A (zh) * 2014-06-25 2014-09-03 国家电网公司 一种集群数据库测点的访问方法及装置
CN104573119A (zh) * 2015-02-05 2015-04-29 重庆大学 云计算中面向节能的Hadoop分布式文件***存储策略
US20170154039A1 (en) * 2015-11-30 2017-06-01 International Business Machines Corporation Enabling a hadoop file system with posix compliance
CN109299057A (zh) * 2018-10-09 2019-02-01 北京快友世纪科技股份有限公司 Hadoop多管道数据处理分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐玮峰等: "Hadoop的负载均衡调度算法研究", 《软件导刊》 *

Also Published As

Publication number Publication date
CN111078635B (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
AU2022200375B2 (en) Temporal optimization of data operations using distributed search and server management
CN109800207B (zh) 日志解析方法、装置、设备及计算机可读存储介质
US8510751B2 (en) Optimizing workflow engines
US9378053B2 (en) Generating map task output with version information during map task execution and executing reduce tasks using the output including version information
CN109964216A (zh) 识别未知数据对象
CN111597148B (zh) 用于分布式文件***的分布式元数据管理方法
US20180285470A1 (en) A Mobile Web Cache Optimization Method Based on HTML5 Application Caching
US10909086B2 (en) File lookup in a distributed file system
US10169348B2 (en) Using a file path to determine file locality for applications
CN104765840A (zh) 一种大数据分布式存储的方法和装置
US11755556B2 (en) Method, device, and computer program product for managing storage system
CN111814024B (zh) 分布式数据采集方法、***及存储介质
CN106909595B (zh) 一种数据迁移方法及装置
CN104794190A (zh) 一种大数据有效存储的方法和装置
US8015195B2 (en) Modifying entry names in directory server
US10812322B2 (en) Systems and methods for real time streaming
US11741144B2 (en) Direct storage loading for adding data to a database
US10262024B1 (en) Providing consistent access to data objects transcending storage limitations in a non-relational data store
US11055262B1 (en) Extensible streams on data sources
US20120143866A1 (en) Client Performance Optimization by Delay-Loading Application Files with Cache
CN108268468A (zh) 一种大数据的分析方法及***
CN116069811A (zh) 使用用户定义的函数扩展数据库外部函数
CN111125248A (zh) 一种大数据存储解析查询***
US10606805B2 (en) Object-level image query and retrieval
US11030177B1 (en) Selectively scanning portions of a multidimensional index for processing queries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210207

Address after: 2601, 26th floor, Baozheng building, 637 Jinchang Road, Tianjin pilot free trade zone (CBD), Binhai New Area, Tianjin

Applicant after: Tianjin kuaiyou Century Technology Co., Ltd

Address before: 100025 room 324502, unit 2, building 5, yard 1, Futong East Street, Chaoyang District, Beijing

Applicant before: BEIJING ADVIEW TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant