CN101291245B - 一种分布式处理方法、***及其装置 - Google Patents

一种分布式处理方法、***及其装置 Download PDF

Info

Publication number
CN101291245B
CN101291245B CN2007100901493A CN200710090149A CN101291245B CN 101291245 B CN101291245 B CN 101291245B CN 2007100901493 A CN2007100901493 A CN 2007100901493A CN 200710090149 A CN200710090149 A CN 200710090149A CN 101291245 B CN101291245 B CN 101291245B
Authority
CN
China
Prior art keywords
distributed
node
server
application file
distributed node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100901493A
Other languages
English (en)
Other versions
CN101291245A (zh
Inventor
李江华
吴伟勋
陈松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2007100901493A priority Critical patent/CN101291245B/zh
Publication of CN101291245A publication Critical patent/CN101291245A/zh
Priority to HK08114079.7A priority patent/HK1120965A1/xx
Application granted granted Critical
Publication of CN101291245B publication Critical patent/CN101291245B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computer And Data Communications (AREA)
  • Multi Processors (AREA)

Abstract

本发明公开了一种分布式数据处理方法,包括以下步骤:在分布式服务器上部署分布式应用文件;分布式服务器将所述分布式应用文件下发给各个分布式节点;所述分布式节点执行所述分布式应用文件,并将所述分布式应用文件分配给所述分布式节点处理的数据取回后计算,并将计算结果返回给分布式服务器,分布式服务器将返回结果合并成最终结果。通过本发明实施例,用户只需要编写分布式应用的代码,而不需要考虑分布式应用的细节,因此用户编写分布式应用的效率大大提高。在用户编写完分布式应用后,只需要在分布式服务器上就可完成部署和发布。

Description

一种分布式处理方法、***及其装置
技术领域
本发明涉及数据处理领域,特别是涉及一种分布式数据的处理和实现。
背景技术
随着互联网的高速发展,大量涉及海量数据分析,计算,统计的需求需要人们去解决,例如WEB访问日志的分析,特别是一些大型网站的每天的日志量已经达到T级别,这些海量数据的处理任务是不可能依靠一台机器来完成的。并且当***处理能力不够需要升级的时候,也不能有效的实现平滑过渡,而要撤换整台机器,造成资源浪费。因此人们提出了分布式计算的概念,通过多台相对低性能的机器来分布式分析,计算和统计的话,可以大量的节约成本和计算的时间。
现有技术对于分布式处理采用不同的分布式节点处理不同的业务类型的方法,借此实现分布式数据的处理。例如对于日志分析,根据业务配置情况分配不同的分布式节点来处理,例如某网站有以下几个业务类型,拍卖,论坛,新闻。在日志分析的时候,就将上述三项业务类型产生的日志分别指定三个分布式节点来处理,各个分布式节点只处理一项业务类型,例如对于分布式节点智能处理拍卖产生的日志,而对于论坛和新闻产生的日志则其无权处理。
现有技术的缺点是:一、原本有逻辑的访问日志被人为的切分开了,例如某用户先访问论坛,再浏览新闻,这样的情况就不能在结果中体现。二、分布式节点完全和业务类型相关,切分不灵活,如果新增加一分布式节点,则必须根据业务类型对该分布式节点进行配置,不能有效的利用,并且各个业务类型的访问量可能有很大差别。三、配置复杂,每台机器的日志分析程序都要进行配置。四、原来的分布式处理只是针对网站日志处理的,不能推广到其他应用上面。
发明内容
本发明要解决的问题是提供一种分布式处理方法、***及其装置以提高编写分布式应用的效率。
为达到上述目的,本发明实施例的技术方案提出一种分布式数据处理方法,包括以下步骤在分布式服务器上部署分布式应用文件;分布式服务器将所述分布式应用文件下发给各个分布式节点;所述分布式节点执行所述分布式应用文件并将所述分布式应用文件分配给所述分布式节点处理的数据取回。其中,在所述分布式节点将文件取回之后,还包括以下步骤:所述分布式节点将处理结果返回给所述分布式服务器。
其中,在所述分布式节点将处理结果返回给所述分布式服务器之后,还包括以下步骤:所述分布式服务器将各个分布式节点返回的处理结果合并。
其中,在所述分布式节点将处理结果返回给所述分布式服务器之后,还包括以下步骤:判断分配到所述分布式应用文件的分布式节点是否全部完成了处理任务;如果全部完成则所述分布式服务器将各个分布式节点返回的处理结果合并。
其中,所述分布式节点将所述分布式应用文件分配给所述分布式节点处理的数据取回,具体包括以下步骤:如果所述分布式应用文件分配给所述分布式节点处理的数据在共享资源上,则所述分布式节点向所述分布式服务器申请资源;所述分布式服务器将所述共享资源锁定,只能由所述申请的分布式节点使用;所述分布式节点在将所述文件取回后通知所述分布式服务器释放所述共享资源。
其中,在所述分布式节点将文件从所述共享资源取回前,还包括以下步骤:所述分布式服务器根据所述配置信息设置全局文件;在所述分布式节点将文件从所述共享资源取回之后,还包括,所述分布式节点将从所述共享资源取回的文件作为本地文件向所述分布式服务器上的所述全局文件注册;所述分布式节点向所述分布式服务器发送请求获取所述全局文件;根据所述全局文件将所述全局文件包含的所有文件取回。
其中,在所述分布式节点将处理结果返回给所述分布式服务器之前,还包括以下步骤:所述分布式服务器建立与所述分布式应用文件对应的数据库表。
其中,在所述分布式节点将处理结果返回给所述分布式服务器之后,还包括以下步骤:所述各个分布式节点完成分布式计算任务后自动将计算结果信息***所述数据库表;所述分布式服务器将所述数据库表中的数据合并。
为达到上述目的,本发明实施例的技术方案还提出一种分布式数据处理***,包括至少一个分布式节点和至少一个分布式服务器,所述分布式服务器用于接受用户的分布式应用文件并对与所述分布式服务器连接的所述分布式节点进行管理,所述分布式节点用于接收并执行所述分布式服务器下发的分布式应用文件,并将所述分布式应用文件分配给所述分布式节点处理的数据取回。其中,所述分布式服务器包括任务分配执行模块,用于将分布式应用文件下发给各个分布式节点。
其中,所述分布式节点包括文件处理模块,用于执行所述分布式应用文件,并将所述分布式应用文件分配给所述分布式节点处理的数据取回。
其中,所述任务分配执行模块还包括线程组管理子模块,用于管理所述各个分布式节点的执行情况,判断分配到所述分布式应用文件的分布式节点是否全部完成了处理任务。
其中,所述任务分配执行模块还包括多线程管理子模块,用于当所述分布式***同时处理多个所述分布式应用文件时,针对所述不同的分布式应用文件管理所述各个分布式节点的执行情况,判断分配到同一分布式应用文件的分布式节点是否全部完成了处理任务。
其中,所述分布式服务器还包括资源锁管理模块,用于管理共享资源,当所述分布式节点向所述分布式服务器申请资源时,将所述共享资源锁定只能由所述申请的分布式节点使用;并在所述分布式节点将所述文件取回后释放所述共享资源。
其中,所述分布式服务器还包括分布式文件处理模块,用于根据所述分布式应用文件生成全局文件,所述全局文件由所述各个分布式节点上的本地文件构成,所述分布式节点将所述分布式节点上的本地文件向所述分布式服务器上的全局文件注册,并通过所述全局文件读写所述全局文件包含的所有文件。
其中,所述分布式服务器还包括数据合并模块,用于建立与所述分布式应用文件对应的数据库表,并在所述各个分布式节点自动将计算结果信息***所述数据库表后将所述数据库表中的数据合并。
本发明实施例的技术方案还提出一种分布式服务器,包括任务分配执行模块,用于将分布式应用文件下发给各个分布式节点。
其中,所述任务分配执行模块还包括线程组管理子模块,用于管理所述各个分布式节点的执行情况,判断分配到所述分布式应用文件的分布式节点是否全部完成了处理任务。
其中,所述任务分配执行模块还包括多线程管理子模块,用于当所述分布式***同时处理多个所述分布式应用文件时,针对所述不同的分布式应用文件管理所述各个分布式节点的执行情况,判断分配到同一分布式应用文件的分布式节点是否全部完成了处理任务。
其中,分布式服务器还包括资源锁管理模块,用于管理共享资源,当所述分布式节点向所述分布式服务器申请资源时,将所述共享资源锁定只能由所述申请的分布式节点使用;并在所述分布式节点将所述文件取回后释放所述共享资源。
其中,分布式服务器还包括分布式文件处理模块,用于根据所述分布式应用文件生成全局文件,所述全局文件由所述各个分布式节点上的本地文件构成,所述分布式节点将所述分布式节点上的本地文件向所述分布式服务器上的全局文件注册,并通过所述全局文件读写所述全局文件包含的所有文件。
其中,分布式服务器还包括数据合并模块,用于建立与所述分布式应用文件对应的数据库表,并在所述各个分布式节点自动将计算结果信息***所述数据库表后将所述数据库表中的数据合并。
本发明实施例的技术方案还提出一种分布式节点,包括文件处理模块,用于执行所述分布式应用文件,并将所述分布式应用文件分配给所述分布式节点处理的数据取回。
通过本发明实施例,用户只需要编写分布式应用的代码,而不需要考虑分布式应用的细节,因此用户编写分布式应用的效率大大提高。在用户编写完分布式应用后,只需要在分布式服务器上就可完成部署和发布。
附图说明
图1为本发明实施例分布式数据处理***结构图;
图2为本发明实施例分布式数据处理方法流程图;
图3为本发明实施例另一种分布式数据处理方法流程图;
图4为本发明实施例的另一种分布式数据处理方法流程图;
图5为本发明实施例的在分布式服务器上设置全局文件的分布式数据处理方法流程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述:
如图1所示,为本发明实施例分布式数据处理***结构图。
该分布式数据处理***包括至少一个分布式服务器1和至少一个分布式节点2,其中,分布式服务器1用于接受用户部署的分布式应用文件并对与分布式服务器1连接的分布式节点2进行管理,该分布式应用文件包括流程控制部分和逻辑计算部分,流程控制部分用于对分布式计算的流程进行控制,例如开始分布式任务、执行逻辑计算部分中的一个或多个逻辑计算任务、结束该分布式计算任务并根据分布式应用文件合并结果。分布式节点2用于接收分布式服务器1下发的分布式应用文件并执行该分布式应用文件,将该分布式应用文件分配给分布式节点2处理的数据取回,并将处理结果返回给分布式服务器1;分布式服务器1在判断该分布式应用文件所分配的所有分布式节点2均完成处理任务后,执行数据合并操作,得到最终的处理结果,并释放资源清除任务。
其中,分布式服务器1包括任务分配执行模块13、资源锁管理模块11、分布式文件处理模块12和数据合并模块14。任务分配执行模块13用于将用户部署的分布式应用文件下发给各个分布式节点,并对各个分布式节点进行管理;资源锁管理模块11用于管理共享资源,当分布式节点2向分布式服务器1申请资源时,将共享资源锁定只能由申请的分布式节点2使用,并在分布式节点2将文件取回后释放该共享资源;分布式文件处理模块12,用于根据用户部署的分布式应用文件生成全局文件,该全局文件由各个分布式节点2上的本地文件构成,分布式节点2将分布式节点2上的本地文件向分布式服务器1上的全局文件注册,可以通过全局文件读写该全局文件包含的所有文件;数据合并模块14,用于建立与用户部署的分布式应用文件对应的数据库表,并在各个分布式节点2自动将计算结果信息***该数据库表后将该数据库表中的数据合并。
其中,分布式节点2包括文件处理模块,用于执行分布式服务器1下发的分布式应用文件,并将该分布式应用文件分配给分布式节点处理的数据取回。
其中,分布式服务器1中的任务分配执行模块13包括命令解析子模块131、网络传输子模块132、线程组管理子模块133和多线程管理子模块134。命令解析子模块131用于将向分布式节点2发送的分布式应用文件进行打包,生成可以在网络上传输的数据,交由网络传输子模块132通过TCP/IP协议发送给分布式节点2,还可通过自定义的传输应用层协议,该协议包括:字头+长度+地址+保留字+序列号+命令字+数据,其中数据采用了Base64的编码;线程组管理子模块133用于管理所述各个分布式节点的执行情况,判断分配到所述分布式应用文件的分布式节点是否全部完成了处理任务;多线程管理子模块134用于当所述分布式***同时处理多个所述分布式应用文件时,针对不同的分布式应用文件管理所述各个分布式节点的执行情况,判断分配到同一分布式应用文件的分布式节点是否全部完成了处理任务。
其中,分布式服务器1还包括分布式应用文件模块15和日志管理模块16,分布式应用文件模块15用于对分布式应用文件的读写,分布式服务器1中的其它模块通过分布式应用文件模块15来得到本***的配置信息,例如端口号;日志管理模块16用于记录本***运行的日志信息,并根据记录的日志信息分析平台的运行情况。
如图2所示,为本发明实施例分布式数据处理方法流程图,包括以下步骤:
步骤201,在分布式服务器上部署分布式应用文件。该分布式应用文件包括流程控制部分和逻辑计算部分,流程控制部分用于对分布式计算的流程进行控制,例如开始分布式任务、执行逻辑计算部分中的一个或多个逻辑计算任务、结束该分布式计算任务并根据分布式应用文件合并结果。通过分布式应用文件的流程控制部分在分布式服务器上创建一个任务,并给该任务分配任务号、网络连接等资源,以便该分布式服务器可以同时处理多个任务,而保证这些任务之间不会相互冲突。分布式服务器初始化该任务的信息,包括初始化该任务的工作目录,将部署的分布式应用文件存入该工作目录中。
步骤202,分布式服务器将分布式应用文件下发给各个分布式节点。
分布式服务器将该工作目录中的分布式应用文件打包发送给分布式节点,分布式节点根据收到的分布式应用文件在该分布式节点上重建针对该任务的工作目录。其中分布式节点接收到的分布式应用文件也包括流程控制部分和逻辑计算部分,这样分布式节点就知道了自己分配的任务以及需要进行的逻辑计算,因此该分布式节点就可以根据分布式应用文件进行分布式计算。分布式服务器还将该***内的分布式服务器及各个分布式节点的信息发送给本***的各个分布式节点,包括分布式节点的数量、编号等,分布式节点将这些信息设置为环境变量。
步骤203,分布式节点执行分布式服务器下发的分布式应用文件,如果分配给分布式节点处理的数据不在该分布式节点上,则该分布式节点需要从其它分布式节点或***的共享资源中将该文件取回,其中该共享资源包括数据库等。分布式节点执行分布式应用文件后根据该分布式应用文件分配的任务将文件取回。
步骤204,分布式节点将执行后的结果返回给分布式服务器。分布式服务器在判断所有分配到分布式应用文件的分布式节点全部完成了处理任务后。自动将各个分布式节点返回的执行结果合并,并释放资源,清除在分布式服务器上创建的任务。
如图3所示,为本发明实施例另一种分布式数据处理方法流程图,为了实现任务之间的同步和互斥,分布式服务器对本***的共享资源进行管理,包括以下步骤:
步骤301,在分布式服务器上部署分布式应用文件。该分布式应用文件包括流程控制部分和逻辑计算部分,流程控制部分用于对分布式计算的流程进行控制,例如开始分布式任务、执行逻辑计算部分中的一个或多个逻辑计算任务、结束该分布式计算任务并根据分布式应用文件合并结果。通过分布式应用文件的流程控制部分在分布式服务器上创建一个任务,并给该任务分配任务号、网络连接等资源,以便该分布式服务器可以同时处理多个任务,而保证这些任务之间不会相互冲突。分布式服务器初始化该任务的信息,包括初始化该任务的工作目录,将部署的分布式应用文件存入该工作目录中。
步骤302,分布式服务器将分布式应用文件下发给各个分布式节点。
分布式服务器将该工作目录中的分布式应用文件打包发送给分布式节点,分布式节点根据收到的分布式应用文件在该分布式节点上重建针对该任务的工作目录。其中分布式节点接收到的分布式应用文件也包括流程控制部分和逻辑计算部分,这样分布式节点就知道了自己分配的任务以及需要进行的逻辑计算,因此该分布式节点就可以自己根据分布式应用文件进行分布式计算。分布式服务器还将该***内的分布式服务器及各个分布式节点的信息发送给本***的各个分布式节点,包括分布式节点的数量、编号等,分布式节点将这些信息设置为环境变量。
步骤303,分布式节点执行分布式应用文件,并将分布式应用文件分配给分布式节点处理的数据从共享资源中取回。
分布式节点执行收到的分布式应用文件并根据该分布式应用文件分配的需要将由本分布式节点处理的数据从其它分布式节点或本***的共享资源中取回,其中,该共享资源包括数据库等;为了实现任务之间的同步和互斥,因此分布式服务器需要对本***的共享资源进行管理。如果该文件在本***的共享资源中,则分布式节点首先向分布式服务器申请资源,分布式服务器就会给该任务的该分布式节点分配一个资源锁,将共享资源锁定,例如将数据库锁定,不允许其它的分布式节点使用;当分布式节点使用完共享资源后通知分布式服务器释放该共享资源,允许其它的分布式节点使用。
步骤304,分布式节点将执行后的结果返回给分布式服务器。分布式服务器在判断所有分配到分布式应用文件的分布式节点全部完成了处理任务后。自动将各个分布式节点返回的执行结果合并,并释放资源,清除在分布式服务器上创建的任务。
如图4所示,为本发明实施例的另一种分布式数据处理方法流程图,该实施例将各个分布式节点处理后代局部结果根据配置信息合并成一个全局结果,包括以下步骤:
步骤401,在分布式服务器上部署分布式应用文件。该分布式应用文件包括流程控制部分和逻辑计算部分,流程控制部分用于对分布式计算的流程进行控制,例如开始分布式任务、执行逻辑计算部分中的一个或多个逻辑计算任务、结束该分布式计算任务并根据分布式应用文件合并结果。通过分布式应用文件的流程控制部分在分布式服务器上创建一个任务,并给该任务分配任务号、网络连接等资源,以便该分布式服务器可以同时处理多个任务,而保证这些任务之间不会相互冲突。分布式服务器初始化该任务的信息,包括初始化该任务的工作目录,将部署的分布式应用文件存入该工作目录中。
步骤402,分布式服务器将分布式应用文件下发给各个分布式节点。
分布式服务器将该工作目录中的分布式应用文件打包发送给分布式节点,分布式节点根据收到的分布式应用文件在该分布式节点上重建针对该任务的工作目录。其中分布式节点接收到的分布式应用文件也包括流程控制部分和逻辑计算部分,这样分布式节点就知道了自己分配的任务以及需要进行的逻辑计算,因此该分布式节点就可以自己根据分布式应用文件进行分布式计算。分布式服务器还将该***内的分布式服务器及各个分布式节点的信息发送给本***的各个分布式节点,包括分布式节点的数量、编号等,分布式节点将这些信息设置为环境变量。
步骤403,分布式节点执行收到的分布式应用文件,并将分布式应用文件分配给分布式节点处理的数据取回。分布式节点执行收到的分布式应用文件,并根据该分布式应用文件分配的需要由本分布式节点处理的数据从其它分布式节点或本***的共享资源中取回,其中,该共享资源包括数据库等;为了实现任务之间的同步和互斥,因此分布式服务器需要对本***的共享资源进行管理。如果该文件在本***的共享资源中,则分布式节点首先向分布式服务器申请资源,分布式服务器就会给该任务的该分布式节点分配一个资源锁,将共享资源锁定,例如将数据库锁定,不允许其它的分布式节点使用;当分布式节点使用完共享资源后通知分布式服务器释放该共享资源,允许其它的分布式节点使用。
步骤404,分布式服务器建立根据用户部署的分布式应用文件设置对应的数据库表。
步骤405,各个分布式节点在完成分布式计算任务后自动将计算结果信息***该数据库表中;分布式服务器在判断所有分配到分布式应用文件的分布式节点全部完成了处理任务后,自动将该数据库表中的数据合并,并释放资源,清除在分布式服务器上创建的任务。这样本***可以自动进行数据的合并,隐藏了分布式计算中的数据合并细节,减轻了用户的工作量。
如图5所示,为本发明实施例的在分布式服务器上设置全局文件的分布式数据处理方法流程图,在分布式服务器上设置全局文件,各个分布式节点自动将分布式节点上的本地文件向该全局文件注册,这样用户只需要知道一个全局文件,而不需要知道这个全局文件由哪些文件构成,又保存在哪些分布式节点上,降低了分布式计算的复杂度,减轻了用户的工作量。该实施例包括以下步骤:
步骤501,在分布式服务器上部署分布式应用文件。该分布式应用文件包括流程控制部分和逻辑计算部分,流程控制部分用于对分布式计算的流程进行控制,例如开始分布式任务、执行逻辑计算部分中的一个或多个逻辑计算任务、结束该分布式计算任务并根据分布式应用文件合并结果。通过分布式应用文件的流程控制部分在分布式服务器上创建一个任务,并给该任务分配任务号、网络连接等资源,以便该分布式服务器可以同时处理多个任务,而保证这些任务之间不会相互冲突。分布式服务器初始化该任务的信息,包括初始化该任务的工作目录,将部署的分布式应用文件存入该工作目录中。
步骤502,根据该分布式应用文件在分布式服务器上生成全局文件,该全局文件由分布在各个分布式节点上的本地文件构成。
步骤503,分布式服务器将分布式应用文件下发给各个分布式节点。
分布式服务器将该工作目录中的分布式应用文件打包发送给分布式节点,分布式节点根据收到的分布式应用文件在该分布式节点上重建针对该任务的工作目录。其中分布式节点接收到的分布式应用文件也包括流程控制部分和逻辑计算部分,以及在分布式服务器上生成的全局文件信息,这样分布式节点就知道了自己分配的任务以及需要进行的逻辑计算,因此该分布式节点就可以自己根据分布式应用文件进行分布式计算。分布式服务器还将该***内的分布式服务器及各个分布式节点的信息发送给本***的各个分布式节点,包括分布式节点的数量、编号等,分布式节点将这些信息设置为环境变量。
步骤504,分布式节点根据下发的全局文件的信息将分布式节点上的本地文件向全局文件注册,分布式节点也可将从共享资源取回的文件作为本地文件自动向分布式服务器上的全局文件注册。这样用户只需要知道一个全局文件,而不需要知道这个全局文件由哪些文件构成,又保存在哪些分布式节点上,降低了分布式计算的复杂度,减轻了用户的工作量。
步骤505,分布式节点执行收到的分布式应用文件,并将分布式应用文件分配给分布式节点处理的数据取回,其中分配给分布式节点处理的数据也包括分布式服务器上的全局文件,因此分布式节点也需要将该全局文件从分布式服务器上取回,并将该全局文件包括的其它文件从其它分布式节点或共享资源中取回,为了实现任务之间的同步和互斥,分布式服务器需要对本***的共享资源进行管理。如果该文件在本***的共享资源中,则分布式节点首先向分布式服务器申请资源,分布式服务器就会给该任务的该分布式节点分配一个资源锁,将共享资源锁定,例如将数据库锁定,不允许其它的分布式节点使用;当分布式节点使用完共享资源后通知分布式服务器释放该共享资源,允许其它的分布式节点使用。
步骤506,分布式节点将执行后的结果返回给分布式服务器。分布式服务器在判断所有分配到分布式应用文件的分布式节点全部完成了处理任务后。自动将各个分布式节点返回的执行结果合并,并释放资源,清除在分布式服务器上创建的任务。
通过本发明实施例,用户只需要编写分布式应用的代码,而不需要考虑分布式应用的细节,因此用户编写分布式应用的效率大大提高。在用户编写完分布式应用后,只需要在分布式服务器上就可完成部署和发布。特别是分布式节点与业务类型完全不相关,解决了原本有逻辑的访问日志被人为的切分开的问题,并且分布式节点可以随时增减而不影响整个***的运行。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (14)

1.一种分布式数据处理方法,其特征在于,包括以下步骤:
在分布式服务器上部署分布式应用文件;
分布式服务器将所述分布式应用文件下发给各个分布式节点;
所述分布式节点执行所述分布式应用文件,如果分配给所述分布式节点处理的数据不在所述分布式节点上,所述分布式节点从其他分布式节点或***的共享资源中将所述数据取回;
所述分布式节点将所述数据从所述其他分布式节点或共享资源取回前,还包括,所述分布式服务器根据配置信息设置全局文件;
在所述分布式节点将所述数据从所述共享资源取回之后,还包括,所述分布式节点将从所述共享资源取回的数据作为本地文件;将所述分布式节点上的本地文件向所述分布式服务器上的所述全局文件注册;
所述分布式节点向所述分布式服务器发送请求获取所述全局文件;
根据所述全局文件从所述其他分布式节点或共享资源将所述全局文件包含的文件取回。
2.如权利要求1所述分布式数据处理方法,其特征在于,在所述分布式节点将文件取回之后,还包括以下步骤:
所述分布式节点将处理结果返回给所述分布式服务器。
3.如权利要求2所述分布式数据处理方法,其特征在于,在所述分布式节点将处理结果返回给所述分布式服务器之后,还包括以下步骤:
所述分布式服务器将各个分布式节点返回的处理结果合并。
4.如权利要求2所述分布式数据处理方法,其特征在于,在所述分布式节点将处理结果返回给所述分布式服务器之后,还包括以下步骤:
判断分配到所述分布式应用文件的分布式节点是否全部完成了处理任务;
如果全部完成则所述分布式服务器将各个分布式节点返回的处理结果合并。
5.如权利要求1所述分布式数据处理方法,其特征在于,所述分布式节点将所述分布式应用文件分配给所述分布式节点处理的数据取回,具体包括以下步骤:
如果所述分布式应用文件分配给所述分布式节点处理的数据在共享资源上,则所述分布式节点向所述分布式服务器申请资源;
所述分布式服务器将所述共享资源锁定,只能由所述申请的分布式节点使用;
所述分布式节点在将所述数据取回后通知所述分布式服务器释放所述共享资源。
6.如权利要求2所述分布式数据处理方法,其特征在于,在所述分布式节点将处理结果返回给所述分布式服务器之前,还包括以下步骤:
所述分布式服务器建立与所述分布式应用文件对应的数据库表。
7.如权利要求6所述分布式数据处理方法,其特征在于,在所述分布式节点将处理结果返回给所述分布式服务器之后,还包括以下步骤:
所述各个分布式节点完成分布式计算任务后自动将计算结果信息***数据库表;
所述分布式服务器将所述数据库表中的数据合并。
8.一种分布式数据处理***,包括至少一个分布式节点和至少一个分布式服务器,其特征在于,所述分布式服务器用于接受用户的分布式应用文件并对与所述分布式服务器连接的所述分布式节点进行管理,所述分布式节点用于接收并执行所述分布式服务器下发的分布式应用文件,如果分配给所述分布式节点处理的数据不在所述分布式节点上,所述分布式节点从其他分布式节点或***的共享资源中将所述数据取回;
所述分布式服务器还包括分布式文件处理模块,用于根据所述分布式应用文件生成全局文件,所述全局文件由所述各个分布式节点上的本地文件构成,所述分布式节点将所述分布式节点上的本地文件向所述分布式服务器上的全局文件注册,并通过所述全局文件读写所述全局文件包含的文件。
9.如权利要求8所述分布式数据处理***,其特征在于,所述分布式服务器包括任务分配执行模块,用于将分布式应用文件下发给各个分布式节点。
10.如权利要求8所述分布式数据处理***,其特征在于,所述分布式节点包括文件处理模块,用于执行所述分布式应用文件,并将所述分布式应用文件分配给所述分布式节点处理的数据取回。
11.如权利要求9所述分布式数据处理***,其特征在于,所述任务分配执行模块还包括线程组管理模块,用于管理所述各个分布式节点的执行情况,判断分配到所述分布式应用文件的分布式节点是否全部完成了处理任务。
12.如权利要求11所述分布式数据处理***,其特征在于,所述任务分配执行模块还包括多线程管理子模块,用于当所述分布式数据处理***同时处理多个所述分布式应用文件时,针对不同的分布式应用文件管理所述各个分布式节点的执行情况,判断分配到同一分布式应用文件的分布式节点是否全部完成了处理任务。
13.如权利要求8所述分布式数据处理***,其特征在于,所述分布式服务器还包括资源锁管理模块,用于管理共享资源,当所述分布式节点向所述分布式服务器申请资源时,将所述共享资源锁定只能由所述申请的分布式节点使用;并在所述分布式节点将所述数据取回后释放所述共享资源。
14.如权利要求8所述分布式数据处理***,其特征在于,所述分布式服务器还包括数据合并模块,用于建立与所述分布式应用文件对应的数据库表,并在所述各个分布式节点自动将计算结果信息***所述数据库表后将所述数据库表中的数据合并。
CN2007100901493A 2007-04-16 2007-04-16 一种分布式处理方法、***及其装置 Active CN101291245B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007100901493A CN101291245B (zh) 2007-04-16 2007-04-16 一种分布式处理方法、***及其装置
HK08114079.7A HK1120965A1 (en) 2007-04-16 2008-12-30 Distributed processing method, system and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100901493A CN101291245B (zh) 2007-04-16 2007-04-16 一种分布式处理方法、***及其装置

Publications (2)

Publication Number Publication Date
CN101291245A CN101291245A (zh) 2008-10-22
CN101291245B true CN101291245B (zh) 2011-09-28

Family

ID=40035340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100901493A Active CN101291245B (zh) 2007-04-16 2007-04-16 一种分布式处理方法、***及其装置

Country Status (2)

Country Link
CN (1) CN101291245B (zh)
HK (1) HK1120965A1 (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101464884B (zh) * 2008-12-31 2011-09-28 阿里巴巴集团控股有限公司 一种分布式任务***及应用该***的数据处理方法
CN102117437A (zh) * 2009-12-31 2011-07-06 鸿富锦精密工业(深圳)有限公司 实现分布式电子签核的***及方法
CN102438030A (zh) * 2010-09-29 2012-05-02 新奥特(北京)视频技术有限公司 一种适用于广电云架构平台的打包***及方法
CN102298539A (zh) * 2011-06-07 2011-12-28 华东师范大学 一种用于分布式并行处理的共享资源调度方法及***
CN102523249A (zh) * 2011-11-24 2012-06-27 哈尔滨工业大学 基于Web的分布式远程仿真***及仿真方法
US9071631B2 (en) 2012-08-09 2015-06-30 International Business Machines Corporation Service management roles of processor nodes in distributed node service management
US9678801B2 (en) 2012-08-09 2017-06-13 International Business Machines Corporation Service management modes of operation in distributed node service management
CN102891811B (zh) * 2012-09-21 2015-06-17 杭州华三通信技术有限公司 名字服务数据库的锁定方法和交换机
CN105516441A (zh) * 2014-09-25 2016-04-20 联想(北京)有限公司 一种信息处理方法和装置
CN105897804B (zh) 2015-01-04 2019-03-19 伊姆西公司 用于控制资源在多个节点之间的共享的方法和装置
CN106484709A (zh) * 2015-08-26 2017-03-08 北京神州泰岳软件股份有限公司 一种日志数据的审计方法和审计装置
CN106713250B (zh) * 2015-11-18 2019-08-20 杭州华为数字技术有限公司 基于分布式***的数据访问方法和装置
CN106250566A (zh) * 2016-08-31 2016-12-21 天津南大通用数据技术股份有限公司 一种分布式数据库及其数据运算的管理方法
CN107870813A (zh) * 2016-09-22 2018-04-03 中兴通讯股份有限公司 一种分布式算法处理数据的方法及装置
CN108920542B (zh) * 2018-06-13 2021-07-20 苏州涅瓦信息科技有限公司 一种分布式内存大数据处理***及其数据处理方法
CN109582447B (zh) * 2018-10-15 2020-09-29 中盈优创资讯科技有限公司 计算资源分配方法、任务处理方法及装置
CN109379448B (zh) * 2018-12-27 2022-06-10 深圳市网心科技有限公司 一种文件分布式部署方法、装置、电子设备及存储介质
CN116932837A (zh) * 2023-09-13 2023-10-24 贵州大学 一种基于集群的脉冲星并行搜索优化方法及***

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494023A (zh) * 2002-10-31 2004-05-05 深圳市中兴通讯股份有限公司 一种分布式文件存取方法
CN1717686A (zh) * 2003-04-28 2006-01-04 国际商业机器公司 自动数据合并

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1494023A (zh) * 2002-10-31 2004-05-05 深圳市中兴通讯股份有限公司 一种分布式文件存取方法
CN1717686A (zh) * 2003-04-28 2006-01-04 国际商业机器公司 自动数据合并

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
沈斌等."一种基于海量GPS数据的分布式地图匹配***的设计与实现".《小型微型计算机***》.2007,第28卷(第3期),第479-481页.

Also Published As

Publication number Publication date
CN101291245A (zh) 2008-10-22
HK1120965A1 (en) 2009-04-09

Similar Documents

Publication Publication Date Title
CN101291245B (zh) 一种分布式处理方法、***及其装置
US20230400990A1 (en) System and method for performing live partitioning in a data store
US20210103604A1 (en) System and method for implementing a scalable data storage service
US10387402B2 (en) System and method for conditionally updating an item with attribute granularity
US8732517B1 (en) System and method for performing replica copying using a physical copy mechanism
CN105103506B (zh) 用于为云计算网络中的非均匀带宽请求分配带宽的方法和***
EP2108228B1 (en) Method, apparatus, and computer program for data upload in a computing system
CN103237046B (zh) 支持混合云存储应用的分布式文件***及实现方法
CN107066319A (zh) 一种面向异构资源的多维调度***
CN103473696A (zh) 一种收集、分析和分发网络商业信息的方法和***
CN107786355A (zh) 一种智慧城市信息共享的方法和装置
CN104754008A (zh) 网络存储节点、网络存储***以及用于网络存储节点的装置和方法
Ma et al. vLocality: Revisiting data locality for MapReduce in virtualized clouds
CN105007311A (zh) 一种基于云平台和云计算的资源管理***和方法
CN114840223A (zh) 资源处理方法及装置
Pujol et al. Scaling online social networks without pains
CN102026228A (zh) 通信网络性能数据的统计方法和设备
Chen et al. Energy-and locality-efficient multi-job scheduling based on MapReduce for heterogeneous datacenter
CN117390105B (zh) 一种工业服务开放平台的服务录入方法及***
Zhang et al. An optimal container update method for edge‐cloud collaboration
CN115866059A (zh) 一种区块链节点调度方法和装置
Yin et al. An optimal image storage strategy for container-based edge computing in smart factory
Grandi et al. CMS computing model evolution
CN109151074B (zh) 基于Redis的集中式缓存队列服务架构方法及网络结构
Bagnasco et al. AliEn-EDG interoperability in ALICE

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1120965

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1120965

Country of ref document: HK

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211108

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG TMALL TECHNOLOGY Co.,Ltd.

Address before: Cayman Islands Grand Cayman capital building, a four storey No. 847 mailbox

Patentee before: ALIBABA GROUP HOLDING Ltd.