CN105308579B - 系列数据并行分析基础设施及其并行分散处理方法 - Google Patents

系列数据并行分析基础设施及其并行分散处理方法 Download PDF

Info

Publication number
CN105308579B
CN105308579B CN201380077504.7A CN201380077504A CN105308579B CN 105308579 B CN105308579 B CN 105308579B CN 201380077504 A CN201380077504 A CN 201380077504A CN 105308579 B CN105308579 B CN 105308579B
Authority
CN
China
Prior art keywords
mentioned
data
series data
data group
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201380077504.7A
Other languages
English (en)
Other versions
CN105308579A (zh
Inventor
尾崎太亮
室启朗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN105308579A publication Critical patent/CN105308579A/zh
Application granted granted Critical
Publication of CN105308579B publication Critical patent/CN105308579B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/52Program synchronisation; Mutual exclusion, e.g. by means of semaphores
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5066Algorithms for mapping a plurality of inter-dependent sub-tasks onto a plurality of physical CPUs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • G06F17/142Fast Fourier transforms, e.g. using a Cooley-Tukey type algorithm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种具备并行处理基础设施、管理分散配置的系列数据的分散系列数据管理部的系列数据分散处理***,上述并行处理基础设施具备:按照每个计算设备,将系列数据中的一个顺序标签所对应的一个值通过多个顺序标签进行分组化而得的数据组;数据组处理服务器,其针对数据组进行处理;以及组处理集约服务器,其处理数据组处理服务器的结果,上述分散系列数据管理部具备用于管理数据组的分散信息管理数据库,在该分散信息管理数据库中保持管理数据,该管理数据由表示数据组的顺序标签的范围的顺序标签范围、与数据组的值名对应的系列ID以及用于确定配置了数据组的上述计算设备的元信息而构成。

Description

系列数据并行分析基础设施及其并行分散处理方法
技术领域
本发明涉及使用多个分散的计算机并行地处理大量系列数据的并行分散处理方法以及计算机***。
背景技术
近年来,通过分析和处理大量的数据,发现这之前不能得到的知识并进行活用的大数据处理受到关注。大数据内,例如装置等的传感器数据等是所谓被称为系列数据的数据方式。系列数据是指针对多个数据项目设定了各个值的多个数据按照预定的顺序标签的值而排列而得的数据集合。
这样存在分析大量数据的需求,但在已知的分散分析***中,需要对每个处理内容设计***,***结构的成本高。
对此,作为如专利文献1以及非专利文献1所示那样简单地安装分析处理的基础技术,公知有MapReduce框架。MapReduce框架是指通过从数据存储器提取希望数据的提取处理(映射(Map)处理)和将提取出的数据加工成容易使用的方式或统计信息等的集约处理(Reduce处理)这两个阶段来记述数据的分析处理的编程模型。这样,MapReduce框架的执行引擎能够决定分析应用的处理的分割单位,并控制并行处理。
不过,至此为止,MapReduce框架以描述针对原来Web的检索***等主要非结构/没有顺序的数据的处理为目的,没有预料到对于系列数据,MapReduce框架的处理能力的提高。例如,在大多基础设施中作为多个任务而同时实施提取处理,因此对处理的高速化有很大贡献,但是由于通过非顺序进行其结果输出,因此难以适用移动平均或傅立叶转换等一般用于系列数据的分析方法。
在通过MapReduce框架记述这些处理的情况下,通过集约处理来实施,但是在集约处理中增大处理的基础设施数量比较困难,不能够得到充分的高速化。
对此,知道一种方法,即例如非专利文献2所示那样通过在集约处理中使用流处理基础设施来进行高速化。但是,即使在使用了流处理基础设施的情况下,也会存在如下问题,即在提取处理中产生直到提取所有数据为止的等待时间,直接通过网络等将提取的数据发送给另外的服务器等通信的负荷变高等。进而,在结果的写入处理中,在系列数据的情况下,集约处理的结果不限于能够充分地削减数据量而是需要再配置大量的数据等,造成通信和处理的负荷增大,速度的下降。
现有技术文献
专利文献
专利文献1:美国专利申请公开第2008/0086442号说明书
非专利文献
非专利文献1:“MapReduce:Simplified Data Processing on Large Clusters”Jeffrey Dean,Sanjay Ghemawat,Google,Inc.OSDI’04:Sixth Symposium on OperatingSystem Design and Implementation,San Francisco,CA,December 6,2004.
非专利文献2:“SCOPE:parallel databases MapReduce”Jingren Zhou,NicolasBruno,Ming-Chuan Wu,Per-Ake Larson,Ronnie Chaiken,Darren Shakib,MicrosoftCorp.,The VLDB Journal
发明内容
发明要解决的课题
在没有使用MapReduce框架的分散分析***中,不能够灵活地记述数据处理。
另一方面,在活用了MapReduce框架的现有***结构中,不能得到与计算设备台数对应的处理提高(可扩展性)。另外,在活用了MapReduce框架的现有***结构中,在一次加工、2次加工原数据时,不能够高速地保存一次加工数据。
用于解决问题的手段
以下表示本申请中公开的发明的一个代表例。
即,针对系列数据进行并行分散处理的系列数据并行分析基础设施或分散处理***,该系列数据由顺序标签、以一对一或者一对多地与上述顺序标签对应的至少一个以上的值以及用于对上述值中的每一个进行区别的值名而构成,
系列数据并行分析基础设施或分散处理***具备:并行处理基础设施,其由一个以上的计算设备和用于上述计算设备进行数据交换的网络而构成,并行地进行数据处理;和分散系列数据管理部,其管理在上述计算设备中分散进行配置的上述系列数据,
上述并行处理基础设施具备:按照每个上述计算设备将至少一个以上的上述系列数据中与一个顺序标签对应的一个值通过多个顺序标签进行分组化而得的数据组;数据组处理服务器,其按照每个上述计算设备对至少一个以上的上述数据组进行处理;以及组处理集约服务器,其按照每个上述计算设备处理至少一个以上的上述数据组处理服务器的结果。
上述分散系列数据管理部具备:数据读入部,其用于将上述系列数据保持在上述系列数据并行分析基础设施中;数据选择部,其用于从上述系列数据并行分析基础设施取得上述系列数据;以及分散信息管理数据库,其用于管理上述数据组,在上述分散信息管理数据库中保持管理数据,该管理数据由指示上述数据组的上述顺序标签的范围的顺序标签范围、与上述数据组的上述值名对应的系列ID以及用于确定配置了上述数据组的上述计算设备的元信息而构成。
发明的效果
根据上述结构的系列数据并行分析基础设施或者分散处理***,能够记述对系列数据也灵活地分散处理。另外,针对系列数据也能够实现有可扩展性的数据存储器以及处理基础设施。进而,在加工保存在数据存储器中的原数据,并新生成数据的情况下,能够高速地保存新的数据。
附图说明
图1是表示了本发明第一实施方式的系列数据并行分析基础设施的概要的说明图。
图2是表示了本发明第一实施方式的系列数据的概要的说明图。
图3是表示了本发明第一实施方式的系列数据并行存储器的结构的说明图。
图4是表示了本发明第一实施方式的并行处理基础设施的结构的说明图。
图5是表示了本发明第一实施方式的系列数据并行分析基础设施的结构的框图。
图6是表示了本发明第一实施方式的系列数据并行分析处理的步骤的流程图。
图7是表示了本发明第一实施方式的系列数据并行存储器的数据选择的步骤的流程图。
图8是表示了本发明第一实施方式的系列数据并行存储器的数据登录步骤的流程图。
图9是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
图10是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
图11是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
图12是表示了本发明实施方式的系列数据并行存储器的数据登录的分散目的地决定的步骤的流程图。
图13是表示了本发明第一实施方式的系列数据并行存储器的Map处理中的数据登录的步骤的流程图。
图14是表示了本发明第一实施方式的实施效果的说明图。
图15是表示了本发明第二实施方式的框图。
图16是表示了本发明第二实施方式的系列数据并行分析处理的步骤的流程图。
图17是表示了本发明第二实施方式的系列数据并行存储器的数据选择的步骤的流程图。
具体实施方式
以下,参照附图说明本发明的实施方式。
(第一实施方式)
图1表示本发明的系列数据并行分析基础设施102的概要。系列数据并行分析基础设施102由输入、累积系列数据101的系列数据并行存储器103和使用系列数据并行存储器103的数据进行分散分析的并行分析基础设施104构成。用户106能够对并行分析基础设施104进行处理指示,将其结果输出为系列数据并行存储器103或分析结果数据105。用户106可以是人,也可以是其它的***或程序等。
通过这样的结构,能够逐次地累积系列数据101,还用户106能够在任意定时对于使用并行分析基础设施而累积的系列数据101进行分析。
图2表示系列数据的结构。系列数据由一个以上的数据组203构成,一个数据组203由表示顺序的顺序标签201和一个以上的值202构成。一般来说,顺序标签中使用数值和日期时间,不过其他也可以是能够定义顺序的例如a、b、c等记号。
图3表示一般的系列数据列存储器301的结构。系列数据列存储器301由读入系列数据101的数据读入部303和存储数据的数据库302以及取得数据的数据选择部构成。数据库302中通过顺序标签范围303和系列ID304和值组305的所谓列存储的形式存储系列数据101。是能够由用户106针对数据选择部赋予指示/操作,从而取得数据的结构。
由此,用户106能够针对希望的顺序标签范围303和系列ID304高速地取得该顺序标签和值的集合,进而能够通过对值组适用压缩技术来削减累积的系列数据101的容量。
图4表示一般的并行处理基础设施104的结构。并行处理基础设施104由监视/管理处理状况的作业/任务管理服务器401、管理数据的数据组管理服务器402、处理数据组203的数据组处理服务器403以及集约处理数据组处理服务器的结果的组处理集约服务器404构成。数据组处理服务器403以及组处理集约服务器404存在一个以上,可以将数据组处理服务器403以及组处理集约服务器404设置在同一个设备上。用户106能够针对作业/任务管理服务器401进行指示/操作,取得处理的结果。由此,能够灵活且以少的工时记述对于各种数据的分散分析处理。
图5表示本发明第一实施例的系列数据并行分析基础设施102的结构。由监视/管理处理状况的作业/任务管理服务器401、数据组509、处理数据组509的数据组处理服务器403、集约处理数据组处理服务器的结果的组处理集约服务器404以及分散数据管理部501构成。
分散数据管理部501由数据读入部502、数据选择部503、分散目的地决定部504、数据检索部505、数据输入输出部506以及分散信息管理数据库507构成。分散信息管理数据库507由顺序标签范围303和系列ID304以及元信息508构成。元信息508中存储实际保持数据组509的服务器信息,数据组509可以在多个服务器上重复地设置数据,这时在元信息508中存储多个数据保持服务器的信息。
本结构的特征在于,将结合了图3所示的系列数据列存储器301和图4所示的并行处理基础设施104而成的结构作为基本,不过关于数据组不保持在分散信息管理数据库507中,而是在与数据组处理服务器403相同或能够由数据组处理服务器403容易取得数据的设备中保持数据组509。数据组509能够使用将图3的值组305进行了文件化后的值组。
通过这样的结构,能够在多个服务器/设备等中保持系列数据101,能够容易地进行数据累积的保持容量的增大、基于增设设备类等的保持容量的扩大,并且即使在数据增大了的情况下也能够通过增大设备类来提高分析处理能力。
以下,使用图6~图11的流程图说明系列数据并行分析基础设施102的基本动作。
图6表示系列数据并行分析基础设施102的分散分析的执行方法。最初对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求包括记述了用于处理的顺序标签范围303和系列ID304以及处理内容的程序(步骤1)。接着,经由数据检索部505从分散信息管理数据库507取得表示处理执行请求中包括的与顺序标签范围303和系列ID304对应的数据组509的信息(步骤2)。
并行处理基础设施104在作业/任务管理服务器401中根据从分散管理数据库得到的数据组509的信息,选择同时进行提取处理的数据组,设为一个区(chunk)块。这时,希望数据组和进行提取处理的服务器是相同的设备,不过也可以是不同的设备。在是不同的设备的情况下,能够从该设备通过例如ssh、scp等单元取得数据组509的数据(步骤3)。作业/任务管理服务器401对于每个区块生成提取处理任务,对数据组处理服务器403指示提取处理任务(步骤4)。
数据组处理服务器403按照顺序标签的顺序,从区块取得数据,根据记述了在步骤1指定的处理内容的程序,进行提取处理。在提取处理中,处理结果的数据采用赋予了与数据组509的值所对应的顺序标签不同的顺序标签(以下称为键(key))的值(以下称为值(value))的形式。key可以和上述的数据组509的顺序标签相同,由键所指定的标号也可以重复(步骤5)。提取处理的结果被发送到组处理集约服务器404(步骤6)。
发送的数据在组处理集约服务器404中通过键进行排序(步骤7)。在组处理集约服务器404对每个具有相同键的值进行集约处理(步骤8)。最后输出集约处理的结果并结束分析处理。这时,作为输出目的地,可以是任意的文件(例如制表符分割文本或XML文件),也可以在分散系列数据管理部501中登录数据,也可以在存储器上对系列数据并行分析基础设施102以外的其他程序进行收发(步骤9)。
这样的话,通过适当地指定数据组的顺序标签范围303,在步骤5的提取处理中会保证数据的顺序,因此能够在提取处理中记述根据例如移动平均或傅立叶转换等的顺序进行的处理。
一般通过比提取处理要少的服务器数量、任务数量来执行集约处理,因此关于在抽出处理中根据顺序进行的处理成为记述可能的情况,能够实现处理高速化或能够削减步骤6的处理结果的发送量,也能够实现对系列数据101进行低负荷高速的分散分析。
图7表示系列数据并行分析基础设施102的数据选择的方法。
首先,对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求包括用于处理的顺序标签范围303和系列ID304(步骤11)。接着,经由数据检索部505从分散信息管理数据库507取得处理执行请求中包括的表示与顺序标签范围303和系列ID304对应的数据组509的信息(步骤12)。通过例如ssh、scp等通信单元经由数据输入输出部506和数据检索部505将数据组内的数据发送给分散系列数据选择部(步骤13)。在数据选择部中,为了成为用户106希望的形式,在将数据转换为文件(例如制表符分割文本或XML文件)或能够在存储器上对系列数据并行分析基础设施102以外的其他程序进行收发的形式的基础上,进行输出并结束(步骤14)。通过这样,能够不经由并行处理基础设施104而得到数据。
图8表示系列数据并行分析基础设施102的数据登录的方法。
首先,经由数据读入部502对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求中包括用于处理的系列数据101和用于登录的系列ID304(步骤21)。接着,在数据读入部中例如通过系列ID304和预先设定的顺序标签范围303分割通过二进制/制表符分割文本/XML等形式进行输入的系列数据101(步骤22)。
将在步骤22中分割的数据进行分组化。例如,通过适用压缩技术能够生成削减了数据的组(步骤23)。按照分散目的地决定部504所具备的分散目的地决定方法,决定在哪个服务器/设备中保持数据组509。这时,能够考虑可用性而选择多个服务器/设备(步骤24)。将在步骤24之前得到的顺序标签范围303和系列ID304以及包括分散目的地服务器/设备的信息的元信息登录到分散信息管理数据库507中(步骤25)。最后,经由数据输入输出部506将数据组509配置在服务器/设备中并结束(步骤26)。
通过这样的结构,用户106能够以可定制的形式登录能够决定分散目的地的数据。
图9表示分散目的地决定方法的一例。图9所示的方法是一般被称为循环制的决定方法。本方法具备保持了分散目的地服务器/设备的信息的列表、表示列表内一个分散目的地的分散目的地列表指针。
首先,将决定数设为0(步骤31)。对于每个数据组509,将分散目的地地列表指针所表示的服务器/设备指定为分散目的地(步骤32)。在通过步骤33判定出分散目的地指针不是列表上的最后分散目的地时,分散目的地列表指针在一个列表上移动(步骤34)。在通过步骤33由分散目的地列表指针在列表上指示最后的分散目的地的情况下,向列表的开头移动(步骤35)。接着,使决定数增加一个(步骤36)。重复以上的处理(步骤32到步骤36)直到决定数成为预先设定的多重性为止,结束处理(步骤37)。通过这样,能够没有偏差地对特定的服务器/设备分散配置数据组509。
图10表示分散目的地决定方法的一例。图10所示的方法是将各个服务器/设备的使用存储容量平均化的决定方法。本方法具备取得分散目的地列表和分散目的地列表的使用存储容量的单元。
首先,将决定数设为0(步骤41)。取得各个服务器/设备的使用存储容量并将使用容量最少的服务器/设备决定为分散目的地(步骤42)。接着,使决定数增加一个(步骤43)。重复以上的动作(步骤42到步骤43)直到决定数成为预先设定的多重性为止,结束处理(步骤44)。通过这样,能够将各个服务器/设备的使用存储容量平均化。
图11表示分散决定方法的一例。图11所示的方法是对每个系列ID304指定分散目的地的决定方法。本方法具备分散目的地列表和函数f,该函数f将分散目的地列表和系列ID304进行关联。
首先,将决定数设为0(步骤51)。对每个数据组509执行函数f(步骤52)。将函数f的值所对应的分散目的地列表所表示的服务器/设备指定为分散目的地(步骤53)。使决定数增加一个(步骤54)。重复以上的动作(步骤52到步骤54)直到决定数成为预先设定的多重性为止而结束(步骤55)。作为函数f,例如能够使用哈希函数、盈余计算等,对于参数能够使用系列ID304和将系列ID304数值化后的值。这时,在对分散目的地列表追加、删除了服务器等的情况下,在没有删除对某个系列ID304关联的服务器等的情况下,设为能够得到与以往相同的服务器等的函数f。
通过这样,在针对多个系列ID304进行在相同的顺序标签范围303的分散处理的情况下,能够通过多个基础设施高效地执行分散处理任务。
图12表示分散决定方法的一例。图12所示的方法是对于每个顺序标签范围303指定分散目的地的决定方法。本方法具备分散目的地列表和函数g,该函数g将分散目的地列表和顺序标签303进行关联。
首先,将决定数设为0(步骤61)。对每个数据组509执行函数g(步骤62)。接着,将函数g的值所对应的分散目的地列表所表示的服务器/设备指定为分散目的地(步骤63)。接着,使决定数增加一个(步骤64)。重复以上的动作(步骤62到步骤64)直到决定数成为预先设定的多重性为止而结束(步骤65)。作为函数g,例如能够使用哈希函数、盈余计算等,对于参数能够使用顺序标签范围304和将顺序标签303数值化后的值。这时,在对分散目的地列表追加、删除了服务器等的情况下,在没有删除对某个顺序标签范围304关联的服务器的情况下,设为能够得到与以往相同的服务器等的函数g。
通过这样,在针对多个顺序标签范围303进行在相同的系列ID304的分散处理的情况下,能够通过多个基础设施有效地执行分散处理任务。
图13表示系列数据并行分析基础设施102的提取处理中的数据组的登录方法。
首先,对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求包括用于处理的顺序标签范围303和系列ID304和数据组登录时的系列ID304以及分散配置目的地信息和记述了处理内容的程序(步骤71)。接着,经由数据检索部505从分散信息管理数据库507取得处理执行请求中包括的表示与处理对象的顺序标签范围303和系列ID304对应的数据组509的信息,并且经由分散目的地决定部预先决定成为数据组509的登录目的地的服务器/设备等,与数据登录时的方法同样将该信息登录到分散信息管理数据库中(步骤72)。并行处理基础设施104在作业/任务管理服务器401中根据从分散信息管理数据库取得的数据组509的信息,选择同时进行提取处理的数据组,设为一个区块。这时,希望数据组和进行提取处理的服务器是相同的设备,不过也可以是不同的设备。在是不同的设备的情况下,从该设备能够通过例如ssh、scp等单元取得数据组509的数据(步骤73)。
作业/任务管理服务器401对于每个区块生成提取处理任务,对数据组处理服务器403指示提取处理任务(步骤74)。数据组处理服务器403按照顺序标签的顺序,从区块取得数据,根据记述了在步骤71指定的处理内容的程序,进行提取处理(步骤75)。在提取处理中进行数据组的登录的情况下,在与成为提取处理任务的对象的区块相同的时间范围和通过在步骤71指定的系列ID304将提取处理结果的数据转换为数据组509的形状,在通过步骤72决定的服务器/设备等上进行写入,并结束(步骤76)。这时,对数据组的配置可以使用ssh、scp等通信单元,也能够通过设定使分散配置目的地的服务器/设备等成为与提取处理尽量相同的服务器/设备等,来削减通信量。
这样,针对一次集约处理后进行数据登录的情况,能够削减用于集约处理的数据发送/写入或集约处理后的数据发送/写入,能够减轻***的负荷,能够实现***动作的高速化。
图14表示使用了系列数据并行分析基础设施102和现有的分散分析基础设施的情况下的、计算了移动平均的情况下的处理时间的比较。***的设备结构使用相同的结构,数据组处理服务器和组处理集约服务器任何一个都使用了5台服务器。
无论什么情况下,对并行处理基础设施的初始设定都需要计算时间中的30秒左右的时间,其他是与实际分析处理相关的时间。本实施例的情况下,和现有技术相比大约5倍左右高速化,这是由于在数据组处理服务器中能够实施移动平均计算。如上述,能够灵活地记述对于系列数据101的各种分析处理,随着数据量的增大而增加设备,由此能够构成能够提高数据可累积的区域、进行分析处理的计算机能力的系列数据并行分析基础设施。
(第二实施例)
第二实施例相对于第一实施例的不同点在于,不是通过文件直接保持数据组,而是存储在数据组服务器1501中进行保持。图15表示本发明第二实施例的系列数据并行分析基础设施102的结构。
由监视/管理处理状况的作业/任务管理服务器401、数据组服务器1501和处理由数据组服务器1501提供的数据组509的数据组处理服务器403、集约处理数据组处理服务器的结果的组处理集约服务器404以及分散数据管理部501构成。
分散数据管理部501由数据读入部502、数据选择部503、分散目的地决定部504、数据检索部505、数据输入输出部506以及分散信息管理数据库507构成。分散信息管理数据库507由顺序标签范围303和系列ID304以及元信息508构成。元信息508中存储实际保持数据组509的数据组服务器1501的信息,数据组509可以在多个服务器数据组服务器1501上重复地设置数据,这时在元信息508中存储多个数据组服务器1501的信息。
本结构的特征在于,将结合了图3所示的系列数据列存储器301和图4所示的并行处理基础设施104的结构作为基本,不过关于数据组509不保持在分散信息管理数据库507中,而是在与数据组处理服务器403相同或由数据组处理服务器403能够容易取得数据的设备中保持数据组服务器1501。数据组509能够使用将图3的值组305进行了文件化而得的数据组,数据组509被保持在数据组服务器1501中。
通过这样的结构,能够在多个服务器/设备等中保持系列数据101,能够容易地进行数据累积中的保持容量的增大、基于增设设备类等的保持容量的扩大,并且即使在数据增大了的情况下也能够通过增大设备种类来提高分析处理能力。
以下,使用图6~图11的流程图来说明系列数据并行分析基础设施102的基本动作。
图16表示系列数据并行分析基础设施102的分散分析的执行方法。
首先对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求包括用于处理的顺序标签范围303和系列ID304以及记述了处理内容的程序(步骤81)。接着,经由数据检索部505从分散信息管理数据库507取得处理执行请求中包括的表示与顺序标签范围303和系列ID304对应的数据组509的信息(步骤82)。
并行处理基础设施104在作业/任务管理服务器401中根据从分散管理数据库得到的数据组509的信息,选择同时进行提取处理的数据组,设为一个区块(步骤83)。这时,希望存在数据组服务器1501的设备和进行提取处理的设备是相同的设备,不过也可以是不同的设备。在是不同设备的情况下,能够通过例如ssh、scp等单元从该设备取得数据组509的数据。
接着,作业/任务管理服务器401对于每个区块生成提取处理任务,对数据组处理服务器403指示提取处理任务(步骤84)。数据组处理服务器403按照顺序标签的顺序,从区块取得数据,根据记述了在步骤81指定的处理内容的程序,进行提取处理。在提取处理中,处理结果的数据采用赋予了与数据组509的值所对应的顺序标签不同的顺序标签(以下称为键(key))的值(以下称为值(value))的形式。键可以和上述的数据组509的顺序标签相同,键所指定的标签也可以重复(步骤85)。
接着,提取处理的结果被发送到组处理集约服务器404(步骤86)。发送的数据在组处理集约服务器404中通过键进行排序(步骤87)。在组处理集约服务器404对具有相同键的每个值进行集约处理(步骤8)。
最后输出集约处理的结果并结束分析处理。这时,作为输出目的地,可以是任意的文件(例如制表符分割文本或XML文件),也可以在分散系列数据管理部501中登录数据,也可以在存储器上对系列数据并行分析基础设施102以外的其他程序进行收发(步骤89)。
这样的话,通过适当地指定数据组的顺序标签范围303,在步骤85的提取处理中保证数据的顺序,因此能够在提取处理中记述根据例如移动平均或傅立叶转换等的顺序进行的处理。
一般,通过比提取处理要少的服务器数量、任务数量来执行集约处理,因此关于在提取处理中根据顺序进行的处理成为记述可能的情况,能够实现处理高速化或能够削减步骤6的处理结果的发送量,也能够对于系列数据101实现低负荷高速的分散分析。
图17表示系列数据并行分析基础设施102的数据选择的方法。
首先,对系列数据并行分析基础设施102指示来自用户106的处理执行请求。处理执行请求包括用于处理的顺序标签范围303和系列ID304(步骤91)。接着,经由数据检索部505从分散信息管理数据库507取得表示处理执行请求中包括的顺序标签范围303和系列ID304所对应的数据组509的信息(步骤92)。通过例如ssh、scp等通信单元经由数据组服务器1501和数据输入输出部506以及数据检索部505将数据组内的数据发送给分散系列数据选择部(步骤93)。在数据选择部中,为了成为用户106希望的形式,在将数据转换为文件或能够在存储器上对(例如制表符分割文本或XML文件)系列数据并行分析基础设施102以外的其他程序进行收发的形式的基础上,进行输出并结束(步骤94)。通过这样,能够不经由并行处理基础104而得到数据。
附图标记说明
101:系列数据、102:系列数据并行分析基础设施、103:系列数据并行存储器、104:并行分散基础设施、105:分析结果数据、106:用户、201:顺序标签、202:值、203:数据组、301:数据读入部、302:数据库、303:顺序标签范围、304:系列ID、305:值组、306:数据选择部、401:作业/任务管理服务器、402:数据组管理服务器、403:数据组处理服务器、404:组处理集约服务器、501:分散系列数据管理部、502:数据读入部、503:数据选择部、504:分散目的地决定部、505:数据检索部、506:数据输入输出部、507:分散信息管理数据库、508:元信息、509:数据组、1501:数据组服务器。

Claims (6)

1.一种系列数据并行分析基础设施,针对系列数据进行并行分散处理,该系列数据由顺序标签、以一对一或者一对多地与上述顺序标签对应的至少一个以上的值以及用于对上述值中的每一个进行区别的值名而构成,其特征在于,
上述系列数据并行分析基础设施具备:
并行处理基础设施,其由一个以上的计算设备和用于上述计算设备进行数据交换的网络而构成,并行地进行数据处理;和
分散系列数据管理部,其管理在上述计算设备中分散配置的上述系列数据,
上述并行处理基础设施具备:
按照每个上述计算设备将至少一个以上的上述系列数据中与一个顺序标签对应的一个值通过多个顺序标签进行分组化而得的数据组;
数据组处理服务器,其按照每个上述计算设备针对至少一个以上的上述数据组进行处理;以及
组处理集约服务器,其按照每个上述计算设备处理至少一个以上的上述数据组处理服务器的结果,
上述分散系列数据管理部具备:
数据读入部,其用于将上述系列数据保持在上述系列数据并行分析基础设施中;
数据选择部,其用于从上述系列数据并行分析基础设施取得上述系列数据;以及
分散信息管理数据库,其用于管理上述数据组,
在上述分散信息管理数据库中保持管理数据,该管理数据由指示上述数据组的上述顺序标签的范围的顺序标签范围、与上述数据组的上述值名对应的系列ID以及用于确定配置了上述数据组的上述计算设备的元信息而构成;
其中,上述分散系列数据管理部具备:分散目的地决定部,其决定用于保持上述数据组的上述计算设备;
上述分散目的地决定部进一步决定在上述计算设备中的相同的上述计算设备中保持上述顺序标签范围相同或者一半以上共享的上述数据组。
2.根据权利要求1所述的系列数据并行分析基础设施,其特征在于,
上述分散目的地决定部决定为上述计算设备的记录装置的占有容量最少的上述计算设备。
3.根据权利要求1所述的系列数据并行分析基础设施,其特征在于,
上述分散目的地决定部周期地决定用于保持上述数据组的上述计算设备。
4.根据权利要求1所述的系列数据并行分析基础设施,其特征在于,
上述数据组是文件形式。
5.根据权利要求1所述的系列数据并行分析基础设施,其特征在于,
上述数据组是服务器。
6.一种系列数据的并行分散处理方法,使用由一个以上的计算设备和用于上述计算设备进行数据交换的网络而构成的并行处理基础设施,针对系列数据进行并行分散处理,该系列数据由顺序标签、以一对一或者一对多地与上述顺序标签对应的至少一个以上的值以及用于对上述值中的每一个进行区别的值名而构成,该并行分散处理方法的特征在于,
针对上述并行处理基础设施的每个上述计算设备准备:将至少一个以上的上述系列数据中与一个顺序标签对应的一个值通过多个顺序标签进行分组化而得的数据组;数据块处理服务器,其针对至少一个以上的上述数据组进行处理;以及组处理集约服务器,其处理至少一个以上的上述数据组处理服务器的结果,
在对分散配置在上述计算设备中的上述系列数据进行管理的分散系列数据管理部中,作为用于管理上述数据组的分散信息管理数据库,而保持管理指示上述数据组的上述顺序标签范围的顺序标签范围、与上述数据组的上述值名对应的系列ID以及用于确定配置了上述数据组的上述计算设备的元信息;
其中,所述方法还包括:
决定用于保持上述数据组的上述计算设备;
进一步决定在上述计算设备中的相同的上述计算设备中保持上述顺序标签范围相同或者一半以上共享的上述数据组。
CN201380077504.7A 2013-07-01 2013-07-01 系列数据并行分析基础设施及其并行分散处理方法 Expired - Fee Related CN105308579B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2013/067972 WO2015001596A1 (ja) 2013-07-01 2013-07-01 系列データ並列分析基盤およびその並列分散処理方法

Publications (2)

Publication Number Publication Date
CN105308579A CN105308579A (zh) 2016-02-03
CN105308579B true CN105308579B (zh) 2018-06-08

Family

ID=52143219

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380077504.7A Expired - Fee Related CN105308579B (zh) 2013-07-01 2013-07-01 系列数据并行分析基础设施及其并行分散处理方法

Country Status (4)

Country Link
US (1) US10048991B2 (zh)
JP (1) JP6069503B2 (zh)
CN (1) CN105308579B (zh)
WO (1) WO2015001596A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6364727B2 (ja) * 2013-09-24 2018-08-01 日本電気株式会社 情報処理システム、分散処理方法、及び、プログラム
US10496630B2 (en) * 2015-10-01 2019-12-03 Microsoft Technology Licensing, Llc Read-write protocol for append-only distributed databases
US10394620B2 (en) * 2016-11-21 2019-08-27 International Business Machines Corporation Method for changing allocation of data using synchronization token
JP6940325B2 (ja) * 2017-08-10 2021-09-29 株式会社日立製作所 分散処理システム、分散処理方法、及び分散処理プログラム
CN108172268A (zh) * 2017-12-27 2018-06-15 苏州麦迪斯顿医疗科技股份有限公司 一种批量数据处理方法、装置、终端和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101120340A (zh) * 2004-02-21 2008-02-06 数据迅捷股份有限公司 超无共享并行数据库
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和***

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6408359B1 (en) * 1996-04-30 2002-06-18 Matsushita Electric Industrial Co., Ltd. Storage device management system and method for distributively storing data in a plurality of storage devices
EP1497750A4 (en) * 2001-02-24 2011-03-09 Ibm EFFICIENT IMPLEMENTATION OF A MULTI-DIMENSIONAL QUICK FOURIER TRANSFORMATION ON A PARALLEL MULTI-NODE COMPUTER WITH DISTRIBUTED MEMORY
US7257716B2 (en) * 2002-08-27 2007-08-14 Apple Inc. Method and apparatus for uploading mass-distributed content to a server
JP4398777B2 (ja) * 2004-04-28 2010-01-13 株式会社東芝 時系列データ分析装置および方法
JP4502375B2 (ja) * 2004-05-27 2010-07-14 キヤノン株式会社 ファイルシステムおよびその制御方法
US7590620B1 (en) * 2004-06-18 2009-09-15 Google Inc. System and method for analyzing data records
US7756919B1 (en) * 2004-06-18 2010-07-13 Google Inc. Large-scale data processing in a distributed and parallel processing enviornment
US20080022343A1 (en) * 2006-07-24 2008-01-24 Vvond, Inc. Multiple audio streams
JP2006252394A (ja) 2005-03-14 2006-09-21 Sony Corp 情報処理システム、情報処理装置および方法、並びにプログラム
JP4854309B2 (ja) * 2006-01-23 2012-01-18 シャープ株式会社 データ格納制御装置
US8190610B2 (en) * 2006-10-05 2012-05-29 Yahoo! Inc. MapReduce for distributed database processing
JP4948276B2 (ja) * 2007-06-15 2012-06-06 三菱電機株式会社 データベース検索装置及びデータベース検索プログラム
US7870114B2 (en) * 2007-06-15 2011-01-11 Microsoft Corporation Efficient data infrastructure for high dimensional data analysis
US9195700B1 (en) * 2007-10-10 2015-11-24 United Services Automobile Association (Usaa) Systems and methods for storing time-series data
US8566382B2 (en) * 2008-09-22 2013-10-22 Advanced Micro Devices, Inc. Method and apparatus for improved calculation of multiple dimension fast fourier transforms
US10002019B2 (en) * 2009-05-11 2018-06-19 International Business Machines Corporation System and method for assigning a transaction to a serialized execution group based on an execution group limit for parallel processing with other execution groups
JP5408442B2 (ja) 2010-01-21 2014-02-05 株式会社日立製作所 並列分散処理方法、及び、計算機システム
WO2012020456A1 (ja) * 2010-08-11 2012-02-16 株式会社日立製作所 時系列データ処理装置及びその方法
JP5678620B2 (ja) 2010-12-03 2015-03-04 株式会社日立製作所 データ処理方法、データ処理システム、及びデータ処理装置
JP5898409B2 (ja) * 2011-03-24 2016-04-06 オリンパス株式会社 データ処理装置およびデータ処理方法
US9798831B2 (en) * 2011-04-01 2017-10-24 Google Inc. Processing data in a MapReduce framework
US8924426B2 (en) * 2011-04-29 2014-12-30 Google Inc. Joining tables in a mapreduce procedure
US8806588B2 (en) * 2011-06-30 2014-08-12 Amazon Technologies, Inc. Storage gateway activation process
US9239871B2 (en) * 2011-07-06 2016-01-19 Ca, Inc. System and method for analyzing sequential data access efficiency
US20130091266A1 (en) * 2011-10-05 2013-04-11 Ajit Bhave System for organizing and fast searching of massive amounts of data
JP5522155B2 (ja) * 2011-12-09 2014-06-18 株式会社デンソー プログラム書換方法及びプログラム書換装置,電子制御装置
US8898542B2 (en) * 2011-12-12 2014-11-25 Cleversafe, Inc. Executing partial tasks in a distributed storage and task network
US8938416B1 (en) * 2012-01-13 2015-01-20 Amazon Technologies, Inc. Distributed storage of aggregated data
US9229657B1 (en) * 2012-11-01 2016-01-05 Quantcast Corporation Redistributing data in a distributed storage system based on attributes of the data

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101120340A (zh) * 2004-02-21 2008-02-06 数据迅捷股份有限公司 超无共享并行数据库
CN101183368A (zh) * 2007-12-06 2008-05-21 华南理工大学 联机分析处理中分布式计算及查询海量数据的方法和***

Also Published As

Publication number Publication date
US20160203032A1 (en) 2016-07-14
WO2015001596A1 (ja) 2015-01-08
US10048991B2 (en) 2018-08-14
CN105308579A (zh) 2016-02-03
JPWO2015001596A1 (ja) 2017-02-23
JP6069503B2 (ja) 2017-02-01

Similar Documents

Publication Publication Date Title
US10698891B2 (en) MxN dispatching in large scale distributed system
CN105308579B (zh) 系列数据并行分析基础设施及其并行分散处理方法
US9953066B2 (en) Automatically generating and reporting merged performance and capacity statistics
CN110019267A (zh) 一种元数据更新方法、装置、***、电子设备及存储介质
CN104317928A (zh) 一种基于分布式数据库的业务etl方法及***
CN108985981A (zh) 数据处理***及方法
Dagade et al. Big data weather analytics using hadoop
CN105868222A (zh) 一种任务调度方法及装置
US10127617B2 (en) System for analyzing social media data and method of analyzing social media data using the same
CN105930502B (zh) 一种收集数据的***、客户端和方法
Benda et al. A machine learning approach for flow shop scheduling problems with alternative resources, sequence-dependent setup times, and blocking
CN109564569A (zh) 减少用于长期计算的存储器使用
JP6642435B2 (ja) データ処理装置、データ処理方法、及び、プログラム
JP2013045208A (ja) データ生成方法、装置及びプログラム、検索処理方法、装置及びプログラム
CN112115113A (zh) 数据存储***、方法、装置、设备以及存储介质
CN105808361B (zh) 一种并行数据处理方法及***
CN104881475A (zh) 一种用于大数据随机抽样的方法和***
Petrov et al. Large-scale content profiling for preservation analysis
Ting et al. Constructing a cloud computing based social networks data warehousing and analyzing system
CN110908780B (zh) 调度平台的任务梳理方法、装置、设备及存储介质
Anusha et al. Big data techniques for efficient storage and processing of weather data
Masouleh et al. Optimization of ETL process in data warehouse through a combination of parallelization and shared cache memory
EP3511830A1 (en) Method for monitoring devices in a network, computerized system and application program interface
CN110062112A (zh) 数据处理方法、装置、设备及计算机可读存储介质
JP6103021B2 (ja) データ生成方法、装置及びプログラム、検索処理方法、装置及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180608

Termination date: 20200701