CN108073582A - 一种计算框架选择方法和装置 - Google Patents

一种计算框架选择方法和装置 Download PDF

Info

Publication number
CN108073582A
CN108073582A CN201610981871.5A CN201610981871A CN108073582A CN 108073582 A CN108073582 A CN 108073582A CN 201610981871 A CN201610981871 A CN 201610981871A CN 108073582 A CN108073582 A CN 108073582A
Authority
CN
China
Prior art keywords
node
data
data mining
computational frame
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610981871.5A
Other languages
English (en)
Other versions
CN108073582B (zh
Inventor
李杰亮
崔洪涛
李光瑞
钱岭
齐骥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Suzhou Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Suzhou Software Technology Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610981871.5A priority Critical patent/CN108073582B/zh
Publication of CN108073582A publication Critical patent/CN108073582A/zh
Application granted granted Critical
Publication of CN108073582B publication Critical patent/CN108073582B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种计算框架选择方法,包括:根据预定的数据挖掘过程选择预设组件;转换预设组件为有向无环图;为节点选择数据挖掘的计算框架;将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算;其中,有向无环图的节点与组件具有对应关系。本发明实施例同时还提供一种计算框架选择装置。

Description

一种计算框架选择方法和装置
技术领域
本发明涉及数据挖掘领域,尤其涉及一种计算框架选择方法和装置。
背景技术
随着信息时代的到来,数据的积累成几何倍增长,为了能够处理已有的海量数据,出现了各种不同的并行计算框架数据处理平台。现有的并行计算框架主要两种:Mapreduce和Spark。其中,Mapreduce是一种离线计算框架,相较于park,它还是一种磁盘计算框架,该框架在具体用于计算时会将一个算法抽象成Map和Reduce两个阶段进行,非常适合数据密集型计算;Spark则是一种内存计算框架,它将数据尽可能放到内存中以提高迭代应用和交互式应用的计算效率。
目前大数据的挖掘平台都是选择其中一种计算框架而实现,选择Mapreduce框架,当处理的数据量大小相对于集群的资源量较小时,处理的速度相比较与Spark会很慢,因此严重浪费了集群的资源,降低了资源的使用率;选择Spark框架,当处理的数据量大小远大于集群的资源量时,会使得集群的资源出现严重不足,处理数据的性能急剧下降,甚至无法处理数据。
发明内容
有鉴于此,本发明实施例期望提供一种计算框架选择方法和装置,能够根据实际的数据挖掘过程选择合适的计算框架。
本发明实施例的技术方案是这样实现的:
一种计算框架选择方法,包括:
根据预定的数据挖掘过程选择预设组件;
转换所述预设组件为有向无环图;其中,所述有向无环图的节点与组件具有对应关系;
为所述节点选择数据挖掘的计算框架;
将所述节点提交到所述数据挖掘的计算框架,并使用所述数据挖掘的计算框架对所述节点进行计算。
如上所述的方法,所述预定的数据挖掘过程包括:数据提取过程、数据加工过程、算法应用过程以及模型建立过程,所述根据预定的数据挖掘过程选择预设组件,包括:
根据所述数据提取过程确定所要提取的数据来源,并根据所述数据来源选择数据提取类组件;
根据所述数据加工过程确定对数据进行加工的加工方法,并根据所述加工方法选择数据加工类组件;
根据所述算法应用过程确定模型建立的算法,并根据所述算法选择算法类组件;
根据所述模型建立过程确定数据挖掘的目的,并根据所述目的选择建模工具类组件。
如上所述的方法,所述为所述节点选择数据挖掘的计算框架,包括:
根据所述节点的输入数据量和集群的资源使用情况为所述节点选择数据挖掘的计算框架;其中,所述集群为所提取的数据的存储空间。
如上所述的方法,所述根据所述节点的输入数据量和集群的资源使用情况为所述节点选择数据挖掘的计算框架,包括:
在所述有向无环图中筛选入度为0的节点;
获取所述入度为0的节点的输入数据量和集群的资源使用情况;
使用智能判别模型根据所述入度为0的节点的输入数据量和集群的资源使用情况,为所述入度为0的节点选择数据挖掘的计算框架;
相应的,所述将所述节点提交到所选择的数据挖掘的计算框架,由所述计算框架进行计算,包括:
将所述入度为0的节点提交到所选择的数据挖掘的计算框架,并使用所述计算框架对所述节点进行计算。
如上所述的方法,所述将所述入度为0的节点提交到所选择的数据挖掘的计算框架,并使用所述计算框架对所述节点进行计算之后,所述方法还包括:
删除所述入度为0的节点。
如上所述的方法,所述方法还包括:
根据所述数据挖掘的计算框架对所述节点的计算结果生成数据挖掘模型;
将所述数据挖掘模型转化成另一种标记语言yaml格式的文件并存储在所述集群的预定路径上。
如上所述的方法,所述方法还包括:
监控所述组件的运行情况并定位出现异常的组件。
如上所述的方法,所述方法还包括:
维护所述数据挖掘过程中产生的数据。
一种计算框架选择装置,包括:
选择模块,用于根据预定的数据挖掘过程选择预设组件;为所述节点选择数据挖掘的计算框架;
转换模块,用于转换所述预设组件为有向无环图;其中,所述有向无环图的节点与组件具有对应关系;
处理模块,用于将所述节点提交到所述数据挖掘的计算框架,并使用所述数据挖掘的计算框架对所述节点进行计算。
如上所述的装置,所述预定的数据挖掘过程包括:数据提取过程、数据加工过程、算法应用过程以及模型建立过程,所述选择模块具体用于:
根据所述数据提取过程确定所要提取的数据来源,并根据所述数据来源选择数据提取类组件;
根据所述数据加工过程确定对数据进行加工的加工方法,并根据所述加工方法选择数据加工类组件;
根据所述算法应用过程确定模型建立的算法,并根据所述算法选择算法类组件;
根据所述模型建立过程确定数据挖掘的目的,并根据所述目的选择建模工具类组件。
如上所述的装置,所述选择模块包括:
筛选单元,用于在所述有向无环图中筛选入度为0的节点;
获取单元,用于获取所述入度为0的节点的输入数据量和集群的资源使用情况;
选择单元,用于使用智能判别模型根据所述入度为0的节点的输入数据量和集群的资源使用情况,为所述入度为0的节点选择数据挖掘的计算框架;
所述处理模块,具体用于将所述入度为0的节点提交到所选择的数据挖掘的计算框架,并使用所述计算框架对所述节点进行计算。
如上所述的装置,所述处理模块还用于:
根据所述数据挖掘的计算框架对所述节点的计算结果得到数据挖掘模型;
将所述数据挖掘模型转化成另一种标记语言yaml格式的文件并存储在所述存储空间的预定路径上。
本发明实施例所提供的计算框架方法和装置,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率。
附图说明
图1为本发明实施例提供的一种计算框架选择方法的流程示意图;
图2为本发明实施例提供的预定的数据挖掘过程的流程示意图;
图3为本发明实施例提供的根据预定的数据挖掘过程选择预设组件方法的流程示意图;
图4为本发明实施例提供的另一种计算框架选择方法的流程示意图;
图5为本发明实施例提供的又一种计算框架选择方法的流程示意图;
图6为本发明实施例提供的又一种计算框架选择方法的流程示意图;
图7本发明实施例提供的模型的存储和应用的流程示意图;
图8为本发明实施例提供的一种计算框架选择装置的结构示意图;
图9为本发明实施例提供的另一种计算框架选择装置的结构示意图;
图10为本发明实施例提供的又一种计算框架选择装置的结构示意图;
图11为本发明实施例提供的又一种计算框架选择装置的结构示意图;
图12为本实施例提供的执行引擎模块工作过程的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
图1为本发明实施例提供的一种计算框架选择方法的流程示意图,如图1所示,该方法包括以下步骤:
步骤101、根据预定的数据挖掘过程选择预设组件。
具体的,步骤101根据预定的数据挖掘过程选择预设组件可以是由计算框架选择装置实现。在进行数据挖掘过程前,先要对数据挖掘过程进行确定,然后在数据挖掘***中根据所确定的数据挖掘过程选择相应的组件。
步骤102、转换预设组件为有向无环图。其中,有向无环图的节点与组件具有对应关系。
具体的,步骤102转换预设组件为有向无环图可以是由计算框架选择装置实现的。需要说明的是,有向无环图是一个从某个节点出发经过若干条边也不能回到该点的有向图,将所选择的预设组件转换为有向无环图,则该有向无环图的每个节点对应一个组件,而所选择的预设组件对应的子流程组成了整个数据挖掘过程,因此,每个节点代表的就是整个数据挖掘过程的一个子流程。
步骤103、为节点选择数据挖掘的计算框架。
具体的,步骤103为节点选择数据挖掘的计算框架可以是由计算框架选择装置实现的。为节点选择数据挖掘的计算框架实际就是为整个数据挖掘过程的每个子流程选择计算框架,每个节点所选择的计算框架可能相同也可能不同。
步骤104、将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算。
具体的,步骤104将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算可以是由计算框架选择装置实现的。根据为每个节点选择的计算框架,将每个节点提交到相应框架上,并使用相应框架对每个节点进行计算,从而每个节点都能找到适合自身的计算框架,使用该框架进行相应的计算。
本发明的实施例提供的计算框架选择方法,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用该计算框架对节点进行计算;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率。
图2为本发明实施例提供的预定的数据挖掘过程的流程示意图,如图2所示,该过程包括数据提取过程、数据加工过程、算法应用过程以及模型建立过程。
需要说明的是,数据提取过程指的是将某个数据源的数据提取到集群内的过程,其中,数据源包括Mysql数据库、Oracle数据库、DB2数据库、文件传输协议(File TransferProtocol,FTP)服务器等;数据加工过程指的是对提取到集群内的数据所进行的加工处理,使最终数据能够满足算法输入的过程,其中,数据加工包括缺失值处理、抽样、去重、去极值、条件过滤、条件替换、排序、生成列、区间化、归一化、关联表、统计汇总等;算法应用过程是指应用算法进行数据挖掘的过程,算法在不同的计算框架中都有各自的实现方式,但是每个算法的配置是统一的,和具体的计算框架无关,其中,算法包括朴素贝叶斯算法、随机森林算法、线性回归算法、频繁模式增长FP-Growth算法、K-均值聚类算法、基于物品的推荐算法等;模型建立过程是指建立数据挖掘的模型过程,在模型建立出来后,还包括对模型的测试过程、预测过程、以及评估过程等。
图3为本发明实施例提供的根据预定的数据挖掘过程选择预设组件方法的流程示意图,如图3所示,该方法包括以下步骤:
步骤201、计算框架选择装置根据数据提取过程确定所要提取的数据来源,并根据数据来源选择数据提取类组件。
需要说明的是,数据提取类组件包括Mysql组件、Oracle组件、DB2组件、FTP组件,选择了数据提取类组件,就选择了数据的来源,例如选择了Oracle组件,就将Oracle数据源中的数据提取到集群中,作为输入的原始数据;例如选择了FTP组件,就会将会提供FTP服务器所在的机器的互联网协议(Internet Protocol,IP)地址、端口、用户名和密码数据提取到集群中,作为输入的原始数据。
步骤202、计算框架选择装置根据数据加工过程确定对数据进行加工的加工方法,并根据加工方法选择数据加工类组件。
需要说明的是,数据加工类组件包括缺失值处理组件、抽样组件、去重组件、去极值组件、条件过滤组件、条件替换组件、排序组件、生成列组件、区间化组件、归一化组件、关联表组件、统计汇总组件,选择了数据加工类组件的组件,就选择了对数据所做的处理方法,例如选择了抽样组件,将通过数据提取类提取的数据进行抽样处理;例如选择了归一化组件,将通过数据提取类组件提取的数据进行归一化处理;例如既选择了抽样组件,又选择了归一化组件,将通过数据提取类组件提取的数据分别进行抽样处理和归一化处理。
步骤203、计算框架选择装置根据算法应用过程确定模型建立的算法,并根据算法选择算法类组件。
需要说明的是,算法类组件包括朴素贝叶斯算法组件、随机森林算法组件、线性回归算法组件、FP-Growth算法组件、K-均值聚类算法组件、基于物品的推荐算法组件,选择了算法类组件,就选择了数据挖掘算法,例如选择了K-均值聚类算法组件,就运用K-均值聚类算法进行数据挖掘。
步骤204、计算框架选择装置根据模型建立过程确定数据挖掘的目的,并根据目的选择建模工具类组件。
需要说明的是,建模工具类组件包括数据集切分组件、训练组件、测试组件、预测组件、评估组件、模型可视化组件等,例如数据挖掘的目的是只建立一个模型,那么选择用于训练模型的训练组件;例如数据挖掘的目的是建立一个模型并对这个模型进行测试,那么选择数据集切分组件、训练组件、测试组件,其中数据集切分组件用于将集群中的数据进行切分,一部分用于训练组件训练模型,一部分用于测试组件测试训练出的模型;再例如数据挖掘的目的是建立一个模型并对这个模型进行展示,那么选择训练组件和可视化组件,可视化组件用于展示训练出的模型,如果训练出的模型是一个树,那么就以树的结构展示该模型。
本发明提供的根据预定的数据挖掘过程选择预设组件的方法,不需要用户对底层的实现有任何了解,也不需要用户对数据挖掘算法有深入的了解,而仅仅通过选择组件就构造出了数据挖掘过程,进而挖掘大数据中内在的模型,大大提高了时间效率,并且提升了用户体验。
图4为本发明实施例提供的另一种计算框架选择方法的流程示意图,如图4所示,该方法包括以下步骤:
步骤301、计算框架选择装置根据预定的数据挖掘过程选择预设组件。
步骤302、计算框架选择装置转换预设组件为有向无环图。其中,有向无环图的节点与组件具有对应关系。
步骤303、计算框架选择装置根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架。其中,集群为所提取的数据的存储空间。
需要说明的是,节点的输入数据量是指前一个节点经过计算框架的数据量的输出数据量。根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架指的是,根据每个节点的输入数据量和当时的集群资源使用情况为每个节点选择合适的数据挖掘的计算框架。
步骤304、计算框架选择装置将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算。
需要说明的是,本实施例中与其它实施例中相同步骤或概念的解释可以参照其它实施例中的描述,此处不再赘述。
本发明的实施例提供的计算框架选择方法,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率。
图5为本发明实施例提供的又一种计算框架选择方法的流程示意图,如图5所示,该方法包括以下步骤:
步骤401、计算框架选择装置根据预定的数据挖掘过程选择预设组件。
步骤402、计算框架选择装置转换预设组件为有向无环图。其中,有向无环图的节点与组件具有对应关系。
步骤403、计算框架选择装置在有向无环图中筛选入度为0的节点。
需要说明的是,在向无环图中筛选入度为0的节点是因为只有入度为0的节点,输入数据量才是固定的,从而能够被用来计算的。
步骤404、计算框架选择装置获取入度为0的节点的输入数据量和集群的资源使用情况。
步骤405、计算框架选择装置使用智能判别模型根据入度为0的节点的输入数据量和集群的资源使用情况,为入度为0的节点选择数据挖掘的计算框架。
需要说明的是,智能判别模型是由生成的,优选的,可以由单机的C4.5决策树算法生成。使用智能判别模型根据入度为0的节点的输入数据量和当时集群的资源使用情况,为入度为0的节点选择合适的数据挖掘的计算框架。
步骤406、计算框架选择装置将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算。
步骤407、计算框架选择装置删除入度为0的节点。
需要说明的是,在有向无环图中删除入度为0的节点,则原来一些入度不为0的节点会变成入度为0的节点,因此循环执行步骤401~步骤407,直到为有向无环图中的所有节点都选择到了合适的数据挖掘计算框架。在步骤407后,还包括记录为每个节点选择计算框架的运行时长、每个节点的输入数据量、每个节点提交时集群的资源使用量以及每个节点所提交到的计算框架,将记录的数据更新到智能判别模型中,从而更好地为再次应用该智能判别模型选择节点所要提交到的计算框架服务。
还需要说明的是,本实施例中与其它实施例中相同步骤或概念的解释可以参照其它实施例中的描述,此处不再赘述。
本发明的实施例提供的计算框架选择方法,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,使用智能判别模型根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率。
图6为本发明实施例提供的又一种计算框架选择方法的流程示意图,如图6所示,该方法包括以下步骤:
步骤501、计算框架选择装置根据预定的数据挖掘过程选择预设组件。
步骤502、计算框架选择装置转换预设组件为有向无环图。其中,有向无环图的节点与组件具有对应关系。
步骤503、计算框架选择装置在有向无环图中筛选入度为0的节点。
步骤504、计算框架选择装置获取入度为0的节点的输入数据量和集群的资源使用情况。
步骤505、计算框架选择装置使用智能判别模型根据入度为0的节点的输入数据量和集群的资源使用情况,为入度为0的节点选择数据挖掘的计算框架。
步骤506、计算框架选择装置将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算。
步骤507、计算框架选择装置删除入度为0的节点。
步骤508、计算框架选择装置根据数据挖掘的计算框架对节点的计算结果生成数据挖掘模型。
步骤509、计算框架选择装置将数据挖掘模型转化成另一种标记语言yaml格式的文件并存储在集群的预定路径上。
具体的,由于yaml文件是一种可移植性文件,将得到的数据模型转化成yaml文件可以加载在任何数据挖掘平台。
需要说明的是,本实施例中与其它实施例中相同步骤或概念的解释可以参照其它实施例中的描述,此处不再赘述。
本发明的实施例提供的计算框架选择方法,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,使用智能判别模型根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算,最终根据计算结果生成的数据挖掘模型,并以yaml格式的文件并存储在集群的预定路径上;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率,同时还能够产生可移植的数据挖掘模型供任何一种数据挖掘平台使用。
图7本发明实施例提供的模型的存储和应用的流程示意图,如图7所示,经过一系列的计算生成数据挖掘模型,将生成的模型转化成yaml文件存储在集群的预定路径,当要应用该模型进行生产预测或者要对该模型进行测试时,则会从该路径上加载yaml模型文件,然后根据组件运行的计算框架,转换为特定数据挖掘平台上的模型,最后使用转化后的模型对数据进行分析。
需要说明的是,现有数据挖掘模型是序列化成二进制的形式存储的,如果对该模型进行移植,需要知道该数据挖掘模型是如何序列化的,而知晓一个模型是如何序列化的在实际应用中无法实现,因此,以这种形式存储的模型不具有可移植性。
进一步,本实施例提供的计算框架选择方法还包括监控组件的运行情况并定位出现异常的组件。
需要说明的是,当组件在运行过程中出现异常时,该组件会被定位出。
进一步,本实施例提供的计算框架选择方法还包括维护数据挖掘过程中产生的数据。
需要说明的是,数据的维护包括数据表中的数据维护和数据挖掘模型的数据维护,数据表是数据挖掘过程的中间数据和结果数据以表的形式存储在基于Hadoop的一个数据仓库工具hive中的,数据表中的数据维护包括表数据的查看、表数据的可视化和表数据的删除;数据挖掘模型的数据维护包括模型数据的下载、模型数据的查看和,模型数据的删除。
图8为本发明实施例提供的一种计算框架选择装置的结构示意图,如图8所示,该装置6包括:
选择模块61,用于根据预定的数据挖掘过程选择预设组件;为节点选择数据挖掘的计算框架。
转换模块62,用于转换预设组件为有向无环图;其中,有向无环图的节点与组件具有对应关系。
处理模块63,用于将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算。
本发明的实施例提供的计算框架选择装置,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率。
进一步的,预定的数据挖掘过程包括:数据提取过程、数据加工过程、算法应用过程以及模型建立过程,选择模块61具体用于:
根据数据提取过程确定所要提取的数据来源,并根据数据来源选择数据提取类组件;根据数据加工过程确定对数据进行加工的加工方法,并根据加工方法选择数据加工类组件;根据算法应用过程确定模型建立的算法,并根据算法选择算法类组件;根据模型建立过程确定数据挖掘的目的,并根据目的选择建模工具类组件。
进一步的,选择模块61具体还用于:根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架;其中,集群为所提取的数据的存储空间。
图9为本发明实施例提供的另一种计算框架选择装置的结构示意图,如图9所示,该装置6中的选择模块61包括:
筛选单元611,用于在有向无环图中筛选入度为0的节点。
获取单元612,用于获取入度为0的节点的输入数据量和集群的资源使用情况。
选择单元613,用于使用智能判别模型根据入度为0的节点的输入数据量和集群的资源使用情况,为入度为0的节点选择数据挖掘的计算框架。
处理模块63,具体用于将入度为0的节点提交到所选择的数据挖掘的计算框架,并使用计算框架对节点进行计算。
进一步的,处理模块63,还用于:删除入度为0的节点;根据数据挖掘的计算框架对节点的计算结果得到数据挖掘模型;将数据挖掘模型转化成yaml格式的文件并存储在存储空间的预定路径上。
图10为本发明实施例提供的又一种计算框架选择装置的结构示意图,如图10所示,该装置6还包括:
监控模块64,用于监控组件的运行情况并定位出现异常的组件。
维护模块65,用于维护维护数据挖掘过程中产生的数据。
需要说明的是,本实施例中各个模块之间的交互过程,可以参照图1~6对应的方法实施例,此处不再赘述。
本发明的实施例提供的计算框架选择装置,能够根据预定的数据挖掘过程选择预设组件,转换预设组件为有向无环图,使用智能判别模型根据节点的输入数据量和集群的资源使用情况为节点选择数据挖掘的计算框架,将节点提交到数据挖掘的计算框架,并使用数据挖掘的计算框架对节点进行计算,最终根据计算结果生成的数据挖掘模型,并以yaml格式的文件并存储在集群的预定路径上;这样可以为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率,同时还能够产生可移植的数据挖掘模型供任何一种数据挖掘平台使用。
在实际应用中,所述选择模块61、筛选单元611、获取单元612、选择单元613、转换模块62、处理模块63、监控模块64、维护模块65均可由位于计算框架选择装置中的中央处理器(Central Processing Unit,CPU)、微处理器(Micro Processor Unit,MPU)、数字信号处理器(Digital Signal Processor,DSP)或现场可编程门阵列(Field Programmable GateArray,FPGA)等实现。
图11为本发明实施例提供的又一种计算框架选择装置的结构示意图,如图11所示,计算框架选择装置7包括数据源管理模块71、设计开发模块72、执行引擎模块73、流程监控模块74、数据管理模块75。
数据源管理模块71,用于实现从数据源中提取数据,不同的流程可以重复利用同一个数据源,从同一个数据源中提取不同的数据;设计开发模块72,用于以组件选择的方式实现数据提取、数据加工、建立模型、模型测试、模型评估、模型可视化和模型预测的数据挖掘过程;执行引擎模块73,用于依次将所选择的组件提交到所选择的计算框架上;流程监控模块74,用于对数据挖掘过程的组件运行状态进行监控;数据管理模块75,用于管理表数据,模型数据,进行表数据的可视化,模型数据的可视化。
具体的,数据管理模块主要75包括表管理模块751、模型管理模块752和组件管理模块753。
其中,表管理模块751,用于对集群内的数据表进行管理,包括表数据的预览,表数据的查看,表数据的可视化,表的删除等等功能。极大的方便了用户对集群内hive数据的管理。
模型管理模块752,用于对数据挖掘算法产生的模型文件的管理,包括模型的预览即模型的可视化,模型的评估信息,模型的下载,模型的删除等等功能。其中模型预览使用户能够更容易的理解模型,使用好模型。模型的评估信息能够使用户知道模型的好坏,方便对比同一数据不同算法以及同一数据同一算法不同参数产生的模型的优劣,从而方便用户选择一个最合适的模型。模型的下载就是将模型的yaml文件下载到用户本地,根据给定的文档和规则,能够将模型移植到其他任何数据挖掘平台中;用户构建的数据挖掘模型就可以复用到其他***或者平台上。模型的删除主要就是指对不再使用的模型进行删除,可以减少磁盘存储的使用量。
组件管理模块753用于对内置组件的管理和自定义组件的管理,内置组件的管理主要是设置组件是否使用。如果内置组件设置为使用状态的话,在设计开发页面就能够看到该组件,并可以使用它;如果设置为不可用状态的话,在设计开发页面就会隐藏该组件,无法使用该组件构建数据挖掘的流程。自定义组件的管理主要包括自定义组件的定义和设置状态以及删除的功能。自定义组件的定义同样也是通过托拉拽的形式配置组件前端的输入和输出以及参数,定义好后,可以预览该组件的页面配置;组件的执行的后台代码需要按照给定的接口以及规范去自定义实现,并在自定义组件时打包上传到服务器上。自定义组件设置组件的状态和内置组件时一样的。自定义组件的删除是将前端组件的配置以及组件后台实现相应的包。
图12为本实施例提供的执行引擎模块工作过程的流程示意图,如图12所示,该过程包括流程解析过程、智能选择过程、提交执行过程、模型存储过程。
其中,流程解析过程,将开发出的数据挖掘流程解析成一个个可执行的逻辑单元;智能选择过程,对每个逻辑单元根据数据量和当前集群的资源使用情况,使用智能判别模型选择所要提交的计算框架;提交执行过程,将执行的逻辑单元提交到所选择的计算框架上进行计算;模型存储过程,将计算生成的模型转化成yaml格式的文件进行存储。
本发明的实施例提供的计算框架选择装置,通过数据源管理模块、设计开发模块、执行引擎模块、流程监控模块、数据管理模块实现了为数据挖掘过程的每个步骤(节点)选择不同的计算框架,解决了现有技术在数据挖掘过程中只能选择一种计算框架的问题,以简单、可行的方式实现了计算框架的灵活选择,从而提高数据挖掘过程的效率,同时还能够产生可移植的数据挖掘模型供任何一种数据挖掘平台使用,并且还能够监控整个数据挖掘过程的进行,方面问题的定位和及时修复。
本领域内的技术人员应明白,本发明的实施例可提供为方法、***、或计算机程序产品。因此,本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(***)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (12)

1.一种计算框架选择方法,其特征在于,所述方法包括:
根据预定的数据挖掘过程选择预设组件;
转换所述预设组件为有向无环图;其中,所述有向无环图的节点与组件具有对应关系;
为所述节点选择数据挖掘的计算框架;
将所述节点提交到所述数据挖掘的计算框架,并使用所述数据挖掘的计算框架对所述节点进行计算。
2.根据权利要求1所述的方法,其特征在于,所述预定的数据挖掘过程包括:数据提取过程、数据加工过程、算法应用过程以及模型建立过程,所述根据预定的数据挖掘过程选择预设组件,包括:
根据所述数据提取过程确定所要提取的数据来源,并根据所述数据来源选择数据提取类组件;
根据所述数据加工过程确定对数据进行加工的加工方法,并根据所述加工方法选择数据加工类组件;
根据所述算法应用过程确定模型建立的算法,并根据所述算法选择算法类组件;
根据所述模型建立过程确定数据挖掘的目的,并根据所述目的选择建模工具类组件。
3.根据权利要求2所述的方法,其特征在于,所述为所述节点选择数据挖掘的计算框架,包括:
根据所述节点的输入数据量和集群的资源使用情况为所述节点选择数据挖掘的计算框架;其中,所述集群为所提取的数据的存储空间。
4.根据权利要求3所述的方法,其特征在于,所述根据所述节点的输入数据量和集群的资源使用情况为所述节点选择数据挖掘的计算框架,包括:
在所述有向无环图中筛选入度为0的节点;
获取所述入度为0的节点的输入数据量和集群的资源使用情况;
使用智能判别模型根据所述入度为0的节点的输入数据量和集群的资源使用情况,为所述入度为0的节点选择数据挖掘的计算框架;
相应的,所述将所述节点提交到所选择的数据挖掘的计算框架,由所述计算框架进行计算,包括:
将所述入度为0的节点提交到所选择的数据挖掘的计算框架,并使用所述计算框架对所述节点进行计算。
5.根据权利要求4所述的方法,其特征在于,所述将所述入度为0的节点提交到所选择的数据挖掘的计算框架,并使用所述计算框架对所述节点进行计算之后,所述方法还包括:
删除所述入度为0的节点。
6.根据权利要求3所述的方法,其特征在于,所述方法还包括:
根据所述数据挖掘的计算框架对所述节点的计算结果生成数据挖掘模型;
将所述数据挖掘模型转化成另一种标记语言yaml格式的文件并存储在所述集群的预定路径上。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
监控所述组件的运行情况并定位出现异常的组件。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
维护所述数据挖掘过程中产生的数据。
9.一种计算框架选择装置,其特征在于,所述装置包括:
选择模块,用于根据预定的数据挖掘过程选择预设组件;为所述节点选择数据挖掘的计算框架;
转换模块,用于转换所述预设组件为有向无环图;其中,所述有向无环图的节点与组件具有对应关系;
处理模块,用于将所述节点提交到所述数据挖掘的计算框架,并使用所述数据挖掘的计算框架对所述节点进行计算。
10.根据权利要求9所述的装置,其特征在于,所述预定的数据挖掘过程包括:数据提取过程、数据加工过程、算法应用过程以及模型建立过程,所述选择模块具体用于:
根据所述数据提取过程确定所要提取的数据来源,并根据所述数据来源选择数据提取类组件;
根据所述数据加工过程确定对数据进行加工的加工方法,并根据所述加工方法选择数据加工类组件;
根据所述算法应用过程确定模型建立的算法,并根据所述算法选择算法类组件;
根据所述模型建立过程确定数据挖掘的目的,并根据所述目的选择建模工具类组件。
11.根据权利要求9所述的装置,其特征在于,所述选择模块包括:
筛选单元,用于在所述有向无环图中筛选入度为0的节点;
获取单元,用于获取所述入度为0的节点的输入数据量和集群的资源使用情况;
选择单元,用于使用智能判别模型根据所述入度为0的节点的输入数据量和集群的资源使用情况,为所述入度为0的节点选择数据挖掘的计算框架;
所述处理模块,具体用于将所述入度为0的节点提交到所选择的数据挖掘的计算框架,并使用所述计算框架对所述节点进行计算。
12.根据权利要求9所述的装置,其特征在于,所述处理模块还用于:
根据所述数据挖掘的计算框架对所述节点的计算结果得到数据挖掘模型;
将所述数据挖掘模型转化成另一种标记语言yaml格式的文件并存储在所述存储空间的预定路径上。
CN201610981871.5A 2016-11-08 2016-11-08 一种计算框架选择方法和装置 Active CN108073582B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610981871.5A CN108073582B (zh) 2016-11-08 2016-11-08 一种计算框架选择方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610981871.5A CN108073582B (zh) 2016-11-08 2016-11-08 一种计算框架选择方法和装置

Publications (2)

Publication Number Publication Date
CN108073582A true CN108073582A (zh) 2018-05-25
CN108073582B CN108073582B (zh) 2021-08-06

Family

ID=62154125

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610981871.5A Active CN108073582B (zh) 2016-11-08 2016-11-08 一种计算框架选择方法和装置

Country Status (1)

Country Link
CN (1) CN108073582B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763573A (zh) * 2018-06-06 2018-11-06 众安信息技术服务有限公司 一种基于机器学习的olap引擎路由方法及***
CN110363280A (zh) * 2019-09-02 2019-10-22 国家气象信息中心 算法模型训练分析***
CN111382193A (zh) * 2018-12-28 2020-07-07 顺丰科技有限公司 一种数据仓库主题模型的构建方法和装置
CN113342489A (zh) * 2021-05-25 2021-09-03 上海商汤智能科技有限公司 任务处理方法及装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573063A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的数据分析方法
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN106020811A (zh) * 2016-05-13 2016-10-12 乐视控股(北京)有限公司 算法模型的开发方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104573063A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的数据分析方法
CN104834561A (zh) * 2015-04-29 2015-08-12 华为技术有限公司 一种数据处理方法及装置
CN106020811A (zh) * 2016-05-13 2016-10-12 乐视控股(北京)有限公司 算法模型的开发方法和装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763573A (zh) * 2018-06-06 2018-11-06 众安信息技术服务有限公司 一种基于机器学习的olap引擎路由方法及***
CN111382193A (zh) * 2018-12-28 2020-07-07 顺丰科技有限公司 一种数据仓库主题模型的构建方法和装置
CN110363280A (zh) * 2019-09-02 2019-10-22 国家气象信息中心 算法模型训练分析***
CN113342489A (zh) * 2021-05-25 2021-09-03 上海商汤智能科技有限公司 任务处理方法及装置、电子设备和存储介质
WO2022247112A1 (zh) * 2021-05-25 2022-12-01 上海商汤智能科技有限公司 任务处理方法、装置、设备、存储介质、计算机程序及程序产品

Also Published As

Publication number Publication date
CN108073582B (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN105160038B (zh) 一种基于审计知识库的数据分析方法及***
US20180129579A1 (en) Systems and Methods with a Realtime Log Analysis Framework
CN107945086A (zh) 一种应用于智慧城市的大数据资源管理***
CN103902816A (zh) 基于数据挖掘技术的带电检测数据处理方法
CN108073582A (zh) 一种计算框架选择方法和装置
CN103631882A (zh) 基于图挖掘技术的语义化业务生成***和方法
CN112580831B (zh) 一种基于知识图谱的电力通信网智能辅助运维方法及***
CN112181960B (zh) 一种基于AIOps的智能运维框架***
CN108039959A (zh) 一种数据的态势感知方法、***及相关装置
CN106534291A (zh) 基于大数据处理的电压监测方法
CN104573184B (zh) 高速列车产品元模型构建方法和装置
CN111046000B (zh) 一种面向政府数据交换共享的***元数据组织方法
CN112347071B (zh) 一种配电网云平台数据融合方法及配电网云平台
CN110388315A (zh) 基于多源信息融合的输油泵故障识别方法、装置及***
CN108829505A (zh) 一种分布式调度***及方法
CN106708965A (zh) 一种数据的处理方法和装置
WO2009059025A2 (en) Optimizing the efficiency of an organization's technology infrastructure
CN112163017B (zh) 一种知识挖掘***及方法
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN105632248A (zh) 一种安全监控***及其数据处理方法
CN110516808A (zh) 一种知识表示模型的创建方法
CN114780798A (zh) 基于bim的知识图谱***
CN109063040A (zh) 客户端程序数据采集方法及***
US11403313B2 (en) Dynamic visualization of application and infrastructure components with layers
Porouhan et al. Workflow mining: Discovering process patterns & data analysis from MXML logs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant