CN106815019B - Hadoop分布式算法的WEB界面集成方法及装置 - Google Patents

Hadoop分布式算法的WEB界面集成方法及装置 Download PDF

Info

Publication number
CN106815019B
CN106815019B CN201611253462.XA CN201611253462A CN106815019B CN 106815019 B CN106815019 B CN 106815019B CN 201611253462 A CN201611253462 A CN 201611253462A CN 106815019 B CN106815019 B CN 106815019B
Authority
CN
China
Prior art keywords
component
data processing
data
web interface
data acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201611253462.XA
Other languages
English (en)
Other versions
CN106815019A (zh
Inventor
金暐
高昕
邹潇湘
董琳
彭义刚
李佳
王锟
云晓春
舒敏
李海灵
王中华
侯美佳
曹强
王坤
徐娟娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Computer Network and Information Security Management Center
Original Assignee
National Computer Network and Information Security Management Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Computer Network and Information Security Management Center filed Critical National Computer Network and Information Security Management Center
Priority to CN201611253462.XA priority Critical patent/CN106815019B/zh
Publication of CN106815019A publication Critical patent/CN106815019A/zh
Application granted granted Critical
Publication of CN106815019B publication Critical patent/CN106815019B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明公开了一种Hadoop分布式算法的WEB界面集成方法及装置,该方法包括:当某数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个数据处理组件作为该数据获取组件的输出;配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网;当接收到运行指令后,利用组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果。借助于本发明的技术方案,在WEB界面中将选择的若干个数据获取组件和若干个数据处理组件形成组件关系网,利用组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,无需编程,并且能够立即执行看到效果。

Description

Hadoop分布式算法的WEB界面集成方法及装置
技术领域
本发明涉及移动通讯领域,特别涉及一种Hadoop分布式算法的WEB界面集成方法及装置。
背景技术
Hadoop中包含了丰富的组件,Mahout是其中一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能,表1为在Mahout实现的机器学习算法。
Figure BDA0001198454020000011
Figure BDA0001198454020000021
表1
企业在使用开源Hadoop建设大数据平台时,在使用Hadoop分布式算法的时候,往往都需要组织熟悉Hadoop架构的软件人员开发各种Mapreduce程序,一方面这些程序的开发周期较长,另一方面这些程序运行在Linux操作***之中,只能通过Crontab调度的方式进行简单管理。因此,需要一种简单易用的方式,帮助企业屏蔽Hadoop底层技术的复杂性,使企业的人员仅关注数据和业务,尽量减少在程序开发和算法使用方面的难度,快速达到大数据平台的建设目标。
发明内容
为了帮助企业屏蔽Hadoop底层技术的复杂性,使企业的人员仅关注数据和业务,尽量减少在程序开发和算法使用方面的难度,本发明提供了一种Hadoop分布式算法的WEB界面集成方法及装置。
本发明提供的Hadoop分布式算法的WEB界面集成方法,所述WEB界面内加载有若干数据获取组件和若干数据处理组件,所述方法包括:
当某所述数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个所述数据处理组件作为该数据获取组件的输出;
配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网;
当接收到运行指令后,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果。
本发明提供的Hadoop分布式算法的WEB界面集成装置,所述WEB界面内加载有若干数据获取组件和若干数据处理组件,包括第一配置模块、第二配置模块、及处理模块;
所述第一配置模块,用于当某所述数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个所述数据处理组件作为该数据获取组件的输出;
所述第二配置模块,用于配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网;
所述处理模块,用于当接收到运行指令后,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果。
本发明有益效果如下:
本发明实施例提供的Hadoop分布式算法的WEB界面集成方法,在WEB界面中将选择的若干个数据获取组件和若干个数据处理组件形成组件关系网,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,无需编程,并且能够立即执行看到效果,利于探索性分析。
附图说明
图1是本发明方法实施例的Hadoop分布式算法的WEB界面集成方法的流程图;
图2是数据挖掘组件的WEB界面示意图;
图3是FTP采集数据组件配置数据输入的WEB界面示意图;
图4是将FTP采集数据组件与Kmeans算法组件连接后的WEB界面示意图;
图5是Kmeans算法组件配置数据输入的WEB界面示意图;
图6是Kmeans算法组件配置数据输出的WEB界面示意图;
图7是本发明装置实施例的Hadoop分布式算法的WEB界面集成装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了帮助企业屏蔽Hadoop底层技术的复杂性,使企业的人员仅关注数据和业务,尽量减少在程序开发和算法使用方面的难度,本发明提供了一种Hadoop分布式算法的WEB界面集成方法及装置。以下结合附图以及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不限定本发明。
根据本发明的方法实施例,提供了一种Hadoop分布式算法的WEB界面集成方法,图1是本发明方法实施例的Hadoop分布式算法的WEB界面集成方法的流程图,所述WEB界面内加载有若干数据获取组件和若干数据处理组件,如图1所示,根据本发明方法实施例的Hadoop分布式算法的WEB界面集成方法包括如下处理:
步骤101:当某所述数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个所述数据处理组件作为该数据获取组件的输出。
具体的,本发明实施例的Hadoop分布式算法的WEB界面集成方法,还包括以下步骤:
封装与数据源有关的程序得到若干个数据获取组件;封装与数据处理有关的程序得到若干个数据处理组件。
具体的,所述数据获取组件包括FTP获取组件、MySQL获取组件、URL获取组件、HDFS数据获取组件、网盘数据获取组件等。
具体的,所述数据获取组件的输入配置包括组件的名称、周期模式等,所述数据获取组件的输出配置包括数据输出格式等。
步骤102:配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网。
具体的,所述数据处理组件包括基础工具组件、常规统计应用组件、数据挖掘应用组件、自定义过程组件、自定义应用组件、入库应用组件等。
具体的,所述数据处理组件的输入配置包括与某个具体的应用相关的配置参数等,所述数据处理组件的输出配置包括数据输出格式等。
优选的,本发明实施例的Hadoop分布式算法的WEB界面集成方法,还包括以下步骤:
通过所述WEB界面显示选择的数据获取组件的输出结果,以供用户判断和调整所述数据获取组件的输入;通过所述WEB界面显示选择的数据处理组件的输出结果,以供用户判断和调整所述数据处理组件的输入;通过所述WEB界面显示所述组件关系网。
具体的,所述形成组件关系网之前还包括以下步骤;
判断所述数据获取组件和所述数据处理组件的配置是否完整;
若所述数据获取组件和所述数据处理组件的配置完整,则形成组件关系网;
若所述数据获取组件和所述数据处理组件的配置不完整,则通过所述WEB界面显示不完整的配置项,并接收用户对不完整配置项的再次输入,直到配置完整。
步骤103:当接收到运行指令后,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果。
具体的,所述得到数据处理结果之后还包括:
接收用户输入的查看操作、编辑操作、复制操作及删除操作;其中,所述查看操作包括查看数据处理应用的数据处理周期、发布状态;所述编辑操作包括更改数据处理应用的名称、描述、及数据周期周期;所述复制操作包括复制所述数据处理结果;所述删除操作包括删除所述数据处理结果。
为了更加详细的说明本发明的方法实施例,给出一种具体的实施方式。
本发明针对Mahout在开发使用过程中的易用性,提出了纯WEB界面的解决方案,将Mahout算法封装为独立的数据挖掘组件,图2是数据挖掘组件的WEB界面示意图。
当需要使用某个组件时,先选择一个数据输入组件,如FTP采集数据的组件,配置数据输入和输出,图3是FTP采集数据组件配置数据输入的WEB界面示意图。
然后从菜单中拖拽一个Kmeans算法组件,将两个组件连接起来,使FTP获取组件的输出成为Kmeans组件的输入,图4是将FTP采集数据组件与Kmeans算法组件连接后的WEB界面示意图。
配置Kmeans算法的输入参数分组列和任务调度周期,图5是Kmeans算法组件配置数据输入的WEB界面示意图。
设置Kmeans算法的输出数据格式,图6是Kmeans算法组件配置数据输出的WEB界面示意图。
配置完成后,点击组件右侧的‘立即执行’,即可调度Hadoop的Mapreduce任务,后台自动完成任务的执行。
本发明实施例通过WEB界面的拖拽方式,无需编程,就能完成对数据进行分布式处理的功能。并且能够立即执行看到效果,利于探索性分析。
根据本发明的装置实施例,提供了一种Hadoop分布式算法的WEB界面集成装置,图7是本发明装置实施例的Hadoop分布式算法的WEB界面集成装置的结构示意图,如图7所示,根据本发明装置实施例的Hadoop分布式算法的WEB界面集成装置包括:第一配置模块70、第二配置模块72、及处理模块74,以下对本发明实施例的各个模块进行详细的说明。
具体地,所述第一配置模块70,用于当某所述数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个所述数据处理组件作为该数据获取组件的输出;
所述第二配置模块72,用于配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网;
所述处理模块74,用于当接收到运行指令后,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果。
具体的,所述的Hadoop分布式算法的WEB界面集成装置,还包括数据获取组件封装模块和数据处理组件封装模块;
所述数据获取组件封装模块,用于封装与数据源有关的程序;
所述数据处理组件封装模块,用于封装与数据处理有关的程序。
优选的,所述WEB界面,还用于显示选择的数据获取组件的输出,以供用户判断和调整所述数据获取组件的输入;显示选择的数据处理组件的输出,以供用户判断和调整所述数据处理组件的输入;显示所述组件关系网。
具体的,所述的Hadoop分布式算法的WEB界面集成装置,还包括判断模块:所述判断模块,用于判断所述数据获取组件和所述数据处理组件的配置是否完整;若所述数据获取组件和所述数据处理组件的配置完整,则形成组件关系网;若所述数据获取组件和所述数据处理组件的配置不完整,将不完整的配置项输出至WEB界面。
具体的,所述WEB界面,还用于接收用户输入的查看操作、编辑操作、复制操作及删除操作;其中,所述查看操作包括查看数据处理应用的数据处理周期、发布状态;所述编辑操作包括更改数据处理应用的名称、描述、数据周期周期;所述复制操作包括复制所述数据处理结果;所述删除操作包括删除所述数据处理结果。
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (8)

1.一种Hadoop分布式算法的WEB界面集成方法,其特征在于,所述WEB界面内加载有若干数据获取组件和若干数据处理组件,所述方法包括:
当某所述数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个所述数据处理组件作为该数据获取组件的输出;
配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网;
当接收到运行指令后,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果;
还包括以下步骤:
通过所述WEB界面显示选择的数据获取组件的输出结果,以供用户判断和调整所述数据获取组件的输入;
通过所述WEB界面显示选择的数据处理组件的输出结果,以供用户判断和调整所述数据处理组件的输入;
通过所述WEB界面显示所述组件关系网。
2.如权利要求1所述的WEB界面集成方法,其特征在于,还包括以下步骤:
封装与数据源有关的程序得到若干个数据获取组件;
封装与数据处理有关的程序得到若干个数据处理组件。
3.如权利要求1所述的WEB界面集成方法,其特征在于,所述形成组件关系网之前还包括以下步骤;
判断所述数据获取组件和所述数据处理组件的配置是否完整;
若所述数据获取组件和所述数据处理组件的配置完整,则形成组件关系网;
若所述数据获取组件和所述数据处理组件的配置不完整,则通过所述WEB界面显示不完整的配置项,并接收用户对不完整配置项的再次输入,直到配置完整。
4.如权利要求1所述的WEB界面集成方法,其特征在于,所述得到数据处理结果之后还包括:
接收用户输入的查看操作、编辑操作、复制操作及删除操作;其中,所述查看操作包括查看数据处理组件的数据处理周期、发布状态;所述编辑操作包括更改数据处理组件的名称、描述、及数据周期;所述复制操作包括复制所述数据处理结果;所述删除操作包括删除所述数据处理结果。
5.一种Hadoop分布式算法的WEB界面集成装置,所述WEB界面内加载有若干数据获取组件和若干数据处理组件,其特征在于,包括第一配置模块、第二配置模块、及处理模块;
所述第一配置模块,用于当某所述数据获取组件被触发后,配置该数据获取组件的输入,并选择一个或多个所述数据处理组件作为该数据获取组件的输出;
所述第二配置模块,用于配置被选中的数据处理组件的输入,并选择其他的数据处理组件中的一个或多个作为本数据处理组件的输出,形成组件关系网;
所述处理模块,用于当接收到运行指令后,利用所述组件关系网的各组件对被触发的数据获取组件的输入数据进行处理,得到数据处理结果;
所述WEB界面,还用于显示选择的数据获取组件的输出,以供用户判断和调整所述数据获取组件的输入;显示选择的数据处理组件的输出,以供用户判断和调整所述数据处理组件的输入;显示所述组件关系网。
6.如权利要求5所述的Hadoop分布式算法的WEB界面集成装置,其特征在于,还包括数据获取组件封装模块和数据处理组件封装模块;
所述数据获取组件封装模块,用于封装与数据源有关的程序;
所述数据处理组件封装模块,用于封装与数据处理有关的程序。
7.如权利要求5所述的Hadoop分布式算法的WEB界面集成装置,其特征在于,还包括判断模块:
所述判断模块,用于判断所述数据获取组件和所述数据处理组件的配置是否完整;
若所述数据获取组件和所述数据处理组件的配置完整,则形成组件关系网;
若所述数据获取组件和所述数据处理组件的配置不完整,将不完整的配置项输出至WEB界面。
8.如权利要求5所述的Hadoop分布式算法的WEB界面集成装置,其特征在于:
所述WEB界面,还用于接收用户输入的查看操作、编辑操作、复制操作及删除操作;其中,所述查看操作包括查看数据处理组件的数据处理周期、发布状态;所述编辑操作包括更改数据处理组件的名称、描述、数据周期;所述复制操作包括复制所述数据处理结果;所述删除操作包括删除所述数据处理结果。
CN201611253462.XA 2016-12-30 2016-12-30 Hadoop分布式算法的WEB界面集成方法及装置 Expired - Fee Related CN106815019B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611253462.XA CN106815019B (zh) 2016-12-30 2016-12-30 Hadoop分布式算法的WEB界面集成方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611253462.XA CN106815019B (zh) 2016-12-30 2016-12-30 Hadoop分布式算法的WEB界面集成方法及装置

Publications (2)

Publication Number Publication Date
CN106815019A CN106815019A (zh) 2017-06-09
CN106815019B true CN106815019B (zh) 2020-09-01

Family

ID=59109611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611253462.XA Expired - Fee Related CN106815019B (zh) 2016-12-30 2016-12-30 Hadoop分布式算法的WEB界面集成方法及装置

Country Status (1)

Country Link
CN (1) CN106815019B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704283A (zh) * 2017-09-15 2018-02-16 深圳市诚壹科技有限公司 一种在分布式***中配置Gitlab组件的方法及设备
CN109165055B (zh) * 2018-08-30 2022-09-06 百度在线网络技术(北京)有限公司 无人驾驶***组件加载方法、装置、计算机设备及介质
CN111221839B (zh) * 2018-11-23 2024-07-16 京东科技控股股份有限公司 数据处理方法、***、电子设备和计算机可读存储介质
CN114461699B (zh) * 2022-01-28 2024-06-04 嘉兴职业技术学院 一种基于跨境电商平台的大数据用户挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033748A (zh) * 2010-12-03 2011-04-27 中国科学院软件研究所 一种数据处理流程代码的生成方法
CN103345400A (zh) * 2013-07-24 2013-10-09 百度在线网络技术(北京)有限公司 数据处理方法与装置
CN104573063A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的数据分析方法
US20150121233A1 (en) * 2013-10-31 2015-04-30 Google Inc. Synchronized Distributed Networks with Frictionless Application Installation
CN106156307A (zh) * 2016-06-30 2016-11-23 北京奇虎科技有限公司 一种实时计算平台的数据处理***和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033748A (zh) * 2010-12-03 2011-04-27 中国科学院软件研究所 一种数据处理流程代码的生成方法
CN103345400A (zh) * 2013-07-24 2013-10-09 百度在线网络技术(北京)有限公司 数据处理方法与装置
US20150121233A1 (en) * 2013-10-31 2015-04-30 Google Inc. Synchronized Distributed Networks with Frictionless Application Installation
CN104573063A (zh) * 2015-01-23 2015-04-29 四川中科腾信科技有限公司 一种基于大数据的数据分析方法
CN106156307A (zh) * 2016-06-30 2016-11-23 北京奇虎科技有限公司 一种实时计算平台的数据处理***和方法

Also Published As

Publication number Publication date
CN106815019A (zh) 2017-06-09

Similar Documents

Publication Publication Date Title
CN106815019B (zh) Hadoop分布式算法的WEB界面集成方法及装置
US10558433B2 (en) Declarative design-time experience platform for code generation
KR102317535B1 (ko) 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템
CN106021102B (zh) 自动化测试文件的生成方法及装置
US9233468B2 (en) Commanding a mobile robot using glyphs
CN107864065B (zh) 无埋点数据采集方法、***及计算机可读存储介质
WO2018036342A1 (zh) 基于csar的模型文件的可视化设计方法及装置
TW200504559A (en) Configurable PLC and SCADA-based control system
US10521243B2 (en) Pre/post deployment customization
US20150143220A1 (en) Previewing an extraction rule for raw machine data and modifying the rule through counter-example
CN107209773B (zh) 自动调用统一的可视化界面
WO2016137650A1 (en) Integration of cloud-based services to create custom business processes
CN108197091B (zh) 一种创建数据表的方法、***及相关设备
CN105677561B (zh) 移动产品多平台测试方法及***
EP2664998A1 (en) Microblog message processing method and device thereof
CN104407856A (zh) 软件工具开发包文件的打包方法和装置
CN105892816A (zh) 实现计算设备桌面重设的方法和装置
CN104317502A (zh) 图片的编辑方法和编辑装置
WO2020220891A1 (zh) 用于生成物联网***中的站点的配置文件的方法及装置
CN111028034A (zh) 一种商品定制的配置方法、装置、设备及存储介质
CN107291460B (zh) 电视终端及编译服务器代码控制方法和存储介质
Vanhove et al. Tengu: An experimentation platform for big data applications
WO2018010339A1 (zh) 目标对象的处理方法及装置
US20180349932A1 (en) Methods and systems for determining persona of participants by the participant use of a software product
CN103914292A (zh) 基于丰富互联网应用ria的用户界面生成方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200901

Termination date: 20201230

CF01 Termination of patent right due to non-payment of annual fee