CN104239100A - 一种通用数据处理方法 - Google Patents

一种通用数据处理方法 Download PDF

Info

Publication number
CN104239100A
CN104239100A CN201410460075.8A CN201410460075A CN104239100A CN 104239100 A CN104239100 A CN 104239100A CN 201410460075 A CN201410460075 A CN 201410460075A CN 104239100 A CN104239100 A CN 104239100A
Authority
CN
China
Prior art keywords
data processing
data
processing rule
parameter
scheduling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410460075.8A
Other languages
English (en)
Inventor
滕木彬
吕亚伟
邹建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201410460075.8A priority Critical patent/CN104239100A/zh
Publication of CN104239100A publication Critical patent/CN104239100A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种通用数据处理方法,主要技术方案包括:配置数据采集、迁移的处理规则;获取数据处理规则,并对其进行有意义的任务分组;定时或手动执行任务分组,根据执行过程中的网络情况,智能调节数据处理规则的优先级;对执行过程进行监控,可手动停止正在执行的处理规则;数据处理过后对处理过程日志进行保存、分析。本发明通过灵活可配、智能调度实现了对大数据的采集、迁移、清洗、加工,很好的解决了现有数据处理方法的操作繁琐、配置单一、过程低效等问题。

Description

一种通用数据处理方法
技术领域
本发明涉及一种计算机应用, 具体地说是一种通用数据处理方法。
背景技术
现业内已有许多成熟的定向采集工具,在其实现数据处理的过程中,存在着诸多技术问题和使用问题等。
1. 部分工具数据处理规则设计复杂,需要一定的技术基础,专业性强,不利于广泛应用;
2. 部分工具数据处理机制较弱,部分数据处理结果可能需要二次加工、转换、清洗才能得到需要的结果数据,延长了数据处理时间,浪费了资源;
3. 部分工具对数据处理的过程掌控不完整,数据处理时无法智能的使用带宽资源,极大的降低了数据处理效率;
4. 部分工具在数据处理的调度配置单一,不能满足部分人群的复杂的数据处理需求。
现有工具的技术缺陷主要在于以下几点:
1.适用范围小,不能对现有主流的数据抽取工具进行兼容;
2.配置单一,无法应对各种突发状况以及使用者特殊的处理要求;
3.数据处理过程的监控不完整,无法在数据处理发生异常时进行智能复启动。
发明内容
本发明的技术任务是解决现有技术的不足,提供一种适用范围广、配置灵活、操作智能的数据处理工具。
本发明的目的是提供一种通用的数据处理方法。
本发明的目的是按以下方式实现的,包括1)数据处理的规则管理; 2)数据处理与信息同步;3)数据处理规则参数管理;4)数据处理调度,其中:
1)数据处理的规则管理,是指对数据处理规则进行格式定义,对处理规则多维度的划分,并按照数据处理规则的业务类别、***类别、数据源类型对数据处理规则进行分组和管理,并对各数据处理规则进行逻辑定义,实现串、并联数据处理;
2)数据处理与信息同步,包括:
(1)数据处理规则信息同步;详细步骤为:搭建一整套表结构,完成从数据抽取工具表到一种通用数据处理方法表的信息映射,实现了规则统一管理、灵活分组调度、执行过程监控;
(2)数据处理过程信息和处理日志信息同步;
3)数据处理规则参数管理,是指对数据处理规则的全局参数、局部参数进行配置管理,并将规则参数分为变量参数、常量参数,实现对数据处理调度的灵活配置,明细管理;
4)数据处理调度,是指通过对数据处理规则的分组调度阀值进行配置,实现任务或任务组的智能调度,合理使用服务器的资源和网络带宽;在应用搭建时,根据、应用服务器、数据库服务器、网络传输速率的硬件配置情况,合理的设置任务调度的线程数、串并联关系的阀值。
数据处理步骤如下:
(1)准备数据库环境,在数据库中创建1个表空间和用户;
(2)部署***应用
   1)在建立的用户下导入已整理好的数据;
   2)获得工具应用程序:sjjzpt;
   3)按默认选项创建域:sjjzpt_domain;
   4)启动startweblogic.cmd,进入weblogic控制台:
      创建连接池sjjzptpool;
创建数据源,JNDIName名为sjjzpt_ds,使用sjjzptpool连接池;
   5)选择WebApplicationModules,选择sjjzpt应用进行部署;
   6)启动服务并访问应用。
本发明的优异效果:本发明的一种通用数据处理方法实现对现有大部分数据抽取工具的兼容,同时通过灵活、智能的调度配置,提高了对数据处理的效率,简化了数据处理的操作流程,强化了对数据处理过程的监管,尤其是在处理数据处理过程发生异常问题上,一种通用数据处理方法表现出色。
附图说明
附图1是本发明的数据处理规则管理示意图;
附图2是本发明的数据处理信息同步示意图;
附图3是本发明数据处理规则分组管理示意图;
附图4是本发明任务调度参数配置管理示意图;
附图5是本发明任务执行过程监控示意图。
具体实施方式
参照说明书附图对本发明的一种通用数据处理方法作以下详细地说明。
本发明通过统一的集中管理界面进行数据集中管理、调度和监控,实现数据处理的精细化、智能化、可视化的操作流程。
现提供一种通用数据处理方法,其具体步骤为:
1)如附图1所示,完成数据处理规则管理的步骤。本工具通过对数据处理规则的格式定义,实现了对处理规则的分层分级;
2)如附图2所示,完成数据处理信息同步的步骤。本工具定义了一整套表结构,通过定义应用与数据处理工具的表结构间的映射关系,实现了对数据处理规则信息、处理日志信息的统一监管;
3)如附图3所示,完成数据处理规则分组管理的步骤。本工具为了实现对数据处理规则的快速管理,本工具定义了任务组的概念,通过任务组对数据处理规则进行分组管理,并能够对任务组内的规则之间、任务组之间的逻辑关系进行设定,实现串并联的数据处理;
4)如附图4所示,完成任务调度参数配置管理的步骤。在进行数据处理时,数据处理规则的参数较多,不同规则往往对应着不同的参数,为了实现参数的灵活配置和统一管理,本工具对规则参数进行了分类管理,从参数的类型上划分为变量参数、常量参数,从影响范围上划分为全局参数、局部参数,从而提高了对参数的可控性;
5)如附图5所示,完成任务执行过程监控的步骤。在进行数据处理时,数据库和服务器的压力,往往是程序设计的重点。本工具通过对任务组进行全面的逻辑关系设定,实现了智能的数据处理流程。根据环境的负荷能力,能够对任务调度的线程数进行控制,通过在数据处理的过程中,工具会监听执行中的任务,对执行速率较慢的任务延后,对执行异常的任务会自动重新调度。
具体实施例:
本工具基于J2EE技术设计实现,采用ORACLE 10g及以上数据库和BEA WEBLOGIC WERVER 8.1中间件软件开发而成,实施工作步骤为:
1.准备数据库环境。
在数据库中创建1个表空间和用户,例如:
2.部署***应用。
1)在建立的用户下导入已整理好的数据;
2)获得工具应用程序:sjjzpt;
3)按默认选项创建域:sjjzpt_domain;
4)启动startweblogic.cmd,进入weblogic控制台:
      创建连接池sjjzptpool;
创建数据源,JNDIName名为sjjzpt_ds,使用sjjzptpool连接池;
5)选择WebApplicationModules,选择sjjzpt应用进行部署;
6)启动服务并访问应用。
除说明书所述的技术特征外,均为本专业技术人员的公知技术。

Claims (1)

1.一种通用数据处理方法,其特征在于,包括1)数据处理的规则管理; 2)数据处理与信息同步;3)数据处理规则参数管理;4)数据处理调度,其中:
1)数据处理的规则管理,是指对数据处理规则进行格式定义,对处理规则多维度的划分,并按照数据处理规则的业务类别、***类别、数据源类型对数据处理规则进行分组和管理,并对各数据处理规则进行逻辑定义,实现串、并联数据处理;
2)数据处理与信息同步,包括:
(1)数据处理规则信息同步;详细步骤为:搭建一整套表结构,完成从数据抽取工具表到一种通用数据处理方法表的信息映射,实现了规则统一管理、灵活分组调度、执行过程监控;
(2)数据处理过程信息和处理日志信息同步;
3)数据处理规则参数管理,是指对数据处理规则的全局参数、局部参数进行配置管理,并将规则参数分为变量参数、常量参数,实现对数据处理调度的灵活配置,明细管理;
4)数据处理调度,是指通过对数据处理规则的分组调度阀值进行配置,实现任务或任务组的智能调度,合理使用服务器的资源和网络带宽;在应用搭建时,根据、应用服务器、数据库服务器、网络传输速率的硬件配置情况,合理的设置任务调度的线程数、串并联关系的阀值;
数据处理步骤如下:
(1)准备数据库环境,在数据库中创建1个表空间和用户;
(2)部署***应用
    1)在建立的用户下导入已整理好的数据;
    2)获得工具应用程序:sjjzpt;
    3)按默认选项创建域:sjjzpt_domain;
    4)启动startweblogic.cmd,进入weblogic控制台:
       创建连接池sjjzptpool;
创建数据源,JNDIName名为sjjzpt_ds,使用sjjzptpool连接池;
    5)选择WebApplicationModules,选择sjjzpt应用进行部署;
    6)启动服务并访问应用。
CN201410460075.8A 2014-09-11 2014-09-11 一种通用数据处理方法 Pending CN104239100A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410460075.8A CN104239100A (zh) 2014-09-11 2014-09-11 一种通用数据处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410460075.8A CN104239100A (zh) 2014-09-11 2014-09-11 一种通用数据处理方法

Publications (1)

Publication Number Publication Date
CN104239100A true CN104239100A (zh) 2014-12-24

Family

ID=52227235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410460075.8A Pending CN104239100A (zh) 2014-09-11 2014-09-11 一种通用数据处理方法

Country Status (1)

Country Link
CN (1) CN104239100A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528564A (zh) * 2015-09-11 2017-03-22 ***通信集团河北有限公司 一种拥堵数据处理方法和装置
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN110825920A (zh) * 2019-10-22 2020-02-21 厦门市美亚柏科信息股份有限公司 数据处理方法和装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543133A (zh) * 2003-04-30 2004-11-03 华为技术有限公司 静态路由的刷新方法
CN101908063A (zh) * 2010-07-20 2010-12-08 浪潮齐鲁软件产业有限公司 一种通用的报表查询工具
US20120166484A1 (en) * 2009-07-22 2012-06-28 Mcgregor Carlolyn Patricia System, method and computer program for multi-dimensional temporal data mining
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN103473360A (zh) * 2013-09-26 2013-12-25 浪潮齐鲁软件产业有限公司 一种大数据智能抽取的管理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1543133A (zh) * 2003-04-30 2004-11-03 华为技术有限公司 静态路由的刷新方法
US20120166484A1 (en) * 2009-07-22 2012-06-28 Mcgregor Carlolyn Patricia System, method and computer program for multi-dimensional temporal data mining
CN101908063A (zh) * 2010-07-20 2010-12-08 浪潮齐鲁软件产业有限公司 一种通用的报表查询工具
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN103473360A (zh) * 2013-09-26 2013-12-25 浪潮齐鲁软件产业有限公司 一种大数据智能抽取的管理方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528564A (zh) * 2015-09-11 2017-03-22 ***通信集团河北有限公司 一种拥堵数据处理方法和装置
CN108280084A (zh) * 2017-01-06 2018-07-13 上海前隆信息科技有限公司 一种数据仓库的构建方法、***及服务器
CN110825920A (zh) * 2019-10-22 2020-02-21 厦门市美亚柏科信息股份有限公司 数据处理方法和装置
CN110825920B (zh) * 2019-10-22 2022-06-10 厦门市美亚柏科信息股份有限公司 数据处理方法和装置

Similar Documents

Publication Publication Date Title
CN104991952B (zh) 一种智能数据分发流程引擎及其同步数据的方法
CN108241528B (zh) 一种用户自定义海量网络安全数据动态采集方法
CN111858027B (zh) 一种软件机器人协同处理方法及***
CN103645909A (zh) 定时任务的处理方法及装置
CN108334557B (zh) 一种聚合数据分析方法、装置、存储介质及电子设备
CN110618860A (zh) 基于Spark的Kafka消费并发处理方法及装置
Viswanathan et al. Query and resource optimization: Bridging the gap
CN104239100A (zh) 一种通用数据处理方法
CN102902592A (zh) 一种集群计算资源的分区调度管理方法
CN110851234A (zh) 基于docker容器的日志处理方法及装置
CN112099937A (zh) 一种资源治理方法和装置
US10331484B2 (en) Distributed data platform resource allocator
CN108595480B (zh) 一种基于云计算的大数据etl工具***及应用方法
CN113342826A (zh) 一种对不同数据采集引擎的数据操作进行统一管理的方法、存储介质及***
CN111625300B (zh) 一种高效的数据采集加载方法及***
CN110879753B (zh) 基于自动化集群资源管理的gpu加速性能优化方法和***
CN116974994A (zh) 一种基于集群的高效能文件协作***
CN103473360A (zh) 一种大数据智能抽取的管理方法
CN103226466A (zh) 一种高效的增量数据捕获方法
CN107908463B (zh) 一种任务分解及并行处理方法
CN105760215A (zh) 基于映射规约模型分布式文件***作业的运行方法
CN105426440B (zh) 一种基于数据库的异构型数据批量同步方法
CN103488527A (zh) 一种php api调用方法、相关设备及***
CN104699520B (zh) 一种基于虚拟机迁移调度的节能方法
CN104079637B (zh) 一种资源调度方法及***

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141224

WD01 Invention patent application deemed withdrawn after publication