CN103942245A - 基于元数据的数据抽取方法 - Google Patents

基于元数据的数据抽取方法 Download PDF

Info

Publication number
CN103942245A
CN103942245A CN201410055786.7A CN201410055786A CN103942245A CN 103942245 A CN103942245 A CN 103942245A CN 201410055786 A CN201410055786 A CN 201410055786A CN 103942245 A CN103942245 A CN 103942245A
Authority
CN
China
Prior art keywords
data
model
data pick
metadata
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410055786.7A
Other languages
English (en)
Inventor
胡顺杰
王刚
张立勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN201410055786.7A priority Critical patent/CN103942245A/zh
Publication of CN103942245A publication Critical patent/CN103942245A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于元数据的数据抽取方法,属于数据抽取领域。该方法在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。与现有技术相比,本发明的基于元数据的数据抽取方法基于行业标准规范数据元,通过对业务模型的提炼梳理,整理出元数据模型,并将业务数据与元数据对应。针对这些元数据进行业务归类,并映射到已建立的数据抽取模型,从而形成基于元数据的数据抽取模型,达到灵活的业务数据抽取目标,具有良好地推广应用价值。

Description

基于元数据的数据抽取方法
技术领域
本发明涉及数据抽取领域,具体地说是一种基于元数据的数据抽取方法。
背景技术
在卫生行业的各个业务条线,都有诸多量大且复杂的业务模型,对应的数据模型具有表结构复杂、字段繁多等业务特点。
在现有的数据抽取模型中,大多数是针对各条线业务模型或某个独立的业务模型进行有针对性的数据抽取模型设计。这种设计不仅设计复杂,且应变能力差。当因行业标准规范发生变化或在不同区域而出现区域化形态时,就会产生繁琐而复杂的变更,带来巨大的维护工作量,且不易扩展。
发明内容
本发明的技术任务是针对上述现有技术的不足,提供一种基于元数据的数据抽取方法。
本发明的技术任务是按以下方式实现的:基于元数据的数据抽取方法,其特点是在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。
所述元数据模型由业务模型中提炼出,建立业务模型与元数据模型的关联关系。
所述数据抽取模型包含模型定义、数据抽取项定义、每一项数据的更新来源定义,以及数据抽取分类逻辑处理,通过数据抽取项与元数据的关联和元数据与业务数据的关联建立三者的关系,达到通过元数据的数据抽取模型抽取业务数据的目标。
上述方法的实现包括数据抽取模型定义、数据抽取项定义、数据更新来源定义及数据抽取分类逻辑处理:
所述数据抽取模型定义指定义数据抽取模型的框架,从不同的切面、不同的维度、不同的点对要抽取的数据归类汇总,每个模型定义包括:模型内码、名称、描述基本属性,以及模型的处理方式、是否需要跳转标识、存储详细信息的表名定义;
所述数据抽取项定义包括数据抽取项对应字段值的处理方式、数据类型、长度、精度、处理类型的抽取属性定义;
所述数据更新来源定义是针对数据抽取项的数据来源进行定义,用于确定每一个数据抽取项的数据在什么情况下,从哪些元数据中进行更新,包括来源算法定义、元数据标识、以及计算的数据集定义;
所述数据抽取分类逻辑处理包括累计类数据抽取处理、基本信息类数据抽取处理及更新汇总类数据抽取处理。
与现有技术相比,本发明的方法基于行业标准规范数据元,通过对业务模型的提炼梳理,整理出元数据模型,并将业务数据与元数据对应。针对这些元数据进行业务归类,并映射到已建立的数据抽取模型,从而形成基于元数据的数据抽取模型,达到灵活的业务数据抽取目标,具有以下突出地有益效果:
(1)抽取模型建立在底层元数据模型上,不会因业务模型的变化而进行大量的模型变动和维护。
(2)数据抽取模型对应元数据,可按照元数据的版本,建立数据抽取的版本管理,有益于管理抽取模型的版本。
(3)通过数据更新来源定义,有效的处理已抽取数据的更新机制。
(4)通过不同类型的处理逻辑,有针对性的处理不同抽取模型在业务数据发生变化时而做的操作,且模型统一,便于管理和扩展。
附图说明
附图1是本发明方法中数据抽取模型图;
附图2是实施例中数据抽取模型的样例;
附图3是实施例中数据抽取项定义的样例;
附图4是实施例中数据更新来源定义的样例;
附图5是实施例中数据抽取模型的简要类图。
具体实施方式
参照说明书附图以具体实施例对本发明的基于元数据的数据抽取方法作以下详细地说明。
实施例:
本发明基于元数据的数据抽取方法包括数据抽取模型定义、数据抽取项定义、数据更新来源定义、数据抽取分类逻辑处理。
以下进一步说明:
(一)、数据抽取模型定义
根据业务需求,定义数据抽取模型的框架,从不同的切面、不同的维度、不同的点对要抽取的数据归类汇总。每个模型定义包括:模型内码、名称、描述基本属性,以及模型的处理方式、是否需要跳转标识、存储详细信息的表名定义。通过这些方面的定义,能够确定一种数据抽取模型的抽取过程及方式。
属性 描述
处理方式 累计类、基本信息类、更新汇总类
跳转标记 定义是否存在跳转字段。跳转字段需要生成字段详细记录。
详细表名 用于配置跳转字段记录的存储表。
(二)、数据抽取项定义
每一个或每一类数据抽取模型,由若干用于抽取的数据项组成。每个数据抽取项将包括数据抽取项对应字段值的处理方式、数据类型、长度、精度、处理类型的抽取属性定义。通过这些数据抽取项的定义能够确定一个数据抽取模型的细节项的抽取过程及方式。
属性 描述
处理方式 指定字段类型,(MERGE合并类型的字段,JUMP跳转类型的字段)。
(三)、数据更新来源定义
数据更新来源主要是针对数据抽取项的数据来源进行定义,能够确定每一个数据抽取项的数据在什么情况下,从哪些元数据中进行更新。包括来源算法定义、元数据标识、以及计算的数据集定义。
属性 描述
算法 可以根据定义的处理类定义动态调用处理算法,实现了数据抽取处理算法的动态扩展。
(四)、数据抽取分类逻辑处理
基于我们对业务抽取模型的梳理和归类,可从累计类、基本信息类、更新汇总类三种类型的数据抽取模型进行处理。
进一步的说明如下:
A.  累计类数据抽取处理逻辑:
a)       根据数据抽取模型的定义到元数据关联的业务表获取数据。
b)      如果该数据已经存在且业务数据状态非删除或者更新状态,则放弃当前业务表处理。其他情况继续下一步处理。
c)       业务数据删除或者更新状态时,则将原抽取记录删除。删除状态业务数据处理完成后结束,非删除状态业务数据则继续下一步。
d)      业务数据为新增或者更新状态时,对业务数据继续进行分析,获取业务表中用于生成抽取数据记录数最多的表名。
e)       根据表名获取表的数据进行循环。根据抽取模型的定义从各个表中取值抽取多条数据。
B.  基本信息类数据抽取逻辑:
a)       根据数据抽取模型的定义数据获取已生成的基本信息数据。
b)      如果进行的是删除操作,直接将存在的抽取记录删除。完成后处理结束,其他情况则继续处理。
c)       按照数据抽取项定义中字段内容进行逐一的抽取,获取元数据对应业务字段的数据。根据抽取的数据是否存在,执行更新或新增操作。
C.  更新汇总类数据抽取逻辑:
a)       根据数据抽取模型定义数据获取更新汇总业务表数据。
b)      对业务数据状态进行判断,如果是删除状态和更新状态,则将数据抽取记录的详细表中业务表对应的数据记录删除。执行完成后,删除状态业务数据处理完毕。其他类型继续后面的处理。
更新汇总类数据抽取模型,删除仅针对详细记录表中的数据操作。更新汇总表中数据不发生变化。可能会导致更新汇总表中存在部分脏数据。
业务数据是新增或者更新操作时,需要对业务数据中用于数据抽取的字段逐个抽取。对于属于跳转类型的字段还需要另外生成数据抽取的详细信息记录。

Claims (4)

1.基于元数据的数据抽取方法,其特征在于:在业务模型公用元数据模型的基础上建立数据抽取模型,从业务模型中抽取制定业务数据。
2.根据权利要求1所述的基于元数据的数据抽取方法,其特征在于:所述元数据模型由业务模型中提炼出。
3.根据权利要求2所述的基于元数据的数据抽取方法,其特征在于:所述数据抽取模型包含模型定义、数据抽取项定义、每一项数据的更新来源定义,以及数据抽取分类逻辑处理,通过数据抽取项与元数据的关联和元数据与业务数据的关联建立三者的关系,达到通过元数据的数据抽取模型抽取业务数据的目标。
4.根据权利要求3所述的基于元数据的数据抽取方法,其特征在于包括数据抽取模型定义、数据抽取项定义、数据更新来源定义及数据抽取分类逻辑处理:
所述数据抽取模型定义指定义数据抽取模型的框架,从不同的切面、不同的维度、不同的点对要抽取的数据归类汇总,每个模型定义包括:模型内码、名称、描述基本属性,以及模型的处理方式、是否需要跳转标识、存储详细信息的表名定义;
所述数据抽取项定义包括数据抽取项对应字段值的处理方式、数据类型、长度、精度、处理类型的抽取属性定义;
所述数据更新来源定义是针对数据抽取项的数据来源进行定义,用于确定每一个数据抽取项的数据在什么情况下,从哪些元数据中进行更新,包括来源算法定义、元数据标识、以及计算的数据集定义;
所述数据抽取分类逻辑处理包括累计类数据抽取处理、基本信息类数据抽取处理及更新汇总类数据抽取处理。
CN201410055786.7A 2014-02-19 2014-02-19 基于元数据的数据抽取方法 Pending CN103942245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410055786.7A CN103942245A (zh) 2014-02-19 2014-02-19 基于元数据的数据抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410055786.7A CN103942245A (zh) 2014-02-19 2014-02-19 基于元数据的数据抽取方法

Publications (1)

Publication Number Publication Date
CN103942245A true CN103942245A (zh) 2014-07-23

Family

ID=51189913

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410055786.7A Pending CN103942245A (zh) 2014-02-19 2014-02-19 基于元数据的数据抽取方法

Country Status (1)

Country Link
CN (1) CN103942245A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104778236A (zh) * 2015-04-02 2015-07-15 上海烟草集团有限责任公司 一种基于元数据的etl实现方法及***
CN105989162A (zh) * 2015-03-04 2016-10-05 银联商务有限公司 一种上线数据抽取方法及装置
CN106021294A (zh) * 2016-04-30 2016-10-12 华南理工大学 城轨线网接入数据接口处理方法
CN106921614A (zh) * 2015-12-24 2017-07-04 北京国双科技有限公司 业务数据处理方法和装置
CN108255953A (zh) * 2017-12-20 2018-07-06 浪潮软件集团有限公司 一种数据处理方法和处理装置
CN108280147A (zh) * 2018-01-02 2018-07-13 浪潮软件集团有限公司 一种数据管理方法和装置
WO2019019621A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 业务处理方法、装置、服务器和存储介质
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别***
CN111159191A (zh) * 2019-12-30 2020-05-15 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216443A1 (en) * 2000-07-06 2005-09-29 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
CN101364240A (zh) * 2008-10-14 2009-02-11 杭州华三通信技术有限公司 元数据管理方法及装置
US20110295794A1 (en) * 2010-05-28 2011-12-01 Oracle International Corporation System and method for supporting data warehouse metadata extension using an extender
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN102938731A (zh) * 2012-11-22 2013-02-20 北京锐易特软件技术有限公司 一种基于代理缓存适配模型的交换集成装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050216443A1 (en) * 2000-07-06 2005-09-29 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
CN101364240A (zh) * 2008-10-14 2009-02-11 杭州华三通信技术有限公司 元数据管理方法及装置
US20110295794A1 (en) * 2010-05-28 2011-12-01 Oracle International Corporation System and method for supporting data warehouse metadata extension using an extender
CN102902750A (zh) * 2012-09-20 2013-01-30 浪潮齐鲁软件产业有限公司 一种通用的数据抽取转换方法
CN102938731A (zh) * 2012-11-22 2013-02-20 北京锐易特软件技术有限公司 一种基于代理缓存适配模型的交换集成装置及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周茂伟等: "基于元数据的ETL工具设计与实现", 《科学技术与工程》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105989162A (zh) * 2015-03-04 2016-10-05 银联商务有限公司 一种上线数据抽取方法及装置
CN105989162B (zh) * 2015-03-04 2020-01-31 银联商务有限公司 一种上线数据抽取方法及装置
CN104778236A (zh) * 2015-04-02 2015-07-15 上海烟草集团有限责任公司 一种基于元数据的etl实现方法及***
CN106921614A (zh) * 2015-12-24 2017-07-04 北京国双科技有限公司 业务数据处理方法和装置
CN106021294A (zh) * 2016-04-30 2016-10-12 华南理工大学 城轨线网接入数据接口处理方法
WO2019019621A1 (zh) * 2017-07-25 2019-01-31 平安科技(深圳)有限公司 业务处理方法、装置、服务器和存储介质
CN108255953A (zh) * 2017-12-20 2018-07-06 浪潮软件集团有限公司 一种数据处理方法和处理装置
CN108280147A (zh) * 2018-01-02 2018-07-13 浪潮软件集团有限公司 一种数据管理方法和装置
CN110851559A (zh) * 2019-10-14 2020-02-28 中科曙光南京研究院有限公司 数据元自动识别方法和识别***
CN111159191A (zh) * 2019-12-30 2020-05-15 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面
CN111159191B (zh) * 2019-12-30 2023-05-09 深圳博沃智慧科技有限公司 一种数据处理方法、装置和界面

Similar Documents

Publication Publication Date Title
CN103942245A (zh) 基于元数据的数据抽取方法
US20140351285A1 (en) Platform and method for analyzing electric power system data
JP2014002519A (ja) 時空間データ管理システム、時空間データ管理方法、及びそのプログラム
CN107729399B (zh) 数据处理的方法和装置
CN104394118A (zh) 一种用户身份识别方法及***
CN103970853A (zh) 优化搜索引擎的方法及装置
JP2007011548A (ja) データ集合分割プログラム、データ集合分割装置、およびデータ集合分割方法
CN109508355A (zh) 一种数据抽取方法、***及终端设备
CN105224377A (zh) 一种通过元数据自动生成软件项目编码文件的方法及装置
CN106126601A (zh) 一种社保大数据分布式预处理方法及***
CN104978324B (zh) 一种数据处理方法和装置
CN105205105A (zh) 一种基于storm的数据ETL***及处理方法
CN103234549B (zh) 一种用于更新地图的差分数据生成方法
CN104965886A (zh) 数据维度处理方法
CN103903086A (zh) 一种基于业务模型驱动的管理信息***开发方法及***
CN104657387A (zh) 一种数据查询方法及装置
CN104281891A (zh) 一种时间序列数据挖掘方法及***
CN106649718B (zh) 一种用于pdm***的大数据采集与处理方法
CN107526746A (zh) 管理文档索引的方法和设备
CN104484460A (zh) 一种分布式文件***元数据热度统计方法
CN105574660A (zh) 供应商评价分析***
CN104462361A (zh) 一种匹配数据表中数据的方法和装置
CN103678682A (zh) 基于抽象模板的海量栅格数据处理及管理方法
CN112328592A (zh) 数据存储方法、电子设备及计算机可读存储介质
CN104462462B (zh) 基于业务变化频度的数据仓库建模方法和建模装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140723