CN104142980B - 基于大数据的元数据模型管理***和管理方法 - Google Patents

基于大数据的元数据模型管理***和管理方法 Download PDF

Info

Publication number
CN104142980B
CN104142980B CN201410336111.XA CN201410336111A CN104142980B CN 104142980 B CN104142980 B CN 104142980B CN 201410336111 A CN201410336111 A CN 201410336111A CN 104142980 B CN104142980 B CN 104142980B
Authority
CN
China
Prior art keywords
metadata
data
data source
schema
metadata schema
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410336111.XA
Other languages
English (en)
Other versions
CN104142980A (zh
Inventor
闵圣捷
谢朝阳
童晓渝
王慧
赵斌
靳永超
邹云
丁星
武静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd filed Critical CLP SECTION HUAYUN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201410336111.XA priority Critical patent/CN104142980B/zh
Publication of CN104142980A publication Critical patent/CN104142980A/zh
Application granted granted Critical
Publication of CN104142980B publication Critical patent/CN104142980B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于大数据的元数据模型管理***和管理方法,该管理方法包括以下步骤:步骤一,判断大数据的数据源结构的类型;步骤二,对结构化数据源进行元数据抽取后,执行步骤四;步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;步骤四,定义抽取后的元数据的关系,并形成与之对应的元数据模型,执行步骤五;步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据。本发明实现管理不同类型的数据,能够在异构数据源之上构建统一的元数据体系,并提供对该体系的存储、管理和使用的功能。

Description

基于大数据的元数据模型管理***和管理方法
技术领域
本发明涉及一种电信技术领域的元数据模型管理***和管理方法,具体地,涉及一种基于大数据的元数据模型管理***和管理方法。
背景技术
人们用大数据来描述和定义信息***时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据***性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
大数据时代对人类的数据驾驭能力提出了新的挑战,随着物联网与移动终端持续不断的产生大量数据,并且数据类型丰富,而怎么管理这些不同类型的数据就成为了一个困难的问题。本发明基于大数据的元数据模型管理方法就是为了适应这样的环境,解决大数据不同类型的管理问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于大数据的元数据模型管理***和管理方法,其实现管理不同类型的数据,能够在异构数据源之上构建统一的元数据体系,并提供对该体系的存储、管理和使用的功能。
根据本发明的一个方面,提供一种基于大数据的元数据模型管理方法,其特征在于,其包括以下步骤:步骤一,判断大数据的数据源结构的类型,即判断是结构化数据源还是非结构化数据源,若是结构化数据源则执行步骤二,若是非结构化数据源则执行步骤三;步骤二,对结构化数据源进行元数据抽取后,执行步骤四;步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;步骤四,定义抽取后的元数据的关系,并形成与之对应的元数据模型,执行步骤五;步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据。
优选地,所述结构化数据源包含关系数据库和文件形式,非结构化数据源包括NOSQL数据库。
优选地,所述步骤二和步骤三通过手动提取用户自定义的元数据,并将元数据格式转换成符合JSON数据规范的格式。
优选地,所述步骤五首先解析元数据模型的JSON数据格式,将此数据格式解析变成节点、节点关系的图形识别方式的数据格式,然后将节点、节点关系存储到图形数据库中。
本发明还提供一种基于大数据的元数据模型管理***,其特征在于,其包括:
判断模块,用于判断大数据的数据源结构的类型;
抽取模块,用于对结构化数据源或对非结构化数据源进行元数据抽取;
模型定义和形成模块,用于定义抽取后的元数据的关系,并形成与之对应的元数据模型;
存储模块,将模型定义和形成模块的元数据模型存储在数据库中;
发布模块,用于对元数据进行发布。
与现有技术相比,本发明具有如下的有益效果:一,本发明直接根据业务需求对不同类型,不同地理位置数据库之间元数据信息进行抽取,合并,共享,融合以及进行元数据数据建模的异构处理,异构处理是基于结构化数据源和非结构化数据源进行有效管理。二,本发明为海量数据的挖掘和分析提供基础统一数据标准,并为构建行业语义库奠定基础。三,本发明为用户提供整套完整的元数据管理功能。四,本发明为大数据处理实现快速,高效,精准的元数据以及元数据模型存储功能。五,图形方式存储元数据模型的模式能够达到查询速度快速,展示效果清晰,这种展示效果清晰的展示了元数据数据模型的建立过程和模型扩展的过程。六,本发明为大数据处理建立了统一,稳定的元数据数据仓库。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于大数据的元数据模型管理方法的流程图。
图2为本发明基于大数据的元数据模型管理***的原理框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明基于大数据的元数据模型管理方法包括以下步骤:
步骤一,判断大数据的数据源结构的类型,即判断是结构化数据源还是非结构化数据源,若是结构化数据源则执行步骤二,若是非结构化数据源则执行步骤三;结构化数据源包含关系数据库和文件形式,关系数据库如ORACLE、MYSQL、DB2;文件形式如CSV、XLSX等。非结构化数据源包括NOSQL(泛指非关系型的数据库)数据库。步骤一具体由判断模块来判断大数据的数据源结构的类型,结构化数据源的特点是根据结构化数据特性即用二维表结构来逻辑实现数据这一特点来制定数据源语义类型标准,而非结构化数据源特点根据非结构化数据源特性即文档,图片,报表,图像,音频等制定数据源语义类型标准。
步骤二,对结构化数据源进行元数据抽取后,执行步骤四;步骤二具体是由抽取模块对结构化数据源进行元数据抽取;
步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;步骤三具体是由抽取模块对结构化数据源进行元数据抽取;
步骤四,定义抽取后的元数据的关系并形成与之对应的元数据模型,执行步骤五;步骤四具体是通过元数据数据建模来定义抽取后的不同元数据之间的各种关系,由不同业务建立不同关系,从而通过这种不同元数据以及其各种关系形成与之对应的元数据模型;步骤四具体是由模型定义和形成模块完成;
步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;步骤五具体是由存储模块完成;
步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据。步骤六具体是由发布模块完成。
其中,步骤二和步骤三通过手动提取用户自定义的元数据,并将元数据格式转换成符合JSON(JavaScript Object Notation,是一种轻量级的数据交换格式)数据规范的格式,这种数据规范的好处是定义元数据的语义标准,避免语义冲突。步骤五首先解析元数据模型的JSON数据格式,将此数据格式解析变成节点、节点关系的图形识别方式的数据格式,然后将节点、节点关系存储到图形数据库中。元数据是一种二进制信息,是对数据及信息资源的描述性信息。
如图2所示,本发明基于大数据的元数据模型管理***包括:
判断模块,用于判断大数据的数据源结构的类型;
抽取模块,用于对结构化数据源或对非结构化数据源进行元数据抽取;
模型定义和形成模块,用于定义抽取后的元数据的关系,并形成与之对应的元数据模型;
存储模块,将模型定义和形成模块的元数据模型存储在数据库中;
发布模块,用于对元数据进行发布。
综上所述,本发明实现管理不同类型的数据,能够在异构数据源之上构建统一的元数据体系,这种元数据体系包含有异构元数据的抽取、建模、存储、查询以及管理等。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

Claims (1)

1.一种基于大数据的元数据模型管理方法,其特征在于,其包括以下步骤:
步骤一,判断大数据的数据源结构的类型,即判断是结构化数据源还是非结构化数据源,若是结构化数据源则执行步骤二,若是非结构化数据源则执行步骤三;
步骤二,对结构化数据源进行元数据抽取后,执行步骤四;
步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;
步骤四,定义抽取后的元数据的关系,并形成与之对应的元数据模型,执行步骤五;
步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;
步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据;
所述结构化数据源包含关系数据库和文件形式,非结构化数据源包括NOSQL数据库;
所述步骤二和步骤三通过手动提取用户自定义的元数据,并将元数据格式转换成符合JSON数据规范的格式;
所述步骤五首先解析元数据模型的JSON数据格式,将此数据格式解析变成节点、节点关系的图形识别方式的数据格式,然后将节点、节点关系存储到图形数据库中。
CN201410336111.XA 2014-07-15 2014-07-15 基于大数据的元数据模型管理***和管理方法 Expired - Fee Related CN104142980B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410336111.XA CN104142980B (zh) 2014-07-15 2014-07-15 基于大数据的元数据模型管理***和管理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410336111.XA CN104142980B (zh) 2014-07-15 2014-07-15 基于大数据的元数据模型管理***和管理方法

Publications (2)

Publication Number Publication Date
CN104142980A CN104142980A (zh) 2014-11-12
CN104142980B true CN104142980B (zh) 2017-11-17

Family

ID=51852154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410336111.XA Expired - Fee Related CN104142980B (zh) 2014-07-15 2014-07-15 基于大数据的元数据模型管理***和管理方法

Country Status (1)

Country Link
CN (1) CN104142980B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188887A (zh) * 2018-09-26 2019-08-30 第四范式(北京)技术有限公司 面向机器学习的数据管理方法及装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886004B (zh) * 2013-11-29 2017-06-09 北京吉威时代软件股份有限公司 一种资料型数据建模处理方法
CN104580474A (zh) * 2015-01-13 2015-04-29 深圳市融创天下科技有限公司 一种城市运行体征大数据可视化多屏互动呈现平台及方法
CN105574086A (zh) * 2015-12-10 2016-05-11 天津海量信息技术有限公司 对互联网非结构化数据字段的人工智能萃取方法
CN106886535A (zh) * 2015-12-16 2017-06-23 大唐软件技术股份有限公司 一种适配多种数据源的数据抽取方法和装置
CN105701181A (zh) * 2016-01-06 2016-06-22 中电科华云信息技术有限公司 一种动态异构元数据获取方法及***
CN105912636B (zh) * 2016-04-08 2020-04-07 金蝶软件(中国)有限公司 一种基于Map/Reduce的ETL数据处理方法和装置
CN106557569B (zh) * 2016-11-14 2020-07-03 用友网络科技股份有限公司 基于元模型的非结构化文档的导入方法和导入装置
CN108320066A (zh) * 2017-01-18 2018-07-24 重庆邮电大学 一种基于元数据实现不同生产线的统一管理方法
CN108733727B (zh) * 2017-04-25 2021-11-30 华为技术有限公司 一种查询处理方法、数据源注册方法及查询引擎
CN107291875B (zh) * 2017-06-19 2019-12-06 华中科技大学 一种基于元数据图的元数据组织管理方法和***
CN107633181B (zh) * 2017-09-12 2021-01-26 复旦大学 面向数据开放共享的数据模型的实现方法及其运作***
CN109242259B (zh) * 2018-08-10 2020-12-11 华迪计算机集团有限公司 一种基于基础数据资源库的数据集成方法及***
CN109542960B (zh) * 2018-10-18 2023-03-14 国网内蒙古东部电力有限公司信息通信分公司 一种数据分析域***
CN109710602A (zh) * 2018-12-26 2019-05-03 中科曙光国际信息产业有限公司 数据模型探测方法及装置
CN109739893B (zh) * 2018-12-28 2022-04-22 上海尚往网络科技有限公司 一种元数据管理方法、设备及计算机可读介质
CN109857822A (zh) * 2018-12-29 2019-06-07 国家开发银行 基于图数据库的元模型转换方法及管理***
CN109871417A (zh) * 2018-12-29 2019-06-11 国家开发银行 基于知识图谱的元数据可视化地图构建方法及***
CN110209380B (zh) * 2019-05-30 2020-11-03 上海直真君智科技有限公司 一种面向大数据异构模型的统一动态元数据处理方法
US11703404B2 (en) 2019-06-17 2023-07-18 Colorado State University Research Foundation Device for automated crop root sampling
US11494611B2 (en) 2019-07-31 2022-11-08 International Business Machines Corporation Metadata-based scientific data characterization driven by a knowledge database at scale
CN112115183B (zh) * 2020-09-18 2021-09-21 广州锦行网络科技有限公司 一种基于图的蜜罐***威胁情报分析方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908176A (zh) * 2010-08-02 2010-12-08 国电南瑞科技股份有限公司 一种基于电力信息数据建模及元数据管理应用方法
CN103246753A (zh) * 2013-05-30 2013-08-14 安徽皖通科技股份有限公司 一种根据数据库结构生成实体元数据模型的方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070233680A1 (en) * 2006-03-31 2007-10-04 Microsoft Corporation Auto-generating reports based on metadata

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101908176A (zh) * 2010-08-02 2010-12-08 国电南瑞科技股份有限公司 一种基于电力信息数据建模及元数据管理应用方法
CN103246753A (zh) * 2013-05-30 2013-08-14 安徽皖通科技股份有限公司 一种根据数据库结构生成实体元数据模型的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于 JSON 的电力企业业务***非结构化数据抽取方法;徐小天 等;《华北电力技术》;20131130(第2013年第11期);第32-35页 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188887A (zh) * 2018-09-26 2019-08-30 第四范式(北京)技术有限公司 面向机器学习的数据管理方法及装置
CN110188887B (zh) * 2018-09-26 2022-11-08 第四范式(北京)技术有限公司 面向机器学习的数据管理方法及装置

Also Published As

Publication number Publication date
CN104142980A (zh) 2014-11-12

Similar Documents

Publication Publication Date Title
CN104142980B (zh) 基于大数据的元数据模型管理***和管理方法
CN110941612B (zh) 基于关联数据的自治数据湖构建***及方法
US11036768B2 (en) Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications
Kumar Kaliyar Graph databases: A survey
CN106033439B (zh) 一种分布式事务处理方法及***
CN106202292B (zh) 一种基于结构化数据模型的标准信息分析方法
CN104866593A (zh) 一种基于知识图谱的数据库搜索方法
Gordon What is big data?
CN105975562A (zh) 一种工程图纸的概预算表自动生成方法和装置
CN103116574B (zh) 从自然语言文本挖掘领域过程本体的方法
CN103699638A (zh) 一种基于配置参数实现跨数据库类型同步数据的方法
CN112364046B (zh) 一种基于知识图谱的异构环境下主数据管理方法
US20140046985A1 (en) Storing hierarchical table as a markup language file
US20150293947A1 (en) Validating relationships between entities in a data model
CN103353899A (zh) 一种综合信息精准搜索方法
CN104346466A (zh) 数据库中添加新属性数据的方法和装置
CN104809186A (zh) 模具设计与制造知识库的构建方法
CN111325022A (zh) 识别层级地址的方法和装置
CN104346331A (zh) Xml数据库的检索方法及***
CN104794244B (zh) 一种基于MongoDB实现图转换的方法和装置
CN103425789B (zh) 一种时空数据的查询方法及装置
CN103927402A (zh) 一种控制逻辑图模块化设计管理***实现方法
CN111178083A (zh) 一种bim和gis的语义匹配方法及装置
CN112199488B (zh) 面向电力客服问答的渐增式知识图谱实体抽取方法和***
CN106933844B (zh) 面向大规模rdf数据的可达性查询索引的构建方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20171117

CF01 Termination of patent right due to non-payment of annual fee