CN104142980B - 基于大数据的元数据模型管理***和管理方法 - Google Patents
基于大数据的元数据模型管理***和管理方法 Download PDFInfo
- Publication number
- CN104142980B CN104142980B CN201410336111.XA CN201410336111A CN104142980B CN 104142980 B CN104142980 B CN 104142980B CN 201410336111 A CN201410336111 A CN 201410336111A CN 104142980 B CN104142980 B CN 104142980B
- Authority
- CN
- China
- Prior art keywords
- metadata
- data
- data source
- schema
- metadata schema
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000007726 management method Methods 0.000 title claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004880 explosion Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013497 data interchange Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于大数据的元数据模型管理***和管理方法,该管理方法包括以下步骤:步骤一,判断大数据的数据源结构的类型;步骤二,对结构化数据源进行元数据抽取后,执行步骤四;步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;步骤四,定义抽取后的元数据的关系,并形成与之对应的元数据模型,执行步骤五;步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据。本发明实现管理不同类型的数据,能够在异构数据源之上构建统一的元数据体系,并提供对该体系的存储、管理和使用的功能。
Description
技术领域
本发明涉及一种电信技术领域的元数据模型管理***和管理方法,具体地,涉及一种基于大数据的元数据模型管理***和管理方法。
背景技术
人们用大数据来描述和定义信息***时代产生的海量数据,并命名与之相关的技术发展与创新。数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然现在企业可能并没有意识到数据***性增长带来问题的隐患,但是随着时间的推移,人们将越来越多的意识到数据对企业的重要性。
大数据时代对人类的数据驾驭能力提出了新的挑战,随着物联网与移动终端持续不断的产生大量数据,并且数据类型丰富,而怎么管理这些不同类型的数据就成为了一个困难的问题。本发明基于大数据的元数据模型管理方法就是为了适应这样的环境,解决大数据不同类型的管理问题。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种基于大数据的元数据模型管理***和管理方法,其实现管理不同类型的数据,能够在异构数据源之上构建统一的元数据体系,并提供对该体系的存储、管理和使用的功能。
根据本发明的一个方面,提供一种基于大数据的元数据模型管理方法,其特征在于,其包括以下步骤:步骤一,判断大数据的数据源结构的类型,即判断是结构化数据源还是非结构化数据源,若是结构化数据源则执行步骤二,若是非结构化数据源则执行步骤三;步骤二,对结构化数据源进行元数据抽取后,执行步骤四;步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;步骤四,定义抽取后的元数据的关系,并形成与之对应的元数据模型,执行步骤五;步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据。
优选地,所述结构化数据源包含关系数据库和文件形式,非结构化数据源包括NOSQL数据库。
优选地,所述步骤二和步骤三通过手动提取用户自定义的元数据,并将元数据格式转换成符合JSON数据规范的格式。
优选地,所述步骤五首先解析元数据模型的JSON数据格式,将此数据格式解析变成节点、节点关系的图形识别方式的数据格式,然后将节点、节点关系存储到图形数据库中。
本发明还提供一种基于大数据的元数据模型管理***,其特征在于,其包括:
判断模块,用于判断大数据的数据源结构的类型;
抽取模块,用于对结构化数据源或对非结构化数据源进行元数据抽取;
模型定义和形成模块,用于定义抽取后的元数据的关系,并形成与之对应的元数据模型;
存储模块,将模型定义和形成模块的元数据模型存储在数据库中;
发布模块,用于对元数据进行发布。
与现有技术相比,本发明具有如下的有益效果:一,本发明直接根据业务需求对不同类型,不同地理位置数据库之间元数据信息进行抽取,合并,共享,融合以及进行元数据数据建模的异构处理,异构处理是基于结构化数据源和非结构化数据源进行有效管理。二,本发明为海量数据的挖掘和分析提供基础统一数据标准,并为构建行业语义库奠定基础。三,本发明为用户提供整套完整的元数据管理功能。四,本发明为大数据处理实现快速,高效,精准的元数据以及元数据模型存储功能。五,图形方式存储元数据模型的模式能够达到查询速度快速,展示效果清晰,这种展示效果清晰的展示了元数据数据模型的建立过程和模型扩展的过程。六,本发明为大数据处理建立了统一,稳定的元数据数据仓库。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明基于大数据的元数据模型管理方法的流程图。
图2为本发明基于大数据的元数据模型管理***的原理框图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
如图1所示,本发明基于大数据的元数据模型管理方法包括以下步骤:
步骤一,判断大数据的数据源结构的类型,即判断是结构化数据源还是非结构化数据源,若是结构化数据源则执行步骤二,若是非结构化数据源则执行步骤三;结构化数据源包含关系数据库和文件形式,关系数据库如ORACLE、MYSQL、DB2;文件形式如CSV、XLSX等。非结构化数据源包括NOSQL(泛指非关系型的数据库)数据库。步骤一具体由判断模块来判断大数据的数据源结构的类型,结构化数据源的特点是根据结构化数据特性即用二维表结构来逻辑实现数据这一特点来制定数据源语义类型标准,而非结构化数据源特点根据非结构化数据源特性即文档,图片,报表,图像,音频等制定数据源语义类型标准。
步骤二,对结构化数据源进行元数据抽取后,执行步骤四;步骤二具体是由抽取模块对结构化数据源进行元数据抽取;
步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;步骤三具体是由抽取模块对结构化数据源进行元数据抽取;
步骤四,定义抽取后的元数据的关系并形成与之对应的元数据模型,执行步骤五;步骤四具体是通过元数据数据建模来定义抽取后的不同元数据之间的各种关系,由不同业务建立不同关系,从而通过这种不同元数据以及其各种关系形成与之对应的元数据模型;步骤四具体是由模型定义和形成模块完成;
步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;步骤五具体是由存储模块完成;
步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据。步骤六具体是由发布模块完成。
其中,步骤二和步骤三通过手动提取用户自定义的元数据,并将元数据格式转换成符合JSON(JavaScript Object Notation,是一种轻量级的数据交换格式)数据规范的格式,这种数据规范的好处是定义元数据的语义标准,避免语义冲突。步骤五首先解析元数据模型的JSON数据格式,将此数据格式解析变成节点、节点关系的图形识别方式的数据格式,然后将节点、节点关系存储到图形数据库中。元数据是一种二进制信息,是对数据及信息资源的描述性信息。
如图2所示,本发明基于大数据的元数据模型管理***包括:
判断模块,用于判断大数据的数据源结构的类型;
抽取模块,用于对结构化数据源或对非结构化数据源进行元数据抽取;
模型定义和形成模块,用于定义抽取后的元数据的关系,并形成与之对应的元数据模型;
存储模块,将模型定义和形成模块的元数据模型存储在数据库中;
发布模块,用于对元数据进行发布。
综上所述,本发明实现管理不同类型的数据,能够在异构数据源之上构建统一的元数据体系,这种元数据体系包含有异构元数据的抽取、建模、存储、查询以及管理等。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (1)
1.一种基于大数据的元数据模型管理方法,其特征在于,其包括以下步骤:
步骤一,判断大数据的数据源结构的类型,即判断是结构化数据源还是非结构化数据源,若是结构化数据源则执行步骤二,若是非结构化数据源则执行步骤三;
步骤二,对结构化数据源进行元数据抽取后,执行步骤四;
步骤三,对非结构化数据源进行元数据抽取后,执行步骤四;
步骤四,定义抽取后的元数据的关系,并形成与之对应的元数据模型,执行步骤五;
步骤五,将形成的元数据模型以图形方式存储在数据库中,执行步骤六;
步骤六,根据定义好的元数据模型,按照业务需求对元数据进行发布,以提供外部***使用元数据;
所述结构化数据源包含关系数据库和文件形式,非结构化数据源包括NOSQL数据库;
所述步骤二和步骤三通过手动提取用户自定义的元数据,并将元数据格式转换成符合JSON数据规范的格式;
所述步骤五首先解析元数据模型的JSON数据格式,将此数据格式解析变成节点、节点关系的图形识别方式的数据格式,然后将节点、节点关系存储到图形数据库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410336111.XA CN104142980B (zh) | 2014-07-15 | 2014-07-15 | 基于大数据的元数据模型管理***和管理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410336111.XA CN104142980B (zh) | 2014-07-15 | 2014-07-15 | 基于大数据的元数据模型管理***和管理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104142980A CN104142980A (zh) | 2014-11-12 |
CN104142980B true CN104142980B (zh) | 2017-11-17 |
Family
ID=51852154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410336111.XA Expired - Fee Related CN104142980B (zh) | 2014-07-15 | 2014-07-15 | 基于大数据的元数据模型管理***和管理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104142980B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188887A (zh) * | 2018-09-26 | 2019-08-30 | 第四范式(北京)技术有限公司 | 面向机器学习的数据管理方法及装置 |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886004B (zh) * | 2013-11-29 | 2017-06-09 | 北京吉威时代软件股份有限公司 | 一种资料型数据建模处理方法 |
CN104580474A (zh) * | 2015-01-13 | 2015-04-29 | 深圳市融创天下科技有限公司 | 一种城市运行体征大数据可视化多屏互动呈现平台及方法 |
CN105574086A (zh) * | 2015-12-10 | 2016-05-11 | 天津海量信息技术有限公司 | 对互联网非结构化数据字段的人工智能萃取方法 |
CN106886535A (zh) * | 2015-12-16 | 2017-06-23 | 大唐软件技术股份有限公司 | 一种适配多种数据源的数据抽取方法和装置 |
CN105701181A (zh) * | 2016-01-06 | 2016-06-22 | 中电科华云信息技术有限公司 | 一种动态异构元数据获取方法及*** |
CN105912636B (zh) * | 2016-04-08 | 2020-04-07 | 金蝶软件(中国)有限公司 | 一种基于Map/Reduce的ETL数据处理方法和装置 |
CN106557569B (zh) * | 2016-11-14 | 2020-07-03 | 用友网络科技股份有限公司 | 基于元模型的非结构化文档的导入方法和导入装置 |
CN108320066A (zh) * | 2017-01-18 | 2018-07-24 | 重庆邮电大学 | 一种基于元数据实现不同生产线的统一管理方法 |
CN108733727B (zh) * | 2017-04-25 | 2021-11-30 | 华为技术有限公司 | 一种查询处理方法、数据源注册方法及查询引擎 |
CN107291875B (zh) * | 2017-06-19 | 2019-12-06 | 华中科技大学 | 一种基于元数据图的元数据组织管理方法和*** |
CN107633181B (zh) * | 2017-09-12 | 2021-01-26 | 复旦大学 | 面向数据开放共享的数据模型的实现方法及其运作*** |
CN109242259B (zh) * | 2018-08-10 | 2020-12-11 | 华迪计算机集团有限公司 | 一种基于基础数据资源库的数据集成方法及*** |
CN109542960B (zh) * | 2018-10-18 | 2023-03-14 | 国网内蒙古东部电力有限公司信息通信分公司 | 一种数据分析域*** |
CN109710602A (zh) * | 2018-12-26 | 2019-05-03 | 中科曙光国际信息产业有限公司 | 数据模型探测方法及装置 |
CN109739893B (zh) * | 2018-12-28 | 2022-04-22 | 上海尚往网络科技有限公司 | 一种元数据管理方法、设备及计算机可读介质 |
CN109857822A (zh) * | 2018-12-29 | 2019-06-07 | 国家开发银行 | 基于图数据库的元模型转换方法及管理*** |
CN109871417A (zh) * | 2018-12-29 | 2019-06-11 | 国家开发银行 | 基于知识图谱的元数据可视化地图构建方法及*** |
CN110209380B (zh) * | 2019-05-30 | 2020-11-03 | 上海直真君智科技有限公司 | 一种面向大数据异构模型的统一动态元数据处理方法 |
US11703404B2 (en) | 2019-06-17 | 2023-07-18 | Colorado State University Research Foundation | Device for automated crop root sampling |
US11494611B2 (en) | 2019-07-31 | 2022-11-08 | International Business Machines Corporation | Metadata-based scientific data characterization driven by a knowledge database at scale |
CN112115183B (zh) * | 2020-09-18 | 2021-09-21 | 广州锦行网络科技有限公司 | 一种基于图的蜜罐***威胁情报分析方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908176A (zh) * | 2010-08-02 | 2010-12-08 | 国电南瑞科技股份有限公司 | 一种基于电力信息数据建模及元数据管理应用方法 |
CN103246753A (zh) * | 2013-05-30 | 2013-08-14 | 安徽皖通科技股份有限公司 | 一种根据数据库结构生成实体元数据模型的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070233680A1 (en) * | 2006-03-31 | 2007-10-04 | Microsoft Corporation | Auto-generating reports based on metadata |
-
2014
- 2014-07-15 CN CN201410336111.XA patent/CN104142980B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101908176A (zh) * | 2010-08-02 | 2010-12-08 | 国电南瑞科技股份有限公司 | 一种基于电力信息数据建模及元数据管理应用方法 |
CN103246753A (zh) * | 2013-05-30 | 2013-08-14 | 安徽皖通科技股份有限公司 | 一种根据数据库结构生成实体元数据模型的方法 |
Non-Patent Citations (1)
Title |
---|
基于 JSON 的电力企业业务***非结构化数据抽取方法;徐小天 等;《华北电力技术》;20131130(第2013年第11期);第32-35页 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188887A (zh) * | 2018-09-26 | 2019-08-30 | 第四范式(北京)技术有限公司 | 面向机器学习的数据管理方法及装置 |
CN110188887B (zh) * | 2018-09-26 | 2022-11-08 | 第四范式(北京)技术有限公司 | 面向机器学习的数据管理方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN104142980A (zh) | 2014-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104142980B (zh) | 基于大数据的元数据模型管理***和管理方法 | |
CN110941612B (zh) | 基于关联数据的自治数据湖构建***及方法 | |
US11036768B2 (en) | Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications | |
Kumar Kaliyar | Graph databases: A survey | |
CN106033439B (zh) | 一种分布式事务处理方法及*** | |
CN106202292B (zh) | 一种基于结构化数据模型的标准信息分析方法 | |
CN104866593A (zh) | 一种基于知识图谱的数据库搜索方法 | |
Gordon | What is big data? | |
CN105975562A (zh) | 一种工程图纸的概预算表自动生成方法和装置 | |
CN103116574B (zh) | 从自然语言文本挖掘领域过程本体的方法 | |
CN103699638A (zh) | 一种基于配置参数实现跨数据库类型同步数据的方法 | |
CN112364046B (zh) | 一种基于知识图谱的异构环境下主数据管理方法 | |
US20140046985A1 (en) | Storing hierarchical table as a markup language file | |
US20150293947A1 (en) | Validating relationships between entities in a data model | |
CN103353899A (zh) | 一种综合信息精准搜索方法 | |
CN104346466A (zh) | 数据库中添加新属性数据的方法和装置 | |
CN104809186A (zh) | 模具设计与制造知识库的构建方法 | |
CN111325022A (zh) | 识别层级地址的方法和装置 | |
CN104346331A (zh) | Xml数据库的检索方法及*** | |
CN104794244B (zh) | 一种基于MongoDB实现图转换的方法和装置 | |
CN103425789B (zh) | 一种时空数据的查询方法及装置 | |
CN103927402A (zh) | 一种控制逻辑图模块化设计管理***实现方法 | |
CN111178083A (zh) | 一种bim和gis的语义匹配方法及装置 | |
CN112199488B (zh) | 面向电力客服问答的渐增式知识图谱实体抽取方法和*** | |
CN106933844B (zh) | 面向大规模rdf数据的可达性查询索引的构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171117 |
|
CF01 | Termination of patent right due to non-payment of annual fee |