CN110807026A - 一种用于分析金融大数据血缘关系的自动化捕获*** - Google Patents

一种用于分析金融大数据血缘关系的自动化捕获*** Download PDF

Info

Publication number
CN110807026A
CN110807026A CN201911015208.XA CN201911015208A CN110807026A CN 110807026 A CN110807026 A CN 110807026A CN 201911015208 A CN201911015208 A CN 201911015208A CN 110807026 A CN110807026 A CN 110807026A
Authority
CN
China
Prior art keywords
node
data
information
big data
analyzing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911015208.XA
Other languages
English (en)
Inventor
万洋
吴非
何坚
薛小朋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongke Jiexin Information Technology Co Ltd
Original Assignee
Beijing Zhongke Jiexin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongke Jiexin Information Technology Co Ltd filed Critical Beijing Zhongke Jiexin Information Technology Co Ltd
Priority to CN201911015208.XA priority Critical patent/CN110807026A/zh
Publication of CN110807026A publication Critical patent/CN110807026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/221Column-oriented storage; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明提供了一种用于分析金融大数据血缘关系的自动化捕获***,该用于分析金融大数据血缘关系的自动化捕获***包括:大数据平台节点采集:用于采集信息节点;节点解析单元:用于解析获取的所述信息节点,以获取主节点、数据流出节点以及数据流入节点;节点清洗单元:用于解析非多源异构数据;大数据平台节点存储:包括所述信息节点存储、过程关系存储及关系信息索引建立;所述信息节点关系可视化,即数据血缘地图。本发明方法能够实现对大数据基础平台HIVE、FALCON、SQOOP等组件的数据模型创建、变更、转换等过程血缘关系建立以及在海量元数据模型中快速捕获,且增加了对海量元数据高效自动建立血缘关系支持的功能。

Description

一种用于分析金融大数据血缘关系的自动化捕获***
技术领域
本发明涉及到金融大数据技术领域,尤其涉及到一种用于分析金融大数据血缘关系的自动化捕获***。
背景技术
大数据时代,数据爆发性增长,海量的、各种类型的数据在快速产生。这些庞大复杂的数据信息,通过联姻融合、转换变换、流转流通,又生成新的数据,汇聚成数据的海洋。
数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。我们借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。与人类社会中的血缘关系不同,数据的血缘关系还包含了一些特有的特征:
1.归属性。一般来说,特定的数据归属特定的组织或者个人,数据具有归属性。
2.多源性。同一个数据可以有多个来源(多个父亲)。一个数据可以是多个数据经过加工而生成的,而且这种加工过程可以是多个。
3.可追溯性。数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。
4.层次性。数据的血缘关系是有层次的。对数据的分类、归纳、总结等对数据进行的描述信息又形成了新的数据,不同程度的描述信息形成了数据的层次。
但单纯的在数据仓库中构建表血缘关系,应用范围狭窄。
发明内容
本发明的目的是为了克服现有技术的不足,提供了一种用于分析金融大数据血缘关系的自动化捕获***。
本发明是通过以下技术方案实现:
本发明提供了一种用于分析金融大数据血缘关系的自动化捕获***,该用于分析金融大数据血缘关系的自动化捕获***包括:大数据平台节点采集:用于采集信息节点;
大数据平台节点存储:包括所述信息节点存储、过程关系存储及关系信息索引建立;
大数据平台节点存储:包括所述信息节点存储、过程关系存储及关系信息索引建立;
节点解析单元:用于解析获取的所述信息节点,以获取主节点、数据流出节点以及数据流入节点;
节点清洗单元:用于解析非多源异构数据;
所述信息节点关系可视化,即数据血缘地图。
优选的,在所述采集节点汇聚阶段,通过数据同步工具来完成所述多源异构数据的解析,所述数据同步工具包括开源框架DataX。
优选的,将所获取的数据的血缘关系持久化到N0SQL分布式数据库中。
优选的,所述血缘地图的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。
优选的,在所述采集节点中存在需要被替换的参数,则所述节点解析单元替换所述参数,以获取数据流入节点集合和数据流出节点集合;
还包括血缘关系获取模块,其从所述节点解析模块所获取的所述数据流入节点集合和所述数据流出节点集合做笛卡尔积,以获取数据的血缘关系。
本发明的实施例通过解析任务语句来构建数据血缘关系图,能够解析多级别的血缘关系,还能够实现多源异构血缘的解析。且实现了对大数据基础平台HIVE、HBASE、SQOOP、FALCON等血缘关系建立和追溯。
附图说明
图1是本发明实施例提供的用于分析金融大数据血缘关系的自动化捕获***的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
一并参阅图1,本申请的用于分析金融大数据血缘关系的自动化捕获***包括:
大数据平台节点采集:用于采集信息节点;通过预埋钩子HOOK,实时监听收集大数据平台组件模型相关操作过程。
大数据平台节点存储:包括信息节点存储、过程关系存储及关系信息索引建立;本提案采用HBASE+ELASTICSEARCH存储元数据关系和实体信息,采用SCHMEALESS方式,无需关心不同平台的元数据实体和实体规则模型结构信息。统一的存储模型能最大限度的支撑不同业务领域具有不同属性信息元数据;可以支撑海量数据接入,并保障灵活的水平扩展;同时,提供了全文检索特性,可以实现元数据实体快熟定位及高效的血缘追溯。并将所获取的数据的血缘关系持久化到N0SQL分布式数据库中。
节点解析单元:用于解析获取的信息节点,以获取主节点、数据流出节点以及数据流入节点;在采集节点汇聚阶段,通过数据同步工具来完成多源异构数据的解析,数据同步工具包括开源框架DataX。在采集节点中存在需要被替换的参数,则节点解析单元替换参数,以获取数据流入节点集合和数据流出节点集合;
还包括血缘关系获取模块,其从节点解析模块所获取的数据流入节点集合和数据流出节点集合做笛卡尔积,以获取数据的血缘关系。
节点清洗单元:用于解析非多源异构数据;清洗规则节点用来表现数据流转过程中的筛选标准。大量的数据分布在不同的地方,每个地方对数据质量的要求都有所不同,数据接受方会根据自己对数据的要求来过滤接入的数据,这些要求就形成数据标准,并依据这些标准来做数据清洗。清洗规则可能会有多种。例如要求不能是空值、要求符合某种格式。在可视化图形上,清洗规则用一个标有大写字母“E”的圆圈表示,把各种规则简略化表达,以保证图形的简洁、清晰。查看规则内容的操作也很简单,鼠标移动到标有大写字母“E”的圆圈上,则会自动展示标准清单列表。
信息节点关系可视化,即数据血缘地图。血缘地图的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。只有通过可视化,血缘关系才能很清晰地展现在用户面前。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种用于分析金融大数据血缘关系的自动化捕获***,其特征在于,包括:
大数据平台节点采集:用于采集信息节点;
大数据平台节点存储:包括所述信息节点存储、过程关系存储及关系信息索引建立;
节点解析单元:用于解析获取的所述信息节点,以获取主节点、数据流出节点以及数据流入节点;
节点清洗单元:用于解析非多源异构数据;
所述信息节点关系可视化,即数据血缘地图。
2.根据权利要求1所述的用于分析金融大数据血缘关系的自动化捕获***,其特征在于,在所述采集节点汇聚阶段,通过数据同步工具来完成所述多源异构数据的解析,所述数据同步工具包括开源框架DataX。
3.根据权利要求2所述的用于分析金融大数据血缘关系的自动化捕获***,其特征在于,将所获取的数据的血缘关系持久化到N0SQL分布式数据库中。
4.根据权利要求1所述的用于分析金融大数据血缘关系的自动化捕获***,其特征在于,所述血缘地图的可视化技术采用D3,通过内置的多种接口可以快速实现血缘关系图高效渲染。
5.根据权利要求1所述的用于分析金融大数据血缘关系的自动化捕获***,其特征在于,在所述采集节点中存在需要被替换的参数,则所述节点解析单元替换所述参数,以获取数据流入节点集合和数据流出节点集合;
还包括血缘关系获取模块,其从所述节点解析模块所获取的所述数据流入节点集合和所述数据流出节点集合做笛卡尔积,以获取数据的血缘关系。
CN201911015208.XA 2019-10-24 2019-10-24 一种用于分析金融大数据血缘关系的自动化捕获*** Pending CN110807026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911015208.XA CN110807026A (zh) 2019-10-24 2019-10-24 一种用于分析金融大数据血缘关系的自动化捕获***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911015208.XA CN110807026A (zh) 2019-10-24 2019-10-24 一种用于分析金融大数据血缘关系的自动化捕获***

Publications (1)

Publication Number Publication Date
CN110807026A true CN110807026A (zh) 2020-02-18

Family

ID=69489034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911015208.XA Pending CN110807026A (zh) 2019-10-24 2019-10-24 一种用于分析金融大数据血缘关系的自动化捕获***

Country Status (1)

Country Link
CN (1) CN110807026A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723253A (zh) * 2020-05-25 2020-09-29 贵州华泰智远大数据服务有限公司 一种基于图数据库的数据血缘查询方法及查询***
CN112100201A (zh) * 2020-09-30 2020-12-18 东莞市盟大塑化科技有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112732987A (zh) * 2020-12-31 2021-04-30 北京百分点科技集团股份有限公司 一种全生命周期数据地图生成***、方法
CN113282678A (zh) * 2021-03-30 2021-08-20 杭州数梦工场科技有限公司 数据血缘关系展示方法及装置
CN113722310A (zh) * 2021-09-16 2021-11-30 北京航空航天大学 一种血缘信息可视化表示方法
CN113868253A (zh) * 2021-09-28 2021-12-31 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN115203179A (zh) * 2022-05-16 2022-10-18 北京航空航天大学 一种数据清洗方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138160A1 (en) * 2003-08-28 2005-06-23 Accenture Global Services Gmbh Capture, aggregation and/or visualization of structural data of architectures
CN108228747A (zh) * 2017-12-20 2018-06-29 江苏数加数据科技有限责任公司 数据治理中的数据血缘关系可视化图形***
CN109684402A (zh) * 2018-12-21 2019-04-26 福建南威软件有限公司 一种基于大数据平台元数据血缘关系实现方法
CN109710703A (zh) * 2019-01-03 2019-05-03 北京顺丰同城科技有限公司 一种血缘关系网络的生成方法及装置
CN110019315A (zh) * 2018-06-19 2019-07-16 杭州数澜科技有限公司 一种用于数据血缘解析的方法和装置
CN110019384A (zh) * 2017-08-15 2019-07-16 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050138160A1 (en) * 2003-08-28 2005-06-23 Accenture Global Services Gmbh Capture, aggregation and/or visualization of structural data of architectures
CN110019384A (zh) * 2017-08-15 2019-07-16 阿里巴巴集团控股有限公司 一种血缘数据的获取方法、提供血缘数据的方法及装置
CN108228747A (zh) * 2017-12-20 2018-06-29 江苏数加数据科技有限责任公司 数据治理中的数据血缘关系可视化图形***
CN110019315A (zh) * 2018-06-19 2019-07-16 杭州数澜科技有限公司 一种用于数据血缘解析的方法和装置
CN109684402A (zh) * 2018-12-21 2019-04-26 福建南威软件有限公司 一种基于大数据平台元数据血缘关系实现方法
CN109710703A (zh) * 2019-01-03 2019-05-03 北京顺丰同城科技有限公司 一种血缘关系网络的生成方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张岩等: "商业银行信息***中"血缘分析"技术的应用研究", 《信息技术与信息化》 *
金泳: "基于数据仓库的数据血缘管理研究", 《轻工科技》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723253A (zh) * 2020-05-25 2020-09-29 贵州华泰智远大数据服务有限公司 一种基于图数据库的数据血缘查询方法及查询***
CN112100201A (zh) * 2020-09-30 2020-12-18 东莞市盟大塑化科技有限公司 基于大数据技术的数据监测方法、装置、设备和存储介质
CN112732987A (zh) * 2020-12-31 2021-04-30 北京百分点科技集团股份有限公司 一种全生命周期数据地图生成***、方法
CN112732987B (zh) * 2020-12-31 2022-12-06 北京百分点科技集团股份有限公司 一种全生命周期数据地图生成***、方法
CN113282678A (zh) * 2021-03-30 2021-08-20 杭州数梦工场科技有限公司 数据血缘关系展示方法及装置
CN113722310A (zh) * 2021-09-16 2021-11-30 北京航空航天大学 一种血缘信息可视化表示方法
CN113868253A (zh) * 2021-09-28 2021-12-31 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN113868253B (zh) * 2021-09-28 2024-04-23 中通服创立信息科技有限责任公司 一种数据关系捕获及大数据关系树构建方法
CN115203179A (zh) * 2022-05-16 2022-10-18 北京航空航天大学 一种数据清洗方法及装置

Similar Documents

Publication Publication Date Title
CN110807026A (zh) 一种用于分析金融大数据血缘关系的自动化捕获***
CN107886238B (zh) 一种基于海量数据分析的业务流程管理***及方法
CN107315776B (zh) 一种基于云计算的数据管理***
US9960974B2 (en) Dependency mapping among a system of servers, analytics and visualization thereof
CN117056867B (zh) 一种可用于数字孪生的多源异构数据融合方法及***
CN111125068A (zh) 一种元数据治理方法和***
US8799859B2 (en) Augmented design structure matrix visualizations for software system analysis
CN112181960B (zh) 一种基于AIOps的智能运维框架***
CN106649718B (zh) 一种用于pdm***的大数据采集与处理方法
CN112527791A (zh) 一种城市大脑智能大数据***
CN109684402A (zh) 一种基于大数据平台元数据血缘关系实现方法
CN112579563B (zh) 一种基于电网大数据的数仓可视化建模***及方法
CN103842973A (zh) 监视存储过程的执行
CN113987139A (zh) 一种基于知识图谱的航空发动机fadec***软件缺陷案例可视化查询管理***
CN116991931A (zh) 一种元数据管理方法和***
Taleghani Executive information systems development lifecycle
Dobson et al. A reference architecture and model for sensor data warehousing
CN112634004B (zh) 征信数据的血缘图谱分析方法与***
Duan et al. Visualization and analysis in automated trace retrieval
CN112363996A (zh) 用于建立电网知识图谱的物理模型的方法及***和介质
CN116596412A (zh) 人才类型画像的实现方法及***
CN111414355A (zh) 一种海上风电场数据监测存储***及方法、装置
CN117009441A (zh) 基于关系型数据库的知识图谱构建***及方法
CN116028574A (zh) 政府全生命周期大数据管理***及其方法
CN115330168A (zh) 一种基于数据世系的检务流程异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200218

WD01 Invention patent application deemed withdrawn after publication