CN116991931A - 一种元数据管理方法和*** - Google Patents
一种元数据管理方法和*** Download PDFInfo
- Publication number
- CN116991931A CN116991931A CN202311100573.7A CN202311100573A CN116991931A CN 116991931 A CN116991931 A CN 116991931A CN 202311100573 A CN202311100573 A CN 202311100573A CN 116991931 A CN116991931 A CN 116991931A
- Authority
- CN
- China
- Prior art keywords
- metadata
- analysis
- data
- management
- meta
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000007726 management method Methods 0.000 title claims abstract description 81
- 238000004458 analytical method Methods 0.000 claims abstract description 68
- 239000008280 blood Substances 0.000 claims abstract description 24
- 210000004369 blood Anatomy 0.000 claims abstract description 24
- 238000012544 monitoring process Methods 0.000 claims abstract description 12
- 230000007246 mechanism Effects 0.000 claims abstract description 11
- 238000001303 quality assessment method Methods 0.000 claims abstract description 4
- 238000013523 data management Methods 0.000 claims description 9
- 230000000007 visual effect Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000010835 comparative analysis Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 abstract description 16
- 238000013441 quality evaluation Methods 0.000 abstract description 12
- 230000008569 process Effects 0.000 description 10
- 230000008859 change Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000002708 enhancing effect Effects 0.000 description 4
- 238000012800 visualization Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000000737 periodic effect Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000005211 surface analysis Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种元数据管理方法和***,属于元数据管理技术领域,方法包括:配置元数据采集器;通过元数据采集器采集元数据;对采集到的元数据进行管理,其中,管理方式包括:血缘分析、对比分析、重复性分析和质量评估;通过元模型对采集到的元数据进行维护;对元模型进行管理,其中,管理方式包括:版本管理、扩展定制和血缘分析。在本发明中,通过元数据采集器自动化地采集元数据,提升了元数据的采集效率,避免采用手动采集,降低维护元数据的工作量,减少遗漏和错误的发生。通过对元数据进行血缘分析、对比分析、重复性分析和质量评估,完善数据质量管理,提供全面的数据质量评估和监控机制,有效保证元数据的准确性、完整性和一致性。
Description
技术领域
本发明属于元数据管理技术领域,具体涉及一种元数据管理方法和***。
背景技术
元数据管理是对元数据的新增、发布、查询、变更、删除(下线)等流程进行操作和监管,它加强了对元数据发布前、变更时、下线时等流程的合规性审核,并协调解决关于元数据管理工作的重大事项,保证实施过程合规合理。
当前的元数据管理方法,首先,元数据采集和更新是元数据管理的基础工作,当前元数据管理方法在元数据采集的自动化程度和灵活性上仍有不足,手动采集和维护元数据的工作量大,且容易出现遗漏和错误。其次,在数据质量管理方面的功能还不够完善,缺乏全面的数据质量评估和监控机制,无法有效保证元数据的准确性、完整性和一致性。
发明内容
为了解决当前元数据管理方法在元数据采集的自动化程度和灵活性上仍有不足,手动采集和维护元数据的工作量大,且容易出现遗漏和错误,在数据质量管理方面的功能还不够完善,缺乏全面的数据质量评估和监控机制,无法有效保证元数据的准确性、完整性和一致性的技术问题,本发明提供一种元数据管理方法和***。
第一方面
本发明提供了一种元数据管理方法,应用于云数据管理***,包括:
S101:配置元数据采集器;
S102:通过元数据采集器采集元数据;
S103:对采集到的元数据进行管理,其中,管理方式包括:血缘分析、对比分析、重复性分析和质量评估;
S104:通过元模型对采集到的元数据进行维护;
S105:对所述元模型进行管理,其中,管理方式包括:版本管理、扩展定制和血缘分析。
第二方面
本发明提供了一种元数据管理***,用于执行第一方面中的元数据管理方法。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,配置元数据采集器,之后通过元数据采集器自动化地采集元数据,提升了元数据的采集效率,避免采用手动采集,降低维护元数据的工作量,减少遗漏和错误的发生。
(2)在本发明中,通过对元数据进行血缘分析、对比分析、重复性分析和质量评估实现对于元数据的管理,完善数据质量管理,提供全面的数据质量评估和监控机制,有效保证元数据的准确性、完整性和一致性。
(3)在本发明中,通过对元模型进行版本管理、扩展定制和血缘分析实现对于元模型的管理,提升元数据的可理解性和规范性。版本管理确保随着时间的推移,元数据的变更可追溯和管理。扩展定制允许根据业务需求添加新的属性、关系等,使元数据适应变化的业务场景。血缘分析帮助了解数据之间的关联和影响,增强数据的可视化和解释能力。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对本发明的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明提供的一种元数据管理方法的流程示意图。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
为使图面简洁,各图中只示意性地表示出了与发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
在本文中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电连接。可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
另外,在本发明的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例1
在一个实施例中,参考说明书附图1,示出了本发明提供的一种元数据管理方法的流程示意图。
本发明提供的一种元数据管理方法,应用于云数据管理***。
其中,云数据管理***基于湖仓一体技术,打通数据仓库和数据湖,使底层支持多种数据类型并存,实现数据间的相互融合共享。这种融合性的架构突破了传统数据管理的边界,为元数据管理能力的实现提供了更好的基础。湖仓一体技术将传统的数据仓库和数据湖结合在一起,充分发挥各自的优势。数据仓库提供结构化数据存储和管理的能力,适用于关系型数据和规范化数据模式。而数据湖则提供了存储各种数据类型和格式的能力,包括结构化数据、半结构化数据和非结构化数据等。
通过打通数据仓库和数据湖,不同类型的数据可以在同一个平台上存储和管理,实现了数据的统一视图和集成访问。这使得元数据管理更加全面和综合,能够管理和跟踪不同类型的数据元素,包括数据库表、文件、API接口、流数据等。同时,元数据管理平台可以对这些数据元素进行分类、描述和关联,提供全局视图和一致的元数据定义。
在湖仓一体架构中,元数据管理平台可以利用数据湖的特性,实现对大数据和实时数据的管理和分析。通过元数据管理平台,用户可以轻松查找和访问各种数据源的元数据,了解数据的来源、质量和可用性等信息。这为数据治理和数据分析提供了强大的支持,促进了数据驱动的决策和创新。
此外,湖仓一体技术还能够更好地支持元数据的血缘分析和影响分析。通过对数据仓库和数据湖中的数据元素进行血缘追踪,可以了解数据的流动路径和变换过程,帮助用户了解数据的源头和去向,支持数据质量管理和数据治理的工作。
本发明提供的一种元数据管理方法,包括:
S101:配置元数据采集器。
其中,元数据采集器是针对不同类型数据库,采用相应的方式获取元数据的程序。元数据采集器管理用来管理元数据采集器的配置信息,包括采集器的名称、编码、驶入方式、采集器描述等。用户可通过界面来维护元数据采集器的配置信息,如新增、修改、删除等功能。
在一种可能的实施方式中,S101具体包括子步骤S1011至S1016:
S1011:将元数据采集器注册到***中,对元数据采集器进行参数配置。
其中,需要配置的参数包括:连接信息、采集频率、采集范围等。
S1012:将元数据采集器与***建立通信连接。
具体而言,通过数据接口将***与元数据采集器建立连接,使采集器具有访问和读取相应数据源的权限。
S1013:对元数据采集器进行身份认证。
具体而言,为保证数据传输的安全性,通过认证凭证对采集器进行认证。
S1014:配置元数据采集器的采集任务。
在一种可能的实施方式中,S1014具体包括孙步骤S10141至S10143:
S10141:对元数据采集器的采集任务进行创建、修改或者删除。
S10142:设置采集任务的采集时间、采集频率和采集范围。
S10143:对采集任务的执行情况进行记录和监控,执行情况包括:是否采集成功、采集时间和采集数据量。
S1015:监测元数据采集器的工作状态是否异常。
S1016:当监测到元数据采集器的工作状态存在异常时,发出警报和通知。
S102:通过元数据采集器采集元数据。
在一种可能的实施方式中,S102具体为:通过元数据采集器,从数据库、文件***、应用程序和数据仓库中,采集元数据。
在本发明中,配置元数据采集器,之后通过元数据采集器自动化地采集元数据,提升了元数据的采集效率,避免采用手动采集,降低维护元数据的工作量,减少遗漏和错误的发生。
S103:对采集到的元数据进行管理。
其中,管理方式包括:血缘分析、对比分析、重复性分析和质量评估。
在一种可能的实施方式中,S103具体包括子步骤S1031至S1037:
S1031:将采集到的元数据存储到存储仓库中。
S1032:对元数据的存储结构、索引和检索机制进行设置。
S1033:对元数据进行分类,对元数据的类型进行定义,对元数据的命名进行标准化处理。
S1034:对元数据之间的关系进行血缘分析。
其中,血缘分析采用图形方式呈现以某个元数据为终止节点,其前与有关系的所有元数据,反映数据的来源与加工过程,使用血缘分析可支持数据来源及数据质量问题的定位分析。
影响分析采用图形方式呈现以某个元数据为起始节点,其后与其有关系的所有元数据,反应数据的流向与加工过程,使用影响分析可分析数据流向及数据变动影响面分析。
全链分析采用图形方式呈现以某个元数据为节点,其前后与其有关系的所有元数据,反应数据的来源、来源加工过程、流向、及流向加工过程,可以让用户把握节点数据的来龙去脉。
在一种可能的实施方式中,S1034具体包括孙步骤S10341至S10348:
S10341:确定血缘分析目标。
具体而言,明确血缘分析的目的和范围,确定要分析的数据元素或数据集。比如特定的数据字段、数据表、数据文件等。
S10342:收集与血缘分析目标具有关联的元数据信息。
具体而言,收集相关的元数据信息,包括数据源、数据表、数据字段、数据文件等的元数据描述。
S10343:追踪元数据的来源信息。
具体而言,从数据关系图谱的起点开始,追踪数据元素的来源。查看元数据信息中的源表或源字段,记录下数据元素的来源信息。继续追踪源表或源字段的来源,直到达到数据元素的最初来源。
S10344:追踪元数据的去向信息。
具体而言,从数据关系图谱的起点开始,追踪数据元素的去向。查看元数据信息中的目标表或目标字段,记录下数据元素的去向信息。继续追踪目标表或目标字段的去向,直到达到数据元素的最终去向。
S10345:通过图表工具和数据建模工具,根据元数据的来源信息和去向信息,构建数据关系图谱。
具体而言,通过图表工具和数据建模工具,对使收集到的元数据信息建立数据关系图谱,绘制数据元素之间的关系和依赖关系,以形成直观的数据关系图。
S10346:分析数据关系图谱中的血缘信息,血缘信息包括关联关系和依赖关系。
具体而言,分析数据关系图谱中的关系和依赖关系。观察数据元素之间的连接和关联方式,了解数据元素之间的依赖关系、数据流向和数据转换等。
S10347:对于血缘信息缺失或不完整的数据,通过数据探查、查询或者采集,补充缺失的血缘信息。
S10348:根据血缘信息,对目标元数据进行血缘追踪。
具体而言,基于血缘信息,进行进一步的血缘追踪和影响分析。追踪特定数据元素的血缘关系,了解其过程中的数据变化和转换。分析数据元素的影响范围,了解修改或删除某个数据元素可能产生的影响。
S1035:对元数据之间的关系进行对比分析。
在一种可能的实施方式中,S1035具体包括孙步骤S10351至S10354:
S10351:选取需要对比分析的元数据。
S10352:设置需要对比的属性。
S10353:获取元数据的相应的属性值,通过机器学习、自然语言处理和/或规则引擎对属性值进行对比。
可选地,分析元数据的属性值的准确性、完整性和一致性等,通过检查属性值的差异和异常情况,***可以标识和报告数据质量问题,并提供相应的建议和修复措施。
可选地,应用数据挖掘和机器学习技术,对元数据的属性值进行分析和挖掘。通过对元数据实例进行聚类、分类、关联规则挖掘等技术,***可以发现属性值之间的模式和差异,并提供洞察和决策支持。
可选地,对于文本类型的属性值,***可以应用文本分析和自然语言处理技术来提取和分析差异。这包括词频统计、关键词提取、文本聚类等方法,以识别和理解文本属性值之间的差异。
可选地,***集成规则引擎,通过定义和执行特定的规则来处理元数据属性值的差异。通过规则引擎,***可以自动识别和处理属性值的差异,例如修复错误、补充缺失值、进行数据转换等操作。
S10354:以可视化报表的形式,展示对比分析结果。
S1036:对元数据之间的关系进行重复性分析。
在一种可能的实施方式中,S1036具体包括孙步骤S10361至S10366:
S10361:选取需要进行重复性分析的元数据范围。
S10362:通过相似性匹配算法、哈希算法和/或文本分析算法识别重复的元数据。
具体而言,通过比较元数据的属性值、标识符、名称等来进行,***会检测相同或相似的元数据实例,并标识它们作为潜在的重复元数据。
S10363:对识别出的重复元数据进行分组、标记和分类。
S10364:以可视化报表的形式,展示重复性分析结果。
S10365:对重复元数据进行合并、转换和/或整合处理,删除冗余元数据。
具体而言,通过***预算的重复元数据处理工具,自动合并重复元数据、删除冗余元数据、进行数据转换和整合等。
S10366:以预设频率定期对元数据进行重复性分析。
具体而言,设置定期监测和更新元数据,通过自动化任务设置定期扫描,以确保已经处理过的重复元数据不再出现,并提供通知和警报机制,及时通知用户有关重复元数据的新发现。
S1037:对元数据的质量进行评估和监控。
具体而言,对元数据质量进行评估和监控,提高数据管理和数据治理的效果。包括定义元数据质量指标、进行数据质量度量和评估、检测和解决元数据质量问题等子步骤。
在本发明中,通过对元数据进行血缘分析、对比分析、重复性分析和质量评估实现对于元数据的管理,完善数据质量管理,提供全面的数据质量评估和监控机制,有效保证元数据的准确性、完整性和一致性。
S104:通过元模型对采集到的元数据进行维护。
S105:对元模型进行管理。
其中,管理方式包括:版本管理、扩展定制和血缘分析。
在一种可能的实施方式中,S105具体包括子步骤S1051至S1057:
S1051:将元模型存储到元模型仓库中。
S1052:对元模型的版本号进行定义。
S1053:对元模型进行版本管理。
其中,版本管理包括:版本创建、版本比较、版本回溯和版本合并。
其中,版本创建是指当对元数据进行更改时,创建新的版本,并记录变更的内容、时间和负责人。
其中,版本比较是指通过***提供的比较机制,用户对不同版本的元数据进行比较,了解变更的内容和影响。
其中,版本回溯是指允许用户回溯到之前的版本,以查看以前的元数据状态和属性。
其中,版本合并是指当多个用户对同一元数据对象的不同版本进行修改时,可能制定合并规定,对这些版本进行合并,确保变更能够合理地合并到一个版本中。
S1054:通过为元模型添加新的属性、关系或约束,对元模型进行扩展和定制。
具体而言,用户可以为元模型添加新的属性、关系或约束,或修改现有的元模型定义,以创建符合自身需求的定制化元模型,以此对现有元模型进行扩展和定制,以适应特定的业务需求。
S1055:建立元模型之间的关联系。
S1056:通过追踪元模型的来源信息和去向信息,分析元模型之间的血缘关系。
具体而言,通过追踪元模型之间的关系和依赖,分析数据元素的血缘关系和影响关系,使用户可以了解该元模型的来源、去向和影响范围。
S1057:以可视化报表的形式,展示元模型。
在本发明中,通过对元模型进行版本管理、扩展定制和血缘分析实现对于元模型的管理,提升元数据的可理解性和规范性。版本管理确保随着时间的推移,元数据的变更可追溯和管理。扩展定制允许根据业务需求添加新的属性、关系等,使元数据适应变化的业务场景。血缘分析帮助了解数据之间的关联和影响,增强数据的可视化和解释能力。
具体而言,通过可视化图表功能将元模型通过图表、关系图谱、报表等方式进行可视化展示。使用户能更好地理解和利用元模型。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,配置元数据采集器,之后通过元数据采集器自动化地采集元数据,提升了元数据的采集效率,避免采用手动采集,降低维护元数据的工作量,减少遗漏和错误的发生。
(2)在本发明中,通过对元数据进行血缘分析、对比分析、重复性分析和质量评估实现对于元数据的管理,完善数据质量管理,提供全面的数据质量评估和监控机制,有效保证元数据的准确性、完整性和一致性。
(3)在本发明中,通过对元模型进行版本管理、扩展定制和血缘分析实现对于元模型的管理,提升元数据的可理解性和规范性。版本管理确保随着时间的推移,元数据的变更可追溯和管理。扩展定制允许根据业务需求添加新的属性、关系等,使元数据适应变化的业务场景。血缘分析帮助了解数据之间的关联和影响,增强数据的可视化和解释能力。
实施例2
在一个实施例中,本发明提供的一种元数据管理***,用于执行实施例1中的元数据管理方法。
本发明提供的一种元数据管理***可以实现上述实施例1中的元数据管理方法的步骤和效果,为避免重复,本发明不再赘述。
与现有技术相比,本发明至少具有以下有益技术效果:
(1)在本发明中,配置元数据采集器,之后通过元数据采集器自动化地采集元数据,提升了元数据的采集效率,避免采用手动采集,降低维护元数据的工作量,减少遗漏和错误的发生。
(2)在本发明中,通过对元数据进行血缘分析、对比分析、重复性分析和质量评估实现对于元数据的管理,完善数据质量管理,提供全面的数据质量评估和监控机制,有效保证元数据的准确性、完整性和一致性。
(3)在本发明中,通过对元模型进行版本管理、扩展定制和血缘分析实现对于元模型的管理,提升元数据的可理解性和规范性。版本管理确保随着时间的推移,元数据的变更可追溯和管理。扩展定制允许根据业务需求添加新的属性、关系等,使元数据适应变化的业务场景。血缘分析帮助了解数据之间的关联和影响,增强数据的可视化和解释能力。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种元数据管理方法,其特征在于,应用于云数据管理***,包括:
S101:配置元数据采集器;
S102:通过元数据采集器采集元数据;
S103:对采集到的元数据进行管理,其中,管理方式包括:血缘分析、对比分析、重复性分析和质量评估;
S104:通过元模型对采集到的元数据进行维护;
S105:对所述元模型进行管理,其中,管理方式包括:版本管理、扩展定制和血缘分析。
2.根据权利要求1所述的元数据管理方法,其特征在于,所述S101具体包括:
S1011:将所述元数据采集器注册到***中,对所述元数据采集器进行参数配置;
S1012:将所述元数据采集器与***建立通信连接;
S1013:对所述元数据采集器进行身份认证;
S1014:配置所述元数据采集器的采集任务;
S1015:监测所述元数据采集器的工作状态是否异常;
S1016:当监测到所述元数据采集器的工作状态存在异常时,发出警报和通知。
3.根据权利要求2所述的元数据管理方法,其特征在于,所述S1014具体包括:
S10141:对所述元数据采集器的采集任务进行创建、修改或者删除;
S10142:设置采集任务的采集时间、采集频率和采集范围;
S10143:对采集任务的执行情况进行记录和监控,所述执行情况包括:是否采集成功、采集时间和采集数据量。
4.根据权利要求1所述的元数据管理方法,其特征在于,所述S102具体为:
通过元数据采集器,从数据库、文件***、应用程序和数据仓库中,采集元数据。
5.根据权利要求1所述的元数据管理方法,其特征在于,所述S103具体包括:
S1031:将采集到的所述元数据存储到存储仓库中;
S1032:对所述元数据的存储结构、索引和检索机制进行设置;
S1033:对所述元数据进行分类,对所述元数据的类型进行定义,对所述元数据的命名进行标准化处理;
S1034:对所述元数据之间的关系进行血缘分析;
S1035:对所述元数据之间的关系进行对比分析;
S1036:对所述元数据之间的关系进行重复性分析;
S1037:对所述元数据的质量进行评估和监控。
6.根据权利要求5所述的元数据管理方法,其特征在于,所述S1034具体包括:
S10341:确定血缘分析目标;
S10342:收集与所述血缘分析目标具有关联的元数据信息;
S10343:追踪元数据的来源信息;
S10344:追踪元数据的去向信息;
S10345:通过图表工具和数据建模工具,根据元数据的来源信息和去向信息,构建数据关系图谱;
S10346:分析所述数据关系图谱中的血缘信息,所述血缘信息包括关联关系和依赖关系;
S10347:对于血缘信息缺失或不完整的数据,通过数据探查、查询或者采集,补充缺失的血缘信息;
S10348:根据血缘信息,对目标元数据进行血缘追踪。
7.根据权利要求5所述的元数据管理方法,其特征在于,所述S1035具体包括:
S10351:选取需要对比分析的元数据;
S10352:设置需要对比的属性;
S10353:获取元数据的相应的属性值,通过机器学习、自然语言处理和/或规则引擎对属性值进行对比;
S10354:以可视化报表的形式,展示对比分析结果。
8.根据权利要求5所述的元数据管理方法,其特征在于,所述S1036具体包括:
S10361:选取需要进行重复性分析的元数据范围;
S10362:通过相似性匹配算法、哈希算法和/或文本分析算法识别重复的元数据;
S10363:对识别出的重复元数据进行分组、标记和分类;
S10364:以可视化报表的形式,展示重复性分析结果;
S10365:对重复元数据进行合并、转换和/或整合处理,删除冗余元数据;
S10366:以预设频率定期对元数据进行重复性分析。
9.根据权利要求1所述的元数据管理方法,其特征在于,所述S105具体包括:
S1051:将元模型存储到元模型仓库中;
S1052:对元模型的版本号进行定义;
S1053:对所述元模型进行版本管理,其中,版本管理包括:版本创建、版本比较、版本回溯和版本合并;
S1054:通过为元模型添加新的属性、关系或约束,对元模型进行扩展和定制;
S1055:建立元模型之间的关联系;
S1056:通过追踪元模型的来源信息和去向信息,分析元模型之间的血缘关系;
S1057:以可视化报表的形式,展示元模型。
10.一种元数据管理***,其特征在于,用于执行权利要求1至9任一项所述的元数据管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311100573.7A CN116991931A (zh) | 2023-08-29 | 2023-08-29 | 一种元数据管理方法和*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311100573.7A CN116991931A (zh) | 2023-08-29 | 2023-08-29 | 一种元数据管理方法和*** |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116991931A true CN116991931A (zh) | 2023-11-03 |
Family
ID=88533897
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311100573.7A Pending CN116991931A (zh) | 2023-08-29 | 2023-08-29 | 一种元数据管理方法和*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116991931A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648388A (zh) * | 2024-01-29 | 2024-03-05 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其*** |
CN118069897A (zh) * | 2024-04-24 | 2024-05-24 | 青岛熙正数字科技有限公司 | 一种环保大数据的存储方法和装置 |
-
2023
- 2023-08-29 CN CN202311100573.7A patent/CN116991931A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117648388A (zh) * | 2024-01-29 | 2024-03-05 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其*** |
CN117648388B (zh) * | 2024-01-29 | 2024-04-12 | 成都七柱智慧科技有限公司 | 一种可视化的安全实时的数据仓库实现方法及其*** |
CN118069897A (zh) * | 2024-04-24 | 2024-05-24 | 青岛熙正数字科技有限公司 | 一种环保大数据的存储方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11409764B2 (en) | System for data management in a large scale data repository | |
US11461294B2 (en) | System for importing data into a data repository | |
US11360950B2 (en) | System for analysing data relationships to support data query execution | |
US11562025B2 (en) | Resource dependency system and graphical user interface | |
Diba et al. | Extraction, correlation, and abstraction of event data for process mining | |
US10740396B2 (en) | Representing enterprise data in a knowledge graph | |
CN116991931A (zh) | 一种元数据管理方法和*** | |
US20140351241A1 (en) | Identifying and invoking applications based on data in a knowledge graph | |
US20190108223A1 (en) | Automated system data migration | |
CN112199433A (zh) | 一种用于城市级数据中台的数据治理*** | |
US20150032743A1 (en) | Analyzing files using big data tools | |
LU503512B1 (en) | Operating method for construction of knowledge graph based on naming rule and caching mechanism | |
CN112181960A (zh) | 一种基于AIOps的智能运维框架*** | |
US20150007202A1 (en) | Programming Framework for Applications | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及*** | |
KR20030075501A (ko) | 특허 데이터베이스로 부터 대상 특허의 가계 경로를 빠른시간내에 분석하여 제공하는 방법 | |
JP6375029B2 (ja) | レポートの重要度を分析するメタデータ基盤のオンライン分析処理システム | |
CN116881476A (zh) | 一种知识图谱构建方法、平台及计算机存储介质 | |
CN113779261B (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
Dong et al. | Scene-based big data quality management framework | |
CN114925054A (zh) | 一种基于元模型的元数据管理***及方法 | |
CN113486132B (zh) | 一种地理单元全生命周期管理*** | |
Nassis et al. | A requirement engineering approach for designing XML-view driven, XML document warehouses | |
CN117171105A (zh) | 一种基于知识图谱的电子档案管理*** | |
Isha et al. | Design and implementation of public data warehouse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |