CN116244386B - 应用于多源异构数据存储***的实体关联关系的识别方法 - Google Patents
应用于多源异构数据存储***的实体关联关系的识别方法 Download PDFInfo
- Publication number
- CN116244386B CN116244386B CN202310143615.9A CN202310143615A CN116244386B CN 116244386 B CN116244386 B CN 116244386B CN 202310143615 A CN202310143615 A CN 202310143615A CN 116244386 B CN116244386 B CN 116244386B
- Authority
- CN
- China
- Prior art keywords
- association
- data
- entity
- relation
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013500 data storage Methods 0.000 title claims abstract description 23
- 238000010586 diagram Methods 0.000 claims abstract description 18
- 238000004458 analytical method Methods 0.000 claims description 29
- 238000013461 design Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000010801 machine learning Methods 0.000 claims description 5
- 238000012550 audit Methods 0.000 claims description 4
- 238000012098 association analyses Methods 0.000 abstract description 5
- 238000007726 management method Methods 0.000 abstract description 3
- 238000002360 preparation method Methods 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 description 12
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013523 data management Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 206010063385 Intellectualisation Diseases 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请的实施例提供了应用于多源异构数据存储***的实体关联关系的识别方法、装置、设备和计算机可读存储介质。所述方法包括获取各数据表的实体关联模型;根据设置的权重层级,确定实体关联模型中表/字段的关联关系;对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别。以此方式,能够从原有的数据表中自动提取出数据表间的复杂关联关系,提高了对数据关系理解的效率,满足了灵活多变的业务需求对数据进行关联分析和治理的要求,能够快速实现数据准备,并基于识别后的数据关联关系整理出标准的数据体系。
Description
技术领域
本申请的实施例涉及数据分析领域,尤其涉及应用于多源异构数据存储***的实体关联关系的识别方法、装置、设备和计算机可读存储设备。
背景技术
传统的技术中针对数据表的关联关系是通过数据库的主外键来建立业务表之间的关联关系,同时在一些规范化的业务***建设过程中,也会采用一些标准的数据模型工具来定义业务表之间的关联关系,并形成数据库设计文档。
但上述手段往往是针对单个业务***内部的、不具备跨***的关联关系定义和维护;由于管理上的原因,也无法约束每个应用***都有明确的对业务数据库的设计文档;更深层次的原因是不同业务***中对业务上的同一份数据使用方式和内容不同,对业务上的同一份数据表、字段的命名规范、字段类型和字段内容也不相同。
业内当前一般采用主数据管理***来进行数据维护,但该技术仅适用于对业务有深入了解,企业主数据规范相对完善的情况,且完成后还需要各业务***进行改造适配。
发明内容
根据本申请的实施例,提供了一种应用于多源异构数据存储***的实体关联关系的识别方案。
在本申请的第一方面,提供了一种应用于多源异构数据存储***的实体关联关系的识别方法。该方法包括:
获取各数据表的实体关联模型;
根据设置的权重层级,确定实体关联模型中表/字段的关联关系;
对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别。
进一步地,所述获取各数据表的实体关联模型包括:
基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型。
进一步地,所述基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型包括:
若数据来源类型为关系型数据库,则通过数据库的元数据接口获取ER模型关系,形成实体关联模型;
若数据来源类型为数据库设计文档,则对所述设计文档进行识别,提取所述文档中表的关联关系,形成实体关联模型
若数据来源类型为业务SQL审计,则对所述的SQL语句进行分析,提取where子句中的字段关联关系,形成实体关联模型
若数据来源类型为人工录入,则直接获取表和字段间的关联关系,形成实体关联模型
若数据来源类型为表元数据,则通过注释、字段名、字段注释和/或字段类型,提取所述表元数据中表/字段的关联关系,形成实体关联模型
若数据来源类型为数据内容,则对所述数据内容进行文本分析,提取字段关联关系,形成实体关联模型。
进一步地,所述对所述关联关系进行修正包括:
通过如下公式对所述关联关系间修正:
其中,αi表示机器学习规则的权重;
表示规则是否满足,规则满足时为1,不满足为0;
C表示人工录入规则和ER模型分析的权重,值为100%;
Ri表示每一种规则、算法的计算结果;
Iperson定义的人工规则,人工规则或ER模型分析满足时为1,不满足时为0。
在本申请的第二方面,提供了一种应用于多源异构数据存储***的实体关联关系的识别装置。该装置包括:
获取模块,用于分别获取各数据表的实体关联模型;
确定模块,用于根据设置的权重层级,确定实体关联模型中表/字段的关联关系;
识别模块,用于对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别。
在本申请的第三方面,提供了一种电子设备。该电子设备包括:存储器和处理器,所述存储器上存储有计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
在本申请的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如根据本申请的第一方面的方法。
本申请实施例提供的应用于多源异构数据存储***的实体关联关系的识别方法,通过获取各数据表的实体关联模型;根据设置的权重层级,确定实体关联模型中表/字段的关联关系;对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别,实现了自动对接入的数据表进行表关联分析,减少了人工参与度、提升了工作效率,降低业务***建设难度。
应当理解,发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标记表示相同或相似的元素,其中:
图1示出了根据本申请的实施例的应用于多源异构数据存储***的实体关联关系的识别方法的流程图;
图2示出了根据本申请的实施例的关联分析示意图;
图3示出了根据本申请的实施例的实体关联关系生成示意图;
图4示出了根据本申请的实施例的跨业务***的关联权重层级示意图;
图5示出了根据本申请的实施例的应用于多源异构数据存储***的实体关联关系的识别装置的方框图;
图6示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1示出了根据本公开实施例的应用于多源异构数据存储***的实体关联关系的识别方法的流程图。所述方法包括:
S110,获取各数据表的实体关联模型。
在一些实施例中,可基于数据的特性和存储方式,通过实体关联分析引擎从多维度、多方向进行针对性的关联分析,即,根据不同的关联关系模型的数据来源类型,获取实体关联模型。
具体地,如图2所示,若数据来源类型为关系型数据库,则通过数据库的元数据接口获取ER模型关系,形成实体关联模型;
若数据来源类型为数据库设计文档,则对所述设计文档进行识别,提取所述文档中表的关联关系,形成实体关联模型;
若数据来源类型为业务SQL审计,则对所述的SQL语句进行分析,提取where子句中的字段关联关系,形成实体关联模型;
若数据来源类型为人工录入,则直接获取表和字段间的关联关系,形成实体关联模型;
若数据来源类型为表元数据,则通过注释、字段名、字段注释和/或字段类型,提取所述表元数据中表/字段的关联关系,形成实体关联模型;
若数据来源类型为数据内容,则对所述数据内容进行文本分析,提取字段关联关系,形成实体关联模型。
S120,根据设置的权重层级,确定实体关联模型中表/字段的关联关系。
在一些实施例中,参考图3,根据数据的特征和存储方式不同,采用不同的分析方法,对步骤S110得到的实体关联模型进行分析,得到实体关联关系:
ER模型关系提取可以针对关系型行列结构的数据进行分析;
业务SQL解析、表元数据提取和数据内容提取分析,可用于在全局逻辑数据库之上的逻辑库表、字段和/或数据内容的分析,以实现关系型行列数据、NoSQL等半结构化数据、分布式文件存储***数据和/或其他API接口数据的关联关系分析;
文档分析,可用于对数据库设计文档的识别,获取数据实体的特征和关联;
人工录入,是用于通过以上手段均无法获得实体关联关系的情况下,提供的一个手工操作通道,让业务人员根据实际的业务关系手工设置或者调整实体关联关系。
在一些实施例中,在数据实体关联关系的自动化计算过程中,针对不同的场景,不同的技术手段得到的关联关系的准确度也不同,因此需要对各技术手段的权重层级进行处理。
在单个业务***时,一般涉及的数据实体不多,权重层级从高到低一般为:人工录入>ER模型关系提取>业务SQL解析>表元数据提取分析>数据内容提取>数据库文档分析。
进一步地,若存在人工录入,则以人工录入为准,其次,当没有人工录入,但存在ER模型关系时,以ER模型关系为准,最后再依据权重层级进行分析。
在跨业务***时,参考图4,首先得出在单个业务***内部的关联关系,再通过对所有业务***的数据实体(如数据表)进行关联分析(如***A和***B),用于实现对A和B内部的表关联的分析。
例如,A中有一张表T1与B中的某张表T2建立关联之后,自动会将A中T1表与B中T2表的关联表进行关系分析,从而自动得到T1表与整个业务***B多个表之间的关联关系。
进一步地,通常在跨业务***的情况下,一般不存在异构存储***之上的ER模型,也很少会有跨业务***的数据库设计文档。因此,跨业务***的关联权重层级从高到低一般为人工录入>业务SQL解析>表元数据提取分析>数据内容提取分析。
S130,对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别。
在一些实施例中,以单个业务***内部的字段关联关系为示例,可通过如下公式计算关联关系可信度:
其中,αi表示机器学习规则的权重;i表示手段序号;
表示规则是否满足,规则满足时为1,不满足为0;
C表示人工录入规则和ER模型分析的权重,值为100%;
Ri表示每一种规则、算法的计算结果;
Iperson定义的人工规则,人工规则或ER模型分析满足时为1,不满足时为0。
下面进行举例说明:
表T1和表T2中字段1和字段2的关联可信度为a。
其中,设是否存在人工录入为Iperson1;
人工录入权重R1,Iperson1的取值只有两种情况,0和1,R1的取值为100%;同理ER模型关系提取也包含两个变量,是否存在ER模型关系Iperson2,Iperson2的取值只有两种情况,0和1,ER模型权重为R2,R2的取值为100%;其他关联项据此类推,业务SQL解析存在变量a3和权重R3,a3取值为0和1,表元数据提取分析存在变量a4和权重R4,a4取值为0和1,数据内容提取分析存在变量a5和变量R5,a5取值为0和1,数据库文档分析存在变量a6和权重R6,a6取值为0和1。
在实际应用中,根据多种计算引擎之间的计算结果,相互补充印证。如ER模型可以验证数据内容提取分析的结果,业务SQL解析可以补充ER模型中未设置关联的字段关系。人工录入和ER模型会修正自动化计算手段的结果,在通过机器学习分析方法,例如朴素贝叶斯算法,对结果进行迭代分析之后,自动调整权重变量Ri。即,完成对关联关系的修正。
进一步地,基于修正后的关联关系,生成用于描述表/字段关联关系的实体关系图,完成对多源异构数据存储***中的表和/或字段间关联关系的智能识别。
根据本公开的实施例,实现了以下技术效果:
通过本公开的方法,能够从原有已存在的数据表中自动化的智能提取数据表间的复杂关联关系,相比于传统的依据经验、文档的手工方法,大大提高了对数据关系理解的效率,能够满足灵活多变的业务需求对数据全局管理和专项数据治理的要求,能够快速实现数据准备,并基于识别后的数据关联关系整理出标准的数据体系。
同时,解决传统数据准备工作中多主体协调难度大、人工工作量大等问题,通过自动化、智能化和人工辅助等多种手段,减少了人工参与度、提升了工作效率,降低业务***建设难度,实现数据价值的提升。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图5示出了根据本申请的实施例的赢用于多源异构数据存储***的实体关联关系的识别装置500的方框图如图5所示,装置500包括:
获取模块510,用于分别获取各数据表的实体关联模型;
确定模块520,用于根据设置的权重层级,确定实体关联模型中表/字段的关联关系;
识别模块530,用于对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,所述描述的模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
图6示出了适于用来实现本申请实施例的终端设备或服务器的结构示意图。
如图6所示,终端设备或服务器600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有***600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本申请的实施例,上文方法流程步骤可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在机器可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的***中限定的上述功能。
需要说明的是,本申请所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,前述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元或模块也可以设置在处理器中。其中,这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中的。上述计算机可读存储介质存储有一个或者多个程序,当上述前述程序被一个或者一个以上的处理器用来执行描述于本申请的方法。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的申请范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离前述申请构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中申请的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (4)
1.一种应用于多源异构数据存储***的实体关联关系的识别方法,其特征在于,包括:
获取各数据表的实体关联模型;
根据设置的权重层级,确定实体关联模型中表/字段的关联关系;
对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别;
所述获取各数据表的实体关联模型包括:基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型;
所述基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型包括:
若数据来源类型为关系型数据库,则通过数据库的元数据接口获取ER模型关系,形成实体关联模型;
若数据来源类型为数据库设计文档,则对所述设计文档进行识别,提取所述设计文档中表的关联关系,形成实体关联模型;
若数据来源类型为业务SQL审计,则对SQL语句进行分析,提取where子句中的字段关联关系,形成实体关联模型;
若数据来源类型为人工录入,则直接获取表和字段间的关联关系,形成实体关联模型;
若数据来源类型为表元数据,则通过注释、字段名、字段注释和/或字段类型,提取所述表元数据中表/字段的关联关系,形成实体关联模型;
若数据来源类型为数据内容,则对所述数据内容进行文本分析,提取字段关联关系,形成实体关联模型;
所述对所述关联关系进行修正包括:
通过如下公式对所述关联关系进行修正:
其中,func表示关联关系可信度;
αi表示机器学习规则的权重;i表示手段序号;
表示规则是否满足,规则满足时为1,不满足为0;
C表示人工录入规则和ER模型分析的权重,值为100%;
Ri表示每一种规则、算法的计算结果;
Iperson表示定义为人工规则或ER模型,人工规则或ER模型分析满足时为1,不满足时为0。
2.一种应用于多源异构数据存储***的实体关联关系的识别装置,其特征在于,包括:
获取模块,用于分别获取各数据表的实体关联模型;
确定模块,用于根据设置的权重层级,确定实体关联模型中表/字段的关联关系;
识别模块,用于对所述关联关系进行修正,生成实体关系图,完成对多源异构数据存储***的关联关系的智能识别;
所述分别获取各数据表的实体关联模型包括:基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型;
所述基于数据的特性和存储方式,根据不同的关联关系模型的数据来源类型,获取实体关联模型包括:
若数据来源类型为关系型数据库,则通过数据库的元数据接口获取ER模型关系,形成实体关联模型;
若数据来源类型为数据库设计文档,则对所述设计文档进行识别,提取所述设计文档中表的关联关系,形成实体关联模型;
若数据来源类型为业务SQL审计,则对SQL语句进行分析,提取where子句中的字段关联关系,形成实体关联模型;
若数据来源类型为人工录入,则直接获取表和字段间的关联关系,形成实体关联模型;
若数据来源类型为表元数据,则通过注释、字段名、字段注释和/或字段类型,提取所述表元数据中表/字段的关联关系,形成实体关联模型;
若数据来源类型为数据内容,则对所述数据内容进行文本分析,提取字段关联关系,形成实体关联模型;
所述对所述关联关系进行修正包括:
通过如下公式对所述关联关系进行修正:
其中,func表示关联关系可信度;
αi表示机器学习规则的权重;i表示手段序号;
表示规则是否满足,规则满足时为1,不满足为0;
C表示人工录入规则和ER模型分析的权重,值为100%;
Ri表示每一种规则、算法的计算结果;
Iperson表示定义为人工规则或ER模型,人工规则或ER模型分析满足时为1,不满足时为0。
3.一种电子设备,包括存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1所述的方法。
4.一种计算机可读存储设备,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310143615.9A CN116244386B (zh) | 2023-02-10 | 2023-02-10 | 应用于多源异构数据存储***的实体关联关系的识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310143615.9A CN116244386B (zh) | 2023-02-10 | 2023-02-10 | 应用于多源异构数据存储***的实体关联关系的识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116244386A CN116244386A (zh) | 2023-06-09 |
CN116244386B true CN116244386B (zh) | 2023-12-12 |
Family
ID=86630858
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310143615.9A Active CN116244386B (zh) | 2023-02-10 | 2023-02-10 | 应用于多源异构数据存储***的实体关联关系的识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116244386B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117649454B (zh) * | 2024-01-29 | 2024-05-31 | 北京友友天宇***技术有限公司 | 双目相机外参自动校正方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391537A (zh) * | 2017-04-25 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 数据关系模型的生成方法、装置及设备 |
CN114201616A (zh) * | 2021-12-28 | 2022-03-18 | 山东合天智汇信息技术有限公司 | 一种基于多源数据库的知识图谱构建方法及*** |
CN114443854A (zh) * | 2021-12-30 | 2022-05-06 | 深圳晶泰科技有限公司 | 多源异构数据的处理方法、装置、计算机设备及存储介质 |
CN114756532A (zh) * | 2022-03-15 | 2022-07-15 | 上海创图网络科技股份有限公司 | 基于文化天猫的多源异构数据采集方法、装置和电子设备 |
WO2022257436A1 (zh) * | 2021-06-08 | 2022-12-15 | 网络通信与安全紫金山实验室 | 基于无线通信网络数据仓库构建方法、***、设备及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105335133B (zh) * | 2014-06-18 | 2018-10-09 | 国际商业机器公司 | 用于生成业务规则模型的方法和装置 |
CN113326345A (zh) * | 2020-02-28 | 2021-08-31 | 拓尔思天行网安信息技术有限责任公司 | 基于动态本体的知识图谱分析、应用方法、平台及设备 |
CN114722159B (zh) * | 2022-06-01 | 2022-08-23 | 中科航迈数控软件(深圳)有限公司 | 针对数控机床制造资源的多源异构数据处理方法及*** |
-
2023
- 2023-02-10 CN CN202310143615.9A patent/CN116244386B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391537A (zh) * | 2017-04-25 | 2017-11-24 | 阿里巴巴集团控股有限公司 | 数据关系模型的生成方法、装置及设备 |
WO2022257436A1 (zh) * | 2021-06-08 | 2022-12-15 | 网络通信与安全紫金山实验室 | 基于无线通信网络数据仓库构建方法、***、设备及介质 |
CN114201616A (zh) * | 2021-12-28 | 2022-03-18 | 山东合天智汇信息技术有限公司 | 一种基于多源数据库的知识图谱构建方法及*** |
CN114443854A (zh) * | 2021-12-30 | 2022-05-06 | 深圳晶泰科技有限公司 | 多源异构数据的处理方法、装置、计算机设备及存储介质 |
CN114756532A (zh) * | 2022-03-15 | 2022-07-15 | 上海创图网络科技股份有限公司 | 基于文化天猫的多源异构数据采集方法、装置和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116244386A (zh) | 2023-06-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111061833B (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
US9971967B2 (en) | Generating a superset of question/answer action paths based on dynamically generated type sets | |
CN110597844B (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN116244386B (zh) | 应用于多源异构数据存储***的实体关联关系的识别方法 | |
CN111698207A (zh) | 网络信息安全的知识图谱的生成方法、设备和存储介质 | |
CN111651552A (zh) | 结构化信息确定方法、装置和电子设备 | |
CN111309834A (zh) | 一种无线热点与兴趣点的匹配方法及装置 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN114091426A (zh) | 一种处理数据仓库中字段数据的方法和装置 | |
CN113419789A (zh) | 数据模型脚本的生成方法和装置 | |
CN112328805A (zh) | 基于nlp的漏洞描述信息与数据库表的实体映射方法 | |
CN108733688B (zh) | 数据分析的方法、装置 | |
CN111984745B (zh) | 数据库字段动态扩展方法、装置、设备及存储介质 | |
CN108694172B (zh) | 信息输出方法和装置 | |
CN111523309B (zh) | 药品信息归一化的方法、装置、存储介质及电子设备 | |
CN116150194B (zh) | 数据获取方法、装置、电子设备和计算机可读介质 | |
CN117112727A (zh) | 适用于云计算业务的大语言模型微调指令集构建方法 | |
CN111639161A (zh) | 制度信息处理方法、装置、计算机***和介质 | |
CN107273293B (zh) | 大数据***性能测试方法、装置及电子设备 | |
CN116361522A (zh) | 一种数据的展示方法和装置 | |
CN113760240B (zh) | 一种生成数据模型的方法和装置 | |
CN112199544B (zh) | 全图挖掘预警方法、***、电子设备及计算机可读存储介质 | |
CN114385794A (zh) | 企业知识图谱的生成方法、装置、设备和存储介质 | |
US11636391B2 (en) | Automatic combinatoric feature generation for enhanced machine learning | |
CN115098576A (zh) | 地理处理工具的输入数据预处理方法、装置、介质和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |