CN113673889A - 一种智能化数据资产识别的方法 - Google Patents

一种智能化数据资产识别的方法 Download PDF

Info

Publication number
CN113673889A
CN113673889A CN202110985791.8A CN202110985791A CN113673889A CN 113673889 A CN113673889 A CN 113673889A CN 202110985791 A CN202110985791 A CN 202110985791A CN 113673889 A CN113673889 A CN 113673889A
Authority
CN
China
Prior art keywords
data
text
assets
metadata
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110985791.8A
Other languages
English (en)
Inventor
林松
郝艳丰
陆鸿强
马力
徐渊博
李刚华
姚东鸿
林永东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI COMPASS INFORMATION SCIENCE CO Ltd
Original Assignee
SHANGHAI COMPASS INFORMATION SCIENCE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI COMPASS INFORMATION SCIENCE CO Ltd filed Critical SHANGHAI COMPASS INFORMATION SCIENCE CO Ltd
Priority to CN202110985791.8A priority Critical patent/CN113673889A/zh
Publication of CN113673889A publication Critical patent/CN113673889A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息技术领域,尤其是涉及一种智能化数据资产识别的方法,包括以下步骤:通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;基础数据资产分布在各核心业务***,可通过定时监测各核心业务***的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;指标数据资产主要分布在大数据平台和数据应用或报表***中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表***报表需求管理流程来实现。本发明根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的。

Description

一种智能化数据资产识别的方法
技术领域
本发明涉及信息技术领域,尤其涉及一种智能化数据资产识别的方法。
背景技术
“数据资产运营”作为重要的建设内容之一,以实现业务价值为导向,以数据资产使用部门为中心,为企业不同层面数据资产使用部门提供数据便利,设计数据资产评价体系,建立数据资产内部共享和运营流通等机制,从而进一步推动某某企业数据使用、数据共享,降低数据资产成本,促进数据价值发挥,目前市面上对于资产的管理方式主要还是以手工记账的管理方式为主,由于管理资产众多、盘点工作繁重、物品属性复杂,需占用大量的人力物力,而且管理者对固定资产的历史操作和资产统计工作异常困难,此外资产随着使用年限的增加,残存值也在不断下降,这就很可能导致资产统计不准确、资产流失和资产重复购买等多种问题。
为更好的提升企业数据资产运营效率,计划应用AI技术进行数据资产运营自动化领域进行探索,确定相关智能化场景和落地方式,以便集成至相关***平台,以提高数据资产运营的相关工作效率,降低人工出错几率,我们提出一种智能化数据资产识别的方法来改善上述问题。
发明内容
本发明的目的是为了解决现有技术中存在的缺点,而提出的一种智能化数据资产识别的方法。
为了实现上述目的,本发明采用了如下技术方案:
一种智能化数据资产识别的方法,所述数据资产智能识别包括基础数据资产识别、指标数据资产识别、非结构化数据资产和外部数据资产识别,所述数据资产智能识别的方法包括以下步骤:
S1、通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;
S2、基础数据资产分布在各核心业务***,可通过定时监测各核心业务***的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;
S3、指标数据资产主要分布在大数据平台和数据应用或报表***中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表***报表需求管理流程来实现;
S4、非结构化数据资产分布在各业务部门中,在搭建所内统一知识库实现所内非结构化数据资产集中存储共享后,可通过对统一知识库元数据的定时监测,实现对非结构化数据资产的自动识别;
S5、外部数据资产为各业务部门日常在且有产生业务价值的外部数据信息,通过数据资产智能识别场景针对应用于非结构化数据资产中的外部数据资产的智能识别。
在上述的智能化数据资产识别的方法中,所述步骤S1中元数据包括技术元数据和业务元数据,技术元数据的采集,根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的,并且对于元数据管理工具支持的格式可直接进行导入,而对于一些自定义的规则,需要进行格式转换并导入。
在上述的智能化数据资产识别的方法中,所述数据管控平台应具备CSV适配器、XML适配器、DB适配器和API接入适配器,以支持大数据平台、统一知识库元数据的顺利接入,且数据管控平台应具有数据资产识别引擎,该引擎可根据基础数据资产、指标数据资产、非结构化数据资产准入规则,识别新增的各类数据资产。
在上述的智能化数据资产识别的方法中,所述步骤S2中基础数据资产通过大数据平台ODS层和DW层的元数据比对,识别出可能新增和变更的基础数据资产信息,对基础数据资产目录和资产项进行补充和完善;建立大数据平台常用***表名关键字和***控制字段名关键字的“过滤库”,用于对新增和变更的元数据进行识别筛选。
在上述的智能化数据资产识别的方法中,所述步骤S3中指标数据资产来自于大数据平台报表元数据,根据比对可以识别新增和变更的元数据信息,进而根据指标数据资产准入规则对新增和变更的元数据信息进行判别,识别新的指标数据资产。
在上述的智能化数据资产识别的方法中,所述步骤S5中外部数据资产分为两类包括:被指标数据资产所引用的外部数据信息项和被内部非结构化数据资产所引用的外部数据资产项目,针对这两类外部数据资产,其主要满足的规则如下:对于指标因子,判断该外部数据信息项有没有被内部指标所引用;对于重要标签,判断该外部数据信息项有没有被内部非结构化数据资产所引用。
在上述的智能化数据资产识别的方法中,针对各类数据资产,通过设计适配于各类数据资产智能管理模型,并且该模型应可根据数据资产名称、定义、来源等属性,与资产分类树进行智能匹配,推荐合适的数据资产挂载点,以提高工作效率,降低人工出错几率。
在上述的智能化数据资产识别的方法中,所述数据资产智能挂载的核心是对文本的自动化分类,建立、选择适当的分类规则从而进行正确分类的这一过程,其建立分类规则的基本过程是:先从已分类结果中倒推寻找分类规则,即先从已分类的训练文本中根据不同类别的文本所具有的不同特征;进而搜寻提取到一定准确、适当的分类规则;再将待分类文本按照以上规则进行归类;最终使得分类结果与目标结果相一致;
所述文本分类用计算公式如式(1-1)所示可定义为如下:
F(D,C)={True,False} (1-1)
上述公式(4-1)中,集合D={d1,d2,…,di,…dn}是指待分类的文本集合,其中,di表示其中的第i个待分类文本,而n是指待分类文本集合D中包含待分类文本的数量大小,集合C={c1,c2,…,cj,…cm} 则是指我们预先定义的类别集合,其中cj表示其中的第j个类别,而 m是指类别集合C中所预先定义的类别数量;而F函数,在这代表的是一种映射关系,若F(di,cj)=True,则代表数据集合中第i个待分类文本di它的分类结果是第j个类别cj;反之,若F(di,cj)=False,则是指数据集合中第i个待分类文本di的分类结果并不是第j个类别cj,数学集合中的映射概念存在有一对一、一对多这两种映射关系,同理在文本分类中也可以分为单标签分类和多标签分类。
在上述的智能化数据资产识别的方法中,在拿到数据集后的第一个处理步骤是对文本数据进行数据预处理操作,这一过程中,按照处理顺序我们需要对文本数据进行如下操作:文本标记、分词以及去除停用词处理,且经过文本预处理环节之后再对文本数据进行文本表示环节,具体的利用VSM模型对文本D进行文本表示,词项以及词项的权重值将成为文本表示这个模型的组成部分,文本D就能被n个词项以及他们的权重值所组成的特征向量代表,表示形式如下: D={(t1,w1),(t2,w2),…,(ti,wj),…(tn,wn)},其中ti,wj分别是指对应的第i个特征词以及第i个特征词的权重值,wj∈(0-1)。
在上述的智能化数据资产识别的方法中,在对数据进行预处理操作以及文本表示后需对文本数据进行特征选取,具体的步骤:根据文本数据集特点,通过选定流程选取适合的特征计算函数,对数据集中每一条文本中的每个词项分别进行特征计算得到量化结果,将结果按照由大到小进行顺序排列,根据提前设定的阈值情况,从中选出一定数量的特征项作为原始文本数据的代表;具体的算法采用卡方统计算法即CHI算法,需要设定最小阈值和最大阈值,假设词项ti与类别cj满足一阶自由度的卡方(χ2)分布,通过函数计算出词项与类别之间的相关度,来提供选取标准,利用卡方统计算法可计算得到每条文本的所有词项的相关度,再根据相关度大小,对词项进行选取,其计算公式1-2所示:
Figure RE-GDA0003301055250000061
式(1-2)中,A是指类别结果为cj的文档中存在词项ti的文本数量,C是指类别结果为cj的文档中不存在词项ti的文本数量,B 是指训练文本数据集中类别结果为非cj的文档中存在词项ti的文本数量,N是指整个训练文本数据集中所包含的文本数量,D是指训练文本数据集中类别结果为非cj的文档中不存在词项ti的文本数量,且N=A+B+C+D;
在公式(1-2)中,CHI(ti,cj)表示的是词项ti与类别cj的卡方统计值,这是处理单个词项的单分类问题时的计算方法,但在处理多类分类问题时,卡方统计结果需要再进行一步处理,可以使用加权平均或者求和两种计算法,两种计算公式分别如式(1-3)、式(1-4)所示:
Figure RE-GDA0003301055250000062
Figure RE-GDA0003301055250000063
采用上述算法以完成对数据进行预处理操作以及文本表示后需对文本数据进行特征选取。
与现有技术相比,本一种智能化数据资产识别的方法的优点在于:
1、本发明根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的;
2、本发明通过VSM模型表示方法,可以将文本的相似度计算问题转化为对文本对应的特征向量进行夹角余弦的计算问题,如此就使得文本计算的复杂度得到了明显的简化。
附图说明
图1为本发明提出的一种智能化数据资产识别的方法的方法步骤图;
图2为本发明提出的一种智能化数据资产识别的方法的逻辑架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
实施例
参照图1-2,一种智能化数据资产识别的方法,数据资产智能识别包括基础数据资产识别、指标数据资产识别、非结构化数据资产和外部数据资产识别,数据资产智能识别的方法包括以下步骤:
S1、通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;
S2、基础数据资产分布在各核心业务***,可通过定时监测各核心业务***的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;
S3、指标数据资产主要分布在大数据平台和数据应用或报表***中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表***报表需求管理流程来实现;
S4、非结构化数据资产分布在各业务部门中,在搭建所内统一知识库实现所内非结构化数据资产集中存储共享后,可通过对统一知识库元数据的定时监测,实现对非结构化数据资产的自动识别;
S5、外部数据资产为各业务部门日常在且有产生业务价值的外部数据信息,通过数据资产智能识别场景针对应用于非结构化数据资产中的外部数据资产的智能识别。
指标数据资产主要分布在大数据平台和数据应用或报表***中,针对指标数据资产的识别,可通过介入大数据平台和数据应用或报表***报表需求管理流程来实现,非结构化数据资产当前主要分布在各业务部门中,并未集中存储,后期搭建所内统一知识库实现所内非结构化数据资产集中存储共享后,可通过对统一知识库元数据的定时监测,实现对非结构化数据资产的自动识别;外部数据资产主要为各业务部门日常在且有产生业务价值的外部数据信息,现阶段由于外部数据资产涉及的范围广,并无统一物理落地之处,较难通过技术手段对外部数据资产进行自动化识别,故数据资产智能识别场景只针对应用于非结构化数据资产中的外部数据资产的智能识别。
其中,步骤S1中元数据包括技术元数据和业务元数据,技术元数据的采集,根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的,并且对于元数据管理工具支持的格式可直接进行导入,而对于一些自定义的规则,需要进行格式转换并导入,进一步的,数据管控平台应具备CSV适配器、XML适配器、DB适配器和API接入适配器,以支持大数据平台、统一知识库元数据的顺利接入,且数据管控平台应具有数据资产识别引擎,该引擎可根据基础数据资产、指标数据资产、非结构化数据资产准入规则,识别新增的各类数据资产。
其中,步骤S2中基础数据资产通过大数据平台ODS层和DW层的元数据比对,识别出可能新增和变更的基础数据资产信息,对基础数据资产目录和资产项进行补充和完善;建立大数据平台常用***表名关键字和***控制字段名关键字的“过滤库”,用于对新增和变更的元数据进行识别筛选,基础数据资产应满足下面三条规则:1、因新业务、新功能模块产生的元数据信息;2、因业务调整而发生改变的元数据信息;3、不在“过滤库”里的元数据信息。
其中,步骤S3中指标数据资产来自于大数据平台报表元数据,根据比对可以识别新增和变更的元数据信息,进而根据指标数据资产准入规则对新增和变更的元数据信息进行判别,识别新的指标数据资产,指标数据资产准入规则如下:1、元数据信息是否是度量值;2、和已有指标名称比对,判别是否是新的指标;3、具有重要业务价值。
步骤S4中的内部非结构数据资产主要为当前各业务部门的手工制作的统计报告和研究报告,各部门的非结构化信息,若要纳入到非结构化数据资产目录,应满足如下规则:由某某企业内部产生,拥有独立的知识产权;有明确的归属部门和作者;材料描述信息可对所内公开。
其中,步骤S5中外部数据资产分为两类包括:被指标数据资产所引用的外部数据信息项和被内部非结构化数据资产所引用的外部数据资产项目,针对这两类外部数据资产,其主要满足的规则如下:对于指标因子,判断该外部数据信息项有没有被内部指标所引用;对于重要标签,判断该外部数据信息项有没有被内部非结构化数据资产所引用。
进一步的,针对各类数据资产,通过设计适配于各类数据资产智能管理模型,并且该模型应可根据数据资产名称、定义、来源等属性,与资产分类树进行智能匹配,推荐合适的数据资产挂载点,以提高工作效率,降低人工出错几率,具体的,数据资产智能挂载的核心是对文本的自动化分类,建立、选择适当的分类规则从而进行正确分类的这一过程,其建立分类规则的基本过程是:先从已分类结果中倒推寻找分类规则,即先从已分类的训练文本中根据不同类别的文本所具有的不同特征;进而搜寻提取到一定准确、适当的分类规则;再将待分类文本按照以上规则进行归类;最终使得分类结果与目标结果相一致;
文本分类用计算公式如式(1-1)所示可定义为如下:
F(D,C)={True,False} (1-1)
上述公式(4-1)中,集合D={d1,d2,…,di,…dn}是指待分类的文本集合,其中,di表示其中的第i个待分类文本,而n是指待分类文本集合D中包含待分类文本的数量大小,集合C={c1,c2,…,cj,…cm} 则是指我们预先定义的类别集合,其中cj表示其中的第j个类别,而 m是指类别集合C中所预先定义的类别数量;而F函数,在这代表的是一种映射关系,若F(di,cj)=True,则代表数据集合中第i个待分类文本di它的分类结果是第j个类别cj;反之,若F(di,cj)=False,则是指数据集合中第i个待分类文本di的分类结果并不是第j个类别 cj,数学集合中的映射概念存在有一对一、一对多这两种映射关系,同理在文本分类中也可以分为单标签分类和多标签分类,其中,单标签分类是指待分类的文本只能被划分到一个类别中,数据资产的分类属于单标签分类,本方案对多标签分类不做相关解释。
更进一步的,在拿到数据集后的第一个处理步骤是对文本数据进行数据预处理操作,这一过程中,按照处理顺序我们需要对文本数据进行如下操作:文本标记、分词以及去除停用词处理,且经过文本预处理环节之后再对文本数据进行文本表示环节,具体的利用VSM模型对文本D进行文本表示,词项以及词项的权重值将成为文本表示这个模型的组成部分,文本D就能被n个词项以及他们的权重值所组成的特征向量代表,表示形式如下:D={(t1,w1),(t2,w2),…,(ti,wj),… (tn,wn)},其中ti,wj分别是指对应的第i个特征词以及第i个特征词的权重值,wj∈(0-1),通过VSM模型表示方法,可以将文本的相似度计算问题转化为对文本对应的特征向量进行夹角余弦的计算问题,如此就使得文本计算的复杂度得到了明显的简化。
其中,在对数据进行预处理操作以及文本表示后需对文本数据进行特征选取,具体的步骤:根据文本数据集特点,通过选定流程选取适合的特征计算函数,对数据集中每一条文本中的每个词项分别进行特征计算得到量化结果,将结果按照由大到小进行顺序排列,根据提前设定的阈值情况,从中选出一定数量的特征项作为原始文本数据的代表;具体的算法采用卡方统计算法即CHI算法,需要设定最小阈值和最大阈值,假设词项ti与类别cj满足一阶自由度的卡方(χ2)分布,通过函数计算出词项与类别之间的相关度,来提供选取标准,利用卡方统计算法可计算得到每条文本的所有词项的相关度,再根据相关度大小,对词项进行选取,其计算公式1-2所示:
Figure RE-GDA0003301055250000121
式(1-2)中,A是指类别结果为cj的文档中存在词项ti的文本数量,C是指类别结果为cj的文档中不存在词项ti的文本数量,B 是指训练文本数据集中类别结果为非cj的文档中存在词项ti的文本数量,N是指整个训练文本数据集中所包含的文本数量,D是指训练文本数据集中类别结果为非cj的文档中不存在词项ti的文本数量,且N=A+B+C+D;
在公式(1-2)中,CHI(ti,cj)表示的是词项ti与类别cj的卡方统计值,这是处理单个词项的单分类问题时的计算方法,但在处理多类分类问题时,卡方统计结果需要再进行一步处理,可以使用加权平均或者求和两种计算法,两种计算公式分别如式(1-3)、式(1-4)所示:
Figure RE-GDA0003301055250000122
Figure RE-GDA0003301055250000131
采用上述算法以完成对数据进行预处理操作以及文本表示后需对文本数据进行特征选取,卡方统计算法是在假设词项与类别间存在卡方分布的前提下展开运算的,它考虑了词项在不同类别之间的分布情况。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种智能化数据资产识别的方法,其特征在于,所述数据资产智能识别包括基础数据资产识别、指标数据资产识别、非结构化数据资产和外部数据资产识别,所述数据资产智能识别的方法包括以下步骤:
S1、通过在数据管控平台上实现这四类数据资产的自动化识别,需要建立机制监测这四类数据资产物理映射的元数据;
S2、基础数据资产分布在各核心业务***,可通过定时监测各核心业务***的元数据来识别新增的基础数据资产和已经删除需要解挂下线的数据资产;
S3、指标数据资产主要分布在大数据平台和数据应用或报表***中,针对指标数据资产的识别,通过介入大数据平台和数据应用或报表***报表需求管理流程来实现;
S4、非结构化数据资产分布在各业务部门中,在搭建所内统一知识库实现所内非结构化数据资产集中存储共享后,可通过对统一知识库元数据的定时监测,实现对非结构化数据资产的自动识别;
S5、外部数据资产为各业务部门日常在且有产生业务价值的外部数据信息,通过数据资产智能识别场景针对应用于非结构化数据资产中的外部数据资产的智能识别。
2.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S1中元数据包括技术元数据和业务元数据,技术元数据的采集,根据现有元数据设计出元模型,然后将大数据平台中的元数据按元模型集中汇总并关联到一起,达到企业对大数据平台的数据统一管理与应用的目的,并且对于元数据管理工具支持的格式可直接进行导入,而对于一些自定义的规则,需要进行格式转换并导入。
3.根据权利要求2所述的一种智能化数据资产识别的方法,其特征在于,所述数据管控平台应具备CSV适配器、XML适配器、DB适配器和API接入适配器,以支持大数据平台、统一知识库元数据的顺利接入,且数据管控平台应具有数据资产识别引擎,该引擎可根据基础数据资产、指标数据资产、非结构化数据资产准入规则,识别新增的各类数据资产。
4.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S2中基础数据资产通过大数据平台ODS层和DW层的元数据比对,识别出可能新增和变更的基础数据资产信息,对基础数据资产目录和资产项进行补充和完善;建立大数据平台常用***表名关键字和***控制字段名关键字的“过滤库”,用于对新增和变更的元数据进行识别筛选。
5.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S3中指标数据资产来自于大数据平台报表元数据,根据比对可以识别新增和变更的元数据信息,进而根据指标数据资产准入规则对新增和变更的元数据信息进行判别,识别新的指标数据资产。
6.根据权利要求1所述的一种智能化数据资产识别的方法,其特征在于,所述步骤S5中外部数据资产分为两类包括:被指标数据资产所引用的外部数据信息项和被内部非结构化数据资产所引用的外部数据资产项目,针对这两类外部数据资产,其主要满足的规则如下:对于指标因子,判断该外部数据信息项有没有被内部指标所引用;对于重要标签,判断该外部数据信息项有没有被内部非结构化数据资产所引用。
7.根据权利要求1-6任一所述的一种智能化数据资产识别的方法,其特征在于,针对各类数据资产,通过设计适配于各类数据资产智能管理模型,并且该模型应可根据数据资产名称、定义、来源等属性,与资产分类树进行智能匹配,推荐合适的数据资产挂载点,以提高工作效率,降低人工出错几率。
8.根据权利要求7所述的一种智能化数据资产识别的方法,其特征在于,所述数据资产智能挂载的核心是对文本的自动化分类,建立、选择适当的分类规则从而进行正确分类的这一过程,其建立分类规则的基本过程是:先从已分类结果中倒推寻找分类规则,即先从已分类的训练文本中根据不同类别的文本所具有的不同特征;进而搜寻提取到一定准确、适当的分类规则;再将待分类文本按照以上规则进行归类;最终使得分类结果与目标结果相一致;
所述文本分类用计算公式如式(1-1)所示可定义为如下:
F(D,C)={True,False} (1-1)
上述公式(4-1)中,集合D={d1,d2,…,di,…dn}是指待分类的文本集合,其中,di表示其中的第i个待分类文本,而n是指待分类文本集合D中包含待分类文本的数量大小,集合C={c1,c2,…,cj,…cm}则是指我们预先定义的类别集合,其中cj表示其中的第j个类别,而m是指类别集合C中所预先定义的类别数量;而F函数,在这代表的是一种映射关系,若F(di,cj)=True,则代表数据集合中第i个待分类文本di它的分类结果是第j个类别cj;反之,若F(di,cj)=False,则是指数据集合中第i个待分类文本di的分类结果并不是第j个类别cj,数学集合中的映射概念存在有一对一、一对多这两种映射关系,同理在文本分类中也可以分为单标签分类和多标签分类。
9.根据权利要求8所述的一种智能化数据资产识别的方法,其特征在于,在拿到数据集后的第一个处理步骤是对文本数据进行数据预处理操作,这一过程中,按照处理顺序我们需要对文本数据进行如下操作:文本标记、分词以及去除停用词处理,且经过文本预处理环节之后再对文本数据进行文本表示环节,具体的利用VSM模型对文本D进行文本表示,词项以及词项的权重值将成为文本表示这个模型的组成部分,文本D就能被n个词项以及他们的权重值所组成的特征向量代表,表示形式如下:D={(t1,w1),(t2,w2),…,(ti,wj),…(tn,wn)},其中ti,wj分别是指对应的第i个特征词以及第i个特征词的权重值,wj∈(0-1)。
10.根据权利要求9所述的一种智能化数据资产识别的方法,其特征在于,在对数据进行预处理操作以及文本表示后需对文本数据进行特征选取,具体的步骤:根据文本数据集特点,通过选定流程选取适合的特征计算函数,对数据集中每一条文本中的每个词项分别进行特征计算得到量化结果,将结果按照由大到小进行顺序排列,根据提前设定的阈值情况,从中选出一定数量的特征项作为原始文本数据的代表;具体的算法采用卡方统计算法即CHI算法,需要设定最小阈值和最大阈值,假设词项ti与类别cj满足一阶自由度的卡方(χ2)分布,通过函数计算出词项与类别之间的相关度,来提供选取标准,利用卡方统计算法可计算得到每条文本的所有词项的相关度,再根据相关度大小,对词项进行选取,其计算公式1-2所示:
Figure FDA0003230540570000051
式(1-2)中,A是指类别结果为cj的文档中存在词项ti的文本数量,C是指类别结果为cj的文档中不存在词项ti的文本数量,B是指训练文本数据集中类别结果为非cj的文档中存在词项ti的文本数量,N是指整个训练文本数据集中所包含的文本数量,D是指训练文本数据集中类别结果为非cj的文档中不存在词项ti的文本数量,且N=A+B+C+D;
在公式(1-2)中,CHI(ti,cj)表示的是词项ti与类别cj的卡方统计值,这是处理单个词项的单分类问题时的计算方法,但在处理多类分类问题时,卡方统计结果需要再进行一步处理,可以使用加权平均或者求和两种计算法,两种计算公式分别如式(1-3)、式(1-4)所示:
Figure FDA0003230540570000052
Figure FDA0003230540570000053
采用上述算法以完成对数据进行预处理操作以及文本表示后需对文本数据进行特征选取。
CN202110985791.8A 2021-08-26 2021-08-26 一种智能化数据资产识别的方法 Pending CN113673889A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110985791.8A CN113673889A (zh) 2021-08-26 2021-08-26 一种智能化数据资产识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110985791.8A CN113673889A (zh) 2021-08-26 2021-08-26 一种智能化数据资产识别的方法

Publications (1)

Publication Number Publication Date
CN113673889A true CN113673889A (zh) 2021-11-19

Family

ID=78546444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110985791.8A Pending CN113673889A (zh) 2021-08-26 2021-08-26 一种智能化数据资产识别的方法

Country Status (1)

Country Link
CN (1) CN113673889A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297283A (zh) * 2021-12-29 2022-04-08 厦门安胜网络科技有限公司 一种基于元数据驱动的数据安全管理方法与***
CN117909392A (zh) * 2023-12-18 2024-04-19 北京宇信科技集团股份有限公司 一种智能化数据资产盘点的方法和***

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN106845846A (zh) * 2017-01-23 2017-06-13 重庆邮电大学 大数据资产评估方法
US20170201413A1 (en) * 2016-01-11 2017-07-13 Equinix, Inc. Defining conditional triggers for issuing data center asset information
CN108228687A (zh) * 2017-06-20 2018-06-29 上海吉贝克信息技术有限公司 大数据知识挖掘及精准跟踪方法与***
CN110163458A (zh) * 2018-02-23 2019-08-23 徐峰 基于人工智能技术的数据资产管理与监测方法
CN111026916A (zh) * 2019-12-10 2020-04-17 北京百度网讯科技有限公司 文本描述的转换方法、装置、电子设备及存储介质
CN111078780A (zh) * 2019-12-23 2020-04-28 北京中创信测科技股份有限公司 一种ai优化数据治理的方法
CN111611458A (zh) * 2020-06-09 2020-09-01 普元信息技术股份有限公司 大数据治理中基于元数据和数据分析技术实现***数据架构梳理的方法
CN111882219A (zh) * 2020-07-29 2020-11-03 北京天地龙跃科技有限公司 一种煤机设备资产管理大数据平台
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法
CN112396108A (zh) * 2020-11-19 2021-02-23 腾讯科技(深圳)有限公司 业务数据评估方法、装置、设备及计算机可读存储介质
CN112395371A (zh) * 2020-12-10 2021-02-23 深圳迅策科技有限公司 一种金融机构资产分类处理方法、装置及可读介质
CN112732815A (zh) * 2021-01-07 2021-04-30 永辉云金科技有限公司 一种外部数据管理方法、***、设备和存储介质
CN113157912A (zh) * 2020-12-24 2021-07-23 航天科工网络信息发展有限公司 一种基于机器学习的文本分类方法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103617157A (zh) * 2013-12-10 2014-03-05 东北师范大学 基于语义的文本相似度计算方法
CN104699772A (zh) * 2015-03-05 2015-06-10 孟海东 一种基于云计算的大数据文本分类方法
US20170201413A1 (en) * 2016-01-11 2017-07-13 Equinix, Inc. Defining conditional triggers for issuing data center asset information
CN106202518A (zh) * 2016-07-22 2016-12-07 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法
CN106845846A (zh) * 2017-01-23 2017-06-13 重庆邮电大学 大数据资产评估方法
CN108228687A (zh) * 2017-06-20 2018-06-29 上海吉贝克信息技术有限公司 大数据知识挖掘及精准跟踪方法与***
CN110163458A (zh) * 2018-02-23 2019-08-23 徐峰 基于人工智能技术的数据资产管理与监测方法
CN111026916A (zh) * 2019-12-10 2020-04-17 北京百度网讯科技有限公司 文本描述的转换方法、装置、电子设备及存储介质
CN111078780A (zh) * 2019-12-23 2020-04-28 北京中创信测科技股份有限公司 一种ai优化数据治理的方法
CN111611458A (zh) * 2020-06-09 2020-09-01 普元信息技术股份有限公司 大数据治理中基于元数据和数据分析技术实现***数据架构梳理的方法
CN111882219A (zh) * 2020-07-29 2020-11-03 北京天地龙跃科技有限公司 一种煤机设备资产管理大数据平台
CN112396108A (zh) * 2020-11-19 2021-02-23 腾讯科技(深圳)有限公司 业务数据评估方法、装置、设备及计算机可读存储介质
CN112395371A (zh) * 2020-12-10 2021-02-23 深圳迅策科技有限公司 一种金融机构资产分类处理方法、装置及可读介质
CN112231315A (zh) * 2020-12-16 2021-01-15 武汉凡松科技有限公司 一种基于大数据的数据治理方法
CN113157912A (zh) * 2020-12-24 2021-07-23 航天科工网络信息发展有限公司 一种基于机器学习的文本分类方法
CN112732815A (zh) * 2021-01-07 2021-04-30 永辉云金科技有限公司 一种外部数据管理方法、***、设备和存储介质

Non-Patent Citations (10)

* Cited by examiner, † Cited by third party
Title
WACTHAMU: "数据仓库建设之《元数据管理》", Retrieved from the Internet <URL:https://blog.csdn.net/wacthamu/article/details/86607332> *
佘俊 等: "元数据驱动的大数据服务平台", 《科技传播》, vol. 10, no. 05, 15 March 2018 (2018-03-15), pages 105 - 107 *
刘世民;朱继阳;张梦梦;吴小锋;: "电力企业数据资产管理平台功能研究", 电子测试, no. 07 *
李宝林;陈益信;林韩;蔡振才;叶勇;许元斌;: "福建电力数据中心元数据管理平台的设计", 福建电力与电工, no. 02 *
李桥兴;胡雨晴;: "大数据产业的属性与分类界定及其模糊识别研究", 科技管理研究, no. 03 *
梁伍七 等: "基于类别的CHI特征选择方法", 安徽广播电视大学学报, no. 03, 30 September 2015 (2015-09-30), pages 124 - 126 *
江樱;黄慧;卢文达;骆伟艺;: "基于大数据技术的电力全业务数据运营管理平台研究", 自动化技术与应用, no. 09 *
胡仁昱: "会计信息***", 31 January 2021, 东北财经大学出版社, pages: 465 *
蒋艳;李玻;: "基于统计分析的网络空间数字虚拟资产分类模型", 科技经济导刊, no. 17 *
衡星辰;陈丰;张诗军;甘杉;: "元数据管理***在电力企业的研究与实践", 自动化与仪器仪表, no. 04 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114297283A (zh) * 2021-12-29 2022-04-08 厦门安胜网络科技有限公司 一种基于元数据驱动的数据安全管理方法与***
CN117909392A (zh) * 2023-12-18 2024-04-19 北京宇信科技集团股份有限公司 一种智能化数据资产盘点的方法和***

Similar Documents

Publication Publication Date Title
Zhang et al. Topic cube: Topic modeling for olap on multidimensional text databases
US7565335B2 (en) Transform for outlier detection in extract, transfer, load environment
US20060242190A1 (en) Latent semantic taxonomy generation
CN110209808A (zh) 一种基于文本信息的事件生成方法以及相关装置
US20110191311A1 (en) Bi-model recommendation engine for recommending items and peers
CN103425740B (zh) 一种面向物联网的基于语义聚类的物资信息检索方法
Froeschl Metadata management in statistical information processing: a unified framework for metadata-based processing of statistical data aggregates
US20110191335A1 (en) Method and system for conducting legal research using clustering analytics
CN113673889A (zh) 一种智能化数据资产识别的方法
CN106775694B (zh) 一种软件配置代码制品的层次分类方法
KR102358357B1 (ko) 시장규모추정장치 및 그 동작 방법
CN117592450A (zh) 基于员工信息整合的全景档案生成方法及***
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
CN101334793B (zh) 一种自动识别需求依赖关系的方法
CN115797795A (zh) 基于强化学习的遥感影像问答式检索***及方法
Neiling et al. The object identification framework
CN117251605B (zh) 基于深度学习的多源数据查询方法及***
Fabris et al. Discovering surprising instances of Simpson's paradox in hierarchical multidimensional data
Kwakye A Practical Approach to Merging Multidimensional Data Models
CN115374223B (zh) 一种基于规则与机器学习的智能血缘识别推荐方法及***
US12008409B1 (en) Apparatus and a method for determining resource distribution
Hacid Neighborhood graphs for semi-automatic annotation of large image databases
Seale et al. A dynamic hyperbolic surface model for responsive data mining
CN116340845A (zh) 标签生成方法、装置、存储介质及电子设备
CN114492308A (zh) 一种结合知识发现与文本挖掘的产业信息标引方法和***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination