CN113495902A - 数据处理方法及数据标准管理*** - Google Patents

数据处理方法及数据标准管理*** Download PDF

Info

Publication number
CN113495902A
CN113495902A CN202010197689.7A CN202010197689A CN113495902A CN 113495902 A CN113495902 A CN 113495902A CN 202010197689 A CN202010197689 A CN 202010197689A CN 113495902 A CN113495902 A CN 113495902A
Authority
CN
China
Prior art keywords
data
information
data element
standard
database table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010197689.7A
Other languages
English (en)
Inventor
柴永明
宋国英
崔静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ministry Of Industry And Information Technology Of People's Republic Of China
Huawei Technologies Co Ltd
Original Assignee
Ministry Of Industry And Information Technology Of People's Republic Of China
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ministry Of Industry And Information Technology Of People's Republic Of China, Huawei Technologies Co Ltd filed Critical Ministry Of Industry And Information Technology Of People's Republic Of China
Priority to CN202010197689.7A priority Critical patent/CN113495902A/zh
Priority to PCT/CN2021/075477 priority patent/WO2021184995A1/zh
Publication of CN113495902A publication Critical patent/CN113495902A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据处理方法及数据标准管理***,属于数据处理领域。所述方法包括:获取待上线的第一业务***的第一数据库表结构的信息,所述第一数据库表结构的信息包括至少一个数据元的信息;基于数据标准库对所述第一数据库表结构的信息进行校验,所述数据标准库包括多个标准数据元的信息;在对所述第一数据库表结构的信息校验后,获取所述第一业务***的目标数据库表结构,所述目标数据库表结构基于校验后的所述第一数据库表结构确定。本申请能够提高业务***上线后提供的数据的质量,减少业务***上线后数据转化的概率。本申请用于业务***的数据处理。

Description

数据处理方法及数据标准管理***
技术领域
本申请涉及数据处理领域,特别涉及一种数据处理方法及数据标准管理***。
背景技术
数据标准是指定群体(如某一行业或某一组织)内需共同遵守的数据含义和业务规则。数据标准通常以表结构(也称数据库表结构)的形式表示,表结构中包括多个业务字段。表结构中的每个业务字段称为一个数据元(也称数据元素),是数据标准的基本组成单元。数据元的信息均是符合业务规则的,该信息包括名称、定义、结构和取值的规则等内容。
目前,在一些业务***中维护有自身的数据库表结构,该数据库表结构是业务***提供数据服务时所依据的数据处理条件。为了实现数据标准的管理,提出一种数据标准管理***,该数据标准管理***存储有一个或多个行业所需遵守的数据标准的信息,该数据标准可以包括国家标准(简称国标)、行业标准(简称行标)和/或地方标准(简称地标)。在某一业务***上线后,数据标准管理***可以对该业务***中维护的数据库表结构的信息进行稽查;若该数据库表结构不符合数据标准管理***所存储的与该业务***对应的目标数据标准的要求,数据标准管理***会建立该数据库表结构与目标数据标准的映射关系(即数据库表结构的数据元与目标数据标准的数据元的映射关系),在业务***每次对外提供数据服务时,数据标准管理***基于该映射关系将符合数据库表结构定义的条件的数据转化为符合目标数据标准的数据,再输出转化后的数据。
但是数据标准管理***管理的业务***,在每次对外提供数据服务时,均需要进行数据转化,影响提供数据服务的效率。
发明内容
本申请实施例提供了一种数据处理方法及数据标准管理***。所述技术方案如下:
第一方面,提供一种数据处理方法,该方法包括:
获取待上线的第一业务***的第一数据库表结构的信息,该第一数据库表结构的信息包括至少一个数据元的信息;基于数据标准库对该第一数据库表结构的信息进行校验,该数据标准库包括多个标准数据元的信息;在对该第一数据库表结构的信息校验后,获取该第一业务***的目标数据库表结构,该目标数据库表结构基于校验后的该第一数据库表结构确定。
本申请实施例提供的业务数据处理方法,在业务***上线前,对该业务***的数据库表结构的信息进行校验,从而保证业务***在上线后可以采用准确的目标数据库表结构。相较于传统技术,目标数据库表结构的可靠性较高,从而提高了业务***上线后提供的数据的质量,减少了业务***上线后数据转化的概率,降低了后期数据治理的成本。
数据标准管理***获取待上线的第一业务***的第一数据库表结构的信息的方式可以有多种,本申请实施例以以下两种方式为例进行说明:
在第一种可选方式中,通过在线获取的方式获取第一数据库表结构的信息。
该第一数据库表结构的信息和该标准数据元的信息均包括数据元标识和数据元描述信息,该获取待上线的第一业务***的第一数据库表结构的信息,包括:
接收该第一数据元的数据元标识,该第一数据元的数据元标识为该数据标准库存储的多个标准数据元的数据元标识中的一个;在该数据标准库中获取该第一数据元的数据元标识对应的数据元描述信息。
在一种可能实现中,数据标准管理***支持关键字搜索功能。该第一数据元的数据元标识是通过该第一数据元对应的关键字在该数据标准库存储的多个标准数据元的数据元标识中搜索得到的。
在一种可能实现中,数据标准管理***还支持搜索提示功能,以保证业务人员有效地确定第一数据元的数据元标识。
在一种可能实现中,在该接收第一数据元的数据元标识之前,该方法还包括:将接收的该关键字与该数据标准库存储的多个标准数据元的数据元标识进行匹配;输出匹配结果,该匹配结果包括该至少一个第二标准数据元的信息,该至少一个第二标准数据元中每个第二标准数据元的数据元标识均与该关键字匹配。
在一种可能实现中,前述将接收的关键字与多个标准数据元的数据元标识进行匹配的算法可以为模糊匹配算法,其中,模糊匹配算法指的是根据所提出的条件或者要求,给予一定精确程度的匹配。模糊匹配的原则是先搜索与被搜索的内容一模一样的内容,搜索不到再去搜索很接近的内容。在本申请实时中,模糊匹配算法还允许搜索用的关键字的部分字面顺序颠倒或有间隔。搜索内容可以包括关键字的同义词、近义词、相关词、以及包含关键字的短语等。
采用模糊匹配算法的得到的匹配结果既可以包括精确匹配的结果,又可以包括除精确匹配之外的结果,相较于单纯采用精确匹配算法来获取第二标准数据元的信息,模糊匹配所匹配的内容更加广泛,获取的第二标准数据元的信息的个数多,从而提高匹配结果对业务人员可参考性。其中,精确匹配算法指的是匹配条件是在搜索的关键字与标准数据元的数据元标识二者字面完全一致时才确定匹配,匹配限制精确严格。
可选的,若匹配得到的第二标准数据元有多个时,在匹配结果中,多个第二标准数据元的信息可以按照第一指定顺序排列。例如,该第一指定顺序可以由以下两种示意性实现方式实现:
在第一种示意性实现方式中,多个第二标准数据元的信息按照第二标准数据元的数据元标识与关键字的匹配度降序排序(即按照匹配度从大到小的顺序排序)。
示例的,对于任一第二标准数据元,该第二标准数据元的数据元标识与关键字的匹配度的计算方式可以有多种,例如该匹配度P1满足第一匹配度计算公式:
P1=M/N;
其中,M为该第二标准数据元的数据元标识与关键字相同的字符数,相当于第二标准数据元的数据元标识与关键字交集所对应的字符数;N为该第二标准数据元的数据元标识的字符数与关键字的字符数中的最大字符数。
在第二种示意性实现方式中,多个第二标准数据元的信息按照第二标准数据元所属的数据标准的优先级降序排序(即按照优先级从高到低的顺序排序)。
可选的,数据标准的优先级可以包括标准优先级或时间优先级。该标准优先级指的是标准自身的优先级。标准优先级从高到低的顺序排序依次是国标、行标和地标。时间优先级通常是发布时间或实施时间距离当前越近,优先级越高。
值得说明的是,第一指定顺序还可以有其他方式,例如该第一指定顺序是将前述第一种和第二种示意性实现方式进行结合确定的顺序。也即是,多个第二标准数据元的信息按照第二标准数据元的数据元标识与关键字的匹配度以及第二标准数据元所属的数据标准的优先级排序。例如,对于每个第二标准数据元,数据标准管理***可以获取该第二标准数据元的数据元标识与关键字的匹配度,以及获取该第二标准数据元所属的数据标准的优先级,并按照指定规则为该第二标准数据元所属的数据标准的优先级赋值,其中,优先级与所赋的数值正相关,也即是优先级越高,数值越高;接着,按照预先为匹配度和优先级分别分配的权值,基于该第二标准数据元对应的匹配度和优先级,通过加权求和的方式确定该第二标准数据元的排序指示值。最终,数据标准管理***按照各个第二标准数据元对应的排序指示值进行各个第二标准数据元的信息的排序。通常按照排序指示值降序排序。
通过按照第一指定顺序对多个第二标准数据元的信息排序,可以提高对业务人员有效的提示,提高提示命中率。
在第二种可选方式中,通过接收线下已编辑的数据标准文档的方式获取第一数据库表结构的信息。
在一种可能实现中,该获取待上线的第一业务***的第一数据库表结构的信息,包括:
接收数据标准文档,该数据标准文档包括该第一数据库表结构的信息。
其中,该第三方建模工具可以访问(如查询)数据标准库,获取数据标准库中存储标准数据元的信息,并基于标准数据元的信息来进行数据标准文档的生成。相应的,该接收数据标准文档的过程,包括:接收第三方建模工具基于该数据标准库生成的该数据标准文档。
由于第三方建模工具可以支持满足数据标准库要求的数据标准文档的生成,相应的第一数据库表结构的信息全部或部分符合数据标准库的要求,因此可以减少校验的运算代价,降低校验成本。
在一种可能实现中,该获取待上线的第一业务***的第一数据库表结构的信息,包括:
输出数据字典模板,该数据字典模板为该第一数据库表结构的信息的参考模板;
接收基于该数据字典模板输入的该第一数据库表结构的信息。
数据标准管理***通过输出数据字典模板,以供业务人员进行参考,使得业务人员不再单纯靠自身经验来制定数据元的信息,而是有所依据地制定数据元的信息,从而可以提高获取的第一数据库表结构的信息的准确性,减少后续校验过程的复杂度和运算代价。
本申请实施例中,对第一数据库表结构的信息进行校验至少可以包括以下数据标准符号性校验和数据标准规范性校验共两种可选方式:
第一种可选方式,数据标准符号性校验。该校验过程指的是基于数据标准库中的标准数据元的信息对至少一个数据元的信息进行校验。标准数据元的信息即前述“符号”。
在一种可能实现中,该基于数据标准库对该第一数据库表结构的信息进行校验的过程,包括:
当第一数据元的信息与该多个标准数据元的信息均不匹配时,发送第一修改提示信息,该第一修改提示信息指示更新该第一数据元的信息,该第一数据元为该至少一个数据元中的一个数据元;在接收到与该多个标准数据元中任一标准数据元的信息匹配的更新后的该第一数据元的信息后,确定对该第一数据元的信息校验成功。
业务人员可以通过数据标准管理***多次发送的第一修改提示信息,实现第一数据元的信息的多次修改,以达到数据标准库中标准数据元的要求,使得业务人员可以定义出与数据标准库的标准数据元的信息一致的数据元的信息。
在一种可能实现中,该第一数据库表结构的信息和该标准数据元的信息均包括数据元标识,该第一修改提示信息包括至少一个第一标准数据元的信息,该至少一个第一标准数据元中每个第一标准数据元的数据元标识均与该第一数据元的数据元标识模糊匹配。例如该模糊匹配算法为ElasticSearch中的搜索算法。
采用模糊匹配算法的得到的匹配结果既可以包括精确匹配的结果,又可以包括除精确匹配之外的结果,相较于单纯采用精确匹配算法来获取第一标准数据元的信息,模糊匹配所匹配的内容更加广泛,获取的第一标准数据元的信息的个数多,从而提高匹配结果对业务人员可参考性。
在一种可能实现中,若匹配得到的第一标准数据元有多个时,则在第一修改提示信息中,多个第一标准数据元的信息可以按照第二指定顺序排列。例如,该第二指定顺序可以由以下两种示意性实现方式实现:
在第一种示意性实现方式中,多个第一标准数据元的信息按照第一标准数据元的数据元标识与关键字的匹配度降序排序(即按照匹配度从大到小的顺序排序)。
在第二种示意性实现方式中,多个第一标准数据元的信息按照第一标准数据元所属的数据标准的优先级降序排序(即按照优先级从高到低的顺序排序)。
值得说明的是,第二指定顺序还可以有其他方式,例如该第二指定顺序是将前述第一种和第二种示意性实现方式进行结合确定的顺序。也即是,多个第一标准数据元的信息按照第一标准数据元的数据元标识与第一数据元的数据元标识的匹配度以及第一标准数据元所属的数据标准的优先级排序。例如,对于每个第一标准数据元,数据标准管理***可以获取该第一标准数据元的数据元标识与第一数据元的数据元标识的匹配度,以及获取该第一标准数据元所属的数据标准的优先级,并按照指定规则为该第一标准数据元所属的数据标准的优先级赋值,其中,优先级与所赋的数值正相关;接着,按照预先为匹配度和优先级分别分配的权值,基于该第一标准数据元对应的匹配度和优先级,通过加权求和的方式确定该第一标准数据元的排序指示值。最终,数据标准管理***按照各个第一标准数据元对应的排序指示值进行各个第一标准数据元的信息的排序。通常按照排序指示值降序排序。
通过按照第二指定顺序对多个第一标准数据元的信息排序,可以提高对业务人员有效的提示,提高提示命中率。
在一种可能实现中,该方法还包括:接收更新后的该第一数据库表结构的信息;
在该更新后的该第一数据库表结构的信息中确定增量的数据元,并在该增量的数据元的信息中确定该第一数据元的信息;或者,在该更新后的该第一数据库表结构的信息的全量的数据元的信息中确定该第一数据元的信息。
第二种可选方式,数据标准规范性校验。该校验过程指的是对数据标准的信息的规范性进行校验。主要校验数据标准的信息的格式。
该基于数据标准库对该第一数据库表结构的信息进行校验,包括:
当第一数据库表结构的信息的格式不符合指定格式要求时,发送第二修改提示信息,该第二修改提示信息指示更新该第一数据库表结构的信息的格式;在接收到格式符合该格式要求的更新后的该第一数据库表结构的信息后,确定对该第一数据库表结构的信息的格式校验成功。
业务人员可以通数据标准管理***多次发送的第二修改提示信息,实现第一数据库表结构的信息的格式的多次修改,以达到数据标准管理***对标准信息的格式的要求,使得业务人员可以定义出与复合要求的数据库表结构的信息。
在一种可能实现中,在该获取待上线的第一业务***的第一数据库表结构的信息之后,该方法还包括:
当第二数据元对应的数值为可枚举数值时,为该第二数据元添加数据元备注信息,该数据元备注信息用于标识该第二数据元对应的可枚举数值,该第二数据元为该至少一个数据元中的一个数据元。
如此,在后续第一数据库表结构的信息校验完成后,在采用基于该第一数据库表结构确定的目标数据库表结构中可以仍然包括为第二数据元添加数据元备注信息。在第一业务***上线后,若需要采集该第二数据元对应的数据,可以直接按照第二数据元对应的可枚举数值的格式采集数据,以保证最终采集的数据符合数据标准库的格式要求,也即是符合相关标准。
在一种可能实现中,该方法还包括:
接收数据标准库操作请求,该数据标准库操作请求包括标准数据元添加请求、标准数据元更新请求、标准数据元删除请求或标准数据元查询请求;在对该数据标准库操作请求鉴权成功后,对该数据标准库执行该数据标准库操作请求所对应的操作。
本申请实施例示意性地提出以下几种鉴权方式:
第一种鉴权方式:高保密级别的数据操作的鉴权。
当数据操作请求是标准数据元添加请求、标准数据元更新请求或标准数据元删除请求时,数据标准管理***检测该数据标准请求中携带的账号是否为第一等级的账号,该第一等级大于指定等级阈值,示例的,该第一等级的账号为***管理员的账号。
当数据标准管理***检测该数据标准请求中携带的账号不为第一等级的账号时,确定对数据标准库操作请求鉴权失败。
当数据标准管理***检测到该数据标准请求中携带的账号为第一等级的账号时,在一种可选方式中,数据标准管理***确定对数据标准库操作请求鉴权成功;在另一种可选方式中,数据标准管理***向第二等级的账号所对应的终端设备发送该数据标准库操作请求,在接收到指示允许对数据标准库进行操作的允许指令后,确定对数据标准库操作请求鉴权成功;在接收到指示不允许对数据标准库进行操作的禁止指令后,确定对数据标准库操作请求鉴权失败。其中,第二等级高于或等于第一等级,该第二等级的账号与第一等级的账号不同。例如,第二等级的账号为项目管理员的账号,则相应的第二等级的账号所对应的终端设备为前述第一终端设备。项目管理员在通过第一终端设备接收到数据标准库操作请求后,根据请求的内容以及请求中携带的账号确定是否允许对应的人员对数据标准库进行操作,若允许对数据标准库进行操作,则通过第一终端设备发送允许指令,若不允许对数据标准库进行操作,则通过第一终端设备发送禁止指令。
第二种鉴权方式:低保密级别的数据操作的鉴权。
当数据操作请求是标准数据元查询请求时,数据标准管理***检测该数据标准请求中携带的账号是否为数据标准管理***分配的账号,也即是数据标准管理***中的合法账号,示例的,该数据标准管理***分配的账号为项目管理员、业务人员以及***管理员的账号中的任一账号。
当数据标准管理***检测该数据标准请求中携带的账号不为数据标准管理***分配的账号时,确定对数据标准库操作请求鉴权失败。
当数据标准管理***检测到该数据标准请求中携带的账号为数据标准管理***分配的账号时,在一种可选方式中,数据标准管理***确定对数据标准库操作请求鉴权成功;在另一种可选方式中,数据标准管理***向第三等级的账号所对应的终端设备发送该数据标准库操作请求,在接收到指示允许对数据标准库进行操作的允许指令后,确定对数据标准库操作请求鉴权成功;在接收到指示不允许对数据标准库进行操作的禁止指令后,确定对数据标准库操作请求鉴权失败。
其中,第三等级高于或等于前述数据标准请求中携带的账号的等级,该第三等级的账号与数据标准请求中携带的账号不同。例如,第三等级的账号为项目管理员或***管理员的账号,假设第三等级的账号为***管理员的账号,则相应的第三等级的账号所对应的终端设备为前述第三终端设备。***管理员在通过第三终端设备接收到数据标准库操作请求后,根据请求的内容以及请求中携带的账号确定是否允许对应的人员对数据标准库进行操作,若允许对数据标准库进行操作,则通过第三终端设备发送允许指令,若不允许对数据标准库进行操作,则通过第三终端设备发送禁止指令。
在前述两种鉴权方式中,若数据标准管理***对数据标准库操作请求鉴权成功,对数据标准库执行数据标准库操作请求所对应的操作。在一种可能实现中,据标准管理***还可以发送数据操作响应,指示完成对数据标准库执行数据标准库操作请求所对应的操作,或者指示操作成功。
若数据标准管理***对数据标准库操作请求鉴权失败,禁止对数据标准库执行数据标准库操作请求所对应的操作。在一种可能实现中,据标准管理***还可以发送数据操作响应,指示禁止对数据标准库执行数据标准库操作请求所对应的操作,或者指示操作失败。
在一种可能实现中,该方法还包括:查询该数据标准库对应的操作日志;当该操作日志中包括异常操作日志,发出异常告警。***管理员可以基于异常告警确定是否需要进行数据操作的回溯,实现数据的回滚,从而有效维护数据标准管理***。
本申请实施例中,数据标准管理***还支持数据治理功能。在一种可选示例中,数据标准管理***预先建立有人工智能模型,通过人工智能模型进行数据治理。该数据治理过程可以包括以下步骤:
获取上线后的第二业务***的第二数据库表结构的信息,该第二数据库表结构的信息包括至少一个数据元的信息;当基于人工智能模型检测到第三数据元的信息与该多个标准数据元的信息均不匹配时,在该多个标准数据元中确定与该第三数据元对应的目标标准数据元,该第三数据元为该第二数据库表结构的信息包括的至少一个数据元的一个数据元;基于该人工智能模型,建立该第三数据元与该目标标准数据元的映射关系。
在一种可能实现中,数据标准管理***支持脚本输出功能。在该获取该第一业务***的目标数据库表结构后,该方法还包括:输出该目标数据库表结构对应的脚本。该脚本用于生成目标数据库表结构的信息,其包括第一业务***的数据库建表语句。业务人员通过第二终端设备可以接收该脚本。在第一业务***在上线后,业务人员可以在第一业务***中加载并运行该脚本,运行后的脚本可以生成目标数据库表结构的信息,并按照该目标数据库表结构的信息建设得到对应的数据库表结构。如此,无需业务人员自行编写脚本,减少业务人员的工作量,从而节约人工成本。
第二方面,提供一种数据标准管理***,该数据标准管理***可以包括至少一个模块,该至少一个模块可以用于实现上述第一方面或者第一方面的各种可能实现提供的该数据处理方法。
第三方面,本申请提供一种计算设备,该计算设备包括处理器和存储器。该存储器存储计算机指令;该处理器执行该存储器存储的计算机指令,使得该计算设备执行上述第一方面或者第一方面的各种可能实现提供的方法,使得该计算设备部署上述第二方面或者第二方面的各种可能实现提供的该数据标准管理***。
第四方面,本申请提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机指令,该计算机指令指示该计算设备执行上述第一方面或者第一方面的各种可能实现提供的方法,或者该计算机指令指示该计算设备部署上述第二方面或者第二方面的各种可能实现提供的数据标准管理***。
第五方面,本申请提供一种计算机程序产品,该计算机程序产品包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算设备执行上述第一方面或者第一方面的各种可能实现提供的方法,使得该计算设备部署上述第二方面或者第二方面的各种可能实现提供的数据标准管理***。
第六方面,提供一种芯片,该芯片可以包括可编程逻辑电路和/或程序指令,当该芯片运行时用于实现如第一方面任一该的数据处理方法。
附图说明
图1是本申请实施例提供的一种数据处理方法所涉及的数据标准管理***的应用环境示意图;
图2是本申请实施例提供的另一种数据处理方法所涉及的数据标准管理***的应用环境示意图;
图3是本申请一示意性实施例提供的一种数据处理方法的流程示意图;
图4是本申请实施例中数据标准管理***提供的一种示意性的界面示意图;
图5是本申请实施例中数据标准管理***提供的另一种示意性的界面示意图;
图6是本申请实施例提供的一种数据标准管理***的结构示意图;
图7是本申请实施例提供的另一种数据标准管理***的结构示意图;
图8是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
为了便于读者理解,本申请实施例首先对本申请实施例提供的一种数据处理方法所涉及的专有名词进行解释。
数据标准,是指定群体(如某一行业或某一组织)内需共同遵守的数据含义和业务规则。数据标准通常以表结构的形式表示,表结构中包括多个业务字段。由于数据标准对应表结构通常存储在数据库中,因此数据标准对应表结构也称为数据库表结构,该数据库表结构所定义的表为数据库表(也称物理表或数据实体)。
数据元,是指数据库表结构中的一个业务字段,是数据库表结构的基本组成单元。一个数据元的信息包括用于描述数据元的属性的信息。即一个数据元的属性信息。该属性信息可以包括用于描述数据元自身属性的参数的信息,如名称、定义、结构和取值的规则等参数的信息,还可以包括用于描述数据元所属环境的参数的信息,如所属数据库表结构的名称。其中,数据标准中的数据元称为标准数据元。
代码集,是指数据库表结构中可枚举数值的定义。可枚举数值指的是数值存在多例。例如,一个数据元对应的数值为可枚举数值,指的是该数据元中的数值有多个,但数值的个数是有限的。由于一个数据元的名称,数据元内容中的取值,取值的说明等均可以为数值,则对于一个数据元,代码集指的是该数据元对应的数值为可枚举数值时,该可枚举数值的定义。例如一个数据元的名称为:性别,数据元的数据元内容有男和女2个可枚举数值,代码集定义该2个可枚举数值分别用0和1表示。
以下对本申请实施例提供的一种数据处理方法所涉及应用场景进行说明。
在某一行业或某一组织内,执行某一项目涉及一个或多个业务***。该一个或多个业务***需要遵循相同的数据标准,如国标、行标或地标。如此可以提高该项目的作业效率以及数据质量,减少作业成本。
示例的,假设属于一组织X的企业建立一个项目,由多个厂家来实现该项目,每个厂家维护有一个或多个业务***(通常维护一个业务***),则采用本申请实施例提供的数据处理方法所涉及的数据标准管理***,可以实现该多个厂家所维护的业务***采用的数据标准的一致性(即各个厂家采用的数据库表结构均符合数据标准的要求)。其中,本申请实施例将企业的管理员称为项目管理员,将厂家的管理人员称为业务人员,维护数据标准管理***的工作人员称为***管理员。
可选的,前述组织X可以为通信组织、电力组织、水利组织或农业组织等等,相应的,业务***可以为通信业务***、电力业务***、水利业务***或农业业务***等等。
图1是本申请实施例提供的一种数据处理方法所涉及的数据标准管理***的应用环境示意图。请参考图1,该数据标准管理***10包括:
数据标准库101和数据标准管理设备102。数据标准库101与数据标准管理设备102建立有有线或无线的通信连接。数据标准库101可以为一个服务器或者由多个服务器组成的服务器集群。数据标准库101用于存储多个标准数据元的信息。标准数据元指的是已建立的数据标准(如已建立的国标、行标或地标)中的数据元。数据标准管理设备102可以为一个服务器或者由多个服务器组成的服务器集群或者其他计算机设备。数据标准管理设备102用于管理一个或多个业务***的部分或全部功能,并通过数据标准库101中存储的标准数据元对所管理的业务***的数据库表结构的信息进行校验。
可选的,如图2所示,该数据标准管理***10还可以包括:
生命周期管理设备103以及数据治理设备104。生命周期管理设备103以及数据治理设备104分别与数据标准库101建立有有线或无线的通信连接。生命周期管理设备103可以为一个服务器或者由多个服务器组成的服务器集群。生命周期管理设备103用于管理对数据标准库101的操作,如标准数据元的添加操作、更新操作、删除操作或查询操作。数据治理设备104可以为一个服务器或者由多个服务器组成的服务器集群或者云计算中心。数据治理设备104用于进行数据标准库的数据治理,如建立一个数据库表结构中的数据元与数据标准库101中的标准数据元的映射关系。
值得说明的是,当前述数据标准管理***所需处理的数据量较小或者存在一个数据处理性能较高的设备时,前述数据标准库101、数据标准管理设备102、生命周期管理设备103以及数据治理设备104的多种功能可以由一个设备的对应模块实现,也即是该数据标准库101、数据标准管理设备102、生命周期管理设备103以及数据治理设备104中的至少两个设备的功能集成在一个设备上。例如,该设备可以包括数据标准存储模块、数据标准管理模块、生命周期管理模块以及数据治理模块,分别对应实现前述数据标准库101、数据标准管理设备102、生命周期管理设备103以及数据治理设备104的功能。
可选的,该数据标准管理***还支持任务管理功能,用于管理各个业务***,并将管理权限分配至各个业务***的业务人员。各个业务人员只能管理与分配给自己的业务***相关的数据库等。
进一步可选的,该数据标准管理***10还可以包括分别与项目管理员、业务人员以及***管理员对应的第一终端设备、第二终端设备和第三终端设备。项目管理员、业务人员以及***管理员可以通过对应的终端设备访问该数据标准管理***。
图3是本申请一示意性实施例提供的一种数据处理方法的流程示意图,该数据处理方法可以应用于图1或图2所示的数据标准管理***中。后续实施例假设待上线的第一业务***需要基于数据标准库进行第一数据库表结构的校验,数据标准库包括多个标准数据元的信息,则如图3所示,该方法包括:
步骤201、数据标准管理***获取待上线的第一业务***的第一数据库表结构的信息。
业务人员在新建或重建第一业务***时,可以为第一业务***建立数据库表结构。该第一业务***的数据库表结构可以有一个或多个,该数据库表结构是业务人员自定义的,业务人员可以将其维护的数据库表结构提供给数据标准管理***,以由数据标准管理***进行数据库表结构的信息的校验。例如,业务人员可以通过其使用的第二终端设备通过一次编辑请求或者多次编辑请求将该数据库表结构的信息输入至数据标准管理***。
假设第一数据库表结构为第一业务***中的一个数据库表结构,其他的数据库表结构的处理方式参考该第一数据库表结构。在本申请实施例中,第一数据库表结构的信息包括至少一个数据元的信息。第一数据库表结构的信息中的每个数据元的信息包括数据元的属性信息;在一些场景中,当数据元对应的数值为可枚举数值时,数据元的信息还包括代码集。本申请实施例中,数据元的信息还可以划分为数据元标识和数据元描述信息,数据元标识用于标识对应的数据元,数据元标识可以包括数据元名称和/或数据元编码(也称数据元编号),数据元名称可以包括中文名称和/或英文名称,数据元编码可以是用于标识对应数据元的数字和/或字母组成的字符串。数据元描述信息用于描述该数据元,其包括属性信息中除数据元标识的部分。在一些可选情况中,该数据元描述信息还包括代码集,如在数据元对应的数值为可枚举数值时,其还包括代码集。
可选的,该第一数据库表结构的信息还包括第一数据库的信息以及第一表信息。其中,由于业务***建立的数据库表结构需要存储到指定空间中,以便于维护。因此,通常业务人员在数据库表结构前,需要先建立一个数据库,以用于存储第一数据库表结构包括的数据元的信息。则前述第一数据库是用于存储第一数据库表结构的数据库。第一数据库的信息可以包括该数据库标识、地址和/或结构等属性信息。数据库标识用于标识对应的数据库,数据库标识可以包括数据库名称和/或数据库编码。数据库名称可以包括中文名称和/或英文名称,数据库编码可以是用于标识对应数据库的数字和/或字母组成的字符串。第一表信息是第一数据库表中除数据元的信息之外的信息,该第一表信息可以包括该数据库表标识和/或结构等属性信息。数据库表标识用于标识对应的数据库表,数据库表标识可以包括数据库表名称和/或数据库表编码,数据库表名称可以包括中文名称和/或英文名称,数据库表编码可以是用于标识对应数据库表的数字和/或字母组成的字符串。
数据标准管理***获取待上线的第一业务***的第一数据库表结构的信息的方式可以有多种,本申请实施例以以下两种方式为例进行说明:
在第一种可选方式中,通过在线获取的方式获取第一数据库表结构的信息。
第一数据库表结构的信息可以携带在一个可在线编辑的数据标准文档中。第一数据库表结构的信息主要包括至少一个数据元的信息,则获取待上线的第一业务***的第一数据库表结构的信息的过程主要包括获取该至少一个数据元的信息的过程。业务人员可以通过其使用的第二终端设备通过在线编辑的方式逐个向数据标准管理***输入多个数据元的信息,相应的,数据标准管理***通过在线获取的方式逐个接收多个数据元的信息。第一数据库表结构的信息中的其他信息,如第一数据库的信息以及第一表信息也可以通过在线编辑的方式向数据标准管理***输入,数据标准管理***接收该第一数据库表结构的信息中的其他信息即可。
本申请实施例假设第一数据元的数据元标识为数据标准库存储的多个标准数据元的数据元标识中的一个,则第一数据库表结构的信息和数据标准库所存储的标准数据元的信息均包括数据元标识和数据元描述信息。数据标准管理***可以通过第一数据元的数据元标识获取第一数据元的信息。其他数据元的信息的获取过程参考该第一数据元的信息的获取过程。
业务人员可以通过其使用的第二终端设备向数据标准管理***输入第一数据元的数据元标识。相应的,数据标准管理***接收第一数据元的数据元标识;由于第一数据元属于数据标准库存储的多个标准数据元,因此,该数据标准库中存储有该第一数据元的信息。则数据标准管理***可以基于该第一数据元的数据元标识在数据标准库中查询,从而在数据标准库中获取第一数据元的数据元标识对应的数据元描述信息,从而基于第一数据元的数据元标识以及数据元描述信息得到第一数据元的信息。
在一种可选示例中,业务人员可以根据自身经验,自行输入第一数据元的数据元标识。例如,数据标准管理***可以在用户界面提供输入框,业务人员在该输入框中输入第一数据元的数据元标识。
在另一种可选示例中,数据标准管理***支持关键字搜索功能。第一数据元的数据元标识可以通过第一数据元对应的关键字在数据标准库存储的多个标准数据元的数据元标识中搜索得到。例如,数据标准管理***可以在用户界面提供搜索框,业务人员可以在该搜索框输入第一数据元对应的关键字,由数据标准管理***基于该关键字在数据标准库存储的多个标准数据元的数据元标识中搜索得到第一数据元的数据元标识。其中,关键字是用于索引第一数据元的数据元标识的字符,其可以由一个或多个字符组成,该关键字可以包括:英文字符、中文字符和/或数字字符(也称数值字符)。
可选的,数据标准管理***还支持搜索提示功能,以保证业务人员有效地确定第一数据元的数据元标识。例如,在接收第一数据元的数据元标识之前,数据标准管理***可以将接收的关键字与数据标准库存储的多个标准数据元的数据元标识进行匹配;并输出匹配结果,匹配结果包括至少一个第二标准数据元的信息,至少一个第二标准数据元中每个第二标准数据元的数据元标识均与关键字匹配。如此,业务人员可以在匹配结果中获取与关键字相关的各个第二标准数据元的信息,从而在至少一个第二标准数据元中选择自己想要的第一数据元。相应的,数据标准管理***在检测到选择操作后,接收对应的第一数据元的数据元标识。
值得说明的是,前述匹配结果通常包括指定个数个第二标准数据元的信息,该指定个数为大于1的整数,如此可以提高匹配结果对业务人员可参考性。并且数据标准管理***将接收的关键字与多个标准数据元的数据元标识进行匹配的算法可以为模糊匹配算法,例如ElasticSearch(简称ES)中的搜索算法。其中,模糊匹配算法指的是根据所提出的条件或者要求,给予一定精确程度的匹配。模糊匹配的原则是先搜索与被搜索的内容一模一样的内容,搜索不到再去搜索很接近的内容。在本申请实时中,模糊匹配算法还允许搜索用的关键字的部分字面顺序颠倒或有间隔。搜索内容可以包括关键字的同义词、近义词、相关词、以及包含关键字的短语等。
采用模糊匹配算法的得到的匹配结果既可以包括精确匹配的结果,又可以包括除精确匹配之外的结果,相较于单纯采用精确匹配算法来获取第二标准数据元的信息,模糊匹配所匹配的内容更加广泛,获取的第二标准数据元的信息的个数多,从而提高匹配结果对业务人员可参考性。其中,精确匹配算法指的是匹配条件是在搜索的关键字与标准数据元的数据元标识二者字面完全一致时才确定匹配,匹配限制精确严格。本申请实施例提供的匹配的算法还可以为其他算法,对此不做限定。
值得说明的是,数据标准管理***除了支持关键字搜索功能,还支持条件搜索功能。相应的搜索提示功能不仅包括关键字搜索功能对应结果,还包括条件搜索功能对应结果。
数据标准管理***可以在用户界面提供条件输入框,业务人员可以在该条件输入框输入搜索条件,由数据标准管理***基于该搜索条件在数据标准库存储的多个标准数据元的数据元标识中搜索得到符合搜索条件的数据元标识。进一步的,业务人员可以在进行关键字搜索的同时进行条件搜索,相应的,数据标准管理***将符合搜索条件且数据元标识与关键字匹配的第二标准数据元的信息。如此可以提供给业务人员更准确的第二标准数据元的信息的推荐结果。减少业务人员在多个第二标准数据元的信息的查询时长,便于业务人员快速选择想要的标准数据元的信息。
其中,该搜索条件可以包括:发布时间、主管部门信息和/或标准类别等等。其中,发布时间指的是数据标准库中的标准数据元所属的数据标准的发布时间,如2018年;主管部门信息指的是数据标准库中的标准数据元所属的数据标准的管理者的信息,如某某电器工业协会;标准类别指的是数据标准库中的标准数据元所属的数据标准的类别,如安全类或产品类。
图4是本申请实施例中数据标准管理***提供的一种示意性的界面示意图。假设业务人员在搜索框输入的关键字为:“整型”,在条件输入框(图4中该条件输入框用于输入发布时间)未输入内容,数据标准管理***输出的匹配结果包括数据元标识(图4以数据元标识为数据元中文名称为例进行说明)为“整型测试字段”、“整型测试字段1”的2个第二标准数据元的信息,在检索到该2个第二标准数据元的信息的过程中没有进行发布时间的限制,业务人员基于匹配结果可以选择一个第二标准数据元作为第一数据元。
本申请实施例在实际实现时,匹配结果包括的信息还可以有其他形式。例如,匹配结果仅包括至少一个第二标准数据元的数据元标识;或者,匹配结果仅包括至少一个第二标准数据元的数据元描述信息;或者,匹配结果在包括前述至少一个第二标准数据元的信息的基础上,还包括至少一个第二标准数据元中每个第二标准数据元的数据元标识与关键字的匹配度,从而提高匹配结果对业务人员可参考性。
可选的,若匹配得到的第二标准数据元有多个时,在匹配结果中,多个第二标准数据元的信息可以按照第一指定顺序排列。例如,该第一指定顺序可以由以下两种示意性实现方式实现:
在第一种示意性实现方式中,多个第二标准数据元的信息按照第二标准数据元的数据元标识与关键字的匹配度降序排序(即按照匹配度从大到小的顺序排序)。
示例的,对于任一第二标准数据元,该第二标准数据元的数据元标识与关键字的匹配度的计算方式可以有多种,例如该匹配度P1满足第一匹配度计算公式:
P1=M/N;
其中,M为该第二标准数据元的数据元标识与关键字相同的字符数,相当于第二标准数据元的数据元标识与关键字交集所对应的字符数;N为该第二标准数据元的数据元标识的字符数与关键字的字符数中的最大字符数。例如,第二标准数据元的数据元标识为“整型测试字段”,关键字为“整型”,则M=2,N=6,P1=1/3≈33.3%。
值得说明的是,前述采用第一匹配度计算公式计算匹配度只是本申请实施例提供的一种示意性的匹配度的获取方法,该匹配度的获取方法还可以有其他方式,可以参考传统的匹配度的获取方法,如模糊匹配算法(如ES)的匹配度的获取方法。
请继续参考图4,第二标准数据元的数据元标识为“整型测试字段1”时与关键字“整型”的匹配度P1=2/7≈28.6%。因此,图4中,按照第二标准数据元的数据元标识与关键字的匹配度降序排序后,数据标准管理***输出的匹配结果中数据元标识为“整型测试字段”的第二标准数据元的信息排在数据元标识为“整型测试字段1”的第二标准数据元的信息之前。
在第二种示意性实现方式中,多个第二标准数据元的信息按照第二标准数据元所属的数据标准的优先级降序排序(即按照优先级从高到低的顺序排序)。
可选的,数据标准的优先级可以包括标准优先级或时间优先级。该标准优先级指的是标准自身的优先级。标准优先级从高到低的顺序排序依次是国标、行标和地标。时间优先级通常是发布时间或实施时间距离当前越近,优先级越高。
请参考图5,图5中按照第二标准数据元所属的数据标准的标准优先级降序排序后,数据标准管理***输出的匹配结果中数据元标识为“整型测试字段1”的第二标准数据元的信息排在数据元标识为“整型测试字段”的第二标准数据元的信息之前。
值得说明的是,第一指定顺序还可以有其他方式,例如该第一指定顺序是将前述第一种和第二种示意性实现方式进行结合确定的顺序。也即是,多个第二标准数据元的信息按照第二标准数据元的数据元标识与关键字的匹配度以及第二标准数据元所属的数据标准的优先级排序。例如,对于每个第二标准数据元,数据标准管理***可以获取该第二标准数据元的数据元标识与关键字的匹配度,以及获取该第二标准数据元所属的数据标准的优先级,并按照指定规则为该第二标准数据元所属的数据标准的优先级赋值,其中,优先级与所赋的数值正相关,也即是优先级越高,数值越高;接着,按照预先为匹配度和优先级分别分配的权值,基于该第二标准数据元对应的匹配度和优先级,通过加权求和的方式确定该第二标准数据元的排序指示值。最终,数据标准管理***按照各个第二标准数据元对应的排序指示值进行各个第二标准数据元的信息的排序。通常按照排序指示值降序排序。
例如,假设某一第二标准数据元,其对应的匹配度为a,对应优先级的数值为b,预先为匹配度和优先级分别分配的权值分别为X和Y,则该第二标准数据元对应的排序指示值为c,c=aX+bY。
通过按照第一指定顺序对多个第二标准数据元的信息排序,可以提高对业务人员有效的提示,提高提示命中率。
在第二种可选方式中,通过接收线下已编辑的数据标准文档的方式获取第一数据库表结构的信息。
业务人员可以通过其使用的第二终端设备采用线下编辑的方式生成数据标准文档,数据标准文档包括第一数据库表结构的信息,并将生成的数据标准文档传输至数据标准管理***。相应的,数据标准管理***接收该数据标准文档。该数据标准文档可以为多种数据类型的文档,例如数据库表类型的数据文档。
在第一种可选实现方式中,业务人员可以在第二终端设备运行第三方建模工具,通过该第三方建模工具生成数据标准文档,然后将该数据标准文档输入数据标准管理***。示例的,该第三方建模工具可以为E-Rwin或PowerDesigner等数据建模工具。
在第二种可选实现方式中,本申请实施例提供的数据标准管理***,还可以支持第三方建模工具的接入,该第三方建模工具可以访问(如查询)数据标准库,获取数据标准库中存储标准数据元的信息,并基于标准数据元的信息来进行数据标准文档的生成。也即是,该第三方建模工具可以支持满足数据标准库要求的数据标准文档的生成。例如,业务人员可以在第二终端设备运行第三方建模工具,由第三方建模工具基于该数据标准库生成的数据标准文档。相应的,数据标准管理***接收第三方建模工具基于数据标准文库生成的数据标准文档。示例的,该第三方建模工具可以为E-Rwin或PowerDesigner等数据建模工具。
前述第一种可选实现方式中,由于第三方建模工具的数据标准文档的生成规则与数据标准库所要求的生成规则不同,因此,数据标准管理***获取第三方建模工具生成的数据标准文档后,需要对其中的第一数据库表结构的信息进行校验,得到符合数据标准库要求的第一数据库表结构的信息;而第二种可选方式中,由于第三方建模工具可以支持满足数据标准库要求的数据标准文档的生成,相应的第一数据库表结构的信息全部或部分符合数据标准库的要求,因此可以减少校验的运算代价,降低校验成本。
可选的,步骤201中,数据标准管理***还可以输出数据字典模板,该数据字典模板为第一数据库表结构的信息的参考模板;业务人员可以基于该数据字典模板,通过第二终端设备向数据标准管理***输入第一数据库表结构的信息,如单个或批量的数据元的信息,相应的,数据标准管理***接收基于数据字典模板输入的第一数据库表结构的信息。其中,该第一数据库表结构的信息的具体获取方式可以参考前述取待上线的第一业务***的第一数据库表结构的信息的第一种可选方式或第二种可选方式。
示例的,该数据字典模板可以如表1所示。
表1
Figure BDA0002418211620000141
请参考表1,该数据字典模板包括如表1第一行所示的数据元的信息所涉及的参数,表1中以涉及的参数包括数据库名称、物理表的英文名称、数据元的英文名称和数据元的中文名称等等参数为例进行说明;该数据字典模板还包括如表1第二行所示的数据元的信息所涉及的参数的解释信息(或称描述信息),该解释信息用于解释每个对应的参数所表示的含义。例如,参数:可选值,对应的解释信息为:“数据的可选值及描述,例如性别:F,女性;M,男性”。该数据字典模板还包括如表1第三至九行所示的共6个数据元的信息(也即是每一行对应一个数据元的信息)的填写示例,用于提示业务人员如何填写数据元的信息。
前述表1仅为本申请实施例提供的示意性例子,本申请实施例在实际实现时,数据字典模板还可以有其他形式,只要能够达到为业务人员输入数据元的信息提供参考的目的即可。
数据标准管理***通过输出数据字典模板,以供业务人员进行参考,使得业务人员不再单纯靠自身经验来制定数据元的信息,而是有所依据地制定数据元的信息,从而可以提高获取的第一数据库表结构的信息的准确性,减少后续校验过程的复杂度和运算代价。
步骤202、数据标准管理***基于数据标准库对第一数据库表结构的信息进行校验。
由于第一数据库表结构是业务人员自定义的计划在第一业务***使用的数据库表结构,数据标准管理***获取第一数据库表结构的信息后,需要基于数据标准库对该信息进行校验。本申请实施例中,对第一数据库表结构的信息进行校验至少可以包括以下数据标准符号性校验和数据标准规范性校验共两方面:
第一方面,数据标准符号性校验。该校验过程指的是基于数据标准库中的标准数据元的信息对至少一个数据元的信息进行校验。标准数据元的信息即前述“符号”。
可选的,假设第一数据元为第一数据库表结构的信息所包括的至少一个数据元中的一个数据元,则基于数据标准库中的标准数据元的信息对至少一个数据元的信息的过程,包括:
步骤A1、数据标准管理***将第一数据元的信息与数据标准库中存储的多个标准数据元的信息进行比较。
值得说明的是,数据标准库中通常以代码形式存储的标准数据元的信息,为了进行第一数据元的信息与数据标准库中存储的多个标准数据元的信息的有效匹配,通常先把标准数据元的信息翻译成可与第一数据元的信息进行比较的信息,例如文本形式的信息。
在本申请实施例中,数据标准管理***将第一数据元的信息与数据标准库中存储的多个标准数据元的信息进行比较,主要是为了判定多个标准数据元的信息是否存在与第一数据元的信息匹配的信息。也即是判定每个标准数据元的信息与第一数据元的信息是否匹配。其中,判定一个标准数据元的信息与第一数据元的信息是否匹配取决于匹配条件。
在第一种可选方式中,该匹配条件为标准数据元的信息与第一数据元的信息中对应参数的信息均相同。如表1所示,即标准数据元的数据库名称、物理表的英文名称、数据元的英文名称和数据元的中文名称等等参数的信息与第一数据元的相应参数的信息对应相同。
如前所述,数据元的信息包括属性信息(如表1第一行中除可选值之外的参数的信息均属于属性信息);在一些场景中,还可能包括代码集(如表1第一行中参数:可选值的信息属于代码集)。由于第一数据库表结构的信息是业务人员自定义的,其中的至少一个数据元也是用户自定义的数据元,一些数据元的信息中可能并未定义代码集的信息。因此,若匹配条件为标准数据元的信息与第一数据元的信息中对应参数的信息均相同,则数据标准库中存在与第一数据元的信息匹配的信息的概率较低,匹配效率较低。
在第二种可选方式中,该匹配条件为标准数据元的属性信息与第一数据元的属性信息中对应参数的信息均相同。如表1所示,即标准数据元的数据库名称、物理表的英文名称、数据元的英文名称和数据元的中文名称等等参数的信息(即除可选值之外的参数的信息)与第一数据元的相应参数的信息对应相同。数据标准管理***将第一数据元的信息与多个标准数据元的信息进行比较的过程,包括:将第一数据元的属性信息与多个标准数据元的属性信息进行比较的过程。
与前述第一种可选方式同理,若匹配条件为标准数据元的属性信息与第一数据元的信息中对应参数的属性信息均相同,且标准数据元和第一数据元的属性信息涉及的参数较多,则数据标准库中存在与第一数据元的信息匹配的信息的概率较低,匹配效率较低。
在第三种可选方式中,该匹配条件为标准数据元的属性信息中指定参数的信息与第一数据元的属性信息中对应参数的信息均相同。该指定参数通常属于描述数据元自身属性的参数,例如名称、定义、结构和/或取值的规则等参数,其中,名称可以包括数据元的英文名称等参数,定义可以包括字符类型、字符长度和/或字符精度等参数。由于指定参数既能描述数据元的自身属性,参数的数量也较少,因此,采用该匹配条件,可以保证数据标准库中存在与第一数据元的信息匹配的信息的概率较高,提高匹配效率。
步骤A2、当第一数据元的信息与数据标准库中的多个标准数据元的信息均不匹配时,该数据标准管理***发送第一修改提示信息,该第一修改提示信息指示更新第一数据元的信息。
示例的,该数据标准管理***可以向第二终端设备发送第一修改提示信息,由第二终端设备向业务人员呈现该第一修改提示信息,以便业务人员更新第一数据元的信息。
步骤A3、数据标准管理***在接收到与多个标准数据元中任一标准数据元的信息匹配的更新后的第一数据元的信息后,确定对第一数据元的信息校验成功。
数据标准管理***在接收到更新后的第一数据元的信息后,将更新后的第一数据元的信息与多个标准数据元的信息进行比较,该比较步骤可以参考前述步骤A1;当第一数据元的信息与数据标准库中的多个标准数据元的信息均不匹配时,该数据标准管理***再次发送第一修改提示信息数据元标识,该提示步骤可以参考前述步骤A2;数据标准管理***再次接收到更新后的第一数据元的信息后,重复执行前述比较步骤、提示步骤和第一数据元的信息的接收步骤,直至数据标准库的多个标准数据元中任一标准数据元的信息与更新后的第一数据元的信息匹配。
当数据标准库的多个标准数据元中任一标准数据元的信息与更新后的第一数据元的信息匹配,数据标准管理***确定对第一数据元的信息校验成功。
由上可知,业务人员可以通过数据标准管理***多次发送的第一修改提示信息,实现第一数据元的信息的多次修改,以达到数据标准库中标准数据元的要求,使得业务人员可以定义出与数据标准库的标准数据元的信息一致的数据元的信息。
如前所述,第一数据库表结构的信息携带在可在线编辑或者离线的数据标准文档中,因此,业务人员在进行第一数据元的信息的更新时,通常是在该第一数据元所在第一数据库表结构的信息中更新的,也即是在数据标准文档中更新。数据标准管理***需要先在更新后的第一数据库表结构的信息中定位得到更新后的第一数据元的信息,再对更新后的第一数据元的信息进行校验。
在一种可选方式中,数据标准管理***接收更新后的第一数据库表结构的信息后,在更新后的第一数据库表结构的信息的全量的数据元的信息中确定第一数据元的信息。示例的,数据标准管理***可以扫描中第一数据库表结构的信息的全部的数据元,从而在全部的数据元的信息中定位到第一数据元的信息。该过程称之为全量校验。
在另一种可选方式中,数据标准管理***接收更新后的第一数据库表结构的信息后;可以在更新后的第一数据库表结构的信息中确定增量的数据元,并在增量的数据元的信息中确定第一数据元的信息。该过程称之为增量校验。
可选的,数据标准管理***建立有更新指示规则,业务人员在通过第二终端设备更新数据元的信息时,可以按照该更新指示规则进行数据元的信息的更新,以便数据标准管理***有效定位到增量的数据元。
例如,数据标准管理***在第一修改提示信息中携带第一数据库表结构的信息,并在该第一数据库表结构的信息中添加了备注字段,则数据标准管理***发送第一修改提示信息的过程相当于进行了第一数据库表结构的信息的回退。若第一数据库表结构的信息携带在数据标准文档中,则实现了文档的回退。业务人员在通过第二终端设备接收到该第一数据库表结构的信息后,对其中的数据元的信息进行更新,并在备注字段添加目标备注信息,该目标备注信息指示进行了更新的数据元。之后,数据标准管理***接收到更新后的第一数据库表结构的信息后,通过查询该备注字段即可确定进行了更新的数据元,即增量的数据元,进而在增量的数据元定位到第一数据元。例如,第一数据库表结构的信息包括6行数据元的信息,业务人员在通过第二终端设备接收到该第一数据库表结构的信息后,对第一行数据元和第三行数据元的信息进行更新,并在备注字段添加指示第一行数据元和第三行数据元的目标备注信息。则数据标准管理***通过查询该备注字段即可确定第一行数据元和第三行数据元为增量的数据元。
又例如,数据标准管理***在第一修改提示信息中携带第一数据库表结构的信息,并在该第一数据库表结构的信息中添加了插件。业务人员在通过第二终端设备接收到该第一数据库表结构的信息后,对其中的数据元的信息进行更新,该插件会自动标识更新的数据元。之后,数据标准管理***接收到更新后的第一数据库表结构的信息后,通过插件的标识即可确定进行了更新的数据元,即增量的数据元,进而在增量的数据元定位到第一数据元。其中,插件可以通过添加批注、高亮和/或添加指定颜色等方式标识更新的数据元。例如,第一数据库表结构的信息包括6行数据元的信息,业务人员在通过第二终端设备接收到该第一数据库表结构的信息后,对第一行数据元和第三行数据元的信息进行更新,该插件对第一行数据元和第三行数据元的信息进行了高亮处理。则数据标准管理***将进行了高亮处理的第一行数据元和第三行数据元确定为增量的数据元。
通过增量校验可以减少数据标准管理***查询的数据元的数量,提高确定更新后的数据元的效率。
可选的,前述第一修改提示信息可以包括至少一个第一标准数据元的信息,该至少一个第一标准数据元中每个第一标准数据元的数据元标识均与第一数据元的数据元标识匹配。如此,业务人员可以在第一修改提示信息中获取与第一数据元的数据元标识相关的各个第一标准数据元的信息,从而在至少一个第一标准数据元中选择自己想要修改得到的第一数据元。
值得说明的是,前述第一修改提示信息通常包括指定个数个第一标准数据元的信息,该指定个数为大于1的整数,如此可以提高第一修改提示信息对业务人员可参考性。并且数据标准管理***将接收的第一数据元的数据元标识与多个标准数据元的数据元标识进行匹配的算法可以为模糊匹配算法,也即是,至少一个第一标准数据元中每个第一标准数据元的数据元标识均与第一数据元的数据元标识匹配。例如该模糊匹配算法为ElasticSearch中的搜索算法。
采用模糊匹配算法的得到的匹配结果既可以包括精确匹配的结果,又可以包括除精确匹配之外的结果,相较于单纯采用精确匹配算法来获取第一标准数据元的信息,模糊匹配所匹配的内容更加广泛,获取的第一标准数据元的信息的个数多,从而提高匹配结果对业务人员可参考性。该匹配的算法还可以为其他算法,本申请实施例对此不做限定。
可选的,若匹配得到的第一标准数据元有多个时,则在第一修改提示信息中,多个第一标准数据元的信息。可以按照第二指定顺序排列。例如,该第二指定顺序可以由以下两种示意性实现方式实现:
在第一种示意性实现方式中,多个第一标准数据元的信息按照第一标准数据元的数据元标识与关键字的匹配度降序排序(即按照匹配度从大到小的顺序排序)。
在第二种示意性实现方式中,多个第一标准数据元的信息按照第一标准数据元所属的数据标准的优先级降序排序(即按照优先级从高到低的顺序排序)。
值得说明的是,第二指定顺序还可以有其他方式,例如该第二指定顺序是将前述第一种和第二种示意性实现方式进行结合确定的顺序。也即是,多个第一标准数据元的信息按照第一标准数据元的数据元标识与第一数据元的数据元标识的匹配度以及第一标准数据元所属的数据标准的优先级排序。例如,对于每个第一标准数据元,数据标准管理***可以获取该第一标准数据元的数据元标识与第一数据元的数据元标识的匹配度,以及获取该第一标准数据元所属的数据标准的优先级,并按照指定规则为该第一标准数据元所属的数据标准的优先级赋值,其中,优先级与所赋的数值正相关;接着,按照预先为匹配度和优先级分别分配的权值,基于该第一标准数据元对应的匹配度和优先级,通过加权求和的方式确定该第一标准数据元的排序指示值。最终,数据标准管理***按照各个第一标准数据元对应的排序指示值进行各个第一标准数据元的信息的排序。通常按照排序指示值降序排序。
通过按照第二指定顺序对多个第一标准数据元的信息排序,可以提高对业务人员有效的提示,提高提示命中率。
需要说明的是,前述两种示意性实现方式以及该两种示意性实现方式结合的方式的具体过程可以参考前述步骤201中第一指定顺序所对应的两种示意性实现方式以及该两种示意性实现方式结合的方式,其中,步骤202与步骤201不同的是,第一数据元的数据元标识的内容与关键字的内容可能不同,但均包括一个或多个字符,本申请实施例对此不再赘述。
进一步可选的,在前述第一方面所提供的校验过程中,数据标准管理***还可以根据校验情况添加一些备注字段,以提示业务人员需要注意的信息。
例如,假设第二数据元为第一数据库表结构的信息所包括的至少一个数据元中的一个数据元。当第二数据元对应的数值为可枚举数值时,为第二数据元添加数据元备注信息,数据元备注信息用于标识第二数据元对应的可枚举数值。请参考前述步骤A1,由于第一数据库表结构的信息是业务人员自定义的,有可能没有定义代码集的信息,又有可能定义的代码集的信息不准确。因此在本申请实施例中,可以在第二数据元对应的数值为可枚举数值时,为第二数据元添加数据元备注信息,以添加准确的代码集的信息。例如,第二数据元的名称为:年龄,为第二数据元添加数据元备注信息,该数据元备注信息用于标识第二数据元对应的1至120共120个可枚举数值。
如此,在后续第一数据库表结构的信息校验完成后,在采用基于该第一数据库表结构确定的目标数据库表结构中可以仍然包括为第二数据元添加数据元备注信息。在第一业务***上线后,若需要采集该第二数据元对应的数据,可以直接按照第二数据元对应的可枚举数值的格式采集数据,以保证最终采集的数据符合数据标准库的格式要求,也即是符合相关标准。
第二方面,数据标准规范性校验。该校验过程指的是对数据标准的信息的规范性进行校验。主要校验数据标准的信息的格式。
可选的,基于数据标准库对第一数据库表结构的信息进行校验,数据标准库包括多个标准数据元的信息的过程,包括:
步骤B1、数据标准管理***检测第一数据库表结构的信息的格式是否符合指定格式要求。
如步骤201所述,该第一数据库表结构的信息包括至少一个数据元的信息,还可以包括第一数据库的信息以及第一表信息。则数据标准管理***检测第一数据库表结构的信息的格式是否符合指定格式要求的过程包括:检测每个数据元的信息的格式是否符合指定的数据元格式要求,如数据元的英文名称是否由指定字符(如大写英文字母)组成;检测第一数据库的信息的格式是否符合指定的数据库格式要求,如数据库的英文名称由指定字符(如大写英文字母)组成,数据库编码的长度是否小于第一指定长度阈值,该第一指定长度阈值可以为60位(位指的是数值的位数);检测第一表信息的格式是否符合指定的数据库表结构式要求,如数据库表标识是否由指定字符(如大写英文字母)组成,数据库表编码的长度是否小于第二指定长度阈值,该第二指定长度阈值可以为60位。
步骤B2、当第一数据库表结构的信息的格式不符合指定格式要求时,数据标准管理***发送第二修改提示信息,该第二修改提示信息指示更新第一数据库表结构的信息的格式。
示例的,该数据标准管理***可以向第二终端设备发送第二修改提示信息,由第二终端设备向业务人员呈现该第二修改提示信息,以便业务人员更新第一数据库表结构的信息的格式。
步骤B3、数据标准管理***在接收到格式符合格式要求的更新后的第一数据库表结构的信息后,确定对第一数据库表结构的信息的格式校验成功。
数据标准管理***在接收到更新后的第一数据库表结构的信息后,检测该第一数据库表结构的信息的格式是否符合指定格式要求,该检测步骤可以参考前述步骤B1;当第一数据库表结构的信息的格式仍然不符合指定格式要求,该数据标准管理***再次发送第二修改提示信息,该提示步骤可以参考前述步骤B2;数据标准管理***再次接收到更新后的第一数据库表结构的信息后,重复执行前述检测步骤、提示步骤和第一数据库表结构的信息的接收步骤,直至第一数据库表结构的信息的格式符合指定格式要求。
当更新后的第一数据库表结构的信息的格式符合指定格式要求,数据标准管理***确定对第一数据库表结构的信息的格式校验成功。
由上可知,业务人员可以通数据标准管理***多次发送的第二修改提示信息,实现第一数据库表结构的信息的格式的多次修改,以达到数据标准管理***对标准信息的格式的要求,使得业务人员可以定义出与符合要求的数据库表结构的信息。
值得说明的是,前述第二修改提示信息通常会指示出第一数据库表结构的信息中具体哪个信息不符合指定格式要求,如数据元的信息或者第一数据库的信息或者第一表信息不符合对应的格式要求。
在一种可选方式中,在接收到更新后的第一数据库表结构的信息后,检测第一数据库表结构中的所有的信息是否符合指定格式要求。示例的,数据标准管理***可以扫描中第一数据库表结构的信息的全部的信息,并检测扫描到的信息是否符合对应的格式要求。
在另一种可选方式中,在接收到更新后的第一数据库表结构的信息后,检测上次不符合对应的格式要求的信息,无需检测第一数据库表结构中的所有的信息。通过仅检测上次不符合对应的格式要求的信息可以减少数据标准管理***查询的信息量,提高检测效率。
值得说明的是,前述两方面的校验过程可以同时执行,也可以分别执行,本申请实施例第执行的先后顺序不做限定。
通过前述步骤202的校验过程,可以利用针对第一业务***创建的第一数据库表结构的信息,如第一表信息、数据元的信息及代码集等进行自动匹配校验,***管理员只需进行的简单检查,极大节省了人力投入,并且由于人工审核环节的减少,可以降低人工误差,提高最终得到的目标数据库表结构的准确性。相较于传统技术,可节省75%以上的人力成本。并且由原始通过数据库表在线下进行填写、传递、比对、填写审核意见、反馈、修改、再审核等流程,简化为自动校验、比对修改、提交审核、审核结果反馈的过程,减少了线下的信息传递过程及环节,节约了信息传递时间,进一步简化工作流程,提升了工作效率,工作效率通常可以提升70%以上。
步骤203、数据标准管理***在对第一数据库表结构的信息校验后,获取第一业务***的目标数据库表结构,该目标数据库表结构基于第一数据库表结构确定。
该目标数据库表结构为第一业务***待在上线后采用的数据库表结构,其实质上是在第一业务上线前预先获取的,只是该目标数据库表结构是在第一业务上线后需要使用的。目标数据库表结构的信息包括第一数据库表结构的信息的部分或全部。在一种可选方式中,可以直接将第一数据库表结构的信息确定为目标数据库表结构的信息。
在另一种可选方式中,第一数据库表结构的信息还需要进一步调整,以得到目标数据库表结构的信息。
由于对于不同时期,不同业务***的数据元可能会根据实际情况有一些变动,虽然数据标准库中没有记录对应的标准数据元的信息,但是针对某一业务***,该数据元的信息是允许添加在该业务***中的。然而这些数据元的信息在数据标准管理***是无法有效校验的,因此,在前述步骤202之后,即数据标准管理***对第一数据库表结构的信息进行自动校验后,数据标准管理***还支持对第一数据库表结构的信息的人工的二次校验。
示例的,该二次校验过程可以包括:
与前述第一方面对应的,数据标准管理***在确定对第一数据元的信息校验成功后,向指定终端设备发送该第一数据元的信息。该指定终端设备是用于进行二次校验的校验人员的终端设备,其可以为***管理员或者项目管理员的终端设备。例如,假设校验人员为***管理员,则指定终端设备为前述第三终端设备。校验人员在通过指定终端设备接收到第一数据元的信息后,判定第一数据元的信息是否需要修改,并基于判定结果通过指定终端设备向数据标准管理***发送第一校验响应信息,该第一校验响应信息用于指示对第一数据元的信息进行修改,或者指示对第一数据元的信息二次校验成功。该数据标准管理***接收第一校验响应信息,并将该第一校验响应信息发送至业务人员的第二终端设备。
当该第一校验响应信息用于指示对第一数据元的信息进行修改,业务人员可以通过第二终端设备对第一数据元的信息进行修改,再次通过数据标准管理***发送至指定终端设备,由校验人员进行校验,直至第二终端设备接收到的第一校验响应信息指示对第一数据元的信息二次校验成功。
当该第一校验响应信息用于指示对第一数据元的信息二次校验成功,业务人员无需再修改第一数据元的信息。
与前述第二方面对应的,数据标准管理***在确定对第一数据库表结构的信息的格式校验成功后,向指定终端设备发送该第一数据库表结构的信息。校验人员在通过指定终端设备接收到第一数据库表结构的信息后,判定第一数据库表结构的信息的格式是否需要修改,并基于判定结果通过指定终端设备向数据标准管理***发送第二校验响应信息,该第二校验响应信息用于指示对第一数据库表结构的信息的格式进行修改,或者指示对第一数据库表结构的信息的格式二次校验成功。该数据标准管理***接收第二校验响应信息,并将该第二校验响应信息发送给业务人员的第二终端设备。
当该第二校验响应信息用于指示对第一数据库表结构的信息的格式进行修改,业务人员可以通过第二终端设备对第一数据元的信息的格式进行修改,再次通过数据标准管理***发送至指定终端设备,由校验人员进行校验,直至第二终端设备接收到的第二校验响应信息指示对第一数据元的信息的格式二次校验成功。
当该第二校验响应信息用于指示对第一数据元的信息的格式二次校验成功,业务人员无需再修改第一数据元的信息的格式。
值得说明的是,第一数据元的信息和第一数据库表结构的信息可以携带在同一校验请求(也称校验申请)中发送给指定终端设备,第一校验响应信息和第二校验响应信息可以是同一信息,以减少数据标准管理***与各个终端设备交互的次数,节约网络开销。
通过对第一数据库表结构的信息进行人工二次校验,可以保证最终获取的目标数据库表结构的信息的灵活性和可靠性。
可选的,目标数据库表结构的信息可以为人工二次校验成功后的第一数据库表结构的信息。
可选的,前述校验成功和/或人工二次校验成功后,还可以通过发送第三修改提示信息,提示业务人员进一步对第一数据库表结构的信息进行调整,得到目标数据库表结构的信息。示例的,最终将第一数据库表结构的信息满足落标率的要求和/或匹配率的要求的第一数据库表结构确定为目标数据库表结构。
其中,落标率的要求指的是该第一数据库表结构的信息的落标率大于指定落标率阈值。其中,落标率为第一数据库表结构的信息中实际落标数据元的数量与第一数据库表结构的信息中应落标数据元的数量的比值。实际落标数据元为与标准数据元匹配的数据元,该匹配的定义可以参考前述步骤A1的定义。应落标数据元为业务标识与标准数据元的业务标识(如数据元的英文名称)相同,但与标准数据元不匹配的数据元(即仅满足匹配条件中的业务标识相同的这一条件)。例如,第一数据库表结构的信息中实际落标数据元的数量为5个,应落标数据元的数量为10,则匹配率为5/10=50%。
匹配率的要求指的是该第一数据库表结构的信息的匹配率大于指定匹配率阈值。其中,匹配率为:应落标数据元的数量与第一业务***的数据库表结构所包含的数据元的总数。
如前所述,第一业务***的数据库表结构可以有一个或多个,该第一业务***的数据库表结构所包含的数据元的总数为该第一业务***中所有数据库表结构所包含的数据元的总个数。例如,第一业务***的数据库表结构共3个,数据元总数为30个,前述第一数据库表结构中的应落标数据元的数量为6,则匹配率为6/30=20%。
步骤204、数据标准管理***输出目标数据库表结构对应的脚本。
本申请实施例中,数据标准管理***支持脚本输出功能。在对第一数据库表结构的信息进行校验和审核,得到了目标数据库表结构的信息后,数据标准管理***可以生成并输出目标数据库表结构对应的脚本(也称建表脚本)。该脚本用于生成目标数据库表结构的信息,其包括第一业务***的数据库建表语句。业务人员通过第二终端设备可以接收该脚本。在第一业务***在上线后,业务人员可以在第一业务***中加载并运行该脚本,运行后的脚本可以生成目标数据库表结构的信息,并按照该目标数据库表结构的信息建设得到对应的数据库表结构。
本申请实施例中,数据标准管理***输出脚本,无需业务人员自行编写脚本,减少业务人员的工作量,从而节约人工成本。
可选的,在确定目标数据库表结构,数据标准管理***还可以向项目管理员的第一终端设备发送目标数据库表结构使用请求,该请求中携带目标数据库表结构的信息,项目管理员可以基于该目标数据库表结构的信息在第一业务***在上线后,建立数据库表。并在建设完成后,通过数据标准管理***向业务人员的第二终端设备发送数据库表使用通知,以通知业务人员该目标数据库表结构在第一业务***上线后可以开始使用。如此业务人员可以无需进行数据库表的建设。
其中,前述步骤201至步骤204可以由图1所示的数据标准管理***10中的数据标准管理设备102,其中,步骤201至步骤203对应数据校验功能;步骤204对应脚本输出功能。可选的,该数据标准管理***10还支持后续步骤205至步骤206对应的生命周期管理功能,以及步骤207所示的数据治理功能。其中,生命周期管理功能由生命周期管理设备103执行,数据治理功能由数据治理设备104执行。其中,步骤205至步骤206如下:
步骤205、数据标准管理***接收数据标准库操作请求,数据标准库操作请求包括标准数据元添加请求、标准数据元更新请求、标准数据元删除请求或标准数据元查询请求。
在本申请实施例中,支持对数据标准库的多种数据标准库操作,如标准数据元添加操作、标准数据元更新操作、标准数据元删除操作和标准数据元查询操作。对应的数据标准库操作请求分别为标准数据元添加请求、标准数据元更新请求、标准数据元删除请求或标准数据元查询请求。
其中,标准数据元添加请求用于请求在数据标准库中添加一个或多个数据元的信息。示例的,***管理员可以收集国标、行标或地标,将收集的数据标准拆分成多个数据元,通过一个或多个标准数据元添加请求向数据标准库添加该多个数据元的信息。每个标准数据元添加请求可以携带单个或批量的数据元的信息。例如,某一地标针对一新建业务***添加了部分数据元,则需要将该部分数据元加入到数据标准库中,用于指导行业或下属单位的业务***建设,统一数据标准,则***管理员通过标准数据元添加请求添加该部分数据元。又例如,国标或行业标准新增了一个标准数据元,则***管理员通过标准数据元添加请求添加该数据元,以与国标或行标保持同步。
值得说明的是,***管理员可以基于数据标准管理***来收集数据元。在一种可选方式中,数据标准管理***还可以输出数据元收集模板,该数据元收集模板是用于进行数据元收集的参考模板,其结构可以参考前述数据字典模板;业务人员可以基于该数据元收集模板,通过第二终端设备向数据标准管理***输入数据元的信息,如单个或批量的数据元的信息。相应的,数据标准管理***接收到该数据元的信息后,将接收的数据元的信息发送至***管理员的第三终端设备中,以供***管理员参考。示例的,业务人员可以直接通过第二终端设备在该数据元收集模板输入数据元,得到更新后的数据元收集模板,数据标准管理***将该更新后的数据元收集模板发送至***管理员的第三终端设备。
标准数据元更新请求用于请求在数据标准库中更新一个或多个数据元的信息。例如,国标或行业标准更新了一个标准数据元,则***管理员通过标准数据元更新请求更新该数据元,以与国标或行标保持同步。
标准数据元删除请求用于请求删除数据标准库中的一个或多个数据元的信息。例如、某一国标、行标或地标对应的数据标准停止使用时,***管理员通过一个或多个标准数据元删除请求删除数据标准库中该数据标准对应的多个数据元的信息。可选的,数据标准管理***在后续过程中对数据标准库执行某一标准数据元的删除操作时,可以在该标准数据元上添加删除标志,并不将该标准数据元物理上删除,以便后续查询。该删除标志指示该标准数据元已废弃,其还可以携带该标准数据元的废弃理由,如对于数据标准已停止使用。
标准数据元查询请求用于请求查询数据标准库中的数据元的信息。
值得说明的是,在添加数据元时,数据标准管理***还可以输出数据元模板,该数据元模板为添加的数据元的参考模板;操作人员可以基于该数据元模板,通过对应的终端设备向数据标准管理***输入标准数据元添加请求中所需携带的数据元的信息,相应的,数据标准管理***接收基于数据元模板输入的数据元的信息。其中,数据元模板可以如表2所示。
表2
Figure BDA0002418211620000231
请参考表2,该数据元模板包括如表2第一行所示的数据元的信息所涉及的参数,表2中以涉及的参数包括基础数据分类名称、基础数据分类编码、数据元的标识符和数据元的中文名称等等参数为例进行说明;该数据元模板还包括如表2第二行所示的数据元的信息所涉及的参数的解释信息(或称描述信息),该解释信息用于解释每个对应的参数所表示的含义。例如,参数:基础数据分类名称,对应的解释信息为:“数据元所属的分类,取值如下:XX公共:XX基础;司局公共:XX司局_公共信息;司局***:XX司局_***名称”。该数据元模板还包括如表2第三至五行所示的共3个数据元的信息(也即是每一行对应一个数据元的信息)的填写示例,用于提示操作人员如何填写数据元的信息。
前述表2仅为本申请实施例提供的示意性例子,本申请实施例在实际实现时,数据元模板还可以有其他形式,只要能够达到为操作人员输入数据元的信息提供参考的目的即可。
数据标准管理***通过输出数据元模板,以供操作人员进行参考,使得操作人员不再单纯靠自身经验来制定数据元的信息,而是有所依据地制定数据元的信息,从而可以提高输入至标准数据库的标准数据元的信息的准确性。
步骤206、数据标准管理***在对数据标准库操作请求鉴权成功后,对数据标准库执行数据标准库操作请求所对应的操作。
由于数据标准库中存储有多个标准数据元的信息,这些标准数据元的信息是进行各个业务***的数据库表结构校验的基础,若标准数据元的信息随意被增加、删除或修改,会造成数据标准库中信息的管理混乱,导致数据标准库的信息失去校验的有效参考性。因此,在对数据标准库进行数据标准库操作时,需要对数据标准库操作请求进行鉴权,在鉴权成功后,数据标准管理***才能对数据标准库执行数据标准库操作请求所对应的操作。
如前所述,数据处理方法所涉及的应用场景中,涉及的工作人员包括项目管理员、业务人员和***管理员。这些工作人员均需要在数据标准管理***中注册相应的账号,在数据标准管理***进行操作时,相应的操作信息中携带该账号,以标识操作人员的身份。不同身份的工作人员的账号等级不同,对数据标准管理***的操作权限也不同,因此对应的鉴权方式也不同。
另外,由于数据标准库操作的类型有多种,不同类型的数据操作所涉及的保密级别不同,因此对应的鉴权方式也不同。
当数据操作是标准数据元添加操作、标准数据元更新操作或标准数据元删除操作时,数据操作所涉及的保密级别较高。通常的业务人员是不允许进行相关操作的。又由于数据标准管理***由***管理员维护,通常***管理员具有管理数据标准库的权限,其可以执行保密级别较高的操作。但是***管理员并不一定是对应项目的专业人员,所以可能对项目所对应的数据标准不了解,因此,还需要相关人员来进行数据操作的辅助鉴权。当数据操作是数据元查询操作时,数据操作所涉及的保密级别较低,项目管理员、业务人员和***管理员通常是可以查看的。但是为了避免一些恶意访问,减少泄密,也可以添加相关人员来进行数据操作的辅助鉴权。
基于上述原理,本申请实施例示意性地提出以下几种鉴权方式:
第一种鉴权方式:高保密级别的数据操作的鉴权。
当数据操作请求是标准数据元添加请求、标准数据元更新请求或标准数据元删除请求时,数据标准管理***检测该数据标准请求中携带的账号是否为第一等级的账号,该第一等级大于指定等级阈值,示例的,该第一等级的账号为***管理员的账号。
当数据标准管理***检测该数据标准请求中携带的账号不为第一等级的账号时,确定对数据标准库操作请求鉴权失败。
当数据标准管理***检测到该数据标准请求中携带的账号为第一等级的账号时,在一种可选方式中,数据标准管理***确定对数据标准库操作请求鉴权成功;在另一种可选方式中,数据标准管理***向第二等级的账号所对应的终端设备发送该数据标准库操作请求,在接收到指示允许对数据标准库进行操作的允许指令后,确定对数据标准库操作请求鉴权成功;在接收到指示不允许对数据标准库进行操作的禁止指令后,确定对数据标准库操作请求鉴权失败。其中,第二等级高于或等于第一等级,该第二等级的账号与第一等级的账号不同。例如,第二等级的账号为项目管理员的账号,则相应的第二等级的账号所对应的终端设备为前述第一终端设备。项目管理员在通过第一终端设备接收到数据标准库操作请求后,根据请求的内容以及请求中携带的账号确定是否允许对应的人员对数据标准库进行操作,若允许对数据标准库进行操作,则通过第一终端设备发送允许指令,若不允许对数据标准库进行操作,则通过第一终端设备发送禁止指令。
第二种鉴权方式:低保密级别的数据操作的鉴权。
当数据操作请求是标准数据元查询请求时,数据标准管理***检测该数据标准请求中携带的账号是否为数据标准管理***分配的账号,也即是数据标准管理***中的合法账号,示例的,该数据标准管理***分配的账号为项目管理员、业务人员以及***管理员的账号中的任一账号。
当数据标准管理***检测该数据标准请求中携带的账号不为数据标准管理***分配的账号时,确定对数据标准库操作请求鉴权失败。
当数据标准管理***检测到该数据标准请求中携带的账号为数据标准管理***分配的账号时,在一种可选方式中,数据标准管理***确定对数据标准库操作请求鉴权成功;在另一种可选方式中,数据标准管理***向第三等级的账号所对应的终端设备发送该数据标准库操作请求,在接收到指示允许对数据标准库进行操作的允许指令后,确定对数据标准库操作请求鉴权成功;在接收到指示不允许对数据标准库进行操作的禁止指令后,确定对数据标准库操作请求鉴权失败。
其中,第三等级高于或等于前述数据标准请求中携带的账号的等级,该第三等级的账号与数据标准请求中携带的账号不同。例如,第三等级的账号为项目管理员或***管理员的账号,假设第三等级的账号为***管理员的账号,则相应的第三等级的账号所对应的终端设备为前述第三终端设备。***管理员在通过第三终端设备接收到数据标准库操作请求后,根据请求的内容以及请求中携带的账号确定是否允许对应的人员对数据标准库进行操作,若允许对数据标准库进行操作,则通过第三终端设备发送允许指令,若不允许对数据标准库进行操作,则通过第三终端设备发送禁止指令。
在前述两种鉴权方式中,若数据标准管理***对数据标准库操作请求鉴权成功,对数据标准库执行数据标准库操作请求所对应的操作。可选的,据标准管理***还可以发送数据操作响应,指示完成对数据标准库执行数据标准库操作请求所对应的操作,或者指示操作成功。
若数据标准管理***对数据标准库操作请求鉴权失败,禁止对数据标准库执行数据标准库操作请求所对应的操作。可选的,据标准管理***还可以发送数据操作响应,指示禁止对数据标准库执行数据标准库操作请求所对应的操作,或者指示操作失败。
可选的,数据标准管理***的数据标准库操作还包括对代码集的操作,如代码集添加操作、代码集更新操作、代码集删除操作和代码集查询操作。对应的数据标准库操作请求分别为代码集添加请求、代码集更新请求、代码集删除请求或代码集查询请求。相应的过程可以参考前述标准数据元的添加、更新、删除和查询操作的过程,本申请实施例对此不做赘述。
通过对数据标准库操作请求进行鉴权,可以保证数据标准库中数据的安全,保证数据标准库中标准数据元的信息的可靠性,有效防止泄密。
数据标准管理***支持针对数据元的添加(也称发布)、更新、删除和查询,还可以支持代码集的维护、数据元的审核和其他维护等功能。值得说明的是,该数据标准管理***还可以以数据库表或文档的形式管理多个数据标准的信息,以供使用人员查阅和参考。这些针对数据标准或数据元的一系列的功能,可以称之为数据元的生命周期管理。基于生成周期管理可以实现数据标准的全流程全方位的管控。本申请实施例中,数据标准管理***还可以对数据标准对应的文档,进行***性管理,例如以网页形式分行业,分级别,分版本建立不同的页面,以便于使用人员查阅使用。
可选的,在前述生成周期管理的过程中,数据标准管理***针对每个数据操作均可以生成操作日志。数据标准管理***可以在接收到查询指令后,或者周期性地查询数据标准库对应的操作日志;当操作日志中包括异常操作日志,发出异常告警。***管理员可以基于异常告警确定是否需要进行数据操作的回溯,实现数据的回滚,从而有效维护数据标准管理***。
步骤207、数据标准管理***基于人工智能模型进行数据治理。
本申请实施例中,数据标准管理***还支持数据治理功能。
在一种可选示例中,该数据治理功能对应的数据治理过程可以参考传统的数据治理过程。
在另一种可选示例中,数据标准管理***预先建立有人工智能模型,通过人工智能模型进行数据治理。该数据治理过程可以包括以下步骤:
步骤C1、数据标准管理***获取上线后的第二业务***的第二数据库表结构的信息,该第二数据库表结构的信息包括至少一个数据元的信息。
步骤C1的过程可以参考前述步骤201的过程,本申请实施例对此不做限定。
步骤C2、数据标准管理***在基于人工智能模型检测到第三数据元的信息与多个标准数据元的信息均不匹配时,在多个标准数据元中确定与第三数据元对应的目标标准数据元,第三数据元为第二数据库表结构的信息包括的至少一个数据元的一个数据元。
数据标准管理***可以将第二数据库表结构的信息输入人工智能模型,由人工智能模型检测第三数据元的信息与多个标准数据元的信息是否匹配,并在第三数据元的信息与多个标准数据元的信息均不匹配时,在多个标准数据元中确定与第三数据元对应的目标标准数据元。
步骤C3、数据标准管理***基于人工智能模型,建立第三数据元与目标标准数据元的映射关系。
人工智能模型建立第三数据元与目标标准数据元的映射关系后,可以输出该映射关系,以供后续提供数据服务时使用。
其中,该人工智能模型可以由多个标准数据元的信息以及样本数据元的信息训练得到。通过采用人工智能模型来建立映射关系,可以提高映射关系的建立准确度和建立效率,从而提高数据治理的效果。
本申请实施例提供的业务数据处理方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行相应增减,例如步骤206和207可以位于步骤201之前,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本申请的保护范围之内,因此不再赘述。
随着传统业务***云化,微服务化或某种原因业务***新建的推进,必然会涉及到数据库表和数据元的新建;原有的业务***可能是多个厂家,不同时期建设的,各个厂家参照的数据标准和数据库的规范性要求也不同,例如:数据元标准,代码集标准等等;传统的数据标准管理***是在某一业务***上线后,对该业务***中维护的数据库表结构进行稽查;若该数据库表结构不符合数据标准管理***所存储的与该业务***对应的目标数据标准的要求,数据标准管理***会建立该数据库表结构与目标数据标准的映射关系。该过程称为数据治理过程。
而本申请实施例是业务***云化/微服务化/新建时,在业务***上线前,对其数据库表结构进行校验。在本申请实施例中,业务***上线可以为首次上线(即新建后上线),也可以为改造后上线。通过前述数据标准符号性校验和数据标准规范性校验,可以实现业务***中数据标准和数据库设计等的统一要求,让各个业务厂家按照统一要求建设,达到数据理解一致,数据标准一致,数据库规范一致,以提升数据质量。
为了便于读者理解,本申请实施例示意性提供一种业务***改造后上线的场景。该场景是一种平台即服务(Platform as a Service,PaaS)场景。假设一个项目需要将该项目对应的多个业务***进行业务***微服务化改造。业务***需要按照微服务拆分新建。业务***新建时会涉及到数据库表结构的新建。由于老的业务***可能是多个厂家,不同时期建设的,厂家对数据库表结构的设计也不一致。如此采用本申请实施例提供的数据处理方法可以实现所有厂家的业务***在上线前定义数据库表结构。从而实现对数据库表结构按照数据标准库的统一要求建设的目的,基于该数据标准管理***还可以实现统一标准的落地审核,监控落地,同时根据业务人员和标准管理员的需要可以对内或对外发布数据标准。
进一步的,为了便于读者理解,本申请实施例对前述数据库表结构的处理方法的实际实现流程进行示意性说明。首先第一业务***的业务人员A在数据标准管理***申请账号,该数据标准管理***将该申请推送给***管理员,由***管理员审批,若***管理员审批通过,说明允许业务人员A对第一业务***进行操作。业务人员A可以在第一业务***中新建数据库、编辑数据库的架构和/或删除数据库。业务人员A在编辑数据库的过程中,可以通过在线编辑或者线下编辑的方式(包括导入数据库表或者导入数据元的信息等)建立数据库表。在编辑数据库表的过程中,可以新建数据元、编辑数据元或者删除数据元。在新建数据元或者编辑数据元的过程中,基于数据标准管理***的校验进行数据元的调整,之后还可以基于人工校验进行数据库表和数据元的调整,例如由***管理员校验数据库表和数据元。在人工校验通过后,进行数据库表的落标,得到目标数据库表结构。最终业务人员A可以基于数据标准管理***所提供的目标数据库表结构对应的脚本在第一业务***的数据库中构建数据库表。其中,各个环节可以参考前述步骤中的解释,本申请实施例对此不再赘述。
综上所述,本申请实施例提供的业务数据处理方法,在业务***上线前,对该业务***的数据库表结构的信息进行校验,从而保证业务***在上线后可以采用准确的目标数据库表结构。相较于传统技术,目标数据库表结构的可靠性较高,从而提高了业务***上线后提供的数据的质量,减少了业务***上线后数据转化的概率,降低了后期数据治理的成本。
本申请实施例提供一种数据标准管理***,如图6所示,该数据标准管理***包括:
第一获取模块301,用于获取待上线的第一业务***的第一数据库表结构的信息,该第一数据库表结构的信息包括至少一个数据元的信息;校验模块302,用于基于数据标准库对该第一数据库表结构的信息进行校验,该数据标准库包括多个标准数据元的信息;第二获取模块303,用于在对该第一数据库表结构的信息校验后,获取该第一业务***的目标数据库表结构,该目标数据库表结构基于校验后的该第一数据库表结构确定。
综上所述,本申请实施例提供的数据标准管理***,在业务***上线前,由校验模块对该业务***的数据库表结构的信息进行校验,从而保证业务***在上线后可以采用准确的目标数据库表结构。相较于传统技术,目标数据库表结构的可靠性较高,从而提高了业务***上线后提供的数据的质量,减少了业务***上线后数据转化的概率,降低了后期数据治理的成本。
可选的,该校验模块302,用于:当第一数据元的信息与该多个标准数据元的信息均不匹配时,发送第一修改提示信息,该第一修改提示信息指示更新该第一数据元的信息,该第一数据元为该至少一个数据元中的一个数据元;在接收到与该多个标准数据元中任一标准数据元的信息匹配的更新后的该第一数据元的信息后,确定对该第一数据元的信息校验成功。
可选的,该第一数据库表结构的信息和该标准数据元的信息均包括数据元标识,该第一修改提示信息包括至少一个第一标准数据元的信息,该至少一个第一标准数据元中每个第一标准数据元的数据元标识均与该第一数据元的数据元标识模糊匹配。
可选的,该第一修改提示信息包括多个该第一标准数据元的信息,多个该第一标准数据元的信息按照第一标准数据元的数据元标识与该第一数据元的数据元标识的匹配度降序排序;和/或,按照第一标准数据元所属的数据标准的优先级降序排序。
可选的,该数据标准管理***还包括:第一接收模块,用于接收更新后的该第一数据库表结构的信息;
第一确定模块,用于:在该更新后的该第一数据库表结构的信息中确定增量的数据元,并在该增量的数据元的信息中确定该第一数据元的信息;或者,在该更新后的该第一数据库表结构的信息的全量的数据元的信息中确定该第一数据元的信息。
可选的,该校验模块302,用于:当第一数据库表结构的信息的格式不符合指定格式要求时,发送第二修改提示信息,该第二修改提示信息指示更新该第一数据库表结构的信息的格式;在接收到格式符合该格式要求的更新后的该第一数据库表结构的信息后,确定对该第一数据库表结构的信息的格式校验成功。
可选的,该数据标准管理***还包括:
备注模块,用于在该获取待上线的第一业务***的第一数据库表结构的信息之后,当第二数据元对应的数值为可枚举数值时,为该第二数据元添加数据元备注信息,该数据元备注信息用于标识该第二数据元对应的可枚举数值,该第二数据元为该至少一个数据元中的一个数据元。
可选的,该第一数据库表结构的信息和该标准数据元的信息均包括数据元标识和数据元描述信息,该第一获取模块301,用于:接收该第一数据元的数据元标识,该第一数据元的数据元标识为该数据标准库存储的多个标准数据元的数据元标识中的一个;在该数据标准库中获取该第一数据元的数据元标识对应的数据元描述信息。
可选的,该第一获取模块301,用于:接收数据标准文档,该数据标准文档包括该第一数据库表结构的信息。
可选的,该第一获取模块301,用于:接收第三方建模工具基于该数据标准库生成的该数据标准文档。
可选的,该第一获取模块301,用于:输出数据字典模板,该数据字典模板为该第一数据库表结构的信息的参考模板;
接收基于该数据字典模板输入的该第一数据库表结构的信息。
可选的,该数据标准管理***还包括:第二接收模块,用于接收数据标准库操作请求,该数据标准库操作请求包括标准数据元添加请求、标准数据元更新请求、标准数据元删除请求或标准数据元查询请求;操作模块,用于在对该数据标准库操作请求鉴权成功后,对该数据标准库执行该数据标准库操作请求所对应的操作。
可选的,该数据标准管理***还包括:第三获取模块,用于获取上线后的第二业务***的第二数据库表结构的信息,该第二数据库表结构的信息包括至少一个数据元的信息;第二确定模块,用于当基于人工智能模型检测到第三数据元的信息与该多个标准数据元的信息均不匹配时,在该多个标准数据元中确定与该第三数据元对应的目标标准数据元,该第三数据元为该第二数据库表结构的信息包括的至少一个数据元的一个数据元;建立模块,用于基于该人工智能模型,建立该第三数据元与该目标标准数据元的映射关系。
可选的,该数据标准管理***还包括:
输出模块,用于在该获取该第一业务***的目标数据库表结构后,输出该目标数据库表结构对应的脚本。
需要说明的是,上述实施例提供的数据标准管理***在进行数据库表结构处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
示例的,本申请实施例提供的数据标准管理***的结构还可以参考前述图1和图2所示的数据标准管理***,其中,如图7所示,数据标准管理设备102可以包括业务建模模块1021,标准审核模块1022和业务使用模块1023;生命周期管理设备103可以包括标准制定模块1031和数据标准库操作模块1032;数据治理设备104包括数据标准模块1041和元数据模块1042。
其中,业务建模模块1021可以完成前述第一获取模块301、校验模块302和第二获取模块303的功能,即执行前述步骤201至步骤202的动作;标准审核模块1022可以用于进行前述二次校验过程;业务使用模块1023用于在目标数据库表结构确定后,向项目管理员的第一终端设备发送目标数据库表结构使用请求,并在项目管理员通过第一终端设备对数据库表建设完成后,向业务人员的第二终端设备发送数据库表使用通知。
标准制定模块1031用于建立数据标准库中标准数据元的信息,***管理员可以在线下指定标准数据元的信息,并上传至标准数据库中;数据标准库操作模块1032可以完成前述第二接收模块和操作模块的功能,即执行前述步骤205至步骤206的动作。
数据标准模块1041可以完成前述第三获取模块、第二确定模块和建立模块的功能,即执行前述步骤207的动作。元数据模块1042用于可以设置定时任务,定期采集管理的业务***的数据库表的信息(如元数据),检查得到业务***自行新建或更新的数据库表和数据元的信息,进行数据标准规范性校验,该过程可以参考前述步骤202中对应过程。如此可以减少业务***中格式不符合要求的信息。
可选地,图8示意性地提供本申请所述计算设备的一种可能的基本硬件架构。
参见图8,计算设备400包括处理器401、存储器402、通信接口403和总线404。
计算设备400中,处理器401的数量可以是一个或多个,图8仅示意了其中一个处理器401。可选地,处理器401,可以是中央处理器(central processing unit,CPU)。如果计算设备400具有多个处理器401,多个处理器401的类型可以不同,或者可以相同。可选地,计算设备400的多个处理器401还可以集成为多核处理器。
存储器402存储计算机指令和数据;存储器402可以存储实现本申请提供的数据重分布方法所需的计算机指令和数据,例如,存储器402存储用于实现数据重分布方法的步骤的指令。存储器402可以是以下存储介质的任一种或任一种组合:非易失性存储器(例如只读存储器(ROM)、固态硬盘(SSD)、硬盘(HDD)、光盘),易失性存储器。
通信接口403可以是以下器件的任一种或任一种组合:网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。
通信接口403用于计算设备400与其它计算设备或者终端进行数据通信。
总线404可以将处理器401与存储器402和通信接口403连接。这样,通过总线404,处理器401可以访问存储器402,还可以利用通信接口403与其它计算设备或者终端进行数据交互。
在本申请中,计算设备400执行存储器402中的计算机指令,使得计算设备400实现本申请提供的数据重分布方法,或者使得计算设备400部署数据标准管理***。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器,上述指令可由服务器的处理器执行以完成本申请各个实施例所示的数据处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
另外,上述实施例提供的数据标准管理***与数据处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
在本申请中,术语“第一”和“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。术语“多个”指两个或两个以上,除非另有明确的限定。“A参考B”,指的是A与B相同,或者A在B的基础上进行简单变形。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (30)

1.一种数据处理方法,其特征在于,所述方法包括:
获取待上线的第一业务***的第一数据库表结构的信息,所述第一数据库表结构的信息包括至少一个数据元的信息;
基于数据标准库对所述第一数据库表结构的信息进行校验,所述数据标准库包括多个标准数据元的信息;
在对所述第一数据库表结构的信息校验后,获取所述第一业务***的目标数据库表结构,所述目标数据库表结构基于校验后的所述第一数据库表结构确定。
2.根据权利要求1所述的方法,其特征在于,所述基于数据标准库对所述第一数据库表结构的信息进行校验,包括:
当第一数据元的信息与所述多个标准数据元的信息均不匹配时,发送第一修改提示信息,所述第一修改提示信息指示更新所述第一数据元的信息,所述第一数据元为所述至少一个数据元中的一个数据元;
在接收到与所述多个标准数据元中任一标准数据元的信息匹配的更新后的所述第一数据元的信息后,确定对所述第一数据元的信息校验成功。
3.根据权利要求2所述的方法,其特征在于,所述第一数据库表结构的信息和所述标准数据元的信息均包括数据元标识,所述第一修改提示信息包括至少一个第一标准数据元的信息,所述至少一个第一标准数据元中每个第一标准数据元的数据元标识均与所述第一数据元的数据元标识模糊匹配。
4.根据权利要求3所述的方法,其特征在于,所述第一修改提示信息包括多个所述第一标准数据元的信息,多个所述第一标准数据元的信息按照第一标准数据元的数据元标识与所述第一数据元的数据元标识的匹配度降序排序;和/或,按照第一标准数据元所属的数据标准的优先级降序排序。
5.根据权利要求2至4任一所述的方法,其特征在于,所述方法还包括:
接收更新后的所述第一数据库表结构的信息;
在所述更新后的所述第一数据库表结构的信息中确定增量的数据元,并在所述增量的数据元的信息中确定所述第一数据元的信息;
或者,在所述更新后的所述第一数据库表结构的信息的全量的数据元的信息中确定所述第一数据元的信息。
6.根据权利要求1至5任一所述的方法,其特征在于,所述基于数据标准库对所述第一数据库表结构的信息进行校验,包括:
当第一数据库表结构的信息的格式不符合指定格式要求时,发送第二修改提示信息,所述第二修改提示信息指示更新所述第一数据库表结构的信息的格式;
在接收到格式符合所述格式要求的更新后的所述第一数据库表结构的信息后,确定对所述第一数据库表结构的信息的格式校验成功。
7.根据权利要求1至6任一所述的方法,其特征在于,在所述获取待上线的第一业务***的第一数据库表结构的信息之后,所述方法还包括:
当第二数据元对应的数值为可枚举数值时,为所述第二数据元添加数据元备注信息,所述数据元备注信息用于标识所述第二数据元对应的可枚举数值,所述第二数据元为所述至少一个数据元中的一个数据元。
8.根据权利要求1至7任一所述的方法,其特征在于,所述第一数据库表结构的信息和所述标准数据元的信息均包括数据元标识和数据元描述信息,所述获取待上线的第一业务***的第一数据库表结构的信息,包括:
接收所述第一数据元的数据元标识,所述第一数据元的数据元标识为所述数据标准库存储的多个标准数据元的数据元标识中的一个;
在所述数据标准库中获取所述第一数据元的数据元标识对应的数据元描述信息。
9.根据权利要求1至7任一所述的方法,其特征在于,所述获取待上线的第一业务***的第一数据库表结构的信息,包括:
接收数据标准文档,所述数据标准文档包括所述第一数据库表结构的信息。
10.根据权利要求9所述的方法,其特征在于,所述接收数据标准文档,包括:
接收第三方建模工具基于所述数据标准库生成的所述数据标准文档。
11.根据权利要求8或9所述的方法,其特征在于,所述获取待上线的第一业务***的第一数据库表结构的信息,包括:
输出数据字典模板,所述数据字典模板为所述第一数据库表结构的信息的参考模板;
接收基于所述数据字典模板输入的所述第一数据库表结构的信息。
12.根据权利要求1至10任一所述的方法,其特征在于,所述方法还包括:
接收数据标准库操作请求,所述数据标准库操作请求包括标准数据元添加请求、标准数据元更新请求、标准数据元删除请求或标准数据元查询请求;
在对所述数据标准库操作请求鉴权成功后,对所述数据标准库执行所述数据标准库操作请求所对应的操作。
13.根据权利要求1至12任一所述的方法,其特征在于,所述方法还包括:
获取上线后的第二业务***的第二数据库表结构的信息,所述第二数据库表结构的信息包括至少一个数据元的信息;
当基于人工智能模型检测到第三数据元的信息与所述多个标准数据元的信息均不匹配时,在所述多个标准数据元中确定与所述第三数据元对应的目标标准数据元,所述第三数据元为所述第二数据库表结构的信息包括的至少一个数据元的一个数据元;
基于所述人工智能模型,建立所述第三数据元与所述目标标准数据元的映射关系。
14.根据权利要求1至13任一所述的方法,其特征在于,在所述获取所述第一业务***的目标数据库表结构后,所述方法还包括:
输出所述目标数据库表结构对应的脚本。
15.一种数据标准管理***,其特征在于,所述***包括:
第一获取模块,用于获取待上线的第一业务***的第一数据库表结构的信息,所述第一数据库表结构的信息包括至少一个数据元的信息;
校验模块,用于基于数据标准库对所述第一数据库表结构的信息进行校验,所述数据标准库包括多个标准数据元的信息;
第二获取模块,用于在对所述第一数据库表结构的信息校验后,获取所述第一业务***的目标数据库表结构,所述目标数据库表结构基于校验后的所述第一数据库表结构确定。
16.根据权利要求15所述的***,其特征在于,所述校验模块,用于:
当第一数据元的信息与所述多个标准数据元的信息均不匹配时,发送第一修改提示信息,所述第一修改提示信息指示更新所述第一数据元的信息,所述第一数据元为所述至少一个数据元中的一个数据元;
在接收到与所述多个标准数据元中任一标准数据元的信息匹配的更新后的所述第一数据元的信息后,确定对所述第一数据元的信息校验成功。
17.根据权利要求16所述的***,其特征在于,所述第一数据库表结构的信息和所述标准数据元的信息均包括数据元标识,所述第一修改提示信息包括至少一个第一标准数据元的信息,所述至少一个第一标准数据元中每个第一标准数据元的数据元标识均与所述第一数据元的数据元标识模糊匹配。
18.根据权利要求17所述的***,其特征在于,所述第一修改提示信息包括多个所述第一标准数据元的信息,多个所述第一标准数据元的信息按照第一标准数据元的数据元标识与所述第一数据元的数据元标识的匹配度降序排序;和/或,按照第一标准数据元所属的数据标准的优先级降序排序。
19.根据权利要求16至18任一所述的***,其特征在于,所述***还包括:
第一接收模块,用于接收更新后的所述第一数据库表结构的信息;
第一确定模块,用于:
在所述更新后的所述第一数据库表结构的信息中确定增量的数据元,并在所述增量的数据元的信息中确定所述第一数据元的信息;
或者,在所述更新后的所述第一数据库表结构的信息的全量的数据元的信息中确定所述第一数据元的信息。
20.根据权利要求15至19任一所述的***,其特征在于,所述校验模块,用于:
当第一数据库表结构的信息的格式不符合指定格式要求时,发送第二修改提示信息,所述第二修改提示信息指示更新所述第一数据库表结构的信息的格式;
在接收到格式符合所述格式要求的更新后的所述第一数据库表结构的信息后,确定对所述第一数据库表结构的信息的格式校验成功。
21.根据权利要求15至20任一所述的***,其特征在于,所述***还包括:
备注模块,用于在所述获取待上线的第一业务***的第一数据库表结构的信息之后,当第二数据元对应的数值为可枚举数值时,为所述第二数据元添加数据元备注信息,所述数据元备注信息用于标识所述第二数据元对应的可枚举数值,所述第二数据元为所述至少一个数据元中的一个数据元。
22.根据权利要求15至21任一所述的***,其特征在于,所述第一数据库表结构的信息和所述标准数据元的信息均包括数据元标识和数据元描述信息,所述第一获取模块,用于:
接收所述第一数据元的数据元标识,所述第一数据元的数据元标识为所述数据标准库存储的多个标准数据元的数据元标识中的一个;
在所述数据标准库中获取所述第一数据元的数据元标识对应的数据元描述信息。
23.根据权利要求15至22任一所述的***,其特征在于,所述第一获取模块,用于:
接收数据标准文档,所述数据标准文档包括所述第一数据库表结构的信息。
24.根据权利要求23所述的***,其特征在于,所述第一获取模块,用于:
接收第三方建模工具基于所述数据标准库生成的所述数据标准文档。
25.根据权利要求23或24所述的***,其特征在于,所述第一获取模块,用于:
输出数据字典模板,所述数据字典模板为所述第一数据库表结构的信息的参考模板;
接收基于所述数据字典模板输入的所述第一数据库表结构的信息。
26.根据权利要求15至25任一所述的***,其特征在于,所述***还包括:
第二接收模块,用于接收数据标准库操作请求,所述数据标准库操作请求包括标准数据元添加请求、标准数据元更新请求、标准数据元删除请求或标准数据元查询请求;
操作模块,用于在对所述数据标准库操作请求鉴权成功后,对所述数据标准库执行所述数据标准库操作请求所对应的操作。
27.根据权利要求15至26任一所述的***,其特征在于,所述***还包括:
第三获取模块,用于获取上线后的第二业务***的第二数据库表结构的信息,所述第二数据库表结构的信息包括至少一个数据元的信息;
第二确定模块,用于当基于人工智能模型检测到第三数据元的信息与所述多个标准数据元的信息均不匹配时,在所述多个标准数据元中确定与所述第三数据元对应的目标标准数据元,所述第三数据元为所述第二数据库表结构的信息包括的至少一个数据元的一个数据元;
建立模块,用于基于所述人工智能模型,建立所述第三数据元与所述目标标准数据元的映射关系。
28.根据权利要求15至27任一所述的***,其特征在于,所述***还包括:
输出模块,用于在所述获取所述第一业务***的目标数据库表结构后,输出所述目标数据库表结构对应的脚本。
29.一种计算机设备,其特征在于,包括:
处理器和存储器;
所述存储器,用于存储计算机指令;
所述处理器,用于执行所述存储器存储的计算机指令,使得所述计算设备执行权利要求1至14任一所述的数据处理方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机指令,所述计算机指令指示计算设备执行权利要求1至14任一所述的数据处理方法。
CN202010197689.7A 2020-03-19 2020-03-19 数据处理方法及数据标准管理*** Pending CN113495902A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010197689.7A CN113495902A (zh) 2020-03-19 2020-03-19 数据处理方法及数据标准管理***
PCT/CN2021/075477 WO2021184995A1 (zh) 2020-03-19 2021-02-05 数据处理方法及数据标准管理***

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010197689.7A CN113495902A (zh) 2020-03-19 2020-03-19 数据处理方法及数据标准管理***

Publications (1)

Publication Number Publication Date
CN113495902A true CN113495902A (zh) 2021-10-12

Family

ID=77767982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010197689.7A Pending CN113495902A (zh) 2020-03-19 2020-03-19 数据处理方法及数据标准管理***

Country Status (2)

Country Link
CN (1) CN113495902A (zh)
WO (1) WO2021184995A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法
CN117389996A (zh) * 2023-12-11 2024-01-12 深圳万物安全科技有限公司 数据库优化建议生成方法、终端设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115018235A (zh) * 2022-03-07 2022-09-06 中国大唐集团科学技术研究院有限公司西北电力试验研究院 基于增量模型的金属技术监督专家***
CN114638729B (zh) * 2022-05-18 2022-08-02 国网浙江省电力有限公司 基于能源互联网营销服务的双中台架构的电力稽查方法
CN115982137B (zh) * 2023-03-17 2023-08-01 鲁班(北京)电子商务科技有限公司 一种数据名称和数据库建表生成方法及***
CN117235077B (zh) * 2023-11-15 2024-03-08 青岛民航凯亚***集成有限公司 一种基于数据编织的机场智能化数据治理方法及***

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180096018A1 (en) * 2016-09-30 2018-04-05 Microsoft Technology Licensing, Llc Reducing processing for comparing large metadata sets
CN106528828A (zh) * 2016-11-22 2017-03-22 山东浪潮云服务信息科技有限公司 一种基于多维度校验规则的数据质量检测方法
CN107844588B (zh) * 2017-11-17 2020-07-14 中国银行股份有限公司 一种数据字典的处理方法、装置、存储介质及处理器
CN110008193B (zh) * 2019-04-16 2021-06-18 成都四方伟业软件股份有限公司 数据标准化方法及装置
CN110389941B (zh) * 2019-06-19 2021-01-05 平安国际智慧城市科技股份有限公司 数据库校验方法、装置、设备及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115543977A (zh) * 2022-09-29 2022-12-30 河北雄安睿天科技有限公司 一种供水行业数据清洗方法
CN117389996A (zh) * 2023-12-11 2024-01-12 深圳万物安全科技有限公司 数据库优化建议生成方法、终端设备及存储介质
CN117389996B (zh) * 2023-12-11 2024-03-29 深圳万物安全科技有限公司 数据库优化建议生成方法、终端设备及存储介质

Also Published As

Publication number Publication date
WO2021184995A1 (zh) 2021-09-23

Similar Documents

Publication Publication Date Title
CN113495902A (zh) 数据处理方法及数据标准管理***
US20220308942A1 (en) Systems and methods for censoring text inline
CN111258989B (zh) 数据库迁移评估方法、装置、存储介质和计算机设备
CN109087054B (zh) 协同办公数据流处理方法、装置、计算机设备及存储介质
CN104967620B (zh) 一种基于属性访问控制策略的访问控制方法
CN107797916B (zh) Ddl语句审核方法和装置
CN112559526A (zh) 数据表导出方法、装置、计算机设备及存储介质
CN115357572A (zh) 一种数据质量检查规则构建方法、存储介质及***
CN113505078B (zh) 配置文件更新方法、装置、设备及存储介质
CN110806977A (zh) 基于产品需求的测试用例集生成方法、装置及电子设备
CN111177481A (zh) 用户标识映射方法及装置
CN114238474A (zh) 基于排水***的数据处理方法、装置、设备及存储介质
CN114328674A (zh) 一种基于内网日志行为图的数据挖掘方法及***
CN113312258A (zh) 一种接口测试方法、装置、设备及存储介质
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN112433753A (zh) 基于参数信息的接口文档生成方法、装置、设备和介质
US10003492B2 (en) Systems and methods for managing data related to network elements from multiple sources
CN115130043B (zh) 基于数据库的数据处理方法、装置、设备及存储介质
CN110866007A (zh) 大数据应用和表的信息管理方法、***和计算机设备
CN112685389B (zh) 数据管理方法、数据管理装置、电子设备及存储介质
CN114490673B (zh) 数据信息处理方法、装置、电子设备及存储介质
CN114547059A (zh) 平台数据的更新处理方法、装置及计算机设备
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN113901075A (zh) 生成sql语句的方法、装置、计算机设备及存储介质
KR102377535B1 (ko) 빅데이터 개인정보의 익명화 및 익명화 데이터의 결합 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination