CN116244276A - 一种模型处理方法、装置、电子设备及可读存储介质 - Google Patents

一种模型处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN116244276A
CN116244276A CN202310187084.3A CN202310187084A CN116244276A CN 116244276 A CN116244276 A CN 116244276A CN 202310187084 A CN202310187084 A CN 202310187084A CN 116244276 A CN116244276 A CN 116244276A
Authority
CN
China
Prior art keywords
model
data
similarity
determining
field
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310187084.3A
Other languages
English (en)
Inventor
吴帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing IQIYI Science and Technology Co Ltd
Original Assignee
Beijing IQIYI Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing IQIYI Science and Technology Co Ltd filed Critical Beijing IQIYI Science and Technology Co Ltd
Priority to CN202310187084.3A priority Critical patent/CN116244276A/zh
Publication of CN116244276A publication Critical patent/CN116244276A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种模型处理方法、装置、电子设备及可读存储介质,属于模型处理技术领域。本申请通过获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。

Description

一种模型处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及模型处理技术领域,尤其涉及一种模型处理方法、装置、电子设备及可读存储介质。
背景技术
数据仓库集成了企业大量历史业务数据,业务方可以基于数据仓库进行数仓建模,将创建的数仓模型应用于算法优化、数据分析与决策等方面。在数仓架构中,数仓模型起到承上启下的作用,对下加工规范底层数据,对上提供通用易用的数据,数据模型的质量直接决定了数仓的成果。
但是,在数仓建模的过程中,由于业务变化、人员变更、约定规范的实施等情况,会在企业***中产生很多相似的数仓模型,导致出现大量重复的数据计算和存储资源占用。
发明内容
为了解决上述在数仓建模的过程中,由于业务变化、人员变更、约定规范的实施等情况,会在企业***中产生很多相似的数仓模型,导致出现大量重复的数据计算和存储资源占用的技术问题,本申请提供了一种模型处理方法、装置、电子设备及可读存储介质。
第一方面,提供了一种模型处理方法,所述方法包括:
获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;
确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;
针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;
在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
在一个可能的实施方式中,所述第一基础数据包含至少一个第一字段对应的第一字段数据,所述第二基础数据包含至少一个第二字段对应的第二字段数据,
所述基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度,包括:
基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,以及,基于所述第一字段数据和所述第二字段数据确定数据相似度;
基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度。
在一个可能的实施方式中,所述基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,包括:
基于至少一个所述第一字段和至少一个所述第二字段,确定第一数量、第二数量及第三数量,其中,所述第一数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中不存在的字段的数量,所述第二数量为至少一个所述第二字段中存在,且,至少一个所述第一字段中不存在的字段的数量,所述第三数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中也存在的字段的数量;
基于所述第一数量、所述第二数量和所述第三数量,确定所述字段相似度。
在一个可能的实施方式中,所述基于所述第一字段数据和所述第二字段数据确定数据相似度,包括:
确定所述第一字段数据对应的第一数据向量,以及第二字段数据对应的第二数据向量;
计算所述第一数据向量和所述第二数据向量的余弦相似度,将所述余弦相似度确定为所述数据相似度。
在一个可能的实施方式中,所述基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度,包括:
确定所述数据相似度对应的第一权重,以及所述字段相似度对应的第二权重;
计算所述数据相似度和所述第一权重的乘积得到第一结果,以及,计算所述字段相似度和所述第二权重的乘积得到第二结果;
将所述第一结果和所述第二结果的和,确定为所述第一模型和所述第二模型的模型相似度。
在一个可能的实施方式中,所述确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,包括:
获取所述第一模型对应的第一输入数据,对所述第一输入数据进行数据溯源处理,得到所述第一模型对应的第一基础数据;
以及,
针对每个第二模型,获取所述第二模型对应的第二输入数据,对所述第二输入数据进行数据溯源处理,得到所述第二模型对应的第二基础数据。
在一个可能的实施方式中,所述获取待检测的第一模型,包括:
获取预设的模型筛选条件,将符合所述模型筛选条件的模型确定为所述第一模型。
第二方面,提供了一种模型处理装置,所述装置包括:
获取模块,用于获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;
第一确定模块,用于确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;
第二确定模块,用于针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;
生成模块,用于在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
在一个可能的实施方式中,所述第一基础数据包含至少一个第一字段对应的第一字段数据,所述第二基础数据包含至少一个第二字段对应的第二字段数据,
所述第二确定模块,具体用于:
基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,以及,基于所述第一字段数据和所述第二字段数据确定数据相似度;
基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度。
在一个可能的实施方式中,所述第二确定模块,还用于:
基于至少一个所述第一字段和至少一个所述第二字段,确定第一数量、第二数量及第三数量,其中,所述第一数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中不存在的字段的数量,所述第二数量为至少一个所述第二字段中存在,且,至少一个所述第一字段中不存在的字段的数量,所述第三数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中也存在的字段的数量;
基于所述第一数量、所述第二数量和所述第三数量,确定所述字段相似度。
在一个可能的实施方式中,所述第二确定模块,还用于:
确定所述第一字段数据对应的第一数据向量,以及第二字段数据对应的第二数据向量;
计算所述第一数据向量和所述第二数据向量的余弦相似度,将所述余弦相似度确定为所述数据相似度。
在一个可能的实施方式中,所述第二确定模块,还用于:
确定所述数据相似度对应的第一权重,以及所述字段相似度对应的第二权重;
计算所述数据相似度和所述第一权重的乘积得到第一结果,以及,计算所述字段相似度和所述第二权重的乘积得到第二结果;
将所述第一结果和所述第二结果的和,确定为所述第一模型和所述第二模型的模型相似度。
在一个可能的实施方式中,所述第一确定模块,具体用于:
获取所述第一模型对应的第一输入数据,对所述第一输入数据进行数据溯源处理,得到所述第一模型对应的第一基础数据;
以及,
针对每个第二模型,获取所述第二模型对应的第二输入数据,对所述第二输入数据进行数据溯源处理,得到所述第二模型对应的第二基础数据。
在一个可能的实施方式中,所述获取模块,具体用于:
获取预设的模型筛选条件,将符合所述模型筛选条件的模型确定为所述第一模型。
第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的模型处理方法。
本申请实施例有益效果:
本申请实施例提供了一种模型处理方法、装置、电子设备及可读存储介质,本申请通过,首先,获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型,之后,确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据,然后,针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度,最后,在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。如此,可以在两个模型相似度较高的情况下,提示用户对这两个模型进行合并,从而减少企业***中相似模型对数量,进而减少重复的数据计算和存储资源占用。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种模型处理方法的流程图;
图2为本申请实施例提供的另一种模型处理方法的流程图;
图3为本申请实施例提供的一种模型处理装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
下面结合附图以具体实施例对本申请提供的模型处理方法做出解释说明,实施例并不构成对本申请实施例的限定。
参见图1,为本申请实施例提供的一种模型处理方法的实施例流程图。如图1所示,该流程可包括以下步骤:
S101,获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型。
本申请实施例提供的一种模型处理方法可以应用于企业模型管理***,该企业模型管理***中包含多个已创建完成的已有模型。
在一实施例中,第一模型可以为待创建的模型,即,还未创建完成的模型,相应的,预设模型集合中为企业模型管理***中包含的所有已创建完成的已有模型(即,第二模型)。
在另一实施例中,第一模型可以为企业模型管理***中的已有模型,相应的,预设模型集合中为企业模型管理***中包含的除第一模型之外的所有已创建完成的已有模型(即,第二模型)。
此外,在上述两个实施例的基础上,在又一实施例中,获取待检测的第一模型的具体实现可包括:获取预设的模型筛选条件,将符合所述模型筛选条件的模型确定为所述第一模型。
实际应用中,可以从数据库、业务领域以及数仓分层等方面设置模型筛选条件。
通过该实施例,可以不针对所有待创建的模型或者企业模型管理***中的所有已有模型,进行模型相似度的检测,仅对符合用户设置的模型筛选条件的模型进行检测,如此,可以根据用户需求灵活设置需要检测的第一模型。
S102,确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据。
实际应用中,数仓模型包含ODS(贴源数据层,Operation Data Store)、DWD(数据明细层,Data Warehouse Details)、DIM(维度表,Dimension)、DWM(数据中间层,DataWarehouse Middle)、DWS(数据服务层,Data Warehouse Service)及ADS(数据应用层,Application Data Service)。其中,作为统一且对外开放的基础数仓是DWD层、DIM层,用于提供给业务方基于维度建模建设业务数仓。
上述第一基础数据和第二基础数据,为基础数仓(即,DWD层、DIM层)中的数据,这里的数据是指基础数仓内基础表中的基础字段层面的元数据。
本申请实施例中,确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据的具体实现可包括:获取所述第一模型对应的第一输入数据,对所述第一输入数据进行数据溯源处理,得到所述第一模型对应的第一基础数据,以及,针对每个第二模型,获取所述第二模型对应的第二输入数据,对所述第二输入数据进行数据溯源处理,得到所述第二模型对应的第二基础数据。
其中,第一输入数据指第一模型的输入数据,第二输入数据指第二模型的输入数据。该实施例中,可以基于模型的输入数据进行数据血缘解析,回溯其上游生产逻辑,获取到对应的基础字段层面的元数据。
由于,基础数仓内这些基础表中的基础字段的来源以及含义是唯一确定的,因此,将第一模型和第二模型的输入数据回溯到基础数仓中的基础数据层面后,后续可以基于该层面这些来源以及含义唯一确定的基础字段,对第一模型和第二模型进行相似度的判断。
S103,针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度。
S104,在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
以下对S103和S104进行统一说明:
本申请实施例中,针对每个第二模型,可以基于第一基础数据和第二模型对应的第二基础数据,确定二者的模型相似度,在模型相似度大于预设阈值的情况下,意味着二者较为相似,此时,可以基于第一模型和第二模型生成提示消息,并发送该提示消息至用户设备,以提示用户合并第一模型和第二模型。如此,减少企业模型管理***中相似模型的数量。
至于具体如何基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度,将通过下文实施例进行详细的解释说明,这里先不详述。
需要说明的是,当第一模型为待创建的模型时,在获取到用户用于创建第一模型的信息(该信息中包含第一输入数据或第一基础数据)之后,创建第一模型之前执行S101-S104,若第一模型与企业模型管理***中任一已有模型(即第二模型)相似度大于预设阈值,提示用户合并第一模型和第二模型,也就是,提示用户使用第二模型来完成第一模型的功能,或者,在第二模型的基础上进行修改以使其可以完成第一模型的功能,如此,可以减少创建相似模型的数量。
当第一模型为企业模型管理***中的已有模型时,可以定期执行S101-S104,若第一模型与企业模型管理***中任一其他模型(即第二模型)相似度大于预设阈值,提示用户合并第一模型和第二模型,也就是,提示用户将二者合并,只保留其中一个模型,如此,减少创建相似模型的数量。
本申请实施例中,首先,获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型,之后,确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据,然后,针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度,最后,在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。如此,可以在两个模型相似度较高的情况下,提示用户对这两个模型进行合并,从而减少企业***中相似模型对数量,进而减少重复的数据计算和存储资源占用。
参见图2,为本申请实施例提供的另一种模型处理方法的实施例流程图。该图2所示流程在上述图1所示流程的基础上,描述如何基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度。如图2所示,该流程可包括以下步骤:
S201,基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,以及,基于所述第一字段数据和所述第二字段数据确定数据相似度。
其中,第一基础数据包含至少一个第一字段对应的第一字段数据,第二基础数据包含至少一个第二字段对应的第二字段数据。其中,第一字段和第二字段,即,基础数仓内基础表中的基础字段;第一字段数据和第二字段数据,即,基础字段层面的元数据。
基于此,本申请实施例中,基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度的具体实现可包括:基于至少一个所述第一字段和至少一个所述第二字段,确定第一数量、第二数量及第三数量,其中,所述第一数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中不存在的字段的数量,所述第二数量为至少一个所述第二字段中存在,且,至少一个所述第一字段中不存在的字段的数量,所述第三数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中也存在的字段的数量,基于所述第一数量、所述第二数量和所述第三数量,确定所述字段相似度。
具体的,可以通过以下公式确定字段相似度:
Figure BDA0004104226820000111
其中,M01代表第一数量;M10代表第二数量;M11代表第三数量。
基于所述第一字段数据和所述第二字段数据确定数据相似度的具体实现可包括:确定所述第一字段数据对应的第一数据向量,以及第二字段数据对应的第二数据向量,计算所述第一数据向量和所述第二数据向量的余弦相似度,将所述余弦相似度确定为所述数据相似度。
这里,第一字段数据中包含每个第一字段对应的值,相应的,第一数据向量即所有第一字段对应的值构成的矩阵;第二字段数据中包含每个第二字段对应的值,相应的,第二数据向量即所有第二字段对应的值构成的矩阵。
具体的,可以通过以下公式确定数据相似度:
Figure BDA0004104226820000112
其中,A为第一字段数据对应的第一数据向量,B为第二字段数据对应的第二数据向量,Ai为第一数据向量中第i个值,Bi为第二数据向量中第i个值。
S202,基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度。
本申请实施例中,基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度的具体实现可包括:确定所述数据相似度对应的第一权重,以及所述字段相似度对应的第二权重,计算所述数据相似度和所述第一权重的乘积得到第一结果,以及,计算所述字段相似度和所述第二权重的乘积得到第二结果,将所述第一结果和所述第二结果的和,确定为所述第一模型和所述第二模型的模型相似度。
其中,用户可以根据实际需求具体设置第一权重和第二权重的值。
具体的,可以通过以下公式计算模型相似度:
sim(A,B)=simlilarity1(A,B)*weight1+simlilarity2(A,B)*weight2
其中,simlilarity1(A,B)为数据相似度,weight1为第一权重,simlilarity2(A,B)为字段相似度,weight2为第二权重。
通过图2所示流程,首先,基于至少一个第一字段和至少一个第二字段确定字段相似度,以及,基于第一字段数据和第二字段数据确定数据相似度,进而,基于字段相似度和数据相似度,确定第一模型和第二模型的模型相似度。由此,实现了对第一模型和第二模型的相似度检测。
基于相同的技术构思,本申请实施例还提供了一种模型处理装置,如图3所示,该装置包括:
获取模块301,用于获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;
第一确定模块302,用于确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;
第二确定模块303,用于针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;
生成模块304,用于在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
在一个可能的实施方式中,所述第一基础数据包含至少一个第一字段对应的第一字段数据,所述第二基础数据包含至少一个第二字段对应的第二字段数据,
所述第二确定模块,具体用于:
基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,以及,基于所述第一字段数据和所述第二字段数据确定数据相似度;
基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度。
在一个可能的实施方式中,所述第二确定模块,还用于:
基于至少一个所述第一字段和至少一个所述第二字段,确定第一数量、第二数量及第三数量,其中,所述第一数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中不存在的字段的数量,所述第二数量为至少一个所述第二字段中存在,且,至少一个所述第一字段中不存在的字段的数量,所述第三数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中也存在的字段的数量;
基于所述第一数量、所述第二数量和所述第三数量,确定所述字段相似度。
在一个可能的实施方式中,所述第二确定模块,还用于:
确定所述第一字段数据对应的第一数据向量,以及第二字段数据对应的第二数据向量;
计算所述第一数据向量和所述第二数据向量的余弦相似度,将所述余弦相似度确定为所述数据相似度。
在一个可能的实施方式中,所述第二确定模块,还用于:
确定所述数据相似度对应的第一权重,以及所述字段相似度对应的第二权重;
计算所述数据相似度和所述第一权重的乘积得到第一结果,以及,计算所述字段相似度和所述第二权重的乘积得到第二结果;
将所述第一结果和所述第二结果的和,确定为所述第一模型和所述第二模型的模型相似度。
在一个可能的实施方式中,所述第一确定模块,具体用于:
获取所述第一模型对应的第一输入数据,对所述第一输入数据进行数据溯源处理,得到所述第一模型对应的第一基础数据;
以及,
针对每个第二模型,获取所述第二模型对应的第二输入数据,对所述第二输入数据进行数据溯源处理,得到所述第二模型对应的第二基础数据。
在一个可能的实施方式中,所述获取模块,具体用于:
获取预设的模型筛选条件,将符合所述模型筛选条件的模型确定为所述第一模型。
本申请实施例中,首先,获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型,之后,确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据,然后,针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度,最后,在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。如此,可以在两个模型相似度较高的情况下,提示用户对这两个模型进行合并,从而减少企业***中相似模型对数量,进而减少重复的数据计算和存储资源占用。
基于相同的技术构思,本申请实施例还提供了一种电子设备,如图4所示,包括处理器111、通信接口112、存储器113和通信总线114,其中,处理器111,通信接口112,存储器113通过通信总线114完成相互间的通信,
存储器113,用于存放计算机程序;
处理器111,用于执行存储器113上所存放的程序时,实现如下步骤:
获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;
确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;
针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;
在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一模型处理方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一模型处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种模型处理方法,其特征在于,所述方法包括:
获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;
确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;
针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;
在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
2.根据权利要求1所述的方法,其特征在于,所述第一基础数据包含至少一个第一字段对应的第一字段数据,所述第二基础数据包含至少一个第二字段对应的第二字段数据,
所述基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度,包括:
基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,以及,基于所述第一字段数据和所述第二字段数据确定数据相似度;
基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度。
3.根据权利要求2所述的方法,其特征在于,所述基于至少一个所述第一字段和至少一个所述第二字段确定字段相似度,包括:
基于至少一个所述第一字段和至少一个所述第二字段,确定第一数量、第二数量及第三数量,其中,所述第一数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中不存在的字段的数量,所述第二数量为至少一个所述第二字段中存在,且,至少一个所述第一字段中不存在的字段的数量,所述第三数量为至少一个所述第一字段中存在,且,至少一个所述第二字段中也存在的字段的数量;
基于所述第一数量、所述第二数量和所述第三数量,确定所述字段相似度。
4.根据权利要求2所述的方法,其特征在于,所述基于所述第一字段数据和所述第二字段数据确定数据相似度,包括:
确定所述第一字段数据对应的第一数据向量,以及第二字段数据对应的第二数据向量;
计算所述第一数据向量和所述第二数据向量的余弦相似度,将所述余弦相似度确定为所述数据相似度。
5.根据权利要求2所述的方法,其特征在于,所述基于所述字段相似度和所述数据相似度,确定所述第一模型和所述第二模型的模型相似度,包括:
确定所述数据相似度对应的第一权重,以及所述字段相似度对应的第二权重;
计算所述数据相似度和所述第一权重的乘积得到第一结果,以及,计算所述字段相似度和所述第二权重的乘积得到第二结果;
将所述第一结果和所述第二结果的和,确定为所述第一模型和所述第二模型的模型相似度。
6.根据权利要求1所述的方法,其特征在于,所述确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,包括:
获取所述第一模型对应的第一输入数据,对所述第一输入数据进行数据溯源处理,得到所述第一模型对应的第一基础数据;
以及,
针对每个第二模型,获取所述第二模型对应的第二输入数据,对所述第二输入数据进行数据溯源处理,得到所述第二模型对应的第二基础数据。
7.根据权利要求1所述的方法,其特征在于,所述获取待检测的第一模型,包括:
获取预设的模型筛选条件,将符合所述模型筛选条件的模型确定为所述第一模型。
8.一种模型处理装置,其特征在于,所述装置包括:
获取模块,用于获取待检测的第一模型以及所述第一模型对应的预设模型集合,其中,所述预设模型集合中包含至少一个第二模型;
第一确定模块,用于确定所述第一模型对应的第一基础数据,以及每个所述第二模型对应的第二基础数据,其中,所述第一基础数据和所述第二基础数据为基础数仓中的数据;
第二确定模块,用于针对每个第二模型,基于所述第一基础数据和所述第二模型对应的第二基础数据,确定所述第一模型和所述第二模型的模型相似度;
生成模块,用于在所述模型相似度大于预设阈值的情况下,基于所述第一模型和所述第二模型生成提示消息,并发送所述提示消息,以提示用户合并所述第一模型和所述第二模型。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202310187084.3A 2023-02-22 2023-02-22 一种模型处理方法、装置、电子设备及可读存储介质 Pending CN116244276A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310187084.3A CN116244276A (zh) 2023-02-22 2023-02-22 一种模型处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310187084.3A CN116244276A (zh) 2023-02-22 2023-02-22 一种模型处理方法、装置、电子设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116244276A true CN116244276A (zh) 2023-06-09

Family

ID=86625815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310187084.3A Pending CN116244276A (zh) 2023-02-22 2023-02-22 一种模型处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116244276A (zh)

Similar Documents

Publication Publication Date Title
CN110471949B (zh) 数据血缘分析方法、装置、***、服务器及存储介质
CN111858615A (zh) 数据库表生成方法、***、计算机***和可读存储介质
CN111159897A (zh) 基于***建模应用的目标优化方法和装置
CN112686418B (zh) 一种履约时效预测方法和装置
CN114416512A (zh) 测试方法、装置、电子设备和计算机存储介质
US10963963B2 (en) Rule based hierarchical configuration
CN111966707A (zh) 查询语句生成方法、装置、电子设备和计算机可读介质
CN103678591A (zh) 自动执行多业务单据统计处理的装置和方法
CN105095515A (zh) 支持快速查询Map-Reduce输出结果的分桶方法、装置及设备
CN111563115B (zh) 一种分布式数据库中数据分布信息的统计方法及装置
CN103793220A (zh) 使用元模型对软件许可进行建模的方法和装置
CN116244276A (zh) 一种模型处理方法、装置、电子设备及可读存储介质
CN110287272A (zh) 一种可配置实时特征提取方法、装置及***
CN116010380A (zh) 一种基于可视化建模的数据仓库自动化管理方法
CN115543428A (zh) 一种基于策略模板的模拟数据生成方法和装置
CN116126901A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN113377683B (zh) 软件测试用例的生成方法、***、设备、终端、介质及应用
CN115827618A (zh) 一种全局数据整合方法及装置
CN115147183A (zh) 基于云平台的芯片资源管理方法、装置、设备及存储介质
CN115618825A (zh) 财务报表合并方法、装置、计算机可读介质及终端设备
CN114416852A (zh) 数据处理方法、装置、设备及介质
CN115550259B (zh) 基于白名单的流量分配方法及相关设备
CN111625866A (zh) 一种权限管理方法、***、设备及存储介质
CN112580915A (zh) 一种项目里程碑确定方法、装置、存储介质及电子设备
CN111930718B (zh) 配置管理数据库的节点调整方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination