CN117435978A - 异构云数据处理方法、装置及电子设备 - Google Patents

异构云数据处理方法、装置及电子设备 Download PDF

Info

Publication number
CN117435978A
CN117435978A CN202311598788.6A CN202311598788A CN117435978A CN 117435978 A CN117435978 A CN 117435978A CN 202311598788 A CN202311598788 A CN 202311598788A CN 117435978 A CN117435978 A CN 117435978A
Authority
CN
China
Prior art keywords
attribute
cloud data
attribute classification
sample
maintenance platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311598788.6A
Other languages
English (en)
Inventor
曾梦思
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Digital Zhejiang Technology Operation Co ltd
Original Assignee
Digital Zhejiang Technology Operation Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Digital Zhejiang Technology Operation Co ltd filed Critical Digital Zhejiang Technology Operation Co ltd
Priority to CN202311598788.6A priority Critical patent/CN117435978A/zh
Publication of CN117435978A publication Critical patent/CN117435978A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种异构云数据处理方法、装置及电子设备,从多个具有不同数据结构的数据源获取待属性分类的异构云数据集;通过预先训练好的多个属性分类模型对异构云数据集进行属性分类,得到异构云数据集对应于运维平台的属性分类结果,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;基于异构云数据集对应于运维平台的属性分类结果以及运维平台的数据结构,将异构云数据集中的云数据样本存储至运维平台进行管理。采用本发明可以缓解在使用运维平台对各应用***进行统一管理时出现的应用产品资源对接困难的问题。

Description

异构云数据处理方法、装置及电子设备
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种异构云数据处理方法、装置及电子设备。
背景技术
随着云计算的发展和普及,越来越多的云服务厂商提供云产品服务。同时,随着数字化改革的深入,信息化***的建设,对私有云服务的需求越来越大。在众多的云服务厂商中,产品个性化,没有统一的规范和标准。云产品的多样化为用户提供便利的同时,也造成了产品标准不统一。各云服务厂商基于不同的云平台构建应用***,在使用运维平台对各应用***进行统一管理时,出现应用产品资源对接困难的问题。
发明内容
有鉴于此,本发明的目的在于提供一种异构云数据处理方法、装置及电子设备,以缓解相关技术中存在的上述问题。
第一方面,本发明实施例提供了一种异构云数据处理方法,所述方法包括:从多个具有不同数据结构的数据源获取待属性分类的异构云数据集;其中,所述异构云数据集中的云数据样本包含各个数据源的第一属性信息;通过预先训练好的多个属性分类模型对所述异构云数据集进行属性分类,得到所述异构云数据集对应于运维平台的属性分类结果;其中,所述属性分类结果包括与所述运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;基于所述异构云数据集对应于运维平台的属性分类结果以及所述运维平台的数据结构,将所述异构云数据集中的云数据样本存储至所述运维平台进行管理。
第二方面,本发明实施例还提供一种异构云数据处理装置,所述装置包括:获取模块,用于从多个具有不同数据结构的数据源获取待属性分类的异构云数据集;其中,所述异构云数据集中的云数据样本包含各个数据源的第一属性信息;属性分类模块,用于通过预先训练好的多个属性分类模型对所述异构云数据集进行属性分类,得到所述异构云数据集对应于运维平台的属性分类结果;其中,所述属性分类结果包括与所述运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;管理模块,用于基于所述异构云数据集对应于运维平台的属性分类结果以及所述运维平台的数据结构,将所述异构云数据集中的云数据样本存储至所述运维平台进行管理。
第三方面,本发明实施例还提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现上述第一方面所述异构云数据处理方法。
本发明实施例提供的一种异构云数据处理方法、装置及电子设备,首先从多个具有不同数据结构的数据源获取待属性分类的异构云数据集,异构云数据集中的云数据样本包含各个数据源的第一属性信息;然后通过预先训练好的多个属性分类模型对异构云数据集进行属性分类,得到异构云数据集对应于运维平台的属性分类结果,属性分类结果包括与运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;最终基于异构云数据集对应于运维平台的属性分类结果以及运维平台的数据结构,将异构云数据集中的云数据样本存储至运维平台进行管理。采用上述技术,在使用运维平台对各云服务厂商基于不同的云平台构建的应用***进行统一管理时,可通过预先训练好的多个属性分类模型对来自多个具有不同数据结构的数据源的异构云数据进行属性分类,进而基于属性分类结果将异构云数据存储至运维平台进行管理,能够实现运维平台自动对接各应用***进行异构云数据的统一管理,降低了运维平台对接各应用***的难度,还提高了运维平台对接各应用***的效率,从而缓解在使用运维平台对各应用***进行统一管理时出现的应用产品资源对接困难的问题。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种异构云数据处理方法的流程示意图;
图2为本发明实施例中一种异构云数据处理方法的局部流程示例图;
图3为本发明实施例中三个属性分类模型进行属性分类的示例图;
图4为本发明实施例中对某个数据集进行属性分类的示例图;
图5为本发明实施例中一种异构云数据处理装置的结构示意图;
图6为本发明实施例中一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,随着云计算的发展和普及,越来越多的云服务厂商提供云产品服务。同时,随着数字化改革的深入,信息化***的建设,对私有云服务的需求越来越大。在众多的云服务厂商中,产品个性化,没有统一的规范和标准。云产品的多样化为用户提供便利的同时,也造成了产品标准不统一。各云服务厂商基于不同的云平台构建应用***,在使用运维平台对各应用***进行统一管理时,出现应用产品资源对接困难的问题。
基于此,本发明实施提供的一种异构云数据处理方法、装置及电子设备,可以缓解相关技术中存在的上述问题。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种异构云数据处理方法进行详细介绍,参见图1所示,该方法可以包括以下步骤:
步骤S102,从多个具有不同数据结构的数据源获取待属性分类的异构云数据集。
其中,上述异构云数据集中的云数据样本可以包含各个数据源的第一属性信息。
步骤S104,通过预先训练好的多个属性分类模型对异构云数据集进行属性分类,得到异构云数据集对应于运维平台的属性分类结果。
其中,上述属性分类结果包括与上述运维平台的第二属性信息对应的多个属性类别,上述属性分类模型的数量与上述属性类别的数量一致,不同属性分类模型与不同属性类别对应。
步骤S106,基于异构云数据集对应于运维平台的属性分类结果以及运维平台的数据结构,将异构云数据集中的云数据样本存储至运维平台进行管理。
本发明实施例提供的一种异构云数据处理方法,首先从多个具有不同数据结构的数据源获取待属性分类的异构云数据集,异构云数据集中的云数据样本包含各个数据源的第一属性信息;然后通过预先训练好的多个属性分类模型对异构云数据集进行属性分类,得到异构云数据集对应于运维平台的属性分类结果,属性分类结果包括与运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;最终基于异构云数据集对应于运维平台的属性分类结果以及运维平台的数据结构,将异构云数据集中的云数据样本存储至运维平台进行管理。采用上述技术,在使用运维平台对各云服务厂商基于不同的云平台构建的应用***进行统一管理时,可通过预先训练好的多个属性分类模型对来自多个具有不同数据结构的数据源的异构云数据进行属性分类,进而基于属性分类结果将异构云数据存储至运维平台进行管理,能够实现运维平台自动对接各应用***进行异构云数据的统一管理,降低了运维平台对接各应用***的难度,还提高了运维平台对接各应用***的效率,从而缓解在使用运维平台对各应用***进行统一管理时出现的应用产品资源对接困难的问题。
作为一种可能的实施方式,上述多个属性分类模型的训练过程可以包括:
步骤1,获取运维平台上存储的已管理的历史云数据,并为历史云数据标注各个属性类别,得到标注样本集。
其中,上述标注样本集中的每个标注样本各自标注有相应的属性类别。
步骤2,从标注样本集中分别为每个属性分类模型确定相应的正样本和负样本。
其中,每个属性分类模型的正样本标注有该属性分类模型所对应的第一属性类别。
示例性地,对于某个属性分类模型,将标注样本集中标注有该属性分类模型所对应第一属性类别的第一类标注样本确定为该属性分类模型的正样本,并将标注样本集中除第一类标注样本以外的第二类标注样本确定为该属性分类模型的负样本。
步骤3,基于各个属性分类模型的正样本和负样本,分别为每个属性分类模型构建相应的训练集和测试集。
其中,每个属性分类模型的训练集和测试集各自均包含相应的正样本和负样本。
步骤4,利用每个属性分类模型的训练集和测试集分别进行相应属性分类模型的训练和性能测试,得到训练好的多个属性分类模型。
作为一种可能的实施方式,上述步骤S104(即通过预先训练好的多个属性分类模型对异构云数据集进行属性分类,得到异构云数据集对应于运维平台的属性分类结果)可以包括:(1)通过预先训练好的每个属性分类模型分别对异构云数据集进行属性分类,得到异构云数据集对应于各个属性分类模型的初始属性分类结果;(2)基于异构云数据集对应于各个属性分类模型的初始属性分类结果,确定异构云数据集对应于运维平台的属性分类结果。
作为一种可能的实施方式,上述异构云数据集对应于各个属性分类模型的初始属性分类结果可以包括每个云数据样本对应于各个属性分类模型的初始属性类别预测结果;基于此,上述基于异构云数据集对应于各个属性分类模型的初始属性分类结果,确定异构云数据集对应于运维平台的属性分类结果的步骤可以包括:
步骤A,基于每个云数据样本对应于各个属性分类模型的初始属性类别预测结果,确定相应云数据样本对应于运维平台的属性类别预测结果。
上述步骤A中,可分别对每个云数据样本执行以下操作:
步骤A1,若该云数据样本对应于全部属性分类模型的初始预测属性类别中只有一个属性分类模型对应的第一属性类别,则将该第一属性类别确定为该云数据样本对应于运维平台的属性类别预测结果。
步骤A2,若该云数据样本对应于全部属性分类模型的初始预测属性类别中有至少两个属性分类模型对应的第一属性类别,则根据第一属性类别对应属性分类模型的预测置信度,从该至少两个属性分类模型对应的第一属性类别中确定该云数据样本对应于运维平台的属性类别预测结果。
示例性地,在已经确定某个该云数据样本对应于全部属性分类模型的初始预测属性类别中有至少两个属性分类模型对应的第一属性类别后,可根据第一属性类别对应属性分类模型的预测置信度,从该至少两个属性分类模型对应的第一属性类别中筛选出相应属性分类模型的预测置信度最大的第一属性类别作为该云数据样本对应于运维平台的属性类别预测结果。
步骤B,基于全部云数据样本对应于运维平台的属性类别预测结果,确定异构云数据集对应于运维平台的属性分类结果。
在实际应用过程中,可将云平台的产品类型分为云服务器、对象存储、负载均衡、日志服务、Web应用防火墙、云数据库、大数据开发治理平台等,每个产品类型各自有相应的产品通用属性和产品特有属性。在使用运维平台与各云平台进行对接时,传统的操作方式是:人工识别各云平台所包含云资源数据中的属性字段,再建立识别出的属性字段与运维平台的属性字段之间的映射关系,之后按照运维平台所支持的数据结构对各个云平台所包含的云资源数据进行格式化处理,最终基于该映射关系将每个云平台所对应的格式化处理后的数据按照属性字段映射存储到运维平台的数据表中,从而实现运维平台对各个云平台所包含云资源数据的统一管理。
由于不同的云服务厂商下面的云产品数量众多,且不同云产品的云资源数据格式不一致,人工识别属性字段的操作方式费时费力。可通过运用机器学***台中的属性之间的自动映射,从而实现运维平台统一管理各个云平台所包含云资源数据的目标。
参见图2所示,以某一具体应用为例,上述异构云数据处理方法可以按照以下操作方式进行:
1、准备数据集。
先从多个不同云平台所包含的云资源数据中分别获取各个云平台已经对接过运维平台的历史数据,再为历史数据标注各个产品属性的属性标签从而构建一个带属性标签的数据集。例如,产品属性可以包括实例ID、实例名称、资产类型、云区域、部门名称、项目名称、VPC名称、IP、弹性IP、CPU、内存、硬盘、状态等,其中,资产类型、部门名称、项目名称和状态为产品通用属性,其他属性标签为产品特有属性,产品特有属性的值可能为空;可为历史数据标注各个产品属性的属性标签,并将标注完属性标签后得到的数据组成一个数据集,该数据集中的每个数据样本带有各自的属性标签。
2、构建训练集和测试集。
训练集用于训练分类模型,测试集用于评估分类模型的性能(即评估分类模型在未知数据上的预测分类表现)。
在实际应用过程中,按学习任务,分类算法(即分类模型)可分为聚类、回归和分类三大类。上述异构云数据处理方法要实现的是对云资源数据的属性进行分类预测,属于典型的分类问题,适用的分类算法有朴素贝叶斯算法、支持向量机(Support VectorMachines,SVM)算法等,对此不进行限定。分类问题通常可以分为单标签多分类问题和单标签二分类问题。单标签二分类问题是最简单的分类问题,可将一个需要预测的标签按照赋值-1和1的方式划分为两个类别,其中一个类别用-1来表示,另一个类别用1来表示。单标签多分类问题是指待预测的标签只有一个,但是标签的取值可能有多种情况。
由于对属性的分类预测就属于单标签多分类问题的场景,因而需要将单标签多分类问题拆解成单标签二分类问题。具体拆解方式可以为:在训练用于进行单一属性分类预测的分类模型时,可将标注有所需预测的单个属性类别作为正例(即正样本,用1来表示),并将剩余的其他属性类别作为负例(即负样本,用-1来表示),分别来训练多个模型。如果有K个属性类别,就需要训练K个分类模型。在进行属性分类预测的时候,如果在这K个分类模型中只有一个分类模型输出的是正例,那么输出正例的分类模型所得到的预测结果就是最终的结果值(即预测出的最终属性类别);如果如果在这K个分类模型中有多个分类模型输出了正例,那么可以根据分类模型的置信度(包括精确度和召回率)作为参考指标,选择置信度最大的分类模型所得到的预测结果作为最终的结果值。
例如图3所示,可将训练三个分类模型(即模型1、模型2、模型3)所需的原始数据(即标注样本集)标注有的三种不同属性类别(即类别A、类别B、类别C)的属性标签进行排序编号,从而得到这三种属性类别的类别编号;之后从原始数据中抽取各个属性类别的数据作为类别数据,并分别从抽取到的类别数据中划分出每个分类模型的正例(即正样本,赋值1)和负例(即负样本,赋值-1)组成相应的训练集和测试集,其中,类别A对于模型1为正例而类别B和C对于模型1均为负例,类别B对于模型2为正例而类别A和C对于模型2均为负例,类别C对于模型3为正例而类别A和B对于模型3为负例。
3、训练分类模型,并测试分类模型的性能。
接续前例图3,在得到三个分类模型各自的训练集和测试集后,可分别用相应的训练集训练相应的分类模型,并在训练时,分别通过模型1、模型2、模型3输出各自预测出的结果值,进而根据这三个分类模型的模型预测结果确定最终的结果值,并根据最终的结果值与真实的结果值调整这三个分类模型各自的模型参数,从而完成训练。
4、分类模型预测。
在训练完分类模型后,可利用训练完的分类模型对测试集的数据进行预测,从而通过预测结果评估分类模型的性能好坏,计算最终的预测结果与真实标签之前的准确率。
例如图4所示,在训练完四个分类模型(即f1、f2、f3、f4)后,可通过这四个分类模型对四种不同属性类别(即C1、C2、C3、C4)的数据进行预测,以实现属性分类;图4中,在进行分类模型的预测之前,需要先划分出待预测数据对应于各个分类模型的正例和负例,从而将每个分类模型的正例和负例组成相应的待预测样本集,其中,C1对于f1为正例而C2、C3、C4对于f1为负例,C2对于f2为正例而C1、C3、C4对于f2为负例,C3对于f3为正例而C1、C2、C4对于f3为负例,C4对于f4为正例而C1、C2、C3对于f4为负例,之后将每个分类模型的待预测样本集分别输入相应分类模型进行预测;图4中,只有f1的预测结果为正例,而f2、f3、f4各自的预测结果均为负例,此时可将f1的预测结果确定为最终的预测结果,即最终预测出的属性分类为C1。
上述异构云数据处理方法通过运用多个分类模型进行预测的方式把异构的云资源元数据映射成运维对象中云资源的属性值,实现运维平台与不同云服务厂商的应用***的自动对接,避免了由人工对接运维平台与各应用***所产生的成本投入。
基于上述异构云数据处理方法,本发明实施例还提供一种异构云数据处理装置,参见图5所示,该装置可以包括以下模块:
获取模块502,用于从多个具有不同数据结构的数据源获取待属性分类的异构云数据集;其中,所述异构云数据集中的云数据样本包含各个数据源的第一属性信息;
属性分类模块504,用于通过预先训练好的多个属性分类模型对所述异构云数据集进行属性分类,得到所述异构云数据集对应于运维平台的属性分类结果;其中,所述属性分类结果包括与所述运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;
管理模块506,用于基于所述异构云数据集对应于运维平台的属性分类结果以及所述运维平台的数据结构,将所述异构云数据集中的云数据样本存储至所述运维平台进行管理。
采用上述异构云数据处理装置,在使用运维平台对各云服务厂商基于不同的云平台构建的应用***进行统一管理时,可通过预先训练好的多个属性分类模型对来自多个具有不同数据结构的数据源的异构云数据进行属性分类,进而基于属性分类结果将异构云数据存储至运维平台进行管理,能够实现运维平台自动对接各应用***进行异构云数据的统一管理,降低了运维平台对接各应用***的难度,还提高了运维平台对接各应用***的效率,从而缓解在使用运维平台对各应用***进行统一管理时出现的应用产品资源对接困难的问题。
参见图5所示,该装置还可以包括训练测试模块508,用于:获取所述运维平台上存储的已管理的历史云数据,并为历史云数据标注各个属性类别,得到标注样本集;其中,所述标注样本集中的每个标注样本各自标注有相应的属性类别;从所述标注样本集中分别为每个属性分类模型确定相应的正样本和负样本;其中,每个属性分类模型的正样本标注有该属性分类模型所对应的第一属性类别;基于各个属性分类模型的正样本和负样本,分别为每个属性分类模型构建相应的训练集和测试集;其中,每个属性分类模型的训练集和测试集各自均包含相应的正样本和负样本;利用每个属性分类模型的训练集和测试集分别进行相应属性分类模型的训练和性能测试,得到训练好的多个属性分类模型。
上述训练测试模块508还可以用于:对于每个属性分类模型,将所述标注样本集中标注有该属性分类模型所对应第一属性类别的第一类标注样本确定为该属性分类模型的正样本,并将所述标注样本集中除第一类标注样本以外的第二类标注样本确定为该属性分类模型的负样本。
上述属性分类模块504还可以用于:通过预先训练好的每个属性分类模型分别对所述异构云数据集进行属性分类,得到所述异构云数据集对应于各个属性分类模型的初始属性分类结果;基于所述异构云数据集对应于各个属性分类模型的初始属性分类结果,确定所述异构云数据集对应于运维平台的属性分类结果。
上述异构云数据集对应于各个属性分类模型的初始属性分类结果可以包括每个云数据样本对应于各个属性分类模型的初始属性类别预测结果;基于此,上述属性分类模块504还可以用于:基于每个云数据样本对应于各个属性分类模型的初始属性类别预测结果,确定相应云数据样本对应于运维平台的属性类别预测结果;基于全部云数据样本对应于运维平台的属性类别预测结果,确定所述异构云数据集对应于运维平台的属性分类结果。
上述初始属性类别预测结果可以包括初始预测属性类别及其对应属性分类模型的预测置信度;基于此,上述属性分类模块504还可以用于:对于每个云数据样本,执行以下操作:
若该云数据样本对应于全部属性分类模型的初始预测属性类别中只有一个属性分类模型对应的第一属性类别,则将该第一属性类别确定为该云数据样本对应于运维平台的属性类别预测结果;
若该云数据样本对应于全部属性分类模型的初始预测属性类别中有至少两个属性分类模型对应的第一属性类别,则根据第一属性类别对应属性分类模型的预测置信度,从所述至少两个属性分类模型对应的第一属性类别中确定该云数据样本对应于运维平台的属性类别预测结果。
上述属性分类模块504还可以用于:对于每个云数据样本,若该云数据样本对应于全部属性分类模型的初始预测属性类别中有至少两个属性分类模型对应的第一属性类别,则根据第一属性类别对应属性分类模型的预测置信度,从所述至少两个属性分类模型对应的第一属性类别中筛选出相应属性分类模型的预测置信度最大的第一属性类别作为该云数据样本对应于运维平台的属性类别预测结果。
本发明实施例所提供的异构云数据处理装置,其实现原理及产生的技术效果和前述异构云数据处理方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例还提供了一种电子设备,如图6所示,为该电子设备的结构示意图,其中,该电子设备包括处理器61和存储器60,该存储器60存储有能够被该处理器61执行的计算机可执行指令,该处理器61执行该计算机可执行指令以实现上述异构云数据处理方法。
在图6示出的实施方式中,该电子设备还包括总线62和通信接口63,其中,处理器61、通信接口63和存储器60通过总线62连接。
其中,存储器60可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该***网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。总线62可以是ISA(IndustryStandard Architecture,工业标准体系结构)总线、PCI(Peripheral ComponentInterconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线62可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
处理器61可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器61中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器61可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器61读取存储器中的信息,结合其硬件完成前述实施例的异构云数据处理方法的步骤。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种异构云数据处理方法,其特征在于,所述方法包括:
从多个具有不同数据结构的数据源获取待属性分类的异构云数据集;其中,所述异构云数据集中的云数据样本包含各个数据源的第一属性信息;
通过预先训练好的多个属性分类模型对所述异构云数据集进行属性分类,得到所述异构云数据集对应于运维平台的属性分类结果;其中,所述属性分类结果包括与所述运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;
基于所述异构云数据集对应于运维平台的属性分类结果以及所述运维平台的数据结构,将所述异构云数据集中的云数据样本存储至所述运维平台进行管理。
2.根据权利要求1所述的方法,其特征在于,所述多个属性分类模型的训练,包括:
获取所述运维平台上存储的已管理的历史云数据,并为历史云数据标注各个属性类别,得到标注样本集;其中,所述标注样本集中的每个标注样本各自标注有相应的属性类别;
从所述标注样本集中分别为每个属性分类模型确定相应的正样本和负样本;其中,每个属性分类模型的正样本标注有该属性分类模型所对应的第一属性类别;
基于各个属性分类模型的正样本和负样本,分别为每个属性分类模型构建相应的训练集和测试集;其中,每个属性分类模型的训练集和测试集各自均包含相应的正样本和负样本;
利用每个属性分类模型的训练集和测试集分别进行相应属性分类模型的训练和性能测试,得到训练好的多个属性分类模型。
3.根据权利要求2所述的方法,其特征在于,从所述标注样本集中分别为每个属性分类模型确定相应的正样本和负样本,包括:
对于每个属性分类模型,将所述标注样本集中标注有该属性分类模型所对应第一属性类别的第一类标注样本确定为该属性分类模型的正样本,并将所述标注样本集中除第一类标注样本以外的第二类标注样本确定为该属性分类模型的负样本。
4.根据权利要求2所述的方法,其特征在于,通过预先训练好的多个属性分类模型对所述异构云数据集进行属性分类,得到所述异构云数据集对应于运维平台的属性分类结果,包括:
通过预先训练好的每个属性分类模型分别对所述异构云数据集进行属性分类,得到所述异构云数据集对应于各个属性分类模型的初始属性分类结果;
基于所述异构云数据集对应于各个属性分类模型的初始属性分类结果,确定所述异构云数据集对应于运维平台的属性分类结果。
5.根据权利要求4所述的方法,其特征在于,所述异构云数据集对应于各个属性分类模型的初始属性分类结果包括每个云数据样本对应于各个属性分类模型的初始属性类别预测结果;基于所述异构云数据集对应于各个属性分类模型的初始属性分类结果,确定所述异构云数据集对应于运维平台的属性分类结果,包括:
基于每个云数据样本对应于各个属性分类模型的初始属性类别预测结果,确定相应云数据样本对应于运维平台的属性类别预测结果;
基于全部云数据样本对应于运维平台的属性类别预测结果,确定所述异构云数据集对应于运维平台的属性分类结果。
6.根据权利要求5所述的方法,其特征在于,所述初始属性类别预测结果包括初始预测属性类别及其对应属性分类模型的预测置信度;基于每个云数据样本对应于各个属性分类模型的初始属性类别预测结果,确定相应云数据样本对应于运维平台的属性类别预测结果,包括:
对于每个云数据样本,执行以下操作:
若该云数据样本对应于全部属性分类模型的初始预测属性类别中只有一个属性分类模型对应的第一属性类别,则将该第一属性类别确定为该云数据样本对应于运维平台的属性类别预测结果;
若该云数据样本对应于全部属性分类模型的初始预测属性类别中有至少两个属性分类模型对应的第一属性类别,则根据第一属性类别对应属性分类模型的预测置信度,从所述至少两个属性分类模型对应的第一属性类别中确定该云数据样本对应于运维平台的属性类别预测结果。
7.根据权利要求6所述的方法,其特征在于,根据第一属性类别对应属性分类模型的预测置信度,从所述至少两个属性分类模型对应的第一属性类别中确定该云数据样本对应于运维平台的属性类别预测结果,包括:
根据第一属性类别对应属性分类模型的预测置信度,从所述至少两个属性分类模型对应的第一属性类别中筛选出相应属性分类模型的预测置信度最大的第一属性类别作为该云数据样本对应于运维平台的属性类别预测结果。
8.一种异构云数据处理装置,其特征在于,所述装置包括:
获取模块,用于从多个具有不同数据结构的数据源获取待属性分类的异构云数据集;其中,所述异构云数据集中的云数据样本包含各个数据源的第一属性信息;
属性分类模块,用于通过预先训练好的多个属性分类模型对所述异构云数据集进行属性分类,得到所述异构云数据集对应于运维平台的属性分类结果;其中,所述属性分类结果包括与所述运维平台的第二属性信息对应的多个属性类别,属性分类模型的数量与属性类别的数量一致,不同属性分类模型与不同属性类别对应;
管理模块,用于基于所述异构云数据集对应于运维平台的属性分类结果以及所述运维平台的数据结构,将所述异构云数据集中的云数据样本存储至所述运维平台进行管理。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括训练测试模块,用于:
获取所述运维平台上存储的已管理的历史云数据,并为历史云数据标注各个属性类别,得到标注样本集;其中,所述标注样本集中的每个标注样本各自标注有相应的属性类别;
从所述标注样本集中分别为每个属性分类模型确定相应的正样本和负样本;其中,每个属性分类模型的正样本标注有该属性分类模型所对应的第一属性类别;
基于各个属性分类模型的正样本和负样本,分别为每个属性分类模型构建相应的训练集和测试集;其中,每个属性分类模型的训练集和测试集各自均包含相应的正样本和负样本;
利用每个属性分类模型的训练集和测试集分别进行相应属性分类模型的训练和性能测试,得到训练好的多个属性分类模型。
10.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的计算机可执行指令,所述处理器执行所述计算机可执行指令以实现权利要求1至7任一项所述方法。
CN202311598788.6A 2023-11-27 2023-11-27 异构云数据处理方法、装置及电子设备 Pending CN117435978A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311598788.6A CN117435978A (zh) 2023-11-27 2023-11-27 异构云数据处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311598788.6A CN117435978A (zh) 2023-11-27 2023-11-27 异构云数据处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN117435978A true CN117435978A (zh) 2024-01-23

Family

ID=89546147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311598788.6A Pending CN117435978A (zh) 2023-11-27 2023-11-27 异构云数据处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN117435978A (zh)

Similar Documents

Publication Publication Date Title
US11164091B1 (en) Natural language troubleshooting engine
EP3433732B1 (en) Converting visual diagrams into code
CN109635292B (zh) 基于机器学习算法的工单质检方法和装置
US11176464B1 (en) Machine learning-based recommendation system for root cause analysis of service issues
CN110968695A (zh) 基于弱监督技术主动学***台
US11373041B2 (en) Text classification using models with complementary granularity and accuracy
CN111611797B (zh) 基于Albert模型的预测数据标注的方法、装置及设备
CN110377733A (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN111831708A (zh) 基于缺失数据的样本分析方法、装置、电子设备及介质
CN112906361A (zh) 文本数据的标注方法和装置、电子设备和存储介质
CN113591881A (zh) 基于模型融合的意图识别方法、装置、电子设备及介质
CN111639903A (zh) 一种针对架构变更的评审处理方法及相关设备
CN112182562A (zh) 沙箱环境下的数据审核方法、***、电子设备及介质
CN111859862A (zh) 文本的数据标注方法和装置、存储介质及电子装置
JP5206268B2 (ja) ルール作成プログラム、ルール作成方法及びルール作成装置
CN117435978A (zh) 异构云数据处理方法、装置及电子设备
CN114706856A (zh) 故障处理方法及装置、电子设备和计算机可读存储介质
CN112001792B (zh) 配置信息一致性检测方法及装置
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN114780688A (zh) 基于规则匹配的文本质检方法、装置、设备及存储介质
CN113626605A (zh) 信息分类方法、装置、电子设备及可读存储介质
CN110471708B (zh) 基于可重用组件的配置项获取的方法及装置
CN113609018A (zh) 测试方法、训练方法、装置、设备、介质和程序产品
CN113377648A (zh) 软件***诊断方法、装置、电子设备及计算机可读介质
CN112035754A (zh) 商标检索的方法及装置,电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination