CN116126995A

CN116126995A - 一种索引信息的生成方法、装置及计算机可读存储介质

Info

Publication number: CN116126995A
Application number: CN202211488395.5A
Authority: CN
Inventors: 李国冬; 李云彬; 蒋宁; 吴海英
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-05-16

Abstract

本说明书实施方式提供了一种索引信息的生成方法、装置及计算机可读存储介质，其包括：在每个机器学***台的模型文件数据集，第二类数据均保存至所述模型训练平台的文本文件数据集；根据模型文件数据集和文本文件数据集，生成文件索引信息；所述文件索引信息包括对应机器学***台来对多个模型进行训练，在训练过程中，不断获取训练产生的数据再进行统一存储，解决了团队成员无法便捷的查看本团队中其他成员实验结果的技术问题，提高了团队成员查看试验结果的效率。

Description

一种索引信息的生成方法、装置及计算机可读存储介质

技术领域

本公开涉及机器学习的技术领域，特别是涉及一种索引信息的生成方法、装置及计算机可读存储介质。

背景技术

近年来机器学习和大数据正变得越来越流行，它们对社会的影响也在不断扩大。许多行业越来越依赖机器学习算法和人工智能模型来做出每天影响企业和个人的关键决策。在一个完整的机器学习模型实验生命周期中，存在许多的机器学习制品，比如数据集、模型训练的代码、模型实验指标评估数据、模型文件等。

在现有技术当中，对于一个团队化的多机器学习模型的开发任务，其中的团队成员无法便捷的查看本团队中其他成员的实验结果。

发明内容

有鉴于此，本说明书多个实施方式致力于提供一种索引信息的生成方法，以一定程度上解决在一个团队化的多机器学习模型的开发任务中，其中的团队成员无法便捷的查看本团队中其他成员的实验结果的技术问题。

本说明书中多个实施方式提供一种索引信息的生成方法，所述方法应用于模型训练平台，所述方法包括：获取机器学***台的模型文件数据集，第二类数据均保存至所述模型训练平台的文本文件数据集。根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息；其中，所述文件索引信息包括所述机器学习模型的第一类数据和第二类数据的访问入口信息。

本说明书的一个实施方式提供一种索引信息的显示方法，所述方法包括：接收模型训练平台发送的索引信息；其中，所述索引信息采用前述的索引信息的生成方法得到。根据所述索引信息形成索引页面；所述索引页面中包括对应机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识。

本说明书的一个实施方式提供一种索引信息的生成装置，所述装置应用于模型训练平台，所述模型训练平台用于多个机器学***台的模型文件数据集，第二类数据均存入所述模型训练平台的文本文件数据集。生成单元，其用于根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息；其中，所述文件索引信息包括对应机器学习模型的第一类数据和第二类数据的访问入口信息。

本说明书的一个实施方式提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法。

本说明书的一个实施方式提供一种计算机可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本说明书提供的多个实施方式，在一个团队化的多机器学***台来对多个机器学习模型进行训练，并且在训练完成之后获取相应的第一类数据和第二类数据，再进行统一的存储形成模型文件数据集和文本文件数据集，进而构建了文件的索引信息，如此团队人员便可以通过索引信息便捷查看其他成员的实验结果，实现了团队成员可以对实验结果的快速查看，提高了查看和比对的效率。

附图说明

图1为本说明书的一个实施方式提供的一种索引信息的生成方法的应用环境示意图。

图2为本说明书的一个实施方式提供的一种索引信息的生成方法的流程示意图。

图3为本说明书的一个实施方式提供的一种模型训练平台的框图。

图4为本说明书的一个实施方式提供的一种模型训练平台的工作过程逻辑示意图。

图5为本说明书的一个实施方式提供的一种模型训练平台的工作过程的流程示意图。

图6为本说明书的一个实施方式提供的一种索引信息的显示方法的流程示意图。

图7为本说明书的一个实施方式提供的一种索引信息生成装置的框图。

图8为本说明书的一个实施方式提供的一种电子设备的框图。

具体实施方式

在相关技术中，机器学习是通过一些算法来解析数据，并且从中学习，从而获得机器学习模型。可以使用获得的机器学习模型对一些数据进行推理，以及预测，从而实现一些具体的任务，例如分类任务。机器学习模型可以是执行训练后得到的一种神经网络模型、线性网络模型、深度学习模型、支持向量机或者其他类型的机器学习模型。该模型是采用一些算法，从数据中学习得到，可以实现特定映射的函数。该机器学习模型文件能够识别特定类型的模式。该机器学习模型文件一般包括描述模型结构(例如卷积神经网络的结构)的文件，例如meta文件；还包括描述模型参数(例如各层之间连接权重参数)的文件，例如ckpt文件。

在一个完整的机器学习的任务当中，通常会涉及到多种类的数据，例如，机器学习模型训练用数据、模型训练的代码文件数据、模型的评价指标文件数据和模型文件数据。因此，在一个任务中对于各个数据的追踪和管理非常重要。对于一个团队化的多机器学习模型的开发任务中，在现有的场景下，可能是有的团队成员在本地进行开发，训练完成之后将模型文件数据和模型的评价指标文件数据直接存在本地或者存储在文件服务器中。也有的团队成员可能在模型开发服务器中进行开发，训练完成之后将模型文件数据和模型的评价指标文件数据存在云中，甚至有的团队成员就不管理上述数据。因此，整个团队成员不便于互相查看对方的实验结果，团队中某一成员无法便捷的查看本团队中其他成员的实验结果。也不便于团队成员之间共享实验结果。

综上所述，有必要提供一种索引信息的生成方法，通过使用模型训练平台来对多个机器学习模型进行训练，并且在训练完成之后获取相应的第一类数据和第二类数据，再进行统一的存储，解决了团队成员无法便捷的查看本团队中其他成员的实验结果的技术问题，实现了团队成员对实验结果的快速查看，提高了查看和比对的效率。

如图1所示，本说明书实施方式提供一种索引信息的生成***，该索引信息的生成***可以包括终端和服务器。服务器可以是具有一定运算处理能力的电子设备。比如服务器可以为分布式***的服务器，可以是具有多个处理器、存储器、网络通信模块等协同运作的***。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。服务器也可以是为若干服务器形成的服务器集群。或者，随着科学技术的发展，服务器还可以是能够实现说明书实施方式相应功能的新的技术手段。例如，可以是基于量子计算实现的新形态的“服务器”。

在本说明书实施方式中，终端可以是具有网络访问能力的电子设备。具体的，例如，终端可以是台式电脑、平板电脑、笔记本电脑、智能手机、数字助理、导购终端、电视机、等。或者，终端也可以为能够运行于所述电子设备中的软件。

网络可以是任何类型的网络，其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。一个或多个网络可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。

索引信息的生成***还可以包括一个或多个数据库。例如，由服务器使用的数据库可以在服务器本地，或者可以远离服务器且可以经由基于网络或专用的连接与服务器通信。数据库可以是不同的类型。在某些实施例中，由服务器使用的数据库可以为关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。

如图2所示，本说明书的一个实施方式提供一种索引信息的生成方法。所述索引信息的生成方法应用于模型训练平台，所述模型训练平台用于多个机器学习模型的训练。所述索引信息的生成方法可以包括以下步骤。

步骤S101：在每个机器学习模型完成训练后，获取训练产生的第一类数据和第二类数据；其中，第一类数据至少包括机器学习模型的模型文件数据，所述第二类数据至少包括机器学习模型的代码文件数据和模型文件的元文件数据。

在一些情况下，对于一个团队化的多机器学习模型的开发任务，可能需要进行多个不同种类的模型的开发，对于同一种类的模型也可能会存在不同的版本。在具体某一个模型的开发过程中会涉及到许多种类的数据和对应文件。具体的，在执行训练之前需要准备用于训练的训练用数据。该训练用数据可以是数据集文件的形式，并且需要对数据集文件进行不同种类的预处理，进而形成不同版本的数据集文件。

在进行了多次迭代之后损失函数收敛，得到了机器学习模型的模型文件数据和机器学习模型评价指标文件数据。对该机器学习模型评价指标文件数据进行解析发现本次得到的机器学习模型其对应的评价指标与期望的评价指标差异很大，那么可能就需要重新训练一次或者多次。在重新训练之前，可能需要对机器学习模型的超参数、模型的网络参数和模型的结构进行修改。因此，会得到多个不同版本的模型代码文件数据。在重新训练之后，同样会得到对应的机器学习模型的模型文件数据和机器学习模型评价指标文件数据。

从上述的过程可以看出，一个完整的机器学习模型训练的生命过程中，会涉及到多种类的数据，这些数据需要进行管理，并且同一种类的数据也会具有不同的版本。因此需要一套统一的数据版本管理方法。

在本实施方式中，可以按照数据的大小，将上述的数据分类成第一类数据和第二类数据。第一类数据除了可以包括机器学习模型的模型文件数据。在一些实施方式中，采用不同的机器学习框架下进行训练得到的机器学习模型的模型文件数据不同。例如，采用keras框架进行训练得到的机器学习模型的模型文件数据其中主要包括h5格式的文件数据。该h5格式的文件数据包括模型的结构、模型的权重、训练配置和优化器的状态。采用Tensorflow框架进行训练得到的机器学习模型的模型文件数据主要包meta格式的文件数据和ckpt格式的文件数据。该meta格式的文件数据主要用于保存模型图结构。该ckpt格式的文件数据主要用于保存网络权重参数等变量。

在本实施方式中，第一类数据除了可以包括机器学习模型的模型文件数据之外，还可以包括机器学习模型评价指标文件数据和机器学习模型训练用数据。其中，所述机器学习模型训练用数据可以包括作为训练样本使用的图像数据、视频数据以及文本数据等等。所述机器学习模型评价指标文件数据是表示评价机器学习模型性能指标的数据。该性能指标可以包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、P-R曲线(Precision-Recall Curve)、F1 Score等等。

第二类数据可以包括机器学习模型的代码文件数据和模型文件的元文件数据。所述代码文件数据表示在机器学习框架中具体运行的代码。元文件数据可以作为上述第一类数据具体存储位置的索引数据，该元文件数据中可以包括第一类数据的具体存储位置、第一类数据的数据量。在一些实施方式中，可以使用密码散列函数计算第一类数据的散列值，将所述散列值存入所述元文件数据中，并相应修改第一类数据的文件名称。如此，可以利用MD5值的唯一性，针对多个第一类文件进行区分，再者，通过元文件数据中对应第一类数据的具体存储位置、数据量和散列值，实现可以便捷的找到所需要的第一类数据。

在本实施方式中，可以采用一些模型训练过程的跟踪工具来获取第一类数据和第二类数据，例如，可以使用MLFLOW工具来进行模型训练过程的跟踪。为了使得MLFLOW工具可以适用于模型训练平台，可以针对MLFLOW进行二次开发，通过结合Http协议，便可以通过访问请求调用MLFLOW工具，使得MLFLOW工具可以适用于跟踪模型训练平台中部署的机器学习模型。

在一个团队化的多机器学习模型的开发任务，可以使用该MLFLOW工具及时的获取第一类数据和第二类数据。在一些实施方式中，还可以采用其他的模型训练过程的跟踪工具。例如，TensorBoard，Trains等等。

在本实施方式中，如图3所示，一个开发团队可以通过使用模型训练平台来对多个机器学***台主要为了实现在线编程环境。该模型训练平台可以配置在服务器端或者云环境中。该模型训练平台可以包括模型训练模块、数据版本控制模块、存储模块。具体的说，所述的模型训练模块可以通过云技术和容器技术实现，团队成员均可以在该模型训练模块中进行模型训练。并且其中还配置了MLFLOW工具用于对实验结果进行追踪。所述数据版本控制模块包括DVC(data version control，数据版本管理)模块和GIT(一个开源的分布式版本控制***)模块。该数据版本控制模块用于对实验结果进行版本控制。所述存储模块用于对所述实验结果进行统一存储。具体的，数据版本控制模块可以针对DVC模块和GIT模块进行一定二次开发，封装成软件服务，并提供基于Http协议的访问端口。模型训练平台需要调用DVC模块或GIT模块时，可以向Http协议向访问端口发出访问请求，并可以通过在访问请求中附带有参数，并以访问请求中的参数作为控制指令，实现致使DVC模块或GIT模块执行相应的功能。

在本实施方式中，请参阅图4，标注人员可以在模型训练平台进行样本标注得到样本数据集。算法工程师可以使用模型训练平台提供的在线编程环境，进行模型开发和模型调试。进而，可以将模型调试之后的机器学***台，验证训练后机器学习模型的效果是否理想。在认为不够理想的情况下，可以人工调整模型文件数据的参数，并进行模型调试之后，再次执行模型训练的过程。或者，在认为不够理想的情况下，也可以反馈一些针对样本数据的数据优化建议，以优化样本数据集中样本数据。如果认为机器学习模型已经取得理想效果，可以结束对机器学习模型的处理。

在一些实施方式中，该在线编程环境中可以预先配置好上述的模型训练过程的跟踪工具。例如，MLFLOW工具。还可以预先配置好机器学***台配置在云环境中时，开发团队的成员可以通过应用程序接口(application program interface，API)或者图形用户界面(graphical user interface，GUI)输入配置信息。该配置信息被发送至模型训练平台中。模型训练平台根据该配置信息创建对应的Docker。在具体执行训练时，启动Docker，根据所述的配置信息给Docker挂载GPU和存储。Docker根据配置信息执行机器学习框架、MLFLOW工具，并且读取数据集文件进行训练。在一些实施方式中，若是开发团队的成员的需要修改机器学习模型的代码，则可以使用Jupyter NoteBook在线调整机器学习模型的代码。

在本实施方式中，考虑到机器学习模型开发任务的特性，将每个机器学习模型完成训练后得到的文件区分为第一类数据和第二类数据。为后续的文件存储管理打下了基础。

步骤S102：将每个机器学***台的模型文件数据集，第二类数据均保存至所述模型训练平台的文本文件数据集。

在一些情况下，通过模型训练过程的跟踪工具来获取第一类数据和第二类数据之后，还需要对这些文件进行存储，以便于后续的查看或者使用。

在本实施方式中，模型文件数据集用于存储第一类数据。相应的，文本文件数据集用于存储第二类数据。在一些实施方式中，模型文件数据集可以采用远程存储库。例如，FS/HDFS/NFS/NAS等。文本文件数据集可以采用远程代码仓库。例如，Gitee/Gitlab/Github等。具体的说，针对上述不同的数据类型(机器学习模型的模型文件数据、机器学习模型评价指标文件数据、机器学习模型训练用数据、机器学习模型的代码文件数据以及相应的元文件数据)构建一套通用的数据存储方案，进行统一的数据版本管理。其中，针对所述的机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据，首先将其输入密码散列函数生成散列值，并将相应的散列值存储于对应的元文件数据中，将第一类数据的文件名称命名该文件对应的散列值，将其存储于所述的远程存储库中。将对应的元文件数据存储于远程代码仓库。如此，可以通过散列值，在元文件数据与第一类数据之间建立关联关系。可以实现便捷的通过元文件数据的内容查找到第一类数据。

针对所述机器学习模型的代码数据存储于远程代码仓库。对于机器学习模型的代码文件数据可以采用Git进行代码的版本管理。对于上述的机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据同样采用Git进行文件的版本控制，以减少对于其他组件的依赖。但是对于二进制文件来说，Git需要存储每次提交的改动，每次当二进制文件修改发生变化的时候，都会产生额外的提交量。这将会导致数据量大增，远程代码仓库的体积也会迅速增长。为了减少远程代码仓库本身的体积，在一些实施方式中，可以引入DVC来进行数据版本控制。例如，在所述的远程代码仓库中仅仅存储所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据的元文件数据。而所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据存储在远程存储库中。

在本实施方式中，所述的保存的动作可以通过所述的Git和DVC这两个工具来实现。具体的说，通过Git来处理所述机器学习模型的代码文件数据和所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据的元文件数据。通过DVC来处理所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据。更具体的说，先通过DVC将真正的数据源(所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据)传到远程存储库。然后使用git push将DVC的映射数据推送到远程代码库，例如github或者gitlab，其中，该DVC的映射数据也即是上述的元文件数据。

在一些实施方式中，可以指定所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据、机器学习模型训练用数据和代码文件数据在具体某一机器学习模型的开发任务中的目录结构。通过一个统一的目录结构，来保证团队成员在排查问题时能够很方便的定位相关的问题。同时，采用一个统一的目录结构，可以实现多版本的数据合并功能，通过定义相应的规约数据，能够有效避免数据文件的冲突，所述的统一的目录结构可以包括如下6个第一级目录。具体是，dvc目录(数据版本管理目录)、git目录(代码版本管理目录)、data_set目录(机器学习模型训练用数据目录)、model_file目录(机器学习模型的模型文件数据目录)、model_metric目录(机器学习模型评价指标文件数据目录)、source_code目录(代码文件数据目录)。

在本实施方式中，可以以一个具体的例子来说明如何对第一类数据和第二类数据执行存入的操作。请参阅图5。具体的，以gitlab存储文本文件数据集，以hdfs存储模型文件数据集，以scikit-learn为机器学***台中创建本地新机器学***台提供的在线编辑环境进行模型开发并调试，具体的，基于机器学习框架制定机器学习模型的初始版本，以及针对机器学习模型进行调试。

接下来，可以使用标注人员在模型训练平台中标注的样本数据形成的数据集，针对机器学习模型进行模型训练，MLflow跟踪训练过程，监控训练是否成功。如果训练失败，则结束实验任务；如果训练成功，得到训练结果后结束实验任务，训练结果包括机器学习模型的模型文件数据和机器学习模型评价指标文件，以及生成所述机器学习模型的模型文件数据和机器学习模型评价指标文件数据对应的元文件数据。将元文件数据添加到暂存区。提交元文件数据到本地代码仓库中，再将该本地代码仓库中的元文件数据推送到gitlab中。可以调用DVC将所述机器学习模型的模型文件数据和机器学习模型评价指标文件数据传送至hdfs中存储。

步骤S103：根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息；其中，所述文件索引信息包括所述机器学习模型的第一类数据和第二类数据的访问入口信息。

在一些情况下，对于一个团队化的多机器学习模型的开发任务中，再实现了对于开发过程的跟踪以及对于数据的统一存储和版本控制之后，还需要使得团队成员能够便捷的查看本团队中其他成员的实验结果。

在本实施方式中，所述文件索引信息可以包括所述第一类数据和所述第二类数据的访问入口信息。所述的访问入口信息表示为对应机器学习模型的第一类数据和第二类数据实际存储地址的信息。在一些实施方式中，所述的文件索引信息除了可以包括对应机器学习模型的第一类数据和第二类数据的访问入口信息，还可以包括对应机器学习模型的第一类数据和第二类数据自身携带的信息。具体的说，例如，代码文件数据携带的信息，可以包括具体的代码内容数据和对应的版本。机器学习模型评价指标文件数据携带的信息，可以包括某一机器学习模型对应的评价指标。团队成员可以根据该文件索引信息来查询所述的第一类数据和所述第二类数据包括的信息。还可以根据该文件索引信息将所述的第一类数据和所述第二类数据下载到本地等等。

具体的，在一些实施方式中，该第一类数据可以包括机器学习模型的模型文件数据和机器学习模型评价指标文件数据。该第二类数据可以包括机器学习模型的代码文件数据、模型文件数据和评价指标文件数据的元文件数据。在该种情况下，团队成员可以根据所述的文件索引信息查询某一机器学习模型的模型文件数据，从而得到该机器学习模型的模型参数、网络架构等等。团队成员可以根据所述的文件索引信息查询机器学习模型评价指标文件数据，从而得到该机器学习模型的具体评价指标。团队成员可以根据所述的文件索引信息查询机器学习模型评价指标文件数据的元文件数据，再根据该机器学习模型评价指标文件的元文件数据，来确定该机器学习模型评价指标文件数据的真实存储位置，从而将该机器学习模型评价指标文件数据下载到本地。进一步的，团队成员还可以根据该具体评价指标，来选择是否对该机器学习模型进行重新训练。

在本实施方式中，通过根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息。团队成员可以根据该文件索引信息来便捷的查看本团队中其他成员的实验结果。解决了团队成员无法便捷的查看本团队中其他成员的实验结果的技术问题，实现了团队成员对实验结果的快速查看，提高了查看和比对的效率。在本实施方式中，提供了模型文件数据集和文本文件数据集对所述的第一类数据和第二类数据进行存储。因此，便于将所述的第一类数据和第二类数据进行容灾处理，从而避免了因磁盘损坏而导致数据丢失的情形。相应的，该种集中化的管理第一类数据和第二类数据的方式，也便于进行对实验结果进行版本化管理，便于对于实验进行跟踪。

在一些实施方式中，在所述在每个机器学习模型完成训练后，获取训练产生的第一类数据和第二类数据的步骤之前，还包括：接收一个数据端口发送的执行多个机器学习模型训练任务的请求；其中，所述请求包括所述机器学习模型训练任务的配置信息；根据所述配置信息为所述多个机器学习模型训练任务创建对应的工作空间；在所述工作空间内执行所述机器学习模型训练任务。

在一些情况下，对于一个团队化的多机器学习模型的开发任务中，在某一个时间节点，仅仅只有一个团队程序需要执行机器学习模型训练任务，并且需要同时执行多个机器学习模型训练任务的情况。因此，对于只有一个团队成员但是具有多个机器学习模型进行开发的情形，同样需要进行文件统一管理和存储。

所述的一个数据端口表示为某一个团队成员基于一个终端装置，可以通过该终端装置的账户登录了所述的模型训练平台执机器学习模型训练任务。该团队成员可以登录该终端上配置的web页面，也可以是该终端上配置的客户端，或者其他类型的用户终端等等。该团队成员在所述的web页面或者客户端上提交执行多个机器学习模型训练任务的请求。然后该请求被发送至服务器中。

所述的配置信息可以是具体的配置文件。具体的说，当某一团队成员在所述的web页面或者客户端输入相应的信息，所述的web页面或者客户端根据该信息生成配置文件。其中，该信息可以是模型训练框架的种类、代码版本、运行参数等等。或者，团队成员直接通过所述的web页面或者客户端提供的配置模板进行选取相应的配置，然后所述的web页面或者客户端生成配置文件。该配置文件被携带在所述一个账户发送的执行多个机器学习模型训练任务的请求中，当服务器接收到该配置文件后，对该配置文件进行解析，得到对应该多个机器学习模型训练任务的模型训练框架的种类、代码版本、运行参数、数据集文件的路径等等。其中，该运行参数还可以包括***版本、内存大小，GPU卡数等等。

所述的工作空间可以表示为使用容器化技术通过一个镜像来构建出一个隔离且完整的训练环境。针对多个机器学习模型训练任务分别构建对应的工作空间或者说训练环境。具体的说，在一些实施方式中，可以通过构建的容器镜像，快速部署一个容器实例来运行镜像中的交互式开发工作簿(例如Jupyter Notebook)、模型训练过程的跟踪工具(例如MLflow)、数据版本控制工具(Git和DVC)。某一个团队成员A可以登录该交互式开发工作簿种对多个机器学习模型训练过程进行控制。比例，可以修改某一机器学习模型的超参数等等。同时，该多个机器学习模型的实验结果可以被模型训练过程的跟踪工具进行采集，再通过数据版本控制工具进行分别存储。此时，另外一个团队成员B可以登录所述web页面或者客户端来查看该多个机器学习模型的训练结果。例如，具体的训练结果可以被MLflow渲染到前端页面进行展示。

本方法针对仅仅只有一个团队成员但是需要执行多个机器学***台中查看所述多个机器学习模型的实验结果。该方法考虑到了团队化的多机器学习模型的开发任务中的一种特殊情形，保证该团队成员能够快速查看和对比实验结果，提升了团队化开发任务的效率。

在一些实施方式中，所述获取机器学习模型训练产生的第一类数据和第二类数据的步骤之前，还包括：接收多个数据端口发送的执行机器学习模型训练任务的请求；其中，所述请求包括执行多个机器学习模型训练任务以及所述机器学习模型训练任务的配置信息；根据所述配置信息为所述数据端口创建对应的工作空间；在所述工作空间内执行所述机器学习模型训练任务。

在一些情况下，对于一个团队化的多机器学习模型的开发任务中，在某一个时间节点，存在多个团队成员需要执行机器学习模型训练任务。并且其中至少一个团队成员需要同时执行多个机器学习模型训练任务的情况。因此，针对该种情况同样需要进行文件统一管理和存储。

所述的多个数据端口表示为多个团队成员通过各自的终端装置登录了所述的模型训练平台执行机器学习模型训练任务。所述根据所述配置信息为所述账户创建对应的工作空间表示为每一个数据端口创建其对应的工作空间。也即是，一个数据端口对应一个容器实例。其中，有的容器示例中需要执行一个机器学习模型训练任务，有的容器示例中需要执行多个机器学习模型训练任务。

所述的请求可以表示为一个请求中包括了一个机器学习模型训练任务和该任务对应的配置信息。所述的请求也可以表示为一个请求中包括了多个机器学习模型训练任务和该任务对应的配置信息。所述的请求还可以表示为一个请求中仅仅包括了一个机器学习模型训练任务或者一个机器学习模型训练任务对应的配置信息。所述的请求还可以表示为一个请求中包括了多个机器学习模型训练任务或者该多个机器学习模型训练任务对应的配置信息。

本方法针对一个团队化的多机器学***台中查看其他团队成员的机器学习模型的实验结果。该方法考虑到了团队化的多机器学习模型的开发任务中的另外一种特殊情形，保证该团队成员能够快速查看和对比实验结果，提升了团队化开发任务的效率。

在一些实施方式中，所述模型文件数据集中预先存储有机器学习模型训练用数据，所述训练用数据包括训练集数据，所述工作空间中预先配置有机器学习模型训练框架；所述在所述工作空间内执行所述机器学习模型训练任务的步骤，包括：根据所述配置信息从所述模型文件数据集中获取机器学习模型训练用数据以及从所述文本文件数据集中获取机器学习模型的代码文件数据；使用所述训练用数据、所述代码文件数据以及所述训练框架执行所述机器学习模型训练任务。

在一些情况下，对于一个团队化的多机器学习模型的开发任务中，不同的机器学习模型采用的训练用数据不同。例如，对于用于进行图像识别的机器学习模型采用的训练用数据为图像数据，用于进行语音识别的机器学习模型采用的训练用数据为语音数据。对于同一个机器学习模型，也可能存在多个不同版本的数据集。因此，对于一个团队化的多机器学习模型的开发任务中，对于所述机器学习模型训练用数据也同样需要进行统一的管理。不同的机器学习模型可能采用不同的机器学习模型训练框架，相应的，采用的代码文件数据也可能不相同，因此，考虑到节省团队成员配置相应开发工具和环境的时间。可以直接将所述的机器学习模型训练框架预先配置在工作空间中。也相应的，预先将机器学习模型训练用数据存储在模型文件数据集中，预先将机器学习模型的代码文件数据存储在文本文件数据集中。当需要使用，从所述模型文件数据集和所述文本文件数据集中进行调用。

所述机器学习模型训练用数据包括训练集数据，该训练集数据可以分为图像数据文件、文本数据文件、语音数据文件以及视频数据文件等等。

所述机器学习模型训练框架为预先配置好的，例如，Pytorch、TensorFlow、XGBoost、scikit-learn等机器学习框架。所述代码文件为所述机器学习模型对应代码的文件。

本方法可以极大节省团队成员准备数据集的时间、配置相应开发工具和环境的时间。提高团队成员的工作效率。

在一些实施方式中，所述第一类数据还包括机器学习模型评价指标文件数据；所述获取机器学习模型训练产生的第一类数据和第二类数据步骤之后，还包括：将所述评价指标文件数据中的评价指标与预先设定评价指标阈值进行比较，在满足预设条件的情况下，继续执行所述机器学习模型训练任务。

在一些情况下，机器学习模型需要经过多轮次的迭代训练，机器学习模型的损失函数才能收敛。损失函数收敛之后，得到的机器学习模型不一定是本次任务所需要的。例如，这个机器学习模型的某些机器学习模型评价指标可能达不到本次任务的要求。因此，需要再进行训练，以满足本次任务的要求。

所述机器学习模型评价指标文件数据表示评价机器学习模型性能指标的数据。该性能指标可以包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)、P-R曲线(Precision-Recall Curve)、误报率(FPR)、F1 Score等等。

所述机器学习模型评价指标阈值可以是人为自主设定的，具体设定多少，需要对应具体的任务。所述机器学习模型评价指标阈值可以为所有的机器学习模型评价指标设定阈值，或者仅仅只为某几个关键的机器学习模型评价指标设定阈值。只要在某次机器学习模型完成训练后，得到的机器学习模型评价指标文件数据其包括的某几个关键的机器学习模型评价指标达到了阈值。也可以不用再进行训练。具体选择哪几个机器学习模型评价指标为关键的机器学习模型评价指标，可以对应具体的任务来进行设定。

所述约束条件可以表示为当某个评价指标低于所述预先设定评价指标阈值的情况下，继续执行所述机器学习模型训练任务。也可以表示为当某个评价指标高于所述预先设定评价指标阈值的情况下，继续执行所述机器学习模型训练任务。具体的，在一次具体的机器学习训练任务中，可以将所述准确率的评价指标阈值设定为99％，所述的约束条件则可以表示为当准确率低于99％的情况下，继续执行所述机器学习模型训练任务。在一次具体的机器学习训练任务重，可以将所述误报率的评价指标阈值设定为1％，所述的约束条件则可以表示为当误报率高于1％的情况下，继续执行所述机器学习模型训练任务。

本方法考虑到了实际的应用场景中，训练完成后得到的机器学习模型，其对应的评价指标可能达不到任务的实际需求，因此，需要再进行训练的情形。本方法通过将所述机器学习模型评价指标文件表示的机器学习模型评价指标与预先设定的机器学习模型评价指标阈值进行比较，来判断是否再执行训练。具有明显的使用价值，能够提升团队成员的工作效率。

在一些实施方式中，所述方法还包括：接收对于所述文件索引信息的访问请求；响应于终端对所述文件索引信息的访问请求，将所述文件索引信息发送至所述终端用于形成进行展示的索引页面；其中，所述索引页面中包括所述机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识。

在一些情况下，对于一个团队化的多机器学习模型的开发任务中，存在这样的一个需求。各个团队成员期望在一个终端的页面能够同时查询或者浏览各个机器学习模型训练完成之后，得到的评价指标、模型文件数据、代码文件数据等等。也即是，各个团队成员期望能够快速的查看和比对本团队其他成员的实验结果。具体的说，当团队成员A和B，同时训练同一种机器学习模型。当团队成员A训练的机器学习模型训练完成之后，团队成员B可以通过一个前端页面快速的查询到这一情形，则团队成员B就可以停止训练了。因此，若提供一个终端页面，使得所有的团队成员查询自己或者其他团队成员的实验结果，则可以提升团队成员的工作效率。

所述的索引页面是用于将所述第一类数据和第二类数据进行可视化的页面。该页面主要展示的是第一类数据和第二类数据所包含的信息。所述的访问入口信息可以表示为对应机器学习模型的第一类数据和第二类数据实际存储地址的信息。与所述访问入口信息相绑定的文本标识，该文本标识可以表示为所述第一类数据和第二类数据携带信息。

具体的，例如，第一类数据包括机器学习模型的模型文件数据、机器学习模型评价指标文件数据和机器学习模型训练用数据。第二类数据包括机器学习模型的代码文件数据、模型文件的元文件数据以及机器学习模型评价指标文件数据的元文件数据以及机器学习模型训练用数据的元文件数据。则所述的访问入口信息可以表示为上述的这些数据的实际存储地址。所述的所述访问入口信息相绑定的文本标识则可以表示为上述的这些数据携带的信息。例如，机器学习模型的模型文件数据携带的信息包括机器学习模型的种类名称、模型参数等等。机器学习模型评价指标文件数据携带的信息包括具体的机器学习模型的多种评价指标数值。更具体的说，所述的索引页面表示为将所述机器学习模型的模型文件数据、机器学习模型评价指标文件数据以及机器学习模型的代码文件数据包括的数据进行可视化后得到的页面。可以将机器学习模型种类名称、机器学习模型评价指标、机器学习模型的代码版本进行可视化。具体可视化的形式，可以采用多种形式，例如，可以采用曲线图的形式、采用饼状图的形式，还可以采用表格的形式。当采用表格的形式时，表格的表头可以包括训练起始时间、训练时长、团队成员、机器学习模型名称、机器学习模型评价指标、超参数等等。

本方法考虑到了，对于一个团队化的多机器学习模型的开发任务中，各个团队成员能够在一个前端页面查询本团队其他成员的实验结果，提升了团队成员查询和比对实验结果的效率，进一步的提升了团队成员的工作效率，具有很好的实用价值。

如图6所示，本说明书的一个实施方式提供一种索引信息的显示方法，所述索引信息的显示方法可以应用于终端。所述方法包括以下步骤。

步骤S201：接收模型训练平台发送的索引信息；其中，所述索引信息是根据上述的一种索引信息的生成方法得到的。

步骤S202：根据所述索引信息形成索引页面；所述索引页面中包括对应机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识。

步骤S203：显示所述索引页面。

在一些情况下，对于一个团队化的多机器学习模型的开发任务中，存在这样的一个需求。各个团队成员期望在一个前端的页面能够同时查询或者浏览各个机器学习模型训练完成之后，得到的评价指标、模型文件、代码文件等等。因此，可以提供一种索引信息的显示方法，应用在终端。终端接收到服务器发来的索引信息，根据该索引信息再前端页面形成一个索引页面。团队成员则可以通过该索引页面来实现快速查看和对比实验结果。

在一些实施方式中，可以基于HTTP协议或WebSocket2协议将索引信息从服务器中的索引信息发送至终端中。该终端中对应的前端***可以采用VUE(用于构建用户界面的渐进式框架)框架搭建，并且前端***可以采用MVVM(Model-View-ViewModel)架构模式。对于索引信息可以利用数据可视化图表库echarts、antv等工具进行展示。

如图7所示，本说明书的一个实施方式还提供一种索引信息的生成装置。所述装置应用于模型训练平台，所述模型训练平台用于多个机器学***台的模型文件数据集，第二类数据均存入所述模型训练平台的文本文件数据集；生成单元，其用于根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息；其中，所述文件索引信息包括对应机器学习模型的第一类数据和第二类数据的访问入口信息。

在一些实施方式中，所述生成装置还包括：请求接收单元，用于接收一个数据端口发送的执行多个机器学习模型训练任务的请求；其中，所述请求包括所述机器学习模型训练任务的配置信息；空间创建单元，用于根据所述配置信息为所述多个机器学习模型训练任务创建对应的工作空间；任务执行单元，用于在所述工作空间内执行所述机器学习模型训练任务。

在一些实施方式中，所述生成装置还包括：请求接收单元，用于接收多个数据端口发送的执行机器学习模型训练任务的请求；其中，所述请求包括执行多个机器学习模型训练任务以及所述机器学习模型训练任务的配置信息；空间创建单元，用于根据所述配置信息为所述数据端口创建对应的工作空间；任务执行单元，用于在所述工作空间内执行所述机器学习模型训练任务。

在一些实施方式中，所述模型文件数据集中预先存储有机器学习模型训练用数据，所述训练用数据包括训练集数据，所述工作空间中预先配置有机器学习模型训练框架。任务执行单元，包括：数据获取模块，用于根据所述配置信息从所述模型文件数据集中获取机器学习模型训练用数据以及从所述文本文件数据集中获取机器学习模型的代码文件数据；执行模块，用于使用所述训练用数据、所述代码文件数据以及所述训练框架执行所述机器学习模型训练任务。

在一些实施方式中，所述生成装置还包括：计算单元，用于使用密码散列函数，计算所述第一类数据的散列值；散列值处理模块，用于将所述散列值存入所述元文件数据，并将所述散列值作为第一类数据的文件名称。

在一些实施方式中，所述生成装置还包括：响应模块，用于响应于终端对所述文件索引信息的访问请求，将所述文件索引信息发送至所述终端用于形成进行展示的索引页面；其中，所述索引页面中包括所述机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识。

本说明书实施方式还提供一种索引信息的显示装置。所述显示装置包括：接收单元，用于接收模型训练平台发送的索引信息；其中，所述索引信息采用前述的索引信息的生成方法得到；索引形成单元，用于根据所述索引信息形成索引页面；所述索引页面中包括对应机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识；显示单元，用于显示所述索引页面。

如图8所示，本说明书实施方式还提供一种电子设备，该电子设备可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本实施方式中的电子设备可以包括一个或多个如下部件：处理器、网络接口、内存、非易失性存储器以及一个或多个应用程序，其中一个或多个应用程序可以被存储在非易失性存储器中并被配置为由一个或多个处理器执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

本说明书实施方式还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被计算机执行时使得，该计算机执行上述任一实施方式中的索引信息的生成方法。

本说明书实施方式还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得计算机执行上述任一实施方式中的索引信息的生成方法。

可以理解，本文中的具体的例子只是为了帮助本领域技术人员更好地理解本说明书实施方式，而非限制本发明的范围。

可以理解，在本说明书中的各种实施方式中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本说明书实施方式的实施过程构成任何限定。

可以理解，本说明书中描述的各种实施方式，既可以单独实施，也可以组合实施，本说明书实施方式对此并不限定。

除非另有说明，本说明书实施方式所使用的所有技术和科学术语与本说明书的技术领域的技术人员通常理解的含义相同。本说明书中所使用的术语只是为了描述具体的实施方式的目的，不是旨在限制本说明书的范围。本说明书所使用的术语“和/或”包括一个或多个相关的所列项的任意的和所有的组合。在本说明书实施方式和所附权利要求书中所使用的单数形式的“一种”、“上述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

可以理解，本说明书实施方式的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施方式的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施方式中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施方式所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

可以理解，本说明书实施方式中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasablePROM，EPROM)、电可擦除可编程只读存储器(EEPROM)或闪存。易失性存储器可以是随机存取存储器(RAM)。应注意，本文描述的***和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本领域普通技术人员可以意识到，结合本文中所公开的实施方式描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本说明书的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***、装置和单元的具体工作过程，可以参考前述方法实施方式中的对应过程，在此不再赘述。

在本说明书所提供的几个实施方式中，应所述理解到，所揭露的***、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本说明书各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本说明书的技术方案本质上或者说对现有技术做出贡献的部分或者所述技术方案的部分可以以软件产品的形式体现出来，所述计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM)、随机存取存储器(RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本说明书的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本说明书的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种索引信息的生成方法，其特征在于，所述方法应用于模型训练平台，其特征在于，所述方法包括：

获取机器学习模型训练产生的第一类数据和第二类数据；其中，第一类数据至少包括机器学习模型的模型文件数据，所述第二类数据至少包括机器学习模型的代码文件数据和模型文件的元文件数据；

将每个机器学***台的模型文件数据集，第二类数据均保存至所述模型训练平台的文本文件数据集；

根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息；其中，所述文件索引信息包括所述机器学习模型的第一类数据和第二类数据的访问入口信息。

2.根据权利要求1所述的方法，其特征在于，所述获取机器学习模型训练产生的第一类数据和第二类数据的步骤之前，还包括：

接收一个数据端口发送的执行多个机器学习模型训练任务的请求；其中，所述请求包括所述机器学习模型训练任务的配置信息；

根据所述配置信息为所述多个机器学习模型训练任务创建对应的工作空间；

在所述工作空间内执行所述机器学习模型训练任务。

3.根据权利要求1所述的方法，其特征在于，所述获取机器学习模型训练产生的第一类数据和第二类数据的步骤之前，还包括：

接收多个数据端口发送的执行机器学习模型训练任务的请求；其中，所述请求包括执行多个机器学习模型训练任务以及所述机器学习模型训练任务的配置信息；

根据所述配置信息为所述数据端口创建对应的工作空间；

在所述工作空间内执行所述机器学习模型训练任务。

4.根据权利要求2或者3所述的方法，其特征在于，所述模型文件数据集中预先存储有机器学习模型训练用数据，所述训练用数据包括训练集数据，所述工作空间中预先配置有机器学习模型训练框架；所述在所述工作空间内执行所述机器学习模型训练任务的步骤，包括：

根据所述配置信息从所述模型文件数据集中获取机器学习模型训练用数据以及从所述文本文件数据集中获取机器学习模型的代码文件数据；

使用所述训练用数据、所述代码文件数据以及所述训练框架执行所述机器学习模型训练任务。

5.根据权利要求1所述的方法，其特征在于，所述方法还包括：

使用密码散列函数，计算所述第一类数据的散列值；

将所述散列值存入所述元文件数据，并将所述散列值作为第一类数据的文件名称。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

响应于终端对所述文件索引信息的访问请求，将所述文件索引信息发送至所述终端用于形成进行展示的索引页面；其中，所述索引页面中包括所述机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识。

7.一种索引信息的显示方法，其特征在于，所述方法包括：

接收模型训练平台发送的索引信息；其中，所述索引信息采用权利要求1-6中任一权利要求的方法得到；

根据所述索引信息形成索引页面；所述索引页面中包括对应机器学习模型的第一类数据和第二类数据的访问入口信息或者与所述访问入口信息相绑定的文本标识；

显示所述索引页面。

8.一种索引信息的生成装置，其特征在于，所述装置应用于模型训练平台；所述装置包括：

获取单元，其用于获取机器学习模型训练产生的第一类数据和第二类数据；其中，第一类数据至少包括机器学习模型的模型文件数据，所述第二类数据至少包括机器学习模型的代码文件数据和模型文件的元文件数据；

存储单元，其用于将每个机器学***台的模型文件数据集，第二类数据均存入所述模型训练平台的文本文件数据集；

生成单元，其用于根据所述模型文件数据集和所述文本文件数据集，生成文件索引信息；其中，所述文件索引信息包括对应机器学习模型的第一类数据和第二类数据的访问入口信息。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的索引信息的生成方法，或者，实现权利要求7所述的索引信息的显示方法。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的索引信息的生成方法，或者，实现权利要求7所述的索引信息的显示方法。