CN112785000A

CN112785000A - 面向大规模机器学习的机器学习模型训练方法及

Info

Publication number: CN112785000A
Application number: CN202110127839.1A
Authority: CN
Inventors: 王卓
Original assignee: Nanchang University
Current assignee: Nanchang University
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2021-05-11

Abstract

本发明属于模型训练技术领域，公开了一种面向大规模机器学习***的机器学习模型训练方法及***，所述面向大规模机器学习***的机器学习模型训练***包括：数据获取模块、数据预处理模块、参数范围确定模块、中央控制模块、模型训练模块、模型测试模块、模型评估模块、模型优化模块、数据存储模块、更新显示模块。本发明通过数据预处理模块对训练样本集进行处理，获取训练样本集的特征子集，减少模型训练数据量；采用基于增量学习的方式训练机器学习模型，能够提升模型训练的准确度；通过模型评估模块和模型优化模块在各参数的取值范围内确定最优参数值，并进行模型参数调整，提高了机器学习中模型的训练效率。

Description

面向大规模机器学习***的机器学习模型训练方法及***

技术领域

本发明属于模型训练技术领域，尤其涉及一种面向大规模机器学习***的机器学习模型训练方法及***。

背景技术

目前，随着机器学习的普遍流行，各种机器学习模型越来越受到关注。对于机器学习模型，通常需要先基于训练数据(也称训练样本)对其进行训练，之后，利用训练后的机器学习模型执行某种预测，如执行类别预测等。

在机器学习模型的训练过程中，需要向机器学习模型新增或修改样本。为了增加机器学习的训练样本，需要增加不同特征，或者是通过不同的特征的组合，并逐一输入至机器学习模型，但现有学习模型训练方法繁琐，耗时长，训练效率低，且灵活性和适用性较低。因此，亟需一种新的面向大规模机器学习***的机器学习模型训练方法。

通过上述分析，现有技术存在的问题及缺陷为：现有学习模型训练方法繁琐，耗时长，训练效率低，且灵活性和适用性较低。

发明内容

针对现有技术存在的问题，本发明提供了一种面向大规模机器学习***的机器学习模型训练方法及***。

本发明是这样实现的，一种面向大规模机器学习***的机器学习模型训练方法，所述面向大规模机器学习***的机器学习模型训练方法包括以下步骤：

步骤一，通过数据获取模块通过数据获取设备获取所述机器学习模型最新的特征集合以及当前时间段内的增量数据；通过数据预处理模块通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分，得到训练样本集与测试样本集；

所述通过数据预处理模块通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分包括：

(1.1)对获取的特征集合以及当前时间段内的增量数据用Jaccard索引计算每个特征数据、增量数据的权重，形成第一权重集；

(1.2)取第一权重集中特征数据、增量数据的权重与预设的权重阈值进行对比，筛选符合要求的特征数据、增量数据，得到第一数据子集；

(1.3)取第一数据子集用Relief-F算法计算每个特征数据、增量数据权重，形成第二权重集；

(1.4)取第二权重集中的每个特征数据、增量数据的权重，与预设阈值进行比较，选取符合要求的特征数据、增量数据，得到最终的数据集合；

(1.5)对得到的数据集合进行聚类分析，得到多个数据子集；从每个数据子集中抽取同样比例的训练集数据得到多个训练子集，并将每个数据子集中的剩余数据作为测试子集；

(1.6)将多个训练子集进行组合得到训练集，将多个测试子集进行组合得到测试集；

(1.7)分别计算当前训练集以及测试集对应理化数据的均值及标准差；并基于当前训练集以及测试集对应理化数据的均值及标准差值计算训练集与测试集理化值之间的均值误差及标准差误差；

(1.8)若计算得到的训练集与测试集理化值之间的均值误差及标准差误差值分别小于等于预设阈值，则将当前训练集以及测试集作为最终训练集、最终测试集；否则，返回步骤(1.5)；

步骤二，对训练样本集进行处理，获取训练样本集的特征子集；通过参数范围确定模块通过范围确定程序根据所述机器学习模型的类型确定待选择的模型参数的范围；

步骤三，通过中央控制模块通过中央处理器协调控制模型训练模块在所述模型参数的范围内，依次选择模型参数，通过模型训练程序利用训练样本集的特征子集对所述机器学习模型进行训练；

步骤四，通过模型测试模块通过模型测试程序利用测试样本集对训练得到的所述机器学习模型进行测试；通过模型评估模块通过评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值；

步骤五，通过模型优化模块通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优参数以及最优模型；

步骤六，通过数据存储模块通过存储器存储获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型；

步骤七，通过更新显示模块通过显示器对获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型的实时数据进行更新显示。

进一步，所述通过模型测试模块通过模型测试程序利用测试样本集对训练得到的所述机器学习模型进行测试包括：

(1)接收所述待测机器学习模型测试请求；

(2)根据所述测试请求调用模型测试服务利用测试样本集对所述待测模型进行测试；

(3)输出对所述待测机器学习模型的测试结果。

进一步，所述请求携带待测模型的测试信息，所述测试信息包括模型文件、测试数据集和待测模型的参数。

进一步，所述模型测试服务中包括多种深度学习框架；所述多种深度学习框架中不同的框架用于搭建不同的测试模型；所述不同的测试模型用于测试不同的深度学习模型。

进一步，所述通过模型评估模块利用评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值，包括：

(1)通过模型评估模块获取所述机器学习模型各参数的取值范围；

(2)在各参数的取值范围内，利用评估程序确定相应参数的初始值；

(3)中央处理器控制所述评估程序将各参数调整为所述初始值，并从所述评估程序获取模型评估值。

进一步，所述模型评估值用于指示参数调整后的机器学习模型的性能。

进一步，所述通过模型优化模块通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优参数以及最优模型包括：

根据获取的模型评估值以及模型测试结果，在各参数的取值范围内重新确定各参数的取值，对比各参数对应的模型评估值以及模型测试结果，对应最优模型评估值以及模型测试结果即为最优参数；控制所述参数调整程序基于最优参数进行模型的参数调整，即可得到最优模型。

本发明的另一目的在于提供一种实施所述面向大规模机器学习***的机器学习模型训练方法的面向大规模机器学习***的机器学习模型训练***，所述面向大规模机器学习***的机器学习模型训练***包括：

数据获取模块、数据预处理模块、参数范围确定模块、中央控制模块、模型训练模块、模型测试模块、模型评估模块、模型优化模块、数据存储模块、更新显示模块；

数据获取模块，与中央控制模块连接，用于通过数据获取设备获取所述机器学习模型最新的特征集合以及当前时间段内的增量数据；

数据预处理模块，与中央控制模块连接，用于通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分，得到训练样本集与测试样本集；同时对训练样本集进行处理，获取训练样本集的特征子集；

参数范围确定模块，与中央控制模块连接，用于通过范围确定程序根据所述机器学习模型的类型确定待选择的模型参数的范围；

中央控制模块，与数据获取模块、数据预处理模块、参数范围确定模块、模型训练模块、模型测试模块、模型评估模块、模型优化模块、数据存储模块、更新显示模块连接，用于通过中央处理器协调控制所述面向大规模机器学习***的机器学习模型训练***各个模块的正常运行；

模型训练模块，与中央控制模块连接，用于在所述模型参数的范围内，依次选择模型参数，通过模型训练程序利用训练样本集的特征子集对所述机器学习模型进行训练；

模型测试模块，与中央控制模块连接，用于通过模型测试程序利用测试样本集对训练得到的所述机器学习模型进行测试；

模型评估模块，与中央控制模块连接，用于通过评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值；

模型优化模块，与中央控制模块连接，用于通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优模型；

数据存储模块，与中央控制模块连接，用于通过存储器存储获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型；

更新显示模块，与中央控制模块连接，用于通过显示器对获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型的实时数据进行更新显示。

本发明的另一目的在于提供一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施所述的面向大规模机器学习***的机器学习模型训练方法。

本发明的另一目的在于提供一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行所述的面向大规模机器学习***的机器学习模型训练方法。

结合上述的所有技术方案，本发明所具备的优点及积极效果为：本发明提供的面向大规模机器学习***的机器学习模型训练方法，通过数据预处理模块对获取的训练样本集进行处理，获取训练样本集的特征参数集合，能够大大减少模型训练数据量；采用基于增量学习的方式训练机器学习模型，能够提升模型训练的准确度；通过模型评估模块和模型优化模块在各参数的取值范围内确定最优参数值，并进行模型参数调整，提高了机器学习中模型的训练效率，能够有效解决现有学习模型训练方法繁琐，耗时长，训练效率低，且灵活性和适用性较低的问题。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图做简单的介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的面向大规模机器学习***的机器学习模型训练方法流程图。

图2是本发明实施例提供的面向大规模机器学习***的机器学习模型训练***结构框图；

图中：1、数据获取模块；2、数据预处理模块；3、参数范围确定模块；4、中央控制模块；5、模型训练模块；6、模型测试模块；7、模型评估模块；8、模型优化模块；9、数据存储模块；10、更新显示模块。

图3是本发明实施例提供的通过数据预处理模块通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分的方法流程图。

图4是本发明实施例提供的通过模型测试模块利用模型测试程序对训练得到的所述机器学习模型进行测试的方法流程图。

图5是本发明实施例提供的通过模型评估模块利用评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

针对现有技术存在的问题，本发明提供了一种面向大规模机器学习***的机器学习模型训练方法及***，下面结合附图对本发明作详细的描述。

如图1所示，本发明实施例提供的面向大规模机器学习***的机器学习模型训练方法包括以下步骤：

S101，通过数据获取模块通过数据获取设备获取所述机器学习模型最新的特征集合以及当前时间段内的增量数据；通过数据预处理模块通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分，得到训练样本集与测试样本集；

S102，对训练样本集进行处理，获取训练样本集的特征子集；通过参数范围确定模块通过范围确定程序根据所述机器学习模型的类型确定待选择的模型参数的范围；

S103，通过中央控制模块通过中央处理器协调控制模型训练模块在所述模型参数的范围内，依次选择模型参数，通过模型训练程序利用训练样本集的特征子集对所述机器学习模型进行训练；

S104，通过模型测试模块通过模型测试程序利用测试样本集对训练得到的所述机器学习模型进行测试；通过模型评估模块通过评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值；

S105，通过模型优化模块通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优参数以及最优模型；

S106，通过数据存储模块通过存储器存储获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型；

S107，通过更新显示模块通过显示器对获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型的实时数据进行更新显示。

如图2所示，本发明实施例提供的面向大规模机器学习***的机器学习模型训练***包括：数据获取模块1、数据预处理模块2、参数范围确定模块3、中央控制模块4、模型训练模块5、模型测试模块6、模型评估模块7、模型优化模块8、数据存储模块9、更新显示模块10。

数据获取模块1，与中央控制模块4连接，用于通过数据获取设备获取所述机器学习模型最新的特征集合以及当前时间段内的增量数据；

数据预处理模块2，与中央控制模块4连接，用于通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分，得到训练样本集与测试样本集；同时对训练样本集进行处理，获取训练样本集的特征子集；

参数范围确定模块3，与中央控制模块4连接，用于通过范围确定程序根据所述机器学习模型的类型确定待选择的模型参数的范围；

中央控制模块4，与数据获取模块1、数据预处理模块2、参数范围确定模块3、模型训练模块5、模型测试模块6、模型评估模块7、模型优化模块8、数据存储模块9、更新显示模块10连接，用于通过中央处理器协调控制所述面向大规模机器学习***的机器学习模型训练***各个模块的正常运行；

模型训练模块5，与中央控制模块4连接，用于在所述模型参数的范围内，依次选择模型参数，通过模型训练程序利用训练样本集的特征子集对所述机器学习模型进行训练；

模型测试模块6，与中央控制模块4连接，用于通过模型测试程序利用测试样本集对训练得到的所述机器学习模型进行测试；

模型评估模块7，与中央控制模块4连接，用于通过评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值；

模型优化模块8，与中央控制模块4连接，用于通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优模型；

数据存储模块9，与中央控制模块4连接，用于通过存储器存储获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型；

更新显示模块10，与中央控制模块4连接，用于通过显示器对获取的特征集合、训练样本集、测试样本集、模型参数的范围、模型训练结果、模型测试结果、模型评估值、最优参数以及最优模型的实时数据进行更新显示。

下面结合具体实施例对本发明的技术方案作进一步说明。

实施例1

本发明实施例提供的面向大规模机器学习***的机器学习模型训练方法如图1所示，作为优选实施例，如图3所示，本发明实施例提供的通过数据预处理模块通过数据预处理程序对获取的特征集合以及当前时间段内的增量数据进行处理、划分包括：

S201，对获取的特征集合以及当前时间段内的增量数据用Jaccard索引计算每个特征数据、增量数据的权重，形成第一权重集；

S202，取第一权重集中特征数据、增量数据的权重与预设的权重阈值进行对比，筛选符合要求的特征数据、增量数据，得到第一数据子集；

S203，取第一数据子集用Relief-F算法计算每个特征数据、增量数据权重，形成第二权重集；

S204，取第二权重集中的每个特征数据、增量数据的权重，与预设阈值进行比较，选取符合要求的特征数据、增量数据，得到最终的数据集合；

S205，对得到的数据集合进行聚类分析，得到多个数据子集；从每个数据子集中抽取同样比例的训练集数据得到多个训练子集，并将每个数据子集中的剩余数据作为测试子集；

S206，将多个训练子集进行组合得到训练集，将多个测试子集进行组合得到测试集；

S207，分别计算当前训练集以及测试集对应理化数据的均值及标准差；并基于当前训练集以及测试集对应理化数据的均值及标准差值计算训练集与测试集理化值之间的均值误差及标准差误差；

S208，若计算得到的训练集与测试集理化值之间的均值误差及标准差误差值分别小于等于预设阈值，则将当前训练集以及测试集作为最终训练集、最终测试集；否则，返回步骤S205。

实施例2

本发明实施例提供的面向大规模机器学习***的机器学习模型训练方法如图1所示，作为优选实施例，如图4所示，本发明实施例提供的通过模型测试模块利用模型测试程序对训练得到的所述机器学习模型进行测试，包括：

S301，接收所述待测机器学习模型测试请求；

S302，根据所述测试请求调用模型测试服务利用测试样本集对所述待测模型进行测试；

S303，输出对所述待测机器学习模型的测试结果。

本发明实施例提供的请求携带待测模型的测试信息，所述测试信息包括模型文件、测试数据集和待测模型的参数。

本发明实施例提供的模型测试服务中包括多种深度学习框架；所述多种深度学习框架中不同的框架用于搭建不同的测试模型；所述不同的测试模型用于测试不同的深度学习模型。

实施例3

本发明实施例提供的面向大规模机器学习***的机器学习模型训练方法如图1所示，作为优选实施例，如图5所示，本发明实施例提供的通过模型评估模块利用评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值，包括：

S401，通过模型评估模块获取所述机器学习模型各参数的取值范围；

S402，在各参数的取值范围内，利用评估程序确定相应参数的初始值；

S403，中央处理器控制所述评估程序将各参数调整为所述初始值，并从所述评估程序获取模型评估值。

本发明实施例提供的模型评估值用于指示参数调整后的机器学习模型的性能。

实施例4

本发明实施例提供的面向大规模机器学习***的机器学习模型训练方法如图1所示，作为优选实施例，本发明实施例提供的通过模型优化模块通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优参数以及最优模型包括：

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，都应涵盖在本发明的保护范围之内。

Claims

1.一种面向大规模机器学习***的机器学习模型训练方法，其特征在于，所述面向大规模机器学习***的机器学习模型训练方法包括以下步骤：

2.如权利要求1所述面向大规模机器学习***的机器学习模型训练方法，其特征在于，步骤六中，所述通过模型测试模块通过模型测试程序利用测试样本集对训练得到的所述机器学习模型进行测试包括：

(1)接收所述待测机器学习模型测试请求；

(3)输出对所述待测机器学习模型的测试结果。

3.如权利要求2所述面向大规模机器学习***的机器学习模型训练方法，其特征在于，所述请求携带待测模型的测试信息，所述测试信息包括模型文件、测试数据集和待测模型的参数。

4.如权利要求1所述面向大规模机器学习***的机器学习模型训练方法，其特征在于，所述模型测试服务中包括多种深度学习框架；所述多种深度学习框架中不同的框架用于搭建不同的测试模型；所述不同的测试模型用于测试不同的深度学习模型。

5.如权利要求1所述面向大规模机器学习***的机器学习模型训练方法，其特征在于，所述通过模型评估模块利用评估程序对训练得到的所述机器学习模型进行评估，获取模型评估值，包括：

6.如权利要求5所述面向大规模机器学习***的机器学习模型训练方法，其特征在于，所述模型评估值用于指示参数调整后的机器学习模型的性能。

7.如权利要求5所述面向大规模机器学习***的机器学习模型训练方法，其特征在于，所述通过模型优化模块通过模型优化程序根据获取的模型评估值以及模型测试结果对所述机器学习模型的模型参数进行调整，得到最优参数以及最优模型包括：

8.一种实施如权利要求1-7任意一项所述面向大规模机器学习***的机器学习模型训练方法的面向大规模机器学习***的机器学习模型训练***，其特征在于，所述面向大规模机器学习***的机器学习模型训练***包括：

9.一种存储在计算机可读介质上的计算机程序产品，包括计算机可读程序，供于电子装置上执行时，提供用户输入接口以实施如权利要求1～7任意一项所述的面向大规模机器学习***的机器学习模型训练方法。

10.一种计算机可读存储介质，储存有指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1～7任意一项所述的面向大规模机器学习***的机器学习模型训练方法。