CN116702866A

CN116702866A - 模型调整方法、装置、计算机设备和存储介质

Info

Publication number: CN116702866A
Application number: CN202310731174.4A
Authority: CN
Inventors: 吴冕冠; 周文泽; 刘慕雨; 张帅
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-09-05

Abstract

本申请涉及一种模型调整方法、装置、计算机设备、存储介质和计算机程序产品，涉及大数据、人工智能技术领域。所述方法包括：获取目标模型以及目标模型的训练样本；识别目标模型中的目标函数，并根据函数类型感知策略，确定目标函数的函数类型；基于目标函数的函数类型，按照函数类型对应的优化策略的处理优先级，对目标函数进行优化处理，得到优化函数；根据优化函数以及近端策略优化算法、训练样本对目标模型进行训练，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。采用本方法能够提高完成训练的目标模型在处理大文本的语音和文本数据时的准确率。

Description

模型调整方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据、人工智能技术领域，特别是涉及一种模型调整方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着机器学习技术的发展，人们需要通过模型对高维数据进行处理，以用于预测或分类数据，例如，针对大文本等高维数据的场景下，通人工过智能问答模型对用户的输入数据进行文本识别、特征提取，并对该类高维数据进行数据处理等操作。在这个过程中，为了提高智能模型针对高维数据进行数据处理的准确率，需要对模型参数进行优化。

传统技术中，通过基于梯度的优化算法，如随机梯度下降、Adam(adaptive momentestimation，自适应矩估计)和Adagrad(Adaptive Gradient，自适应梯度法)等算法，对人工智能问答模型的模型参数进行优化，直至人工智能问答模型满足收敛的条件，该类优化算法通过自适应地调整学习率和梯度的缩放系数等超参数，实现对人工智能问答模型的优化。

然而，目前的基于梯度的优化算法，针对大文本的语音和文本数据样本，采用目标步长的梯度更新迭代，在局部最优解的影响下，采用目标步长的梯度对人工智能问答模型进行训练，导致训练完成的人工智能问答模型的准确度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种模型调整方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种模型调整方法。所述方法包括：

获取目标模型以及所述目标模型的训练样本；

识别所述目标模型中的目标函数，并根据函数类型感知策略，确定所述目标函数的函数类型；

基于所述目标函数的函数类型，按照所述函数类型对应的优化策略的处理优先级，对所述目标函数进行优化处理，得到优化函数；

根据所述优化函数以及近端策略优化算法、训练样本对所述目标模型进行训练，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

在其中一个实施例中，所述函数类型感知策略包括指标感知策略、约束感知策略与凸函数感知策略，所述根据函数类型感知策略，确定所述目标函数的函数类型，包括：

根据所述指标感知策略、所述约束感知策略与所述凸函数感知策略，依次对所述目标函数的类型进行感知识别，确定所述目标函数对应的函数类型。

在其中一个实施例中，所述基于所述目标函数的函数类型，按照所述函数类型对应的优化策略的处理优先级，对所述目标函数进行优化处理，得到优化函数，包括：

若所述目标函数的函数类型为多目标函数类型时，对所述多目标函数类型的目标函数进行加权处理，得到第一优化函数；

在所述目标函数的函数类型为多目标函数类型的情况下，若所述目标函数的函数类型为约束函数类型时，根据所述约束优化策略对所述第一优化函数进行优化处理，得到第二优化函数；

在所述目标函数的函数类型为多目标函数类型和约束函数类型的情况下，若所述目标函数为凸函数类型或非凸函数类型时，对所述第二优化函数进行优化处理，得到第三优化函数，作为优化函数。

在其中一个实施例中，所述在所述目标函数的函数类型为多目标函数类型和约束函数类型的情况下，若所述目标函数为凸函数类型或非凸函数类型时，对所述第二优化函数进行优化处理，得到第三优化函数，作为优化函数，包括：

在所述第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，若所述目标函数为凸函数类型时，根据泰勒展开式在所述目标函数的最优解处进行估算，得到所述目标函数的近似值，并将所述目标函数的近似值作为第三优化函数，即优化函数；

在所述第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，若所述目标函数为非凸函数类型时，对所述目标函数进行梯度下降处理，得到完成梯度下降的目标函数，得到第三优化函数，作为优化函数。

在其中一个实施例中，所述根据所述优化函数以及近端策略优化算法、训练样本对所述目标模型进行训练，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型，包括：

根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到所述当前迭代周期的目标模型的迭代结果；

若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据所述优化函数以及近端策略优化算法进行训练处理，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

在其中一个实施例中，所述若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据所述优化函数以及近端策略优化算法进行训练处理，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型，包括：

若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优势函数确定所述优化函数的策略梯度；

根据所述近端策略优化算法对所述策略梯度进行裁剪，确定所述目标模型的更新步长；

基于所述更新步长，对所述优化函数的参数进行更新，执行所述根据所述优势函数确定所述优化函数的策略梯度的步骤，直至所述目标模型中的迭代结果满足预设迭代条件，得到完成训练的目标模型。

在其中一个实施例中，所述根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到所述当前迭代周期的目标模型的迭代结果，包括：

根据所述当前迭代周期的目标模型的平均回报值或近似值函数的误差对所述当前迭代周期的目标模型进行收敛判断；

若所述平均回报值呈增大趋势，或所述近似值函数的误差呈减小趋势，将所述当前迭代周期的目标模型的迭代结果确定为收敛。

第二方面，本申请还提供了一种模型调整装置。所述装置包括：

获取模块，用于获取目标模型以及所述目标模型的训练样本；

确定模块，用于识别所述目标模型中的目标函数，并根据函数类型感知策略，确定所述目标函数的函数类型；

第一优化模块，用于基于所述目标函数的函数类型，按照所述函数类型对应的优化策略的处理优先级，对所述目标函数进行优化处理，得到优化函数；

第二优化模块，用于根据所述优化函数以及近端策略优化算法、训练样本对所述目标模型进行训练，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

在其中一个实施例中，所述确定模块具体用于：

在其中一个实施例中，所述第一优化模块具体用于：

在其中一个实施例中，所述第二优化模块具体用于：

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标模型以及所述目标模型的训练样本；

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标模型以及所述目标模型的训练样本；

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

获取目标模型以及所述目标模型的训练样本；

上述模型调整方法、装置、计算机设备、存储介质和计算机程序产品，通过判断目标模型中目标函数的类型，根据函数类型对应的优化策略的处理优先级，对目标函数进行优化，得到优化函数，可以提高模型调整方法的适用性，并根据优化函数与近端策略优化算法对目标模型的模型参数进行优化，可以提高完成训练的目标模型在处理大文本的语音和文本数据时的准确率。

附图说明

图1为一个实施例中模型调整方法的应用环境图；

图2为一个实施例中根据目标函数的函数类型进行处理的流程示意图；

图3为一个实施例中针对凸函数和非凸函数的函数类型的目标函数进行处理的流程示意图；

图4为一个实施例中对目标模型进行训练的方法的流程示意图；

图5为一个实施例中根据近端策略优化算法对目标模型进行迭代训练的流程示意图；

图6为一个实施例中对目标模型进行收敛检验方法的流程示意图；

图7为一个实施例中一种模型调整方法的示例的流程示意图；

图8为一个实施例中模型调整装置的结构框图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种模型调整方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的***，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，获取目标模型以及目标模型的训练样本。

其中，目标模型可以为人工智能问答模型。

本申请实施例中，终端获取用于对大文本的文本数据进行数据处理的人工智能问答模型，以及用于对该人工智能问答模型进行模型训练的训练样本。训练样本可以为人工智能问答模型在应用环境中的采样数据，在本实施例中，采样数据用于计算人工智能问答模型的优势函数。其中，大文本数据为包含大量文本内容、需要大量存储和处理的文本数据、图像数据或音视频数据。

可选的，目标模型还可以为对其他大文本数据进行数据处理的模型，例如，针对社交媒体数据进行文本分析处理的模型，针对搜索引擎的网页数据进行文本分析处理的模型等。

步骤104，识别目标模型中的目标函数，并根据函数类型感知策略，确定目标函数的函数类型。

其中，目标函数为目标模型的策略函数，用于对训练样本进行对应的数据处理。

本申请实施例中，目标函数的函数类型可以为多目标函数、约束函数、凸函数或非凸函数。在终端获取目标模型后，终端识别目标模型中的目标函数，不同函数类型的目标函数具有对应的函数类型感知策略，根据目标函数的函数类型对应的函数类型感知策略，分别对目标模型进行类型感知，得到目标模型的函数类型。

可选的，终端将识别出的目标函数输入至感知函数类型的分类器中，根据分类器对目标函数进行识别和验证，并输出该目标函数的函数类型。

步骤106，基于目标函数的函数类型，按照函数类型对应的优化策略的处理优先级，对目标函数进行优化处理，得到优化函数。

本申请实施例中，终端基于目标函数的函数类型，确定该目标函数对应的优化策略的优先级，按照目标函数对应的优化策略的优先级由高到低的顺序，分别对目标函数进行逐级优化处理。当终端根据目标函数的所有函数类型对应的优化策略对目标函数完成优化处理后，得到针对目标函数的所有函数类型完成优化处理的优化函数。

步骤108，根据优化函数以及近端策略优化算法、训练样本对目标模型进行训练，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

本申请实施例中，终端根据优化函数确定近端策略优化算法的超参数，将训练样本输入至目标模型，根据优化函数与近端策略优化算法对目标模型进行模型参数的迭代更新，直至目标模型针对训练样本的迭代结果满足训练完成条件，得到完成训练的目标模型，完成训练的目标模型用于对大文本的文本数据进行数据处理，针对智能问答模型的输入问题进行数据处理，输出该输入问题对应的问题回答结果。

上述模型参数调整方法中，通过判断目标模型中目标函数的类型，根据函数类型对应的优化策略的处理优先级，对目标函数进行优化，得到优化函数，可以提高模型调整方法的适用性，并根据优化函数与近端策略优化算法对目标模型的模型参数进行优化，可以提高完成训练的目标模型在处理大文本的语音和文本数据时的准确率。

在其中一个实施例中，步骤104中根据函数类型感知策略，确定目标函数的函数类型，包括：

根据指标感知策略、约束感知策略与凸函数感知策略，依次对目标函数的类型进行感知识别，确定目标函数对应的函数类型。

其中，函数类型感知策略包括指标感知策略、约束感知策略与凸函数感知策略。

本申请实施例中，若目标函数包含多个目标，优化目标函数不只是最小化或最大化一个目标，而是最小化或最大化目标函数中几个目标之一或同时最大化或最小化几个目标，则该目标函数的类型包括多目标函数；在约束优化问题中，目标函数是优化的目标，而约束条件是限制优化变量的范围，若目标函数定义了变量的范围或者它们之间的关系，则该目标函数的类型包括约束函数类型。例如，在最小二乘问题中，优化目标是最小化误差平方和，因此这是目标函数。然而，约束条件可能包括参数的范围、方程等。

因此，在终端识别出目标模型中的目标函数后，首先根据指标感知策略对该目标模型中的目标函数进行感知识别，确定该目标模型中的目标函数是否为多目标函数，具体的，若该目标模型的目标函数具有多个评估指标(例如准确率、召回率、F1值等)，并且该类指标之间并没有明显的关系，说明该目标函数的函数类型是多目标函数。若该目标模型的目标函数具有一个评估指标，则该目标函数的函数类型不为多目标函数。

在终端根据指标感知策略对该目标模型的目标函数进行感知识别之后，根据约束感知策略对该目标模型中的目标函数进行感知识别，确定该目标模型的目标函数是否为约束函数，具体的，若目标模型中目标函数存在一定的限制条件，例如对解的可行性、可行域大小等要求，则终端将该目标模型的目标函数确定为约束函数。若该目标模型的目标函数不存在限制条件，则该目标函数的函数类型不为约束函数。

在终端根据约束感知策略对该目标模型的目标函数进行感知识别之后，根据凸函数感知策略对该目标模型中的目标函数进行感知识别，确定该目标模型的目标函数为凸函数还是非凸函数，具体的，初始化该目标函数的任意两个点的点值，根据如下凸组合条件公式判断该目标函数的函数类型：

f(λx+(1-λ)y)≤λf(x)+(1-λ)f(y) (1-1)

其中，x，y是函数的定义域内的任意两个点，λ是一个大于等于0小于等于1的实数。若该目标函数满足凸组合条件公式，则该目标函数的函数类型为凸函数，若该目标函数不满足凸组合条件公式，则该目标函数的函数类型为非凸函数。

可选的，对于实际问题中的目标函数，终端可以通过计算一阶导数和二阶导数，来进行目标函数凸性质的判断。如果目标函数的二阶导数非负，则该函数为凸函数。否则，该目标函数为非凸函数。如果目标函数无法直接计算二阶导数，也可以使用其他方法进行目标函数凸性质的分析和判断，例如，通过对偶问题、有限元方法和对角线规划等方法对目标函数进行凸性质的判断。

本实施例中，通过指标感知策略、约束感知策略与凸函数感知策略以此对目标模型的目标函数进行函数类型的感知，能够确定出目标函数的函数类型，以根据目标函数所属的不同函数类型，对目标函数进行优化处理，提高模型调整的适用性，进而提高目标模型在处理大文本的语音和文本数据时的准确率。

在其中一个实施例中，如图2所示，步骤106基于目标函数的函数类型，按照函数类型对应的优化策略的处理优先级，对目标函数进行优化处理，得到优化函数，包括：

步骤202，若目标函数的函数类型为多目标函数类型时，对多目标函数类型的目标函数进行加权处理，得到第一优化函数。

本申请实施例中，对于包含多目标函数类型的目标函数，通过引入目标函数的加权方法得到最优解。在终端基于指标感知策略确定出目标函数的函数类型包括多目标函数后，终端根据加权求和的方法将多目标函数类型的目标函数进行加权处理，将该多目标函数类型的目标函数转化为单优化目标函数，得到第一优化函数，以对该多目标函数类型的目标函数进行优化处理。

可选的，加权求和的方式通常可以使用线性加权或非线性加权两种方法。

其中，线性加权公式如下所示：

其中，f_i()代表第i个目标函数，w_i表示每个目标函数对应的权重。

可选的，对于多目标问题，终端使用加权求和法将多个目标函数组合成一个新的目标函数，并对其进行优化，终端可以通过调整不同目标函数的权重来平衡多个目标函数之间的关系。例如，若一个目标函数比其他目标函数更重要，则可以赋予该目标函数更高的权重。

步骤204，在目标函数的函数类型为多目标函数类型的情况下，若目标函数的函数类型为约束函数类型时，根据约束优化策略对第一优化函数进行优化处理，得到第二优化函数。

本申请实施例中，在终端基于约束感知策略确定出目标函数的函数类型包括约束函数类型后，终端可以使用约束优化策略来优化得到第一优化函数，并且基于第一优化函数再次进行优化，得到第二优化函数。具体的，针对包含约束函数类型的目标函数进行优化，可以根据障碍函数法，对于任何不满足约束条件的解，增加一个无穷大的障碍函数值，通过惩罚不可行解的方式，推动该解逼近于可行解，通过一些可行解的初始状态，继续优化达到最小化目标函数并满足约束条件。

可选的，终端还可以使用拉格朗日乘子法将约束函数类型的目标函数转化为无约束优化的目标函数，将约束条件通过引入拉格朗日乘子λ强制纳入目标函数中，得到一个拉格朗日函数L(x,λ)。然后，通过求解这个拉格朗日函数的最小值对应的自变量x和拉格朗日乘子λ，得到原问题的最优解。其中，拉格朗日乘子法如下公式所示：

步骤206，在目标函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为凸函数类型或非凸函数类型时，对第二优化函数进行优化处理，得到第三优化函数，作为优化函数。

本申请实施例中，在目标函数的函数类型同时为多目标函数类型和约束函数类型的情况下，第一优化函数已经被优化得到了之后，终端根据目标函数的函数类型，确定对第二优化函数的优化策略，得到第三优化函数，并将第三优化函数确定为用于近端策略优化算法的优化函数。

本实施例中，根据目标函数所属的不同函数类型，对目标函数进行优化处理，提高模型调整的适用性，进而提高目标模型在处理大文本的语音和文本数据时的准确率。

在其中一个实施例中，如图3所示，步骤206在目标函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为凸函数类型或非凸函数类型时，对第二优化函数进行优化处理，得到第三优化函数，作为优化函数，包括：

步骤302，在第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为凸函数类型时，根据泰勒展开式在目标函数的最优解处进行估算，得到目标函数的近似值，并将目标函数的近似值作为第三优化函数，即优化函数。

本申请实施例中，目标函数的函数类型包括凸函数类型的目标函数，与目标函数的函数类型包括非凸函数的目标函数，具有不同优化策略。在第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，且目标函数的函数类型包括凸函数类型时，终端可以通过泰勒展开式来估计目标函数在最优解处的近似值，并将其作为第三优化函数，例如，对于函数f(x)，在点a＝1处进行泰勒展开可以得到：

f(x)≈f(1)+f'(1)(x-1)+1/2f”(1)(x-1)^2(3-1)

＝0+0(x-1)+1(x-1)^2

＝(x-1)^2

然后，终端根据近端策略优化算法对第二优化函数进行优化处理，得到第三优化函数，即优化函数。

可选的，对于函数类型为凸函数类型的目标函数，将目标函数的初始状态设为任意值(例如将所有变量设为0)，或者使用上次对目标模型进行优化得到的最优解作为此次优化的初始状态，然后使用近端策略优化算法迭代更新目标模型的状态，得到第三优化函数，即优化函数。

步骤304，在第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为非凸函数类型时，对目标函数进行梯度下降处理，得到完成梯度下降的目标函数，得到第三优化函数，作为优化函数。

本申请实施例中，在第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，且目标函数的函数类型包括凸函数类型时，终端可以基于目标函数的导数，实现梯度下降优化算法，得到完成梯度下降的目标函数，即第三优化函数，并作为用于近端策略优化算法的优化函数。

可选的，终端根据随机方法生成多个不同的起始点，然后将它们作为输入运行近端策略优化算法。例如，终端可以在一个小的超立方体区域内生成一些随机点，然后以该随机点为起始点来运行近端策略优化算法，或者使用上次得到的最优解作为此次优化的初始状态。

本实施例中，通过针对凸函数类型的目标函数与非凸函数类型的目标函数对应的不同优化方法，对第二优化函数进行优化处理，得到第三优化函数，即优化函数，可以实现根据近端优化策略算法对优化函数进行优化处理，提高模型调整的适用性，进而提高目标模型在处理大文本的语音和文本数据时的准确率。

在其中一个实施例中，如图4所示，步骤108根据优化函数以及近端策略优化算法、训练样本对目标模型进行训练，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型，包括：

步骤402，根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到当前迭代周期的目标模型的迭代结果。

本申请实施例中，近端策略优化算法的收敛方法是监测策略模型的变化量和优化目标的变化量。在每次迭代过程中，终端可以记录上次迭代和当前迭代之间目标模型的策略函数和优化目标的差异，并设定阈值。根据该差异与设定阈值之间的关系，确定目标模型的收敛状态，得到当前迭代周期的目标模型的迭代结果。

步骤404，若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优化函数以及近端策略优化算法进行训练处理，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

本申请实施例中，若当前迭代周期的目标模型不满足预设的迭代条件，即当前迭代周期的目标模型未达到收敛状态，则终端可以使用当前的优化函数和近端策略优化算法对目标模型进行训练处理，根据期望优化目标模型并提高性能，直至目标模型的迭代结果满足训练完成条件，最终得到训练完成的目标模型。其中，近端策略优化算法的成本函数为：

其中，θ是策略参数，是对时间步长的经验期望值，r_t是模型参数更新后的目标模型的策略函数和模型参数更新前的目标模型的策略函数的概率比值，/>是在时间步长t上估计的优势值。

可选的，终端可以根据近端策略优化算法，在对目标模型训练的过程中，适当增大更新步长，并提高对每一步更新时的环境进行采样的次数，以期望更快地收敛。并根据表现结果对目标模型进行调整，终端可以根据交叉验证等方式检测目标模型的性能以及是否出现过拟合的情况。若出现过拟合的情况，终端增加正则化项或者适当减少目标模型复杂度。

本实施例中，通过近端策略优化算法对目标模型进行训练，并得到完成训练的目标模型，可以提高目标模型在处理大文本的语音和文本数据时的准确率。

在其中一个实施例中，如图5所示，步骤404若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优化函数以及近端策略优化算法进行训练处理，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型，包括：

步骤502，若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优势函数确定优化函数的策略梯度。

本申请实施例中，若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，终端根据目标模型当前的样本数据与目标模型的策略函数确定优势函数，基于优势函数确定当前目标模型的优化函数的策略梯度，该策略梯度用于确定基于近端策略优化算法对目标模型训练中的更新步长。

步骤504，根据近端策略优化算法对策略梯度进行裁剪，确定目标模型的更新步长。

本申请实施例中，终端根据近端策略优化算法确定对策略梯度的裁剪值，根据裁剪后的策略梯度确定目标模型的更新步长。具体的，终端计算当前策略梯度和历史策略梯度的比值，即将当前策略梯度除以上一次迭代的策略梯度，根据该比值计算裁剪系数，确定上下界，以保证裁剪后的策略梯度不会过大或过小，将裁剪后的策略梯度作为梯度传播的方向，确定每个参数的变化量。

步骤506，基于更新步长，对优化函数的参数进行更新，执行根据优势函数确定优化函数的策略梯度的步骤，直至目标模型中的迭代结果满足预设迭代条件，得到完成训练的目标模型。

本申请实施例中，终端基于更新步长，对优化函数的参数进行更新，根据模型参数更新后的目标模型中，当前的样本数据与目标模型的策略函数确定优势函数，基于优势函数确定当前目标模型的优化函数的策略梯度，该策略梯度用于确定基于近端策略优化算法对目标模型训练中的更新步长。直至目标模型中的迭代结果满足预设迭代条件，得到完成训练的目标模型。

本实施例中，通过近端策略优化算法对策略梯度进行裁剪，并确定目标模型训练中的更新步长，可以避免目标模型在训练中过度偏离初始状态，减少目标模型训练中的震荡，提高目标模型训练的稳定性。并通过对策略梯度的裁剪，将策略梯度的范围被有效地控制在一个稳定的区间内，迭代过程中更容易找到的梯度方向，从而在目标模型的训练中可以更快收敛。

在其中一个实施例中，如图6所示，步骤402根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到当前迭代周期的目标模型的迭代结果，包括：

步骤602，根据当前迭代周期的目标模型的平均回报值或近似值函数的误差对当前迭代周期的目标模型进行收敛判断。

本申请实施例中，终端可以基于目标模型中目标函数的类型选择对目标模型进行收敛判断的方法，具体的，平均回报值更能反映优化目标，近似值函数的误差更具信息量。可选的，终端可以根据目标模型中目标函数(策略函数)的稳定性和噪音，对收敛判断的方法进行选择，例如，平均回报值的计算涉及到环境产生的随机事件，可能会受到噪音的影响，而近似值函数的误差可能更加稳定，对异常数据更加鲁棒。

步骤604，若平均回报值呈增大趋势，或近似值函数的误差呈减小趋势，将当前迭代周期的目标模型的迭代结果确定为收敛。

本申请实施例中，对于平均回报值判断目标模型收敛的方法，终端通过记录模型每一次迭代周期的平均回报值，并将其与前一次迭代周期的平均回报值进行比较，当它们的差距小于一个预先设定的阈值时，则终端可以认为目标模型已经收敛到一个稳定的状态，可以结束训练。

对于近似值函数的误差判断目标模型收敛的方法，终端通过记录模型每次迭代周期中状态值函数的误差，并将其与前一次的误差值进行比较，当它们的差距小于一个预先设定的阈值时，则终端可以将目标模型确定未收敛到一个稳定的状态，表征目标模型可以结束训练。

本实施例中，通过平均回报值或近似值函数的误差对目标模型进行收敛判断，可以在目标模型收敛后及时结束训练，避免不必要的计算资源浪费，从而提高训练效率和速度，同时通过平均回报值或近似值函数的误差判断目标模型是否收敛能够减少训练过程中的随机波动对模型收敛判断的影响，从而提高模型的鲁棒性。

在其中一个实施例中，如图7所示，提供了一种模型调整方法的示例，包括：

步骤701，终端确定目标模型中的目标函数，即策略函数；

步骤702，终端根据函数类型感知策略，确定目标函数的函数类型；

步骤703，若目标函数的函数类型为多目标函数类型时，终端对多目标函数类型的目标函数进行加权处理，得到第一优化函数；

步骤704，若目标函数的函数类型为约束函数类型时，终端根据障碍函数法对第一优化函数进行优化处理，得到第二优化函数；

步骤705，对于函数类型为凸函数类型的目标函数，终端将目标函数的初始状态设为任意值(例如将所有变量设为0)，或者使用上次对目标模型进行优化得到的最优解作为此次优化的初始状态，然后使用近端策略优化算法迭代更新目标模型的状态，得到第三优化函数，即优化函数；

步骤706，对于函数类型为凸函数类型的目标函数，终端根据随机方法生成多个不同的起始点，然后将它们作为输入运行近端策略优化算法；

步骤707，终端根据优化函数以及近端策略优化算法、训练样本对目标模型进行训练，即对目标模型进行迭代求解；

步骤708，根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到当前迭代周期的目标模型的迭代结果；

步骤709，若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优化函数以及近端策略优化算法进行训练处理，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的模型调整方法的模型调整装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个模型调整装置实施例中的具体限定可以参见上文中对于模型调整方法的限定，在此不再赘述。

在一个实施例中，如图8所示，提供了一种模型调整装置800，包括：获取模块801、确定模块802、第一优化模块803和第二优化模块804，其中：

获取模块801，用于获取目标模型以及目标模型的训练样本；

确定模块802，用于识别目标模型中的目标函数，并根据函数类型感知策略，确定目标函数的函数类型；

第一优化模块803，用于基于目标函数的函数类型，按照函数类型对应的优化策略的处理优先级，对目标函数进行优化处理，得到优化函数；

第二优化模块804，用于根据优化函数以及近端策略优化算法、训练样本对目标模型进行训练，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

在其中一个实施例中，确定模块801具体用于：

在其中一个实施例中，第一优化模块803具体用于：

若目标函数的函数类型为多目标函数类型时，对多目标函数类型的目标函数进行加权处理，得到第一优化函数；

在目标函数的函数类型为多目标函数类型的情况下，若目标函数的函数类型为约束函数类型时，根据约束优化策略对第一优化函数进行优化处理，得到第二优化函数；

在目标函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为凸函数类型或非凸函数类型时，对第二优化函数进行优化处理，得到第三优化函数，作为优化函数。

在其中一个实施例中，第一优化模块803具体用于：

在第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为凸函数类型时，根据泰勒展开式在目标函数的最优解处进行估算，得到目标函数的近似值，并将目标函数的近似值作为第三优化函数，即优化函数；

在第二优化函数的函数类型为多目标函数类型和约束函数类型的情况下，若目标函数为非凸函数类型时，对目标函数进行梯度下降处理，得到完成梯度下降的目标函数，得到第三优化函数，作为优化函数。

在其中一个实施例中，第二优化模块804具体用于：

根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到当前迭代周期的目标模型的迭代结果；

若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优化函数以及近端策略优化算法进行训练处理，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

在其中一个实施例中，第二优化模块804具体用于：

若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据优势函数确定优化函数的策略梯度；

根据近端策略优化算法对策略梯度进行裁剪，确定目标模型的更新步长；

基于更新步长，对优化函数的参数进行更新，执行根据优势函数确定优化函数的策略梯度的步骤，直至目标模型中的迭代结果满足预设迭代条件，得到完成训练的目标模型。

在其中一个实施例中，第二优化模块704具体用于：

根据当前迭代周期的目标模型的平均回报值或近似值函数的误差对当前迭代周期的目标模型进行收敛判断；

若平均回报值呈增大趋势，或近似值函数的误差呈减小趋势，将当前迭代周期的目标模型的迭代结果确定为收敛。

上述模型调整装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过***总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储模型参数数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种模型调整方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标模型以及目标模型的训练样本；

识别目标模型中的目标函数，并根据函数类型感知策略，确定目标函数的函数类型；

基于目标函数的函数类型，按照函数类型对应的优化策略的处理优先级，对目标函数进行优化处理，得到优化函数；

根据优化函数以及近端策略优化算法、训练样本对目标模型进行训练，直至目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种模型调整方法，其特征在于，所述方法包括：

获取目标模型以及所述目标模型的训练样本；

2.根据权利要求1所述的方法，其特征在于，所述函数类型感知策略包括指标感知策略、约束感知策略与凸函数感知策略，所述根据函数类型感知策略，确定所述目标函数的函数类型，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述目标函数的函数类型，按照所述函数类型对应的优化策略的处理优先级，对所述目标函数进行优化处理，得到优化函数，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述目标函数的函数类型为多目标函数类型和约束函数类型的情况下，若所述目标函数为凸函数类型或非凸函数类型时，对所述第二优化函数进行优化处理，得到第三优化函数，作为优化函数，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述优化函数以及近端策略优化算法、训练样本对所述目标模型进行训练，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述若当前迭代周期的目标模型中的迭代结果不满足预设迭代条件，根据所述优化函数以及近端策略优化算法进行训练处理，直至所述目标模型的迭代结果满足训练完成条件，得到完成训练的目标模型，包括：

7.根据权利要求5所述的方法，其特征在于，所述根据预设收敛方法对当前迭代周期的目标模型进行收敛判断，得到所述当前迭代周期的目标模型的迭代结果，包括：

8.一种模型调整装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。