CN111563548B

CN111563548B - 一种基于强化学习的数据预处理方法、***及相关设备

Info

Publication number: CN111563548B
Application number: CN202010363808.1A
Authority: CN
Inventors: 张伟哲; 张宾; 周颖; 束建钢; 黄兴森
Original assignee: Peng Cheng Laboratory
Current assignee: Peng Cheng Laboratory
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2024-02-02
Anticipated expiration: 2040-04-30
Also published as: CN111563548A

Abstract

本发明实施例提供了一种基于强化学习的数据预处理方法、***及相关设备，基于强化学习机制实现了原始样本的过采样过程中的反馈调节，提高了数据样本过采样的合理性。本发明实施例方法包括：采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；基于强化学习机制优化所述变分自编码器模型；根据优化之后的变分自编码器模型随机生成新样本。

Description

一种基于强化学习的数据预处理方法、***及相关设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于强化学习的数据预处理方法、***及相关设备。

背景技术

数据样本的不平衡问题是指，在数据集中不同类别的数据分布不均匀。如金融风控中逾期概率较低，数据量远远少于正常数据，导致数据挖掘结果丧失对逾期风险用户的敏感度，数据挖掘结果失效。

目前数据样本的不平衡问题常见的解决方案是是从数据角度对数据样本进行过采样，生成新样本。现有的过采样算法缺少反馈环节，生成新样本的合理性有待提高。

有鉴于此有必要提出一种新的数据预处理方法。

发明内容

本发明实施例提供了一种基于强化学习的数据预处理方法、***及相关设备，基于强化学习机制实现了原始样本的过采样过程中的反馈调节，提高了数据样本过采样的合理性。

本发明实施例第一方面提供了一种基于强化学习的数据预处理方法，可包括：

采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；

基于强化学习机制优化所述变分自编码器模型；

根据优化之后的变分自编码器模型随机生成新样本。

可选的，作为一种可能的实施方式，本发明实施例中的基于强化学习的数据预处理方法中，所述基于强化学习机制优化所述变分自编码器模型，可包括：

采用原始训练集中的原始样本训练预设分类器模型，得到分类器模型；

执行预设数量的迭代计算，所述迭代计算中的一次迭代计算包括：

采用所述变分自编码器模型，随机生成新样本；

采用所述新样本训练所述分类器模型，并采用训练之后的新分类器模型对所述原始训练集中的原始样本进行分类，并计算分类指标参数及状态变量，将所述分类指标参数作为环境奖励变量；

采用预设评价器及所述状态变量计算所述变分自编码器模型的解码器的预估奖励，并根据所述预估奖励优化所述变分自编码器模型的解码器，以使得所述预估奖励最大化。

可选的，作为一种可能的实施方式，本发明实施例中的基于强化学习的数据预处理方法中，所述采用所述新样本训练所述分类器模型可包括：

若所述分类器模型为可反向传播分类器，则采用所述新样本直接训练所述分类器模型；若所述分类器模型为不可反向传播分类器，则将所述新样本加入所述原始训练集，并采用扩充之后的原始训练集训练所述预设分类器模型得到新分类器模型。

可选的，作为一种可能的实施方式，本发明实施例中，所述方法还可包括：根据所述环境奖励变量和预估奖励间的差异，训练所述评价器，使所述环境奖励变量和预估奖励间的差异最小化。

可选的，作为一种可能的实施方式，本发明实施例中，在采用所述新样本训练所述分类器模型之后，所述方法还可包括：

若所述分类器模型为可反向传播分类器，则以预设比例更新原分类器的参数；若所述分类器模型为不可反向传播分类器，则以预设概率保留原分类器。

可选的，作为一种可能的实施方式，本发明实施例中的基于强化学习的数据预处理方法还包括：

根据分类器对新样本的分类结果，选择预设类型的新样本保存至所述原始训练集。

本发明实施例第二方面提供了一种基于强化学习的数据预处理***，可包括：

训练单元，用于采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；

优化单元，用于基于强化学习机制优化所述变分自编码器模型；

输出单元，用于根据优化之后的变分自编码器模型随机生成新样本。

可选的，作为一种可能的实施方式，本发明实施例中的优化单元可包括：

训练模块，采用原始训练集中的原始样本训练预设分类器模型，得到分类器模型；

处理模块，用于执行预设数量的迭代计算，所述迭代计算中的一次迭代计算包括：

采用所述变分自编码器模型，随机生成新样本；

可选的，作为一种可能的实施方式，本发明实施例中的基于强化学习的数据预处理***可以包括：训练模块，用于根据所述环境奖励变量和预估奖励间的差异，训练所述评价器，使所述环境奖励变量和预估奖励间的差异最小化。

可选的，作为一种可能的实施方式，本发明实施例中的所述处理模块可以包括：

处理子模块，若所述分类器模型为可反向传播分类器，则采用所述新样本直接训练所述分类器模型；若所述分类器模型为不可反向传播分类器，则将所述新样本加入所述原始训练集，并采用扩充之后的原始训练集训练所述预设分类器模型得到新分类器模型。

可选的，作为一种可能的实施方式，本发明实施例中的所述处理模块还可包括：

调节子模块，若所述分类器模型为可反向传播分类器，则以预设比例更新原分类器的参数；若所述分类器模型为不可反向传播分类器，则以预设概率保留原分类器。

可选的，作为一种可能的实施方式，本发明实施例中的所述处理模块还可以包括：

保存子模块，根据分类器对新样本的分类结果，选择预设类型的新样本保存至所述原始训练集。

本发明实施例第三方面提供了一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。

本发明实施例第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面及第一方面中任意一种可能的实施方式中的步骤。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型，然后基于强化学习机制优化变分自编码器模型，最后根据优化之后的变分自编码器模型随机生成新样本。相对于现有方案，基于强化学习机制实现了原始样本的过采样过程中的反馈调节，提高了数据样本过采样的合理性。

附图说明

图1为本发明实施例中一种基于强化学习的数据预处理方法的一个实施例示意图；

图2为本发明实施例中一种基于强化学习的数据预处理方法的另一个实施例示意图；

图3为本发明实施例中一种基于强化学习的数据预处理方法的一个具体应用实施例架构示意图；

图4为本发明实施例中一种基于强化学习的数据预处理***的一个实施例示意图；

图5为本发明实施例中一种计算机装置的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、***、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

现有的过采样算法将数据生成和最终的任务割裂开来，算法只通过不同的过采样手段纠正偏斜的数据集，但并未考虑过采样对下游的任务的影响，导致不同的过采样算法生成的新样本在不同任务上的提高效果不一致。为了解决现有方法中的问题，本发明提出一种基于强化学习的数据预处理方法，提高生成新样本的合理性。

为了便于理解，下面对本发明实施例中的具体流程进行描述，请参阅图1，本发明实施例中一种基于强化学习的数据预处理方法的一个实施例可包括：

101、采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；

当需要实现原始训练集的过采样生成新样本时，基于强化学习的数据预处理***可以采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型。

其中，变分自编码器(Variational auto-encoder，VAE)是一类数据生成模型(generative model)，用于生成和原数据相似的数据。变分自编码器能够学习到原始训练集中的原始样本的分布信息，且其解码器能够从预设分布中采样，生成新样本数据。

102、基于强化学习机制优化变分自编码器模型；

实际运用中，数据预处理和任务两者之间的互相影响，将数据预处理和任务割裂开来，并不能根据任务的需求针对性地产生合理的数据。有鉴于此，申请人注意到可以设置一定的反馈修正机制，例如，基于强化学习机制实现新样本衡量与修正。

其中，机器学习中的强化学习的基本原理是：如果行为体(actor)的某个行为(action)策略导致环境(environment)正的奖励(reward)，那么行为体以后产生这个行为策略的趋势便会加强。强化学习把学习看作试探评价过程，actor选择一个动作用于环境，环境接受该动作后状态(state)发生变化，同时产生一个reward(奖或惩)反馈给actor，actor根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到reward正强化的概率增大。

实际运用中，可以将变分自编码器模型输出新样本的行为作为强化学习机制中的action，并根据用户的任务需求设置合理的环境(environment)变量、状态(state)变量及奖励(reward)，以实现变分自编码器模型的优化，具体的强化学习机制的实现方式，此处不做限定。

103、根据优化之后的变分自编码器模型随机生成新样本。

基于强化学习机制优化之后的变分自编码器模型，可以随机生成新样本，并可以进一步筛选输出与用户的任务需求相关的新样本，实现了原始样本的过采样过程中的反馈调节，提高了数据样本过采样的合理性。

为了便于理解，下面将对本发明实施例中的强化学习机制的实现过程进行详细描述。请参阅图2，本发明实施例中一种基于强化学习的数据预处理方法的另一个实施例可包括：

201、采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；

数据生成步骤中的变分自编码器分为编码器(encoder)和解码器(decoder)，不仅可以建模原始数据分布，在建模时还不需要对原始数据有分布假设，因而应用范围较广，本发明实施例采用变分自编码器实现过采样生成新样本。

当需要实现原始训练集的过采样生成新样本时，基于强化学习的数据预处理***可以采用预设的变分自编码器对数据的原始训练集中的原始样本分布进行建模，并通过限制隐层空间变量的分布形式来提供随机过采样功能。其损失函数如公式(1)所示：

L＝‖X_o-X_f‖²+λKL(P(z∣c，X)‖N(0,I)) (1)

KL(P‖Q)＝E_x～p[logP(x)-logQ(x)] (2)

其中，其中KL表示Kullback-Leibler散度，用于衡量两个数学分布之间的差异，在此处KL散度的定义如公式(2)所示，X_o表示原始数据，X_f表示经过变分自编码器的重构数据，P(z∣c，X)表示在编码器映射下数据集的真实隐层变量分布，z表示隐层变量，N(0,I)表示多维标准正态分布。KL(P‖Q)表示计算分布P(x)与Q(x)之间的KL散度，E_x～p表示x服从分布P(x)。

在获得原始训练集中的原始样本之后，可以采用原始训练集中的原始样本训练预设变分自编码器模型，最小化公式(1)中定义的损失函数，得到变分自编码器模型。

202、采用原始训练集中的原始样本训练预设分类器模型，得到分类器模型；

本发明实施例中，可以将变分自编码器模型输出新样本的行为作为强化学习机制中的action，并根据用户的任务需求设置合理的分类器作为环境(environment)变量。例如，在离散数据中可以使用贝叶斯框架分类器，在连续数据中可以采用多层神经网络或者支持向量机，此外，还可以用于监督学习中的其他任务，如线性回归等任务，具体的分类器模型可以根据用户的需求进行合理的设置，具体此处不做限定。

203、采用变分自编码器模型，随机生成新样本；

训练变分自编码器模型之后，可以在隐层空间的正态分布中随机采样一批隐层变量，并通过变分自编码器的解码器映射为样本空间中的新样本。

204、采用新样本训练分类器模型，并采用训练之后的新分类器模型对原始训练集中的原始样本进行分类，并根据分类指标参数计算环境奖励变量；

在随机生成新样本之后，***可以采用新样本训练分类器模型，并采用训练之后的新分类器模型对原始训练集中的原始样本进行分类。

本发明实施例中可以将分类器的分类指标r作为环境中的奖励(reward)，具体的分类指标r根据所选的分类器确定，此处不做限定。强化学习中的状态(state)设置如下：若采用的分类器为可反向传播的神经网络分类器，则将神经网络分类器的权重直接作为状态，如公式(3)所示，其中w_t，b_t是当前迭代t次对应的神经网络权重；若采用的分类器为不可反向传播的分类器，则将分类器在原始数据集上的正类分类概率作为状态，如公式(4)所示，计算每个训练样本在当前分类器下分类为正类的概率，其中X_o表示训练样本，θ_t表示迭代t次对应的分类器。

S_t＝ (w_t，b_t) (3)

P_t＝P(X_o∣θ_t) (4)

可选的，作为一种可能的实施方式，采用新样本训练分类器模型的具体过程可以包括：

若分类器模型为可反向传播分类器，则采用新样本直接训练分类器模型；若分类器模型为不可反向传播分类器，则将新样本加入原始训练集，并采用扩充之后的原始训练集训练预设分类器模型得到新分类器模型。

205、采用预设评价器及状态变量计算变分自编码器模型的解码器的预估奖励，并根据预估奖励优化变分自编码器模型的解码器，以使得预估奖励最大化；

强化学习机制中设置有评价器(基于多层神经网络实现)，该评价器可以根据状态变量计算变分自编码器模型的解码器的预估奖励(参照公式5)，并根据预估奖励优化变分自编码器模型的解码器，以使得预估奖励最大化。

r_p＝critic(S_t+1，X_p) (5)

本发明实施例中还可以根据评价器对应的损失函数训练评价器，使其后续对新样本的评估更准确。每次根据新样本对应的环境奖励变量及状态变量之后，***可以参照公式(5)计算评价器的预估奖励，根据对应的预估奖励微调解码器，使后续产生的新样本能够最大化预估奖励。具体的更新的参数计算过程如公式(6)所示，其中，其中公式(5)中的critic为评价器对应的多层神经网络，S_t+1表示新分类器的对应状态，X_p表示当前的新样本，r为分类器返回的真实奖励，r_p为评价器的预估奖励，更新的解码器参数包括w_D为解码器权重，b_D为解码器偏置。

206、根据环境奖励变量和预估奖励间的差异，训练评价器；

可选的，为了进一步提高评价器的准确性，本发明实施例中还可以根据环境奖励变量和预估奖励间的差异，训练评价器，使环境奖励变量和预估奖励间的差异最小化，使其后续对新样本的评估更准确。每次根据新样本对应的环境奖励变量及状态变量之后，***可以参照公式(7)计算评价器的损失函数，具体的评价器更新的参数计算过程如公式(8)所示，其中，更新的评价器参数包括w_critic，b_critic，分别为评价器中的神经网络模型对应的权重和偏置。

loss₃＝‖r-r_p‖² (7)

可以理解的是，强化学习的过程是持续性的，可以通过多轮的强化学习进一步提高数据样本过采样的合理性。上述步骤203至206可以作为一轮强化学习对应的一次迭代计算，实际运用中，可以根据用户的需求，执行预设数量的迭代计算，具体迭代次数此处不做限定。若无需执行206时，上述步骤203至205可以作为一轮强化学习对应的一次迭代计算

207、若分类器模型为可反向传播分类器，则以预设比例更新原分类器的参数；若分类器模型为不可反向传播分类器，则以预设概率保留原分类器；

在进行多轮强化学习的过程中，某一轮的强化学习过程随机产生的新样本可能不合理，基于不合理的新样本更新得到的新分类器会对最终的任务有负面影响，不利于数据样本过采样的合理性。为了降低负面影响，可选的，作为一种可能的实施方式，本发明实施例中还可以在每一轮的强化学习之后，可以选择性的更新原分类器，具体的更新过程可以包括：若分类器模型为可反向传播分类器，则以预设比例更新原分类器的参数；若分类器模型为不可反向传播分类器，则以预设概率保留原分类器。

示例性的，当分类器模型为可反向传播分类器时，可以按照公式(9)中的方式，按照预设比例τ更新原分类器的权重，其中w_t+1为第t+1次迭代计算后分类器的神经网络权重。当分类器模型为不可反向传播分类器时，可以按照预设比例λ保留原分类器，产生随机数P，若P＞λ，则θ_t+1＝θ_t，若P≤λ，则θ_t+1＝θ_t+1，其中θ_t+1为第t+1次迭代计算后分类器。

可以理解的是，步骤206中更新原分类器的过程是可选步骤，可以根据用户需求选择执行。

208、根据优化之后的变分自编码器模型随机生成新样本。

基于强化学习机制，经过执行预设数量的迭代计算的优化之后的变分自编码器模型，可以输出与用户的任务需求相关的新样本，实现了原始样本的过采样的反馈调节，提高了数据样本过采样的合理性。

可选的，本方法还可以保留训练结束时的分类器模型，当任务需求分类器时，可以直接使用上述强化学习过程中的分类器，节约***计算资源。

可选的，每一轮强化学习对应的迭代计算过程中产生的新样本可以根据分类器对新样本的分类结果，选择预设类型的新样本保存至原始训练集，例如用户需要正样本，则可以根据分类器对新样本的分类结果选择保留正样本。

与传统的先扩展数据集，后训练分类器的过程相比，本发明将数据生成和分类器的最终性能联合起来，将提升分类性能作为数据生成阶段的目标，本发明使用梯度搜索方式，有目的性地生成特定的数据以提高下游分类器性能，并尽可能减少生成数据的量。本发明提高了生成数据与最终分类器的分类性能的相关性和合理性。

为了便于理解，下面将结合具体的运用实施例对本发明实施例中的基于强化学习的数据预处理方法进行描述。

请参阅图3，本发明的一种基于强化学习的数据生成框架的各个步骤具体实施方式如下：

整个框架的结构如图3所示，框架中有3个部分，分别对应强化学习中的不同结构。生成器对应强化学习中的行为体(actor)，其产生的新样本作为行为体采取的动作(action)；分类器对应环境(environment)，分类器的分类指标作为环境中的奖励(reward)。其中，

生成器：该生成器包含变分自编码器。变分自编码器分为编码器(encoder)和解码器(decoder)，不仅可以建模原始数据分布，在建模时还不需要对原始数据有分布假设，因而应用范围较广。

采用变分自编码器对数据的原始分布进行建模，并通过限制隐层空间变量的分布形式来提供随机过采样功能。其损失函数如公式(1)所示：

L＝‖X_o-X_f‖²+λKL(P(z∣c，X)‖N(0,I)) (1)

KL(P‖Q)＝E_x～p[logP(x)-logQ(x)] (2)

其中KL表示Kullback-Leibler散度，用于衡量两个数学分布之间的差异，在此处KL散度的定义如公式(2)所示，X_o表示原始数据，X_f表示经过变分自编码器的重构数据，P(z∣c，X)表示在编码器映射下数据集的真实隐层变量分布，z表示隐层变量，N(0,I)表示多维标准正态分布。KL(P‖Q)表示计算分布P(x)与Q(x)之间的KL散度，E_x～p表示x服从分布P(x)。

变分自编码器的训练过程分为两步：第一步中仅仅对数据原始分布进行建模，直接优化公式(1)中的损失函数，并不考虑下游的分类器和分类标准；第二步中根据评价器(critic)的反馈信息优化生成器，使生成样本能够有效提高最终的分类目标。

在这一步骤中，由于编码器的损失函数与隐层数据分布无关，因而仅对解码器进行优化，评价器预估奖励如公式(5)所示。

r_p＝critic(S_t+1，X_p) (5)

其中公式(5)critic为评价器对应的多层神经网络，S_t+1表示新分类器的对应状态，X_p表示当前的生成样本。

解码器参数更新如公式(6)所示，使用梯度上升算法更新其参数，其中w_D为解码器权重，b_D为解码器偏置。

分类器：根据不同任务特性可以选取不同的分类器，如在离散数据中可以使用贝叶斯框架分类器，在连续数据中可以采用多层神经网络或者支持向量机，此外，本框架还可以用于监督学习中的其他任务，如回归等。本发明的优势在于可以优化多种下游任务的不同指标。以分类任务为例，将分类器分为可以使用反向传播优化与不可反向传播优化分类器。在反向传播(back propagation)中梯度可以不断叠加，因此在分类器训练初期使用原始训练集进行训练，而在生成器微调阶段时，仅仅使用生成数据来优化分类器，以评估这批生成数据对分类器的作用。在训练不可反向传播优化的分类器时，由于分类器的更新状态不能直接叠加，因此训练初期使用原始训练集进行训练，而在生成器微调阶段时，则将生成数据加入到原始训练集中进行扩充，并采用扩充后的数据集训练新的分类器，同时根据新分类器的分类结果确认是否保留这批数据，即数据集会变得越来越大。

根据分类器的不同，强化学习中的状态(state)变量设置如下：在可以反向传播的分类器里，神经网络分类器的参数直接作为状态，如公式(3)所示，其中w_t，b_t是当前迭代t次对应的神经网络权重；在不可反向传播的分类器里，分类器在原始数据集上的正类分类概率作为状态，如公式(4)所示，其中X_o表示训练样本，θ_t表示迭代t次对应的分类器，公式(4)计算每个训练样本在当前分类器下分类为正类的概率。

S_t＝ (w_t，b_t) (3)

S_t＝P(X_o∣θ_t) (4)

评价器：该评价器采用强化学习框架，根据新分类器的分类结果对新样本进行衡量，衡量结果作为预估奖励r_p(计算参照公式(5))参与生成器的优化，这一设定可以保证新样本与衡量结果的相关性，此外，该框架还可以封装奖励的计算细节，因此可以优化不同的任务指标。

为了获得比较准确的评价器，可以使用多层神经网络，其损失函数如公式(7)所示，其中r为分类器返回的真实奖励，r_p为critic预测的奖励，参数更新方式如公式(8)所示，其中w_critic，b_critic分别为评价器对应的权重和偏置。

loss₃＝‖r-r_p‖² (7)

此外，如果分类器可以使用反向传播，则每一轮的强化学习将新分类器的权重以一定比例更新原分类器，如公式(9)所示，按照预设比例τ更新原分类器的参数，其中w_t+1为第t+1次迭代计算后分类器的神经网络权重。当分类器模型为不可反向传播分类器时，可以按照预设比例λ更新原分类器，产生随机数P，若P＞λ，则θ_t+1＝θ_t，若P≤λ，则θ_t+1＝θ_t+1，其中θ_t+1为第t+1次迭代计算后分类器。

本实施例与传统的过采样的过程相比，本发明将数据生成和分类器的最终性能联合起来，将提升分类性能作为数据生成阶段的目标，本发明使用梯度搜索方式，有目的性地生成特定的数据以提高下游分类器性能，并尽可能减少生成数据的量。本发明提高了生成数据与最终分类器的分类性能的相关性。本实施例利用强化学习方法来拟合新数据对分类器的影响，并将预测结果反馈给数据生成器。分类器作为强化学习中的环境，不需要限制分类器类型；其分类性能作为奖励，也不需要限制分类指标类型，本发明降低了数据生成与分类器训练的耦合性。

可以理解的是，上述强化学习的实现方式仅仅是示例性的，实际运用中可以根据需求修改任务的类型、替换分类器或者监督学习中的其他模型，还可以在计算环境奖励时根据选用的分类器类型设置分类评价指标，例如精度，F1值，AUC值等，具体此处不做限定。

请参阅图4，本发明实施例还提供了一种基于强化学习的数据预处理***，可包括：

训练单元401，用于采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；

优化单元402，用于基于强化学习机制优化变分自编码器模型；

输出单元403，用于根据优化之后的变分自编码器模型随机生成新样本。

处理模块，用于执行预设数量的迭代计算，迭代计算中的一次迭代计算包括：

采用变分自编码器模型，随机生成新样本；

采用新样本训练分类器模型，并采用训练之后的新分类器模型对原始训练集中的原始样本进行分类，并计算分类指标参数及状态变量，将分类指标参数作为环境奖励变量；

根据状态变量计算变分自编码器模型的解码器的预估奖励，并根据预估奖励优化变分自编码器模型的解码器，以使得预估奖励最大化。

可选的，作为一种可能的实施方式，本发明实施例中的***可以包括：训练模块，用于根据所述环境奖励变量和预估奖励间的差异，训练所述评价器，使所述环境奖励变量和预估奖励间的差异最小化。

可选的，作为一种可能的实施方式，本发明实施例中的处理模块可以包括：

处理子模块，若分类器模型为可反向传播分类器，则采用新样本直接训练分类器模型；若分类器模型为不可反向传播分类器，则将新样本加入原始训练集，并采用扩充之后的原始训练集训练预设分类器模型得到新分类器模型。

可选的，作为一种可能的实施方式，本发明实施例中的处理模块还可包括：

调节子模块，若分类器模型为可反向传播分类器，则以预设比例更新原分类器的参数；若分类器模型为不可反向传播分类器，则以预设概率保留原分类器。

可选的，作为一种可能的实施方式，本发明实施例中的处理模块还可以包括：

保存子模块，根据分类器对新样本的分类结果，选择预设类型的新样本保存至原始训练集。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的***，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

上面从模块化功能实体的角度对本发明实施例中的基于强化学习的数据预处理***进行了描述，请参阅图5，下面从硬件处理的角度对本发明实施例中的计算机装置进行描述：

该计算机装置1可以包括存储器11、处理器12和输入输出总线13。处理器12执行计算机程序时实现上述图1所示的基于强化学习的数据预处理方法实施例中的步骤，例如图1所示的步骤101至103。或者，处理器执行计算机程序时实现上述各装置实施例中各模块或单元的功能。

本发明的一些实施例中，处理器具体用于实现如下步骤：

基于强化学习机制优化变分自编码器模型；

根据优化之后的变分自编码器模型随机生成新样本。

可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：

执行预设数量的迭代计算，迭代计算中的一次迭代计算包括：

采用变分自编码器模型，随机生成新样本；

可选的，作为一种可能的实施方式，处理器还可以用于实现如下步骤：根据环境奖励变量和预估奖励间的差异，训练评价器，使环境奖励变量和预估奖励间的差异最小化。

若分类器模型为可反向传播分类器，则以预设比例更新原分类器的参数；若分类器模型为不可反向传播分类器，则以预设概率保留原分类器。

根据分类器对新样本的分类结果，选择预设类型的新样本保存至原始训练集。

其中，存储器11至少包括一种类型的可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是计算机装置1的内部存储单元，例如该计算机装置1的硬盘。存储器11在另一些实施例中也可以是计算机装置1的外部存储设备，例如计算机装置1上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，存储器11还可以既包括计算机装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于计算机装置1的应用软件及各类数据，例如计算机程序01的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行存储器11中存储的程序代码或处理数据，例如执行计算机程序01等。

该输入输出总线13可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。

进一步地，计算机装置还可以包括有线或无线网络接口14，网络接口14可选的可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等)，通常用于在该计算机装置1与其他电子设备之间建立通信连接。

可选地，该计算机装置1还可以包括用户接口，用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的，用户接口还可以包括标准的有线接口、无线接口。可选的，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在计算机装置1中处理的信息以及用于显示可视化的用户界面。

图5仅示出了具有组件11-14以及计算机程序01的计算机装置1，本领域技术人员可以理解的是，图5示出的结构并不构成对计算机装置1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时，可以实现如下步骤：

基于强化学习机制优化变分自编码器模型；

根据优化之后的变分自编码器模型随机生成新样本。

采用变分自编码器模型，随机生成新样本；

在本申请所提供的几个实施例中，应该理解到，所揭露的***，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccess Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于强化学习的数据预处理方法，其特征在于，包括：

采用原始训练集中的原始样本训练预设变分自编码器模型，得到变分自编码器模型；其中，所述原始样本为金融风控领域中逾期风险用户相关的数据；

基于强化学习机制优化所述变分自编码器模型；

根据优化之后的变分自编码器模型随机生成新样本；

所述基于强化学习机制优化所述变分自编码器模型，包括：

采用所述变分自编码器模型，随机生成新样本；

采用预设评价器及所述状态变量计算所述变分自编码器模型的解码器的预估奖励，并根据所述预估奖励优化所述变分自编码器模型的解码器，以使得所述预估奖励最大化；

在采用所述新样本训练所述分类器模型之后，所述方法还包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

根据所述环境奖励变量和预估奖励间的差异，训练所述评价器，使所述环境奖励变量和预估奖励间的差异最小化。

3.根据权利要求1所述的方法，其特征在于，所述采用所述新样本训练所述分类器模型包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.一种基于强化学习的数据预处理***，其特征在于，包括：

输出单元，用于根据优化之后的变分自编码器模型随机生成新样本；

所述优化单元包括：

采用所述变分自编码器模型，随机生成新样本；

所述处理模块包括：

6.根据权利要求5所述的***，其特征在于，还包括：

训练模块，用于根据所述环境奖励变量和预估奖励间的差异，训练所述评价器，使所述环境奖励变量和预估奖励间的差异最小化。

7.一种计算机装置，其特征在于，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至4中任意一项所述方法的步骤。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1至4中任意一项所述方法的步骤。