CN108509627B

CN108509627B - 数据离散化模型训练方法和装置、数据离散方法

Info

Publication number: CN108509627B
Application number: CN201810307364.2A
Authority: CN
Inventors: 徐挺洋; 郑胤; 黄俊洲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-04-08
Filing date: 2018-04-08
Publication date: 2021-08-31
Anticipated expiration: 2038-04-08
Also published as: CN108509627A

Abstract

本申请涉及一种数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质，该训练方法包括：获取离散训练数据和离散区间数；将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数；基于高斯参数生成与离散训练数据对应的隐层变量；将隐层变量输入解码神经网络，得到还原数据；根据离散训练数据和还原数据调整编码神经网络和解码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件；将编码神经网络最终生成的高斯参数作为各离散区间的特征。通过该方法获得非连续的散区间，以实现数据非线性离散，避免大数据因线性离散而造成的数据丢失问题。

Description

数据离散化模型训练方法和装置、数据离散方法

技术领域

本申请涉及数据挖掘技术领域，特别是涉及一种数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质。

背景技术

随着信息技术的快速发展，海量数据信息不断积累，从海量数据中挖掘有效信息的数据挖掘技术也得以不断改进。而在数据挖掘算法中，其时空效率非常依赖于数据的类型，因此，对数据进行离散化处理，以将数据统一为分类类型数据，对快速实现数据的挖掘具有重要意义。

传统的数据离散方法一般采用基于线性变换的方法，例如，根据连续值进行等差划分，根据连续值的个数进行等频划分，又或者根据连续值的熵信息进行划分等。而在大数据环境下中，随着数据量和数据复杂度的持续增加，基于线性变换的离散方式极易造成数据中重要信息的丢失，进而影响数据挖掘的有效性。

发明内容

基于此，有必要针对基于线性变换的离散方式极易造成数据中重要信息的丢失的技术问题，提供一种数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质。

一种数据离散化模型训练方法，所述方法包括：

获取离散训练数据和离散区间数；

将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数；

基于所述高斯参数生成与所述离散训练数据对应的隐层变量；

将所述隐层变量输入解码神经网络，得到还原数据；

根据所述离散训练数据和所述还原数据调整所述编码神经网络和所述解码神经网络的参数，并返回将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件；

将所述编码神经网络最终生成的高斯参数作为各离散区间的特征。

一种数据离散方法，所述方法包括：

获取输入数据；

将所述输入数据输入预先训练好的数据离散化模型，得到与所述输入数据对应的高斯参数，根据所述高斯参数生成所述输入数据离散后的离散数据；所述数据离散化模型由任一项实施例所述的数据离散化模型训练方法训练得到。

一种数据离散化模型训练装置，所述装置包括：

数据获取模块，用于获取离散训练数据和离散区间数；

高斯参数生成模块，用于将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数；

隐层变量生成模块，用于基于所述高斯参数生成与所述离散训练数据对应的隐层变量；

数据还原模块，用于将所述隐层变量输入解码神经网络，得到还原数据；

网络参数调整模块，用于根据所述离散训练数据和所述还原数据调整所述编码神经网络和所述解码神经网络的参数，并返回将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件；

离散区间获取模块，用于将所述编码神经网络最终生成的高斯参数作为各离散区间的特征。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取离散训练数据和离散区间数；

将所述隐层变量输入解码神经网络，得到还原数据；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取离散训练数据和离散区间数；

将所述隐层变量输入解码神经网络，得到还原数据；

上述数据离散化模型训练方法和装置、数据离散方法、计算机设备和存储介质，利用编码神经网络生成与离散区间数相同数量的高斯参数，进而基于高斯混合参数生成与离散训练数据对应的隐层变量，通过对编码生成的隐层变量进行还原得到还原数据，并根据离散训练数据和还原数据对数据离散化模型进行反向传播训练，使得最终训练得到的编码神经网络生成的高斯参数，能够最有效地表征隐层变量的聚类特征，而该聚类特征即可作为离散区间特征，以便后续根据离散区间特征将待离散数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据因线性离散而造成的数据丢失问题，提高了数据离散的有效性。

附图说明

图1为一个实施例中数据离散化模型训练方法的应用环境图；

图2为一个实施例中数据离散化模型的框架图；

图3为一个实施例中数据离散化模型训练方法的流程示意图；

图4为一个实施例中还原数据生成步骤的流程示意图；

图5为一个实施例中还原数据生成步骤的流程示意图；

图6为一个实施例中离散训练数据生成步骤的流程示意图；

图7为一个实施例中数据离散化模型训练方法的流程示意图；

图8为一个实施例中数据离散方法的流程示意图；

图9为一个实施例中数据离散化预处理步骤的框架图；

图10为一个实施例中数据离散化模型训练装置的结构框图；

图11为一个实施例中数据离散化模型训练装置中部分模块的结构框图；

图12为一个实施例中计算机设备的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中数据离散化模型训练方法的应用环境图。参照图1，该数据离散化模型训练方法应用于数据离散化模型训练***。该数据离散化模型训练***包括终端110。终端110具体可以是台式终端或移动终端。终端110可实现与用户的交互，接收用户输入的数据和指令。基于用户的操作需求，终端110可实现对不同机器学习模型的训练，以及数据预处理过程的数据离散化模型训练。

在一实施例中，如图2所示，由编码网络、解码网络以及高斯混合模型生成模块构成一个基于变分自编码神经网络的数据离散化模型。下面结合该数据离散化模型进一步对数据离散化模型训练方法进行说明。

进一步参照图3，在一个实施例中，提供了一种数据离散化模型训练方法。本实施例主要以该方法应用于上述图1中的终端110来举例说明。参照图3，该数据离散化模型训练方法具体包括如下步骤：

S301，获取离散训练数据和离散区间数。

其中，离散训练数据是指数据挖掘的预处理过程中用于训练数据离散化模型的数据。以Iplus平台中进行文章点击率预测模型训练为例，对应的离散训练数据可以包括周期内文章被浏览次数、文章被浏览时长、用户年龄等特征数据。离散训练数据一般具有数据样本大、数据多样化，数据样本质量较高的特点。具体地，离散训练数据可以根据HDFS(HadoopDistributed File System，分布式文件***)中获得。离散区间数是指离散处理时需要被划分的区间的个数，该区间数可以根据用户需求以及经验进行设定。

具体地，在数据挖掘模型训练时，从文件***中读取待处理数据得到离散训练数据，并根据输入信号获得离散区间数。

S302，将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数。

其中，高斯参数是指形成高斯分布的均值和标准差。在本实施例中，高斯参数的个数与离散区间数相同，也即均值和标准差的组数与离散区间数相同。编码神经网络的初始参数为随机生成的参数。

S303，基于高斯参数生成与离散训练数据对应的隐层变量。

其中，隐层变量是指在统计学中，客观存在但不可观测的随机变量，通常可通过可观测变量的样本对隐层变量作出推断。比如，在文章点击率预测样本数据中，文章被浏览时长可能与用户年龄或者性别存在某种联系，而这种联系难以根据样本数据直观地体现出来，此时，将文章被浏览时长映射为与用户年龄或者性别相关的数据，则该映射得到的数据可视为文章被浏览时长的一个隐层变量。而事实上，针对某一特征，其隐层变量具体由哪些因素决定，需要通过不断的假设和验证才能最终得以确定。

基于大数定理，通常可以用高斯分布的概率密度函数来表示某些因素产生的影响。因此，本实施例中，通过编码神经网络生成高斯参数，以假设隐层变量服从对应的高斯分布。为更为精确地表示离散训练数据的分布，并将离散训练数据映射至更符合实际分布的隐层空间，本实施例利用编码神经网络对离散训练数据进行处理，得到与离散区间数相同数量的高斯参数，多组高斯参数即组成了高斯混合模型，进而通过多组高斯参数将离散训练数据映射隐层空间，得到对应的隐层变量。也即，通过假设隐层空间服从由多个高斯分布组成的高斯混合分布，最终得到离散训练数据对应的隐层变量。基于编码神经网络生成的多组高斯参数，将离散训练数据转换为高维的隐层变量，以获得较好的聚类特性。

比如，假设文章被浏览时长的隐层变量包括用户年龄，不同年龄阶段的用户对于文章被浏览时长的影响服从一个对应的高斯分布，则可形成服从高斯分布的多个聚类，每一个高斯分布的特征均可作为各离散区间的特征的依据。具体地，高斯分布的特征可由高斯参数进行表示，每一个高斯分布的均值和标准差即为对应的高斯参数。

具体地，隐层变量的维数高于离散训练数据的维数，通过将离散训练数据映射至更高维更利于高斯混合分布的隐层空间，以便基于隐层空间中隐层变量的聚类特征对数据进行离散，获得更好的数据离散化效果。

S304，将隐层变量输入解码神经网络，得到还原数据。其中，解码神经网络的初始参数为随机生成的参数。

将离散训练数据通过编码得到的隐层变量输入至解码神经网络，通过解码神经网络对隐层变量进行解码重构，以将隐层变量尽可能地还原成与输入的离散训练数据相似的还原数据。

由于隐层变量是基于高斯概率模型转换而成，在将隐层变量重构成还原数据必然存在一定程度的损失，也即还原数据的分布与离散训练数据的分布之间存在一定程度的偏差。为使还原数据与离散训练数据之间的损失尽可能地小，以使得通过该数据离散化模型生成的隐层变量的分布，能够有效表征离散训练数据的分布，当未达到预设迭代结束条件时，继续执行以下步骤S305：

S305，根据离散训练数据和还原数据调整编码神经网络和解码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件。

在本实施例中，预设迭代结束条件是指离散训练数据和还原数据之间的损失小于预设允许范围或达到预先设定的最大迭代次数。

在本实施例中，当未满足预设迭代结束条件时，根据离散训练数据和还原数据来调整编码神经网络和解码神经网络的相关参数，并继续执行离散训练数据的编码和解码过程，也即实现对数据离散化模型的反向传播训练，直到满足预设迭代条件为止。换而言之，通过对数据离散化模型的反向传播训练，使得离散训练数据和还原数据之间的损失小于预设允许范围，得到最终确定的编码神经网络，以通过最终确定的编码神经网络实现对离散训练数据的有效编码。

具体地，基于梯度优化算法来调整编码神经网络和解码神经网络的相关参数，并在反向传播训练时采用重参数化方法。

S306，将编码神经网络最终生成的高斯参数作为各离散区间的特征。

通过利用离散训练数据和还原数据之间的损失，对数据离散化模型进行反向传播训练，得到最终确定的编码神经网络。经过训练的编码神经网络结合高斯混合模型生成模块，已经能够生成有效表征离散训练数据的隐层变量。因此，此时得到的隐层变量的聚类特征即可表示离散区间的特征，而隐层变量是由编码神经网络生成的高斯参数生成的，编码神经网络最终生成的高斯参数即为隐层变量的聚类特征。进一步地，由于各聚类为非线性的聚类，因此，可基于非线性的聚类特征实现对数据的非线性离散。

上述数据离散化模型训练方法，利用编码神经网络生成与离散区间数相同数量的高斯参数，进而基于高斯混合参数生成与离散训练数据对应的隐层变量，通过对编码生成的隐层变量进行还原得到还原数据，并根据离散训练数据和还原数据对数据离散化模型进行反向传播训练，使得最终训练得到的编码神经网络生成的高斯参数，能够最有效地表征隐层变量的聚类特征，而该聚类特征即可作为离散区间特征，以便后续根据离散区间特征将待离散数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据因线性离散而造成的数据丢失问题，提高了数据离散的有效性。

在一实施例中，基于高斯参数生成与离散训练数据对应的隐层变量，包括：基于预设分类分布，生成与离散训练数据中各数据对应的分布选择参数；分别根据分布选择参数，生成与离散训练数据中各数据对应的隐层变量。

其中，预设分类分布是指预先设置有分类分布的概率参数的分布模型。具体地，可以为服从概率参数π的分类分布，概率参数π具体概率值可预先进行初始设置，例如，π_c＝0.25表示参数c被选中的概率为0.25。分布选择参数为属于高斯参数的组数的随机数。以编码神经网络生成了1～K组高斯参数为例，则分布选择参数c∈{1，…，K}。

在本实施例中，基于预设分类分布，生成与离散训练数据中各数据对应的分布选择参数，进而根据该分布选择参数即可生成对应的隐层变量。

具体地，分别根据分布选择参数生成与离散训练数据中各数据对应的隐层变量，包括：获取与分布选择参数对应的高斯参数；分别根据高斯参数生成与离散训练数据中各数据对应的隐层变量。

编码神经网络在生成K组高斯参数后，依次将各组参数标号为1～K，在得到分布选择参数后，获取标号与该分布选择参数相同的高斯参数，并根据选出的高斯参数生成对应的隐层变量，生成的隐层变量该高斯参数对应的高斯分布。

以基于预设分类分布生成分布选择参数c为例，从高斯混合参数中选出第c组均值和标准差，根据选出的第c组均值和标准差进行采样得到相应的隐层变量，进而完成了将离散训练数据转换成隐层变量，实现低维数据空间向高维隐层空间的映射。

在一实施例中，如图4所示，将隐层变量输入解码网络，得到还原数据，包括：

S402，将隐层变量输入解码网络，并获取离散训练数据的数据类型。

S404，根据数据类型生成与数据类型对应的分布参数。

不同的数据类型通常具备有不同的概率分布函数，在本实施例中，根据离散训练数据的数据类型即可确定其概率分布函数，进而利用解码神经网络生成对应概率分布函数所需的分布参数，并利用分布参数对隐层变量进行解码还原处理。

S406，按照分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

按照分布参数对隐层变量进行解码还原处理，得到符合由该分布参数形成概率分布模型的还原数据，该还原数据与离散训练数据对应。

具体地，数据类型包括二值化数据和连续型数据，当离散训练数据为二值化数据时，采用伯努利分布还原处理；当离散训练数据为连续型数据时，采用高斯分布还原处理。具体地，如图5所示：

S502，将隐层变量输入解码网络，并获取离散训练数据的数据类型。

S504，当离散训练数据为二值化数据时，生成伯努利分布参数。

S506，根据伯努利分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

当离散训练数据为二值化数据时，通过解码神经网络生成伯努利分布所需要的参数向量μ_i，并基于该参数向量符合伯努利概率分布的还原数据

S508，当离散训练数据为连续型数据时，生成高斯分布参数。

S510，根据高斯分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

当离散训练数据为连续型数据时，通过解码神经网络生成高斯分布所需要的均值向量μ_i和均方差向量

并基于该参数向量符合高斯概率分布的还原数据

在一实施例中，根据离散训练数据和还原数据调整编码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件，包括：获取离散训练数据和还原数据的重构损失；根据重构损失调整编码神经网络和解码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至重构损失满足预设迭代结束条件。

在本实施例中，首先计算离散训练数据与还原数据的重构损失，并判断该重构损失是否满足预设条件，若不满足，则对变分自编码神经网络的相关参数进行调整，直至根据调整后的变分自编码神经网络所生成的还原数据，能够最大化还原成离散训练数据。

在一实施例中，根据重构损失调整编码神经网络的参数具体为，通过离散训练数据和还原数据之间的最大似然来调整编码神经网络的参数。具体地，通过构造一个限制最大似然函数的下界函数，通过对编码神经网络的参数的调整来不断优化这个下界函数，使下界函数最大值逼近实际的极大值，其中，下界函数可由以下公式(1)表示：

其中，L_ELBO表示下界函数，x表示离散训练数据，z表示隐层变量，c表示分布选择参数，p(x,z,c)表示隐层变量与离散训练数据的联合概率，q(z,c|x)表示用以逼近实际后验概率的一个变分后验。

由于编码时已生成隐层变量，因此，p(x,z,c)联合概率可根据以下公式(2)计算得到：

p(x,z,c)＝p(x|z)p(z|c)p(c) (2)

其中，p(x|z)表示已知隐层变量z，离散训练数据x的条件概率；p(z|c)表示已知分布选择参数c，隐层变量z的条件概率；p(c)表示分布选择参数的选取概率。

进一步地，由于离散训练数据x与c在z上无关，因此，可以得到各条件概率计算方法如下：

其中，Cat表示分类分布，π表示分类分布的参数，μ_c表示多组高斯参数中的均值向量，

表示多组高斯参数中的方差向量。当离散训练数据为二值化数据时，μ_x表示伯努利分布参数；当离散训练数据为连续型数据时，μ_x表示高斯分布均值参数，

表示高斯分布方差参数。

其中，φ为神经网络g的参数，

表示神经网络g生成的高斯分布均值，

表示神经网络g生成的高斯分布标准差。

根据上述公式(2)-(4)对公式(1)进行转换可得：

其中，L是SGVB(Stochastic gradient variational Bayes，随机梯度变分贝叶斯)估计中的蒙特卡洛采样数，D为输入的一维数据维度复制倍增后的维数，J为隐层变量的维数，K为需要划分的离散区间数，γ_c对应q(c|x)，其中q(c|x)可通过以下公式计算获得：

通过对上述下界函数不断进行优化，以将最终训练得到的变分自编码神经网络作为数据离散化模型，基于该数据离散化模型获得离散训练数据在隐层空间的聚类特征，进而根据获得的聚类特征对离散训练数据进行离散。

在一实施例中，如图6所示，获取离散训练数据和离散区间数之前，还包括：

S602，获取待离散数据。

待离散数据是指需要进行离散处理的原始数据。具体地，待离散数据可以是从***文件直接读取得到的、需要进行离散的样本数据。比如，从HDFS文件***读取的样本数据。

S604，对待离散数据进行复制处理，得到预设维数的训练数据。

在本实施例中，将待离散数据进行复制处理，得到与待离散数据相同的重复数据，将待离散数据和重复数据作为训练数据。其中，复制的重复数据个数可根据最终需要得到的离散训练数据的维数确定，该维数为用户设置的预设维数。

S606，根据训练数据生成多维的离散训练数据。

根据得到的训练数据将一维的待离散数据转换成多维的离散训练数据。具体地，假设在样本数据集中包括需要进行离散的一维特征数据x_i，该一维特征数据即为一待离散数据，在进行复制处理后，得到拥有D个重复x_i的多维数据X_i＝[x_i，x_i…x_i]。

在本实施例中，通过对待离散数据进行复制处理，得到具有重复数据的多维离散训练数据，能够减少后续数据离散化模型训练的训练复杂度，并在隐层空间获得更好的聚类特征。

上述数据离散化模型训练方法，利用编码神经网络生成与离散区间数相同数量的高斯参数，多个高斯参数即组成了高斯混合参数，进而基于高斯混合参数生成与离散训练数据对应的隐层变量，并通过对隐层变量进行解码还原成对应的还原数据，基于还原数据和离散训练数据的重构损失进行反向传播训练，最终的训练后的数据离散化模型，利用该数据离散化模型得到隐层变量的聚类特征，也即各离散区间特征，基于各离散区间对需要离散的数据进行离散处理。通过采用非线性编码将待离散数据映射至高维隐层空间，进一步根据隐层变量的聚类特征得到离散区间特征，以便后续根据离散区间特征将待离散数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据应线性离散而造成的数据丢失问题，提高了数据离散的有效性。

下面以Iplus平台的文章点击预测模型训练中，数据离散化模型训练为例，对本申请的数据离散化模型训练方法进行说明。假设在文章点击预测模型训练中，其样本特征包括：周期内文章被浏览次数、文章被浏览单次时长、用户年龄、用户爱好评分数据等，针对不同的特征，均可根据如图7所示的数据离散化模型训练方法进行训练分别得到一个对应的数据离散化模型。如图7所示，数据离散化模型训练方法包括：

S701，获取待离散数据。

在本实施例中，待离散数据为文章点击预测模型训练的样本数据中，样本数据从HDFS文件***读出后，从数据离散化模型的数据入口输入到该模型中。

S702，对待离散数据进行复制处理，得到预设维数的训练数据。

S703，根据训练数据生成多维的离散训练数据。

以用户年龄训练数据为例，将用户年龄这一组数据x_i进行复制处理，得到D个重复的x_i作为训练数据，有D个重复的x_i组成D维的离散训练数据。

S704，获取离散训练数据和离散区间数。

获取经过复制处理后的用户年龄训练数据，以及需要的离散区间数，该离散区间数可基于历史经验进行设置，比如受其他因素的影响，不同用户年龄对于文章点击率的可能呈现出K种不同程度的影响，此时，可将用户年龄这个特征的离散区间数设置为K，以便将用户年龄离散至K个离散区间中。

S705，将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数。

在本实施例中，将用户年龄训练数据输入编码神经网络，由编码神经网络根据当前的用户年龄训练数据生成K组高斯参数，高斯参数包括均值和标准差。

S706，基于预设分类分布，生成与离散训练数据中各数据对应的分布选择参数。

以参数为π的分类分布为例，每个数据点生成一个分布选择参数c，该c∈{1，…，K}，以便后续根据分布选择参数c生成每个数据点对应的隐层变量。

S707，获取与分布选择参数对应的高斯参数。

S708，分别根据高斯参数生成与离散训练数据中各数据对应的隐层变量。

基于每个数据点对应的分布选择参数c，从K组均值和方差中选出对应的第c组均值和方差进行样，生成与该数据点对应的隐层变量，实现将用户年龄训练数据映射至更高维的隐层空间中。

S709，将隐层变量输入解码网络，并获取离散训练数据的数据类型。

S710，当离散训练数据为二值化数据时，生成伯努利分布参数。

S711，根据伯努利分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

在得到离散训练数据对应的隐层变量后，利用解码神经网络对隐层变量进行解码还原，在还原时首先判断该数据的数据类型，若该数据为二值化数据，则生成伯努利分布所需要的伯努利分布参数，利用该伯努利分布参数形成的伯努利分布模型对隐层变量进行采样还原，得到还原数据。

S712，当离散训练数据为连续型数据时，生成高斯分布参数。

S713，根据高斯分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

在本实施例中，用户年龄训练数据为连续型数据，因此，利用解码神经网络生成高斯分布参数，也即高斯分布所需要的均值向量和均方差向量。利用由均值向量和均方差向量形成的高斯分布模型对隐层变量进行采样还原，得到与用户年龄训练数据对应的还原数据。

由于隐层变量的生成和还原过程中，存在随机采样造成的数据损失，因此需要对数据离散化模型的相关网络参数进行不断地调整，以使得还原数据能够尽可能地逼近原始的离散训练数据，以下是对数据离散化模型参数调整的相关步骤：

S714，获取离散训练数据和还原数据的重构损失。

S715，当重构损失满足预设迭代结束条件，根据重构损失调整编码神经网络和解码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至。

在本实施例中，可基于调整用户年龄训练数据和还原得到的用户年龄还原数据的最大似然来调整数据离散化模型中的相关网络参数，其中包括编码神经网络的参数，直至通过该数据离散化模型得到的用户年龄还原数据，能够最大限度地还原成用户年龄训练数据。基于最终得到的编码神经网络，可实现用户年龄训练数据至隐层空间的有效映射。

S716，将编码神经网络最终生成的高斯参数作为各离散区间的特征。

进一步地，基于最终确定的隐层变量的K个聚类特征，也即编码神经网络最终生成的高斯参数进行用户年龄的离散处理。

在本实施例中，用户年龄训练数据在隐层空间呈现出由K个高斯分布组成的高斯混合分布，由于最终训练得到的数据离散化模型能够将离散训练数据准确映射至对应的隐层空间，因此，编码神经网络最终生成的K组高斯参数能精确地反映用户年龄训练数据在隐层空间的聚类情况，该K组高斯参数即可作为各离散区间的特征，以便对数据进行离散处理。

在数据离散化模型训练完之后，即可运用该数据离散化模型对需要进行离散的数据进行离散。如图8所示，提供一种数据离散方法，该方法包括以下步骤：

S802，获取输入数据。

该输入数据可为用户手动输入的数据，也可以为从数据库或存储器中读取的，需要进行离散的数据。

S804，将输入数据输入预先训练好的数据离散化模型，得到与输入数据对应的高斯参数，根据高斯参数生成输入数据离散后的离散数据。其中，数据离散化模型由上述任一项实施例所述的数据离散化模型训练方法训练得到。

不同特征的输入数据对应不同的数据离散化模型，在本实施例中，将输入数据输入至与该输入数据对应的数据离散化模型的编码神经网络中，编码神经网络基于输入数据得到与其对应的高斯参数，根据确定的高斯参数生成输入数据离散后的离散数据。

通过上述数据离散化模型进行数据离散的方法，由于离散区间为采用非线性编码方式得到的，因此能够实现将输入数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据因线性离散而造成的数据丢失问题，提高了数据离散的有效性。

在一实施例中，将输入数据输入预先训练好的数据离散化模型，得到输入数据对应的高斯参数，根据高斯参数生成输入数据离散后的离散数据，包括：将输入数据输入预先训练好的数据离散化模型，得到输入数据属于各高斯参数对应的高斯分布的概率，根据概率确定与输入数据所属的高斯分布，根据确定结果生成输入数据离散后的离散数据。

当数据离散化模型的编码神经网络接收到输入数据时，根据输入数据得到输入数据属于各高斯参数对应的高斯分布的概率，该概率即为公式(8)中的γ_c，将最大概率值对应的高斯分布作为该数据所属的离散区间，基于所属的离散区间生成离散数据。比如，基于数据A得到的γ_c中，γ₃的值最大，则可以确定数据A属于第3个离散区间，从而生成离散数据。

在一实施例中，直接将分布选择参数作为输入数据离散化后的离散数据。具体地，预先基于神经网络映射找到各聚类中隐层变量对应的原始数据点，也即待离散数据中的数据点，进而根据原始数据点的大小顺序依次为各聚类进行标号，而由于聚类与离散区间对应，因此，对各聚类进行标号也即对离散区间进行标号。由此，根据标号以及数据点所属离散区间即可得到数据点对应的离散数据，数据A属于第3个离散区间，则对数据A离散后的数据即可用3表示。

在一实施例中，还可根据确定结果将输入数据离散为二值化数据，离散后的二值化数据即可作为离散数据。

例如，假设在隐层空间中，隐层变量符合4类的高斯混合分布，也即包括4个高斯分布，数据点A属于第2个高斯分布，则离散化后的A可表示为(0,1,0,0)。基于该离散化处理，还可将不同数据类型的数据统一到分类型数据上，以便于利用该数据进行后续的学习。

以用户年龄为例，假设25岁对应的分布选择参数为1，也即25岁属于第1组高斯参数组成的高斯分布模型,48岁对应的分布选择参数为3，则25岁离散化后得到离散数据为1，48岁离散化后得到离散数据为3。进一步地，为将各特征数据统一为分类数据，则用户年龄离散数据还可通过二值化的方式进行表示，例如，假设用户年龄符合5维的高斯混合模型，25岁离散化后得到离散数据还可表示为(1，0,0,0,0)，48岁离散化后得到离散数据还可表示为(0,0,1,0,0)。具体的离散数据表示方式可根据用户需求进行设置。

以机器学习中的模型训练和模型测试为例，对数据离散化模型训练方法和数据离散方法进行说明。如图9所示，在获得离散数据后，通过离散数据出口将离散数据输出至后续模型训练模块进行处理。在模型验证时，则直接将测试数据输入至数据离散化模型中，并阻断数据离散化模型的训练步骤，直接得到测试数据的离散化结果，而后将离散化后的测试数据用于模型验证。

仍然以文章点击预测模型训练中，对用户年龄进行离散为例。首先通过HDFS***读取用户年龄训练数据，用户年龄训练数据通过数据离散化模型的原始数据入口输入至编码网络，并执行如图7所示的数据离散化模型训练步骤，获得最终更新得到的高斯参数(聚类特征)，基于该各高斯参数得到与用户年龄训练数据对应的离散训练数据，将离散训练数据发送至文章点击预测模型训练模块继续进行训练。而后，将数据离散化模型中的训练开关设置为关闭，将HDFS***读取的用户年龄测试数据输入至编码神经网络，基于已经确定的高斯参数对用户年龄测试数据进行离散，直接得到与用户年龄测试数据对应的离散测试数据，将离散测试数据发送至文章点击预测模型测试模块继续进行验证。

通过采用非线性编码将待离散数据映射至高维隐层空间，进一步根据隐层变量的聚类特征得到离散区间特征，以便后续根据离散区间特征将待离散数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据因线性离散而造成的数据丢失问题，提高了数据离散的有效性。并且，由于离散化过程是一个非线性的，非单一评价值的训练过程，因此，相比于现有方法可是用于更复杂的数据集，而无需存储和计算全量的数据。该数据离散化模型可用于回归学习，监督学习，无监督学习等的自动数据预处理过程，以提高现有机器学习算法的效率。

在一实施例中，如图10所示，提供一种数据离散化模型训练装置，该装置具体包括：数据获取模块1001、高斯参数生成模块1002、隐层变量生成模块1003、数据还原模块1004、网络参数调整模块1005和离散区间获取模块1006，其中：

数据获取模块1001，用于获取离散训练数据和离散区间数。

高斯参数生成模块1002，用于将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数。

隐层变量生成模块1003，用于基于高斯参数生成与离散训练数据对应的隐层变量。

基于大数定理，通常可以用高斯分布的概率密度函数来表示某些因素产生的影响。因此，本实施例中，通过编码神经网络生成高斯参数，以假设隐层变量服从对应的高斯分布。为更为精确地表示离散训练数据的分布，并将离散训练数据映射至更符合实际分布的隐层空间，本实施例利用编码神经网络对离散训练数据进行处理，得到与离散区间数相同数量的高斯参数，多组高斯参数即组成了高斯混合参数，进而通过多组高斯参数将离散训练数据映射隐层空间，得到对应的隐层变量。也即，通过假设隐层空间服从由多个高斯分布组成的高斯混合分布，最终得到离散训练数据对应的隐层变量。

数据还原模块1004，用于将隐层变量输入解码神经网络，得到还原数据。

网络参数调整模块1005，用于根据离散训练数据和还原数据调整编码神经网络和解码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件。

离散区间获取模块1006，用于将编码神经网络最终生成的高斯参数作为各离散区间的特征。

经过训练的编码神经网络结合高斯混合模型生成模块，已经能够生成有效表征离散训练数据的隐层变量。因此，此时得到的隐层变量的聚类特征即可表示离散区间的特征，而隐层变量是由编码神经网络生成的高斯参数生成的，编码神经网络最终生成的高斯参数即为离散区间的特征。

上述数据离散化模型训练装置，通过采用非线性编码将离散数据映射至高维隐层空间，进一步根据隐层变量的聚类特征得到离散区间特征，以便后续根据离散区间特征将待离散数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据因线性离散而造成的数据丢失问题，提高了数据离散的有效性。

在一实施例中，隐层变量生成模块1003具体还包括分布选择参数生成模块和隐层变量子模块。其中，分布选择参数生成模块，用于基于预设分类分布，生成与离散训练数据中各数据对应的分布选择参数；隐层变量子模块，用于分别根据分布选择参数，生成与离散训练数据中各数据对应的隐层变量。

具体地，隐层变量子模块还用于获取与分布选择参数对应的高斯参数；分别根据高斯参数生成与离散训练数据中各数据对应的隐层变量。

在一实施例中，数据还原模块1004还用于获取离散训练数据的数据类型；根据数据类型生成与数据类型对应的分布参数；按照分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

具体地，数据类型包括二值化数据和连续型数据，当离散训练数据为二值化数据时，数据还原模块还用于生成伯努利分布参数；根据伯努利分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

当离散训练数据为连续型数据时，数据还原模块还用于生成高斯分布参数；根据高斯分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

在一实施例中，网络参数调整模块包括重构损失获取模块和网络参数调整子模块。其中，重构损失获取模块用于获取离散训练数据和还原数据的重构损失；网络参数调整子模块用于根据重构损失调整编码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至重构损失满足预设迭代结束条件。

在一实施例中，如图11所示，数据离散化模型训练装置还包括：待离散数据获取模块1101、数据复制模块1102和离散训练数据生成模块1103。其中：

待离散数据获取模块1101，用于获取待离散数据。待离散数据是指需要进行离散处理的原始数据。具体地，待离散数据可以是从***文件直接读取得到的、需要进行离散的样本数据。比如，从HDFS文件***读取的样本数据。

数据复制模块1102，用于对待离散数据进行复制处理，得到预设维数的训练数据。

离散训练数据生成模块1104，用于根据训练数据生成多维的离散训练数据。根据得到的训练数据将一维的待离散数据转换成多维的离散训练数据。

上述数据离散化模型训练装置，利用编码神经网络生成与离散区间数相同数量的高斯参数，多个高斯参数即组成了高斯混合参数，进而基于高斯混合参数生成与离散训练数据对应的隐层变量，并通过对隐层变量进行解码还原成对应的还原数据，基于还原数据和离散训练数据的重构损失进行反向传播训练，最终的训练后的数据离散化模型，利用该数据离散化模型得到隐层变量的聚类特征，也即各离散区间特征，基于各离散区间对需要离散的数据进行离散处理。通过采用非线性编码将待离散数据映射至高维隐层空间，进一步根据隐层变量的聚类特征得到离散区间特征，以便后续根据离散区间特征将待离散数据离散至非连续的离散区间，实现数据的非线性离散，从而避免了大数据或复杂数据应线性离散而造成的数据丢失问题，提高了数据离散的有效性。

图12示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图12所示，该计算机设备包括该计算机设备包括通过***总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作***，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现数据离散化模型训练方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行数据离散化模型训练方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的数据离散化模型训练装置可以实现为一种计算机程序的形式，计算机程序可在如图12所示的计算机设备上运行。计算机设备的存储器中可存储组成该数据离散化模型训练装置的各个程序模块，比如，图10所示的数据获取模块1001、高斯参数生成模块1002、隐层变量生成模块1003、数据还原模块1004、网络参数调整模块1005和离散区间获取模块1006。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的数据离散化模型训练方法中的步骤。

例如，图12所示的计算机设备可以通过如图10所示的数据离散化模型训练装置中的数据获取模块1001执行步骤S301，高斯参数生成模块1002执行步骤S302，隐层变量生成模块1003执行步骤S303，数据还原模块1004执行步骤S304，网络参数调整模块1005执行步骤S305，离散区间获取模块1006执行步骤S306。

在一实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取离散训练数据和离散区间数；

将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数；

基于高斯参数生成与离散训练数据对应的隐层变量；

将隐层变量输入解码神经网络，得到还原数据；

根据离散训练数据和还原数据调整编码神经网络和解码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件；

将编码神经网络最终生成的高斯参数作为各离散区间的特征。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

基于预设分类分布，生成与离散训练数据中各数据对应的分布选择参数；

分别根据分布选择参数，生成与离散训练数据中各数据对应的隐层变量。

获取与分布选择参数对应的高斯参数；

分别根据高斯参数生成与离散训练数据中各数据对应的隐层变量。

将隐层变量输入解码网络，并获取离散训练数据的数据类型；

根据数据类型生成与数据类型对应的分布参数；

按照分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

当离散训练数据为二值化数据时，生成伯努利分布参数；

根据伯努利分布参数将隐层变量解码还原成与离散训练数据对应的还原数据；

当离散训练数据为连续型数据时，生成高斯分布参数；

根据高斯分布参数将隐层变量解码还原成与离散训练数据对应的还原数据。

获取离散训练数据和还原数据的重构损失；

根据重构损失调整编码神经网络的参数，并返回将离散训练数据输入编码神经网络，生成与离散区间数相同数量的高斯参数的步骤，直至重构损失满足预设迭代结束条件。

获取待离散数据；

对待离散数据进行复制处理，得到预设维数的训练数据；

根据训练数据生成多维的离散训练数据。

获取输入数据；

将输入数据输入预先训练好的数据离散化模型，得到与输入数据对应的高斯参数，根据高斯参数生成输入数据离散后的离散数据；数据离散化模型由上述任一项实施例的数据离散化模型训练方法训练得到。

将输入数据输入预先训练好的数据离散化模型，得到输入数据属于各高斯参数对应的高斯分布的概率，根据概率确定与输入数据所属的高斯分布，根据确定结果生成输入数据离散后的离散数据。

在一实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取离散训练数据和离散区间数；

基于高斯参数生成与离散训练数据对应的隐层变量；

将隐层变量输入解码神经网络，得到还原数据；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

获取与分布选择参数对应的高斯参数；

根据数据类型生成与数据类型对应的分布参数；

当离散训练数据为二值化数据时，生成伯努利分布参数；

当离散训练数据为连续型数据时，生成高斯分布参数；

获取离散训练数据和还原数据的重构损失；

获取待离散数据；

对待离散数据进行复制处理，得到预设维数的训练数据；

根据训练数据生成多维的离散训练数据。

获取输入数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据离散化模型训练方法，其特征在于，所述方法包括：

获取离散训练数据和离散区间数；

将所述隐层变量输入解码神经网络，得到还原数据；

2.根据权利要求1所述的方法，其特征在于，所述基于所述高斯参数生成与所述离散训练数据对应的隐层变量，包括：

基于预设分类分布，生成与所述离散训练数据中各数据对应的分布选择参数；

分别根据所述分布选择参数，生成与所述离散训练数据中各数据对应的隐层变量。

3.根据权利要求2所述的方法，其特征在于，所述分别根据所述分布选择参数生成与所述离散训练数据中各数据对应的隐层变量，包括：

获取与所述分布选择参数对应的高斯参数；

分别根据所述高斯参数生成与所述离散训练数据中各数据对应的隐层变量。

4.根据权利要求1所述的方法，其特征在于，所述将所述隐层变量输入所述解码神经网络，得到还原数据，包括：

将所述隐层变量输入解码神经网络，并获取所述离散训练数据的数据类型；

根据所述数据类型生成与所述数据类型对应的分布参数；

按照所述分布参数将所述隐层变量解码还原成与所述离散训练数据对应的还原数据。

5.根据权利要求4所述的方法，其特征在于，所述数据类型包括二值化数据和连续型数据，所述方法还包括：

当所述离散训练数据为二值化数据时，生成伯努利分布参数；

根据所述伯努利分布参数将所述隐层变量解码还原成与所述离散训练数据对应的还原数据；

当所述离散训练数据为连续型数据时，生成高斯分布参数；

根据所述高斯分布参数将所述隐层变量解码还原成与所述离散训练数据对应的还原数据。

6.根据权利要求1所述的方法，其特征在于，所述根据所述离散训练数据和所述还原数据调整所述编码神经网络的参数，并返回将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数的步骤，直至满足预设迭代结束条件，包括：

获取所述离散训练数据和所述还原数据的重构损失；

根据所述重构损失调整所述编码神经网络和所述解码神经网络的参数，并返回将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数的步骤，直至所述重构损失满足预设迭代结束条件。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述获取离散训练数据和离散区间数之前，还包括：

获取待离散数据；

对所述待离散数据进行复制处理，得到预设维数的训练数据；

根据所述训练数据生成多维的离散训练数据。

8.一种数据离散方法，其特征在于，所述方法包括：

获取输入数据；

将所述输入数据输入预先训练好的数据离散化模型，得到与所述输入数据对应的高斯参数，根据所述高斯参数生成所述输入数据离散后的离散数据；所述数据离散化模型由权利要求1-7任一项所述的数据离散化模型训练方法训练得到。

9.根据权利要求8所述的方法，其特征在于，所述将所述输入数据输入预先训练好的数据离散化模型，得到所述输入数据对应的高斯参数，根据所述高斯参数生成所述输入数据离散后的离散数据，包括：

将所述输入数据输入预先训练好的数据离散化模型，得到所述输入数据属于各高斯参数对应的高斯分布的概率，根据所述概率确定与所述输入数据所属的高斯分布，根据确定结果生成所述输入数据离散后的离散数据。

10.一种数据离散化模型训练装置，其特征在于，所述装置包括：

数据获取模块，用于获取离散训练数据和离散区间数；

11.根据权利要求10所述的装置，其特征在于，所述隐层变量生成模块包括：

分布选择参数生成模块，用于基于预设分类分布，生成与所述离散训练数据中各数据对应的分布选择参数；

隐层变量子模块，用于分别根据所述分布选择参数，生成与所述离散训练数据中各数据对应的隐层变量。

12.根据权利要求11所述的装置，其特征在于，所述隐层变量子模块，还用于获取与所述分布选择参数对应的高斯参数；分别根据所述高斯参数生成与所述离散训练数据中各数据对应的隐层变量。

13.根据权利要求10所述的装置，其特征在于，所述网络参数调整模块包括：

重构损失获取模块，用于获取所述离散训练数据和所述还原数据的重构损失；

网络参数调整子模块，用于根据所述重构损失调整所述编码神经网络的参数，并返回将所述离散训练数据输入编码神经网络，生成与所述离散区间数相同数量的高斯参数的步骤，直至所述重构损失满足预设迭代结束条件。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至9中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至9中任一项所述的方法的步骤。