CN116958712B

CN116958712B - 基于先验概率分布的图像生成方法、***、介质及设备

Info

Publication number: CN116958712B
Application number: CN202311210822.8A
Authority: CN
Inventors: 袭肖明; 何志强; 郭子康; 乔立山; 张淑涵; 宁一鹏; 张玉龙; 纪孔林; 聂秀山
Original assignee: Shandong Jianzhu University
Current assignee: Shandong Jianzhu University
Priority date: 2023-09-20
Filing date: 2023-09-20
Publication date: 2023-12-15
Anticipated expiration: 2043-09-20
Also published as: CN116958712A

Abstract

本发明提供了一种基于先验概率分布的图像生成方法、***、介质及设备，其属于图像生成技术领域，所述方案为了避免人为分布假设对模型的影响，构建了一个用于采样数据分布的学习器，即一种将分类神经网络和高斯混合模型结合的混合密度网络，通过所述学习器对输入数据进行分类，并把输出的信息送入高斯混合模型中，通过计算高斯混合模型中子模型的隐变量确定高斯混合分布的参数，并将所述参数作为VAE模型（即变分自编码器）的解码器重参数化步骤中随机向量采样分布的参数，来指导VAE模型的训练，有效保证模型训练的准确性，进而有效保证了图像生成的准确性。

Description

基于先验概率分布的图像生成方法、***、介质及设备

技术领域

本发明属于图像生成技术领域，尤其涉及一种基于先验概率分布的图像生成方法、***、介质及设备。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

机器学***甚至超过人类。进一步思考，计算机能否模仿创作过程，从而协助人类进行内容的创作和生成，过去的十年中，图像生成技术取得了长足的进步，现有方法在一定条件下已经可以生成人眼难以辨识真假的图像。在这些技术中，通过图片、文本、声音等简单易得的内容进行图像生成，将极大提升人类的创造能力，扩展内容生成领域的边界。

基于深度学习的图像生成技术已经成为当今人工智能领域的一项重要研究内容。它旨在使用机器学习技术从数据中生成虚拟图像，其中包含有用的信息，而这些信息可以用来改善诸如视觉检测、图像分类和图像生成等技术，也可以用来实现可视化分析、可视化设计和虚拟演练等。

深度学习可以充分利用大量数据，通过对数据进行训练，学习图像、文字和声音中有意义的模式、结构等数据特征，从而准确地模拟人类视觉***。它可以从社会、文化以及自然界等环境中捕捉和抽象视觉特征。此外，它有助于建立更加准确和可靠的模型，即使在面对噪声和错误的情况下也能保持准确性。

当前，深度学习技术已经被广泛应用于图像生成领域。例如，VAE（VariationalAutoencoders：变分自编码器）是基于深度学习的图像生成模型，从给定的图像数据集中学习、识别视觉特征，并将学到的特征用于新图像的生成。VAE的思路是编码器要学习输入数据的分布，从分布里面采样一些特征作为数据的潜在表示，并作为解码器的输入，解码器要学会把潜在表示重构回原始数据。在传统VAE模型的训练过程中，随机噪声的采样是基于人为的分布假设，这与数据的真实分布会存在一定差异；同时，编码过程中可能会把原始数据中的噪声一并编码，以上情况都会影响图像生成的准确性。

发明内容

本发明为了解决上述问题，提供了一种基于先验概率分布的图像生成方法、***、介质及设备，所述方案为了避免人为分布假设对模型的影响，构建了一个用于采样数据分布的学习器，即一种将分类神经网络和高斯混合模型结合的混合密度网络，通过所述学习器对输入数据进行分类，并把输出的信息送入高斯混合模型中，通过计算高斯混合模型中子模型的隐变量确定高斯混合分布的参数，并将所述参数作为VAE模型（即变分自编码器）的解码器重参数化步骤中随机向量采样分布的参数，来指导VAE模型的训练，有效保证模型训练的准确性，进而有效保证了图像生成的准确性。

根据本发明实施例的第一个方面，提供了一种基于先验概率分布的图像生成方法，包括：

将有标记图像数据作为分类神经网络模型的输入进行分类；

通过高斯混合模型对神经网络模型的分类结果进行拟合，获得对应的高斯混合分布；

以无标记图像数据作为变分自编码器的输入进行变分自编码器的训练，基于变分自编码器中的编码器获得输入数据的分布参数；将高斯混合分布中的随机采样数据以及编码器输出的分布参数进行组合，并将组合数据作为变分自编码器中解码器的输入，通过所述解码器获得输入数据的重构数据；其中，所述变分自编码器的训练以最小化重构数据与输入数据之间的误差为目标；

以训练好的变分自编码器中的解码器作为图像生成器，实现图像生成。

进一步的，所述编码器的输出包括输入数据的均值和方差分布参数，所述将高斯混合分布中的随机采样数据以及编码器输出的分布参数进行组合，具体表示如下：

其中，为均值向量，/>为方差向量，/>为从高斯混合分布中随机采样的数据向量。

进一步的，所述编码器采用顺序连接的全连接层、卷积层、全连接层的架构，且所述编码器的最后一层并联有聚类器，通过所述聚类器对编码器最后一层特征信息进行聚类。

进一步的，所述聚类器采用DBSCAN聚类器。

进一步的，所述将有标记图像数据作为分类神经网络模型的输入进行分类，以及以无标记图像数据作为变分自编码器的输入进行变分自编码器的训练中，预先对有标记图像数据和无标记图像数据进行数据增强，其中，所述数据增强操作包括随机裁剪、水平翻转、垂直翻转、随机旋转、改变亮度以及添加噪声。

进一步的，所述分类神经网络采用ReLU激活函数以及交叉熵损失函数，其中，所述交叉熵损失函数具体表示如下：

其中，m为类别数量；为符号函数，如果样本i真实类别等于c则为1，否则为0；/>是观测样本i属于类别c的预测概率，N为分类神经网络的规模。

进一步的，所述分类神经网络模型采用卷积神经网络。

根据本发明实施例的第二个方面，提供了一种基于先验概率分布的图像生成***，包括：

数据分布采样单元，其用于将有标记图像数据作为分类神经网络模型的输入进行分类；通过高斯混合模型对神经网络模型的分类结果进行拟合，获得对应的高斯混合分布；

变分自编码器训练单元，其用于以无标记图像数据作为变分自编码器的输入进行变分自编码器的训练，基于变分自编码器中的编码器获得输入数据的分布参数；将高斯混合分布中的随机采样数据以及编码器输出的分布参数进行组合，并将组合数据作为变分自编码器中解码器的输入，通过所述解码器获得输入数据的重构数据；其中，所述变分自编码器的训练以最小化重构数据与输入数据之间的误差为目标；

图像生成单元，其用于以训练好的变分自编码器中的解码器作为图像生成器，实现图像生成。

根据本发明实施例的第三个方面，提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上所述的一种基于先验概率分布的图像生成方法。

根据本发明实施例的第四个方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的一种基于先验概率分布的图像生成方法。

与现有技术相比，本发明的有益效果是：

（1）本发明所述方案提出一种基于先验概率分布的图像生成方法、***、介质及设备，所述方案为了避免人为分布假设对模型的影响，构建了一个用于采样数据分布的学习器，即一种将分类神经网络和高斯混合模型结合的混合密度网络，通过所述学习器对输入数据进行分类，并把输出的信息送入高斯混合模型中，通过计算高斯混合模型中子模型的隐变量确定高斯混合分布的参数，并将所述参数作为VAE模型（即变分自编码器）的解码器重参数化步骤中随机向量采样分布的参数，来指导VAE模型的训练，有效保证模型训练的准确性，进而有效保证了图像生成的准确性。

（2）本发明所述方案中，对VAE模型训练过程中重参数化这一步骤，使用高斯混合分布中采样出的随机向量，同时，在编码器学习过程中引入类别监督信息，结合聚类方法提高特征学习的鲁棒性。

（3）本发明所述方案中，通过对原始输入数据进行数据增强处理后输入模型，并让解码器重构出原始数据，模型会因此学习到如何排除噪声并提取重要特征的能力，以此提高模型的鲁棒性。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中所述的基于先验概率分布的图像生成方法基本流程图；

图2为本发明实施例中所述的基于先验概率分布的图像生成方法所采用的整体网络架构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一：

本实施例的目的是提供一种基于先验概率分布的图像生成方法，包括：

将有标记图像数据作为分类神经网络模型的输入进行分类；

在具体实施中，所述编码器的输出包括输入数据的均值和方差分布参数，所述将高斯混合分布中的随机采样数据以及编码器输出的分布参数进行组合，具体表示如下：

所述编码器采用顺序连接的全连接层、卷积层、全连接层的架构，且所述编码器的最后一层并联有聚类器，通过所述聚类器对编码器最后一层特征信息进行聚类，在本实施例中，所述聚类器采用DBSCAN聚类器。

在具体实施中，所述将有标记图像数据作为分类神经网络模型的输入进行分类，以及以无标记图像数据作为变分自编码器的输入进行变分自编码器的训练中，预先对有标记图像数据和无标记图像数据进行数据增强，其中，所述数据增强操作包括随机裁剪、水平翻转、垂直翻转、随机旋转、改变亮度以及添加噪声。

在具体实施中，所述分类神经网络模型采用卷积神经网络。

所述分类神经网络采用ReLU激活函数以及交叉熵损失函数，其中，所述交叉熵损失函数具体表示如下：

具体的，为了便于理解，以下结合附图从具体实施的角度对本实施例所述方案进行详细说明：

为了避免人为分布假设对模型的影响，构建一个采样数据分布的学习器，即如图2所示的先验概率分布采样分支。该分支使用一种将分类神经网络和K-高斯混合模型结合的混合密度网络，其中隐藏层的层数及每一层的神经元数量可以自行定义。分类神经网络可以使用卷积神经网络，主要作用是对输入数据进行分类，并把该层的信息送入K-高斯混合模型中。K-高斯混合模型可以看作是由K个一元高斯模型组合而成的模型，这K个子模型是混合模型的隐变量。K-高斯混合模型的主要作用就是通过计算隐变量确定K-高斯混合分布的参数，模型输出是K个高斯分布，包含三组信息，分别是混合系数、分布均值、分布方差。将该分支的输出作为下一分支重参数化步骤中随机向量的采样分布的参数。

另一个是如图2所示的图像生成分支，这是经过改进的VAE模型，此处的改进具体指针对模型训练过程中重参数化这一步骤，使用上一分支的输出参数建立高斯分布，并从该分布中采样出所需的随机向量。在编码器学习过程中引入类别监督信息，结合聚类方法提高特征学习的鲁棒性。通过对原始输入数据进行数据增强处理后输入模型，并让解码器重构出原始数据，模型会因此学习到如何排除噪声并提取重要特征的能力，以此提高模型的鲁棒性。

本实施例所述方案的主要技术构思如下：

首先，在先验概率分布采样分支中，把标记好的图像做数据增强处理后作为卷积神经网络的输入，网络利用已知的图像标签，进行分类学习，同时把学习到的信息送入K-高斯混合模型中，来学习数据的分布，并输出分布参数。

其次，把无标记的图像数据输入图像生成分支。在该分支中，原始数据进行数据增强处理后进入编码器，编码器输出学习到的数据分布参数，即均值、方差。利用上一分支输出的分布参数，建立高斯分布，从中随机采样，并结合编码器输出的均值、方差生成新的数据后送入解码器。

最后，训练模型直到解码器输出的数据接近原始数据并且新的数据分布同原始数据的分布差异达到最小。训练结束后，就可以把VAE模型的解码器提取出来作为图像生成器。

如图1所示的基于先验概率分布的图像生成方法基本流程图，包括以下步骤：

把有标记的数据输入先验概率分布采样分支；

先验概率分布采样分支输出分布参数μ；

把无标记的数据输入图像生成分支；

利用分布参数μ建立高斯混合分布，并从中随机采样一组值e；

把编码器的输出和上一步的采样值e组合后送入解码器；

完成模型训练后，解码器就是图像生成器。

如图2所示，本实施例所述基于先验概率分布的图像生成方法，具体包括以下步骤：

步骤S01：在先验概率分布采样分支中，把标记好的图像做数据增强处理后作为卷积神经网络的输入，卷积神经网络由卷积层、汇聚层和全连接层构成。数据增强操作可以获得更多的样本数据，主要的数据增强方式有随机裁剪、水平翻转、垂直翻转、随机旋转、改变亮度、添加噪声等。

在卷积层中，第l层的输入z^（l）为第l-1层的活性值a ^（l-1）和卷积核w ^（l） ∈R ^K的卷积，即：

其中，卷积核为可学习的权重向量，/>为可学习的偏置；

卷积层后是汇聚层，使用最大汇聚方式，即对于一个区域，选择这个区域内所有神经元的最大活性值作为这个区域的表示：

其中，为区域/>内每个神经元的活性值。

最后一层是分类层，使用全连接神经网络，作为分类神经网络的输出。

为了给神经网络带来非线性能力，引入ReLU激活函数，即：

网络使用交叉熵损失函数，即：

其中，m为类别数量；为符号函数，如果样本i真实类别等于c则为1，否则为0；/>是观测样本i属于类别c的预测概率，可以根据实际情况设置卷积神经网络的规模N。

步骤S02：待步骤S01的神经网络收敛或满足终止条件，把网络输出送入K-高斯混合模型。由于高斯分布具备很好的数学性质以及良好的计算性能，所以使用高斯混合模型，选择高斯形式的核函数，即

其中，t是神经网络的输入，即步骤S01中分类层的输出，n是t的维度，即类别数量，和/>是神经网络要学习的参数，并且与t有相同的维度，i表示第i个高斯核函数。

目标数据的概率密度可以表示成多个核函数的线性组合，即

其中，是混合系数，且满足约束/>=1，m表示在神经网络中设置高斯核函数的个数。

模型的误差函数形式如下：

其中，表示每个样本的损失，q代表样本的序号。最后，模型输出分布参数/>和/>，其中，/>是n 维的均值向量，/>是协方差矩阵。至此，先验概率分布采样分支任务结束。

步骤S03：在图像生成分支中，首先对原始图像数据进行数据增强处理，记为x。把x输入编码器中进行编码，同时引入类别监督信息，结合聚类方法增强数据编码能力，提高模型的鲁棒性。以DBSCAN聚类加以说明，在编码器第一个全连接层并联DBSCAN聚类器，该聚类器的作用是对编码器第一层特征信息进行聚类，达成目标是聚类后的类别数量符合或接近原始图像数据的真实分类数目。达到预期或是满足一定条件后进入下一步骤。

编码器采用全连接层+卷积层+全连接层的架构，可以根据实际情况设置网络层数及每一层神经元的数量，第一层神经元的数量要等于原始数据的维度。

全连接层中，根据第l-1层神经元的活性值活性值a ^（l-1）计算出第l层神经元的净活性值z^(l)，然后经过一个激活函数得到第l层神经元的活性值，

其中，是第l-1层到第l层的权重矩阵，/>是第l-1层到第l层的偏置，/>是第l-1层神经元的输出，/>。

卷积层中，第l层的输入z^(l)为第l-1层的活性值a ^（l-1）和卷积核的卷积，即

其中，卷积核为可学习的权重向量，/>为可学习的偏置，/>代表卷积。

卷积层后是汇聚层，使用最大汇聚方式，即对于一个区域，选择这个区域内所有神经元的最大活性值作为这个区域的表示，

其中，为区域/>内每个神经元的活性值。

为了给神经网络带来非线性能力，引入ReLU激活函数，即

在编码器第一个全连接神经网络计算完成后，输出数据会同时到达DBSCAN聚类器和编码器的下一层神经网络。DBSCAN聚类器的功能通过调用预先编写好的程序来实现。DBSCAN聚类程序的输入数据D={X₁，X₂，…，X_n}是编码器第一个全连接神经网络的输出，n为神经元数量，距离半径r=0.5，中心密度阈值minpts=50。DBSCAN聚类程序的处理过程如下：

第一步，随机选择一个没有分类标记的数据计算与其他输入数据{X₁，X₂，…，X_n}之间的欧式距离，如果找不到没有分类标记的数据，则程序结束；

第二步，如果距离小于等于0.5，就把这些数据{X₁，X₂，…，X_n}放入一个邻域集P_i中，如果距离大于0.5时，把这些数据{X₁，X₂，…，X_m}放入另一个邻域集P_i+1中；

第三步，统计上一步的邻域集P的数据数量，如果数量达到或超过50，就把邻域集P及其中的数据标记为一个类别，如果邻域集P的数量不足50时，其中的数据可以标记为噪声点，然后转第一步。

最后，DBSCAN聚类程序输出类别的总数C_pred。

DBSCAN聚类程序伪代码如下（算法中的符号与上下文没有关联）：

输入：数据集D={X₁，X₂，…，X_n}，距离半径r=0.5，中心密度阈值minpts=50；

输出：簇划分结果{类别1，类别2，…}；

算法：

步骤1：初始化簇标号k=0，对数据集D中元素设置访问标记visited(Xi)=0，0表示未访问；

步骤2：在数据集D中选择一个元素Xp，如果visited(Xp)=0转到步骤3，否则重复此操作；

步骤3：计算Xp与D中其他元素的距离d，找到满足d<=r的邻域集P，如果|P|>=minpts，转到步骤4。如果P是空集，标记Xp是噪声点，转到步骤2。如果|P|<minpts，转到步骤2；

步骤4：更新簇标记k=k+1，设置Xp的簇标记k(Xp)，设置访问标记visited(Xp)=1，从P中删除Xp，转到步骤5；

步骤5：如果P非空，选择其中一个元素Xs，转到步骤6。如果P是空集，转到步骤2；

步骤6：设置Xs的簇标记k(Xs)，如果visited(Xs)=1，从P中删除Xs，转到步骤5。如果visited(Xs)=0，计算Xs与D中其他元素的距离d，找到满足d<=r的邻域集S，把S中的元素加入集合P，从P中删除Xs，设置访问标记visited(Xs)=1；

步骤7：对数据集D中所有元素visited(Xi)=1，算法结束，输出结果。

步骤S04：接下来是重参数化过程，编码器输出两组数据，分别是，其中/>为均值向量，/>为方差向量，d代表向量的维度，也是该层中神经元的数量。在此，要利用步骤S02中模型输出的分布参数/>来建立高斯混合分布，即

其中，是n 维的均值向量，n表示先验概率分布采样分支中的类别数量，/>是协方差矩阵，/>是/>的行列式。

从高斯混合分布随机取出向量/>，与/>用下列公式组合：

其中，d代表向量的维度，表示取/>的指数，是为了保证方差向量恒正。然后，把/>送入解码器。

步骤S05：解码器的作用是重构数据，即把重构回/>，并且使/>和原始数据/>之间的差异最小。解码器采用全连接神经网络，可以根据实际情况设置网络层数及每一层神经元的数量，最后一层神经元的数量要等于原始数据/>的维度。

学习目标是最小化重构误差，即使L最小化：

编码器：

解码器：

对于输入，编码器中间隐藏层的活性值为/>的编码，即：

对于解码器，输出为重构的数据，即

编码器从隐变量空间采样，把高维数据降低到低维的同时计算每个输入数据的均值和方差/>，最后通过解码器生成新数据/>。我们希望从隐变量空间中的采样的数据 z遵循原始数据/>的概率分布，这样我们根据采样数据 z生成的新数据/>也就可以遵循原始数据的概率分布。

为了使重构误差最小化，选择MSE损失函数：

其中，是原始数据，/>是解码器重构的数据，m表示数据量。

为了使重构数据和原始数据/>的概率分布最小化，引入KL散度：

KL损失函数：

其中，是原始数据/>的概率分布，/>重构数据/>的概率分布，/>是均值，/>是方差，n表示数据量。

聚类损失函数：

其中，是真实类别总数，C_pred是DBSCAN聚类程序输出的类别总数。

最终，模型的损失函数：

其中，，/>，/>为组合系数，默认取值/>.

步骤S06：网络训练完成后，把解码器提取出来作为图像生成器。例如，从标准正态分布中采样出向量，d是向量维度，也是解码器第一层神经元的数量，然后送入解码器，解码器的输出就是生成的图像。

实施例二：

本实施例的目的是提供一种基于先验概率分布的图像生成***。

一种基于先验概率分布的图像生成***，包括：

进一步的，本实施例所述***与实施例一中所述方法相对应，其技术细节在实施例一中已经进行了详细说明，故此处不再赘述。

实施例三：

本实施例的目的是提供一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如上所述的一种基于先验概率分布的图像生成方法。实施例四：

本实施例的目的是提供一种电子设备。

一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上所述的一种基于先验概率分布的图像生成方法。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于先验概率分布的图像生成方法，其特征在于，包括：

将有标记图像数据作为分类神经网络模型的输入进行分类；

2.如权利要求1所述的一种基于先验概率分布的图像生成方法，其特征在于，所述编码器的输出包括输入数据的均值和方差分布参数，所述将高斯混合分布中的随机采样数据以及编码器输出的分布参数进行组合，具体表示如下：

3.如权利要求1所述的一种基于先验概率分布的图像生成方法，其特征在于，所述编码器采用顺序连接的全连接层、卷积层、全连接层的架构，且所述编码器的最后一层并联有聚类器，通过所述聚类器对编码器最后一层特征信息进行聚类。

4.如权利要求3所述的一种基于先验概率分布的图像生成方法，其特征在于，所述聚类器采用DBSCAN聚类器。

5.如权利要求1所述的一种基于先验概率分布的图像生成方法，其特征在于，所述将有标记图像数据作为分类神经网络模型的输入进行分类，以及以无标记图像数据作为变分自编码器的输入进行变分自编码器的训练中，预先对有标记图像数据和无标记图像数据进行数据增强，其中，所述数据增强操作包括随机裁剪、水平翻转、垂直翻转、随机旋转、改变亮度以及添加噪声。

6.如权利要求1所述的一种基于先验概率分布的图像生成方法，其特征在于，所述分类神经网络采用ReLU激活函数以及交叉熵损失函数，其中，所述交叉熵损失函数具体表示如下：

7.如权利要求1所述的一种基于先验概率分布的图像生成方法，其特征在于，所述分类神经网络模型采用卷积神经网络。

8.一种基于先验概率分布的图像生成***，其特征在于，包括：

9.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的一种基于先验概率分布的图像生成方法。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种基于先验概率分布的图像生成方法。