CN116484905B

CN116484905B - 针对非对齐样本的深度神经网络模型训练方法

Info

Publication number: CN116484905B
Application number: CN202310727671.7A
Authority: CN
Inventors: 田辉; 朱鹏远; 郭玉刚; 张志翔
Original assignee: Hefei High Dimensional Data Technology Co ltd
Current assignee: Hefei High Dimensional Data Technology Co ltd
Priority date: 2023-06-20
Filing date: 2023-06-20
Publication date: 2023-08-29
Anticipated expiration: 2043-06-20
Also published as: CN116484905A

Abstract

本发明特别涉及一种针对非对齐样本的深度神经网络模型训练方法，包括如下步骤：构建数据集，数据集中包括对齐样本和非对齐样本；利用数据集对深度神经网络模型进行训练得到预训练模型；对非对齐样本的完整图及其第一特征图进行裁剪得到部分图样本；将部分图样本的部分图代入预训练模型中得到预识别的第三特征图；判断第三特征图相对于第二特征图的偏差是否小于设定阈值，若是则完成模型训练，否则对非对齐样本的第一特征图进行校准并更新数据集重新对深度神经网络模型进行训练。通过不断对非对齐数据集进行校准，使得模型和数据集同步迭代；与直接使用非对齐数据集相比，迭代训练后得到的模型准确率有明显提升。

Description

针对非对齐样本的深度神经网络模型训练方法

技术领域

本发明涉及深度学习技术领域，特别涉及一种针对非对齐样本的深度神经网络模型训练方法。

背景技术

深度神经网络是一种多层无监督神经网络，并且将上一层的输出特征作为下一层的输入进行特征学习，通过逐层特征映射后，将现有空间样本的特征映射到另一个特征空间，以此来学习对现有输入具有更好的特征表达。对于深度神经网络模型而言，选择合适的样本对模型进行训练是一个非常重要的环节，如果选取的样本不好，则会直接影响训练得到的模型的效果。

现有技术中，我们常需要提取图片中的某些特征，因此常将原图作为模型的输入、原图对应的特征图作为模型的输出，原图及其特征图构成样本集，原图及其特征图是一一对应的样本对，原图中的任一像素点与其对应的特征点在各自图中的位置是完全一致的，这种称为对齐样本。对齐样本多用于生成式样本，即通过一定的处理方法，将原图处理成特征图，此时的特征图和原图就能一一对应、完全对齐。更常见的样本是非对齐样本，用户通过人工标记拍摄的图片得到特征图，此处的拍摄图及其标记的特征图构成样本集，由于标记的过程存在误差，也就导致拍摄图及其标记的特征图不会一一对应，拍摄图中的任一像素点与其对应的特征点在各自图中的位置存在一定的偏移。

下面结合屏幕隐形水印的应用场景详细阐述对齐样本和非对齐样本对模型训练的影响。屏幕隐形水印，即通过在屏幕上添加隐形水印，当发生泄密时，提取拍屏图中的隐形水印即可溯源到泄密者。添加隐形水印时，最常见的做法是向主机输出的每一帧图片中添加隐形水印。

目前在图片中添加水印的方法有很多，但大多数水印添加方法的鲁棒性不足，都只能用于数字化的图片文件，在拍照和打印等失真条件下水印将失效。将水印信息直接隐藏在图片的空域中，且该水印本身具有视觉显著的鲁棒结构，是在图片中添加可以对抗屏摄失真的一种思路。真实的拍照场景中，图片往往经过光照、拍照、压缩编码、色度调整等一系列手段产生多种不同的失真，想从这样的图片中提取出原本的水印结构特征是很困难的。使用深度神经网络直接以端到端的方式提取图片中水印的结构特征是一种可行且有效的思路。

在训练该神经网络之前，需要先准备训练数据集。这里有两种方式：其一，对不含水印特征的原图添加随机水印得到含水印的原图，该含水印的原图和随机水印的结构特征图即构成一个对齐样本；其二，对不含水印特征的原图添加随机水印得到含水印的原图，将该原图显示在显示器上，拍摄显示器得到拍屏图，通过对拍屏图中的屏幕区域进行提取和矫正得到真实拍摄的含水印图片，由于相机本身镜头存在误差、图片进行单应性变换时选点不够精确存在误差、图片拍摄角度过大导致恢复为平面图片时存在误差等等，种种误差导致真实拍摄的含水印图片并非完美的含水印原图，从而使得真实拍摄的含水印图片和随机水印的结构特征图构成了一个非对齐样本。

使用对齐样本进行模型的训练，模型学得快但泛化性差，并且与模型实际要识别的真实拍摄的屏幕图不符。使用非对齐样本进行模型的训练，得到的水印提取模型具有一定的提取图片中水印结构特征的能力，但效果较差，提取准确率很低，且该模型很容易发生过拟合的情况。

如何利用对齐样本和非对齐样本的特性，提出一种更为合理的模型训练方法，是急需要解决的一个难题。

发明内容

本发明的目的在于提供一种针对非对齐样本的深度神经网络模型训练方法，迭代训练后的模型准确率有明显提升，且同步实现了非对齐数据集的校准。

为实现以上目的，本发明采用的技术方案为：一种针对非对齐样本的深度神经网络模型训练方法，包括如下步骤：构建数据集，数据集中包括对齐样本和非对齐样本，且非对齐样本的占比为20%~80%，样本均由完整图及其对应的第一特征图构成；利用数据集对深度神经网络模型进行训练得到预训练模型；对非对齐样本的完整图及其第一特征图进行裁剪得到部分图样本，部分图样本包括部分图及其对应的第二特征图；将部分图样本的部分图代入预训练模型中得到预识别的第三特征图；判断第三特征图相对于第二特征图的偏差是否小于设定阈值，若是则完成模型训练，否则，利用第三特征图的偏差对非对齐样本的第一特征图进行校准得到第四特征图，并利用第四特征图更新数据集重新对深度神经网络模型进行训练。

与现有技术相比，本发明存在以下技术效果：本发明中提出了一种全新的模型训练思路，即在非对齐数据集中添加对齐数据集进行共同训练，避免了只采用某一种数据集导致的缺陷；并且在训练后，不断对非对齐数据集进行校准，使得模型和数据集同步迭代；与直接使用非对齐数据集相比，迭代训练后得到的模型准确率有明显提升；并且在训练完成时将非对齐数据集几乎校准为对齐数据集，该校准后的对齐数据集可用于后续其他任务。

附图说明

图1是本发明的流程示意图。

具体实施方式

下面结合图1，对本发明做进一步详细叙述。

参阅图1，本发明公开了一种针对非对齐样本的深度神经网络模型训练方法，包括如下步骤：构建数据集，数据集中包括对齐样本和非对齐样本，样本均由完整图及其对应的第一特征图构成；正是因为仅使用对齐样本、或仅使用非对齐样本对模型进行训练都存在一定的弊端，因此本发明中同时选用了两种样本构成数据集。在样本的选择比例上，若对齐样本占比越多，模型学的也越快，泛化性也越差；若非对齐样本占比越多，则模型的泛化性会比较好，但训练出来的模型容易发生过拟合的情况。本发明中，限定任一种样本的最低比例为20%，因此非对齐样本的占比为20%~80%；更优选地，我们可以直接按照对齐样本:非对齐样本等于1:1的比例去构建数据集，即两种样本的规模相当。

利用数据集对深度神经网络模型进行训练得到预训练模型；这一步就是常规的模型训练方法，通过将数据集按照一定的比例分成训练集和测试集，比如测试集:训练集等于9:1。按如下步骤用训练集对模型进行训练：首先将输入图片和输出图片缩放到固定大小，即模型的输入和输出大小；然后遍历训练集中的所有样本对，将完整图输入模型进行计算，得到模型计算出的特征图；再将第一特征图和模型计算得到的特征图的均方根误差作为模型的Loss；之后通过反向传播算法改变模型中的权重，使得模型向减小Loss的方向变化，即让模型计算的特征图和样本的第一特征图尽可能相近。再以测试集的准确率不再上升作为模型训练完毕的标志，从而得到训练完毕的新模型。但是需要注意的是，传统的模型训练到此就结束了，但本发明中有所不同，我们这里训练得到的模型称为“预训练模型”，后续还需要进行不断的迭代和修改。

当得到预训练模型后，我们对非对齐样本的完整图及其第一特征图进行裁剪得到部分图样本，部分图样本包括部分图及其对应的第二特征图；将部分图样本的部分图代入预训练模型中得到预识别的第三特征图。因为我们训练的时候用的都是完整图，此时我们裁剪出部分图样本来看下预训练模型的识别结果，这样才能看出模型的偏差。

判断第三特征图相对于第二特征图的偏差是否小于设定阈值，这里的偏差，可以整体比较两个特征数的相似度，或通过对两个特征图的特征点进行比对得到，若是则完成模型训练，否则，利用第三特征图的偏差对非对齐样本的第一特征图进行校准得到第四特征图，并利用第四特征图更新数据集重新对深度神经网络模型进行训练。正是因为非对齐样本本身的完整图及其第一特征图不一一对应，存在偏差，但利用完整图进行训练得到的预训练模型是计算不了这个偏差的，只有对部分图样本进行识别得到的第三特征图与部分图样本的第二特征图之间会出现偏差。此时，我们引入了校准机制，即在这种偏差超过设定阈值时，利用这两个特征图的差异，对非对齐样本中的第一特征图进行校准，校准后得到的第四特征图作为非对齐样本新的特征图，如此就相当于更新了非对齐样本。此时，我们再次利用校准后的非对齐样本和对齐样本对模型进行新一轮的训练，就会再得到一个新预训练模型。如此反复，直到预训练模型对非对齐样本的部分图进行识别得到的第三特征图相对于第二特征图的偏差小于设定阈值时，停止训练，并将最后得到的预训练模型作为最终的模型进行保存。

本发明中提出了一种全新的模型训练思路，即在非对齐数据集中添加对齐数据集进行共同训练，避免了只采用某一种数据集导致的缺陷；并且在训练后，不断对非对齐数据集进行校准，使得模型和数据集同步迭代；与直接使用非对齐数据集相比，迭代训练后得到的模型准确率有明显提升；并且在训练完成时将非对齐数据集几乎校准为对齐数据集，该校准后的对齐数据集可用于后续其他任务。

以上步骤中，详细介绍了综合对齐样本和非对齐样本对模型进行训练的方法，本发明中进一步地，还包括如下步骤：所述的若是则完成模型训练后修改为如下步骤：若是，则返回构建数据集的步骤中，删除所有对齐样本后再对深度神经网络模型进行训练得到最终的模型。

以屏摄水印为例，前面的方案中，最终的模型是由添加了水印的原图（即对齐样本）、经过校准后的真实拍摄的屏幕图（即校准后的非对齐样本）进行训练得到的，而模型在实际识别时，均用于识别拍摄的屏幕图。因此，为了进一步提高准确率，我们对前面方案的最后一步进行调整，最终的模型是由经过校准后的真实拍摄的屏幕图进行训练得到的，即全都是校准后的非对齐样本，经过前面的多轮训练，它们已经近似于对齐样本。经过这一步的训练，得到的模型精确度更高。

进一步地，所述的第三特征图相对于第二特征图的偏差通过如下步骤计算：确定部分图中的特征点，并分别计算各特征点在第二特征图、第三特征图中的位置；根据特征点的相对位置计算第三特征图相对于第二特征图的缩放比例；根据特征点在第二特征图中的位置、在按缩放比例缩放后的第三特征图中的位置计算第三特征图相对于第二特征图的平移距离；缩放比例和平移距离即构成所述的偏差；具体地，每一个第三特征图对应一个缩放比例和平移距离，我们可以根据多个特征点在两个特征图中的坐标位置，构建超定方程组去求解缩放比例和平移距离。因为部分图样本会有多个，因此会有多个缩放比例和平移距离，因此在判断偏差是否小于设定阈值时，是这样判断的：若所有的缩放比例和平移距离均小于设定阈值，则认为第三特征图相对于第二特征图的偏差小于设定阈值。

进一步地，所述的利用第三特征图的偏差对非对齐样本的第一特征图进行校准得到第四特征图包括：将第三特征图的缩放比例和平移距离作为第三特征图中点的校准参数；根据第一特征图和第二特征图的裁剪关系，确定第三特征图中点在第四特征图中的位置，从而得到第四特征图中部分点的校准参数，第二特征图是从第一特征图中裁剪出来的，第三特征图可以认为是按照相同的裁剪关系从第四特征图中裁剪得到的，所以我们可以根据这个关系将第三特征图的中点映射到第四特征图中。

在已知第四特征图中部分点的校准参数的前提下，可以利用线性插值的方法，计算第四特征图中其他所有像素点的校准参数；再根据第四特征图中每个像素点的校准参数计算该像素点在第一特征图中对应的点，并将对应点的像素值设为该像素点的像素值。通过这样可以快速的对第一特征图进行校准得到第四特征图。

进一步地，所述的对非对齐样本的完整图及其第一特征图进行裁剪得到部分图样本包括：确定裁剪后的部分图的宽、高占比b1、b2，其中b1=w/W，b2=h/H，W和H为完整图的宽和高，w和h为部分图的宽和高，1/b1和1/b2均为大于等于2的整数；确定裁剪时水平方向、竖直方向的步长W/c1、H/c2，其中c1和c2分别是b1和b2的整数倍；按如下公式选取左上角端点(x,y)：x∈{i*W/c1；i=0,1,…,[(c1/b1)*(b1-1)]}，y∈{j*H/c2；j=0,1,…,[(c2/b2)*(b2-1)]}，按照左上角端点坐标(x,y)以及部分图的宽w、高h对非对齐样本的完整图及其第一特征图进行裁剪即得到部分图样本。通过上述方法进行裁剪后，得到的第三特征图的中点在第四特征图中呈等间隔的点阵状，更利于后续的线性差值计算。

本发明的具体实施例中，b1=b2=3，c1=c2=12，相当于选择的部分图的左上角端点取值分别为x∈{i*w/12,i=0,1,…,8}，y∈{j*h/12,j=0,1,…,8}，部分图的宽高为完整图的1/3。

进一步地，所述的深度神经网络模型用于识别屏摄图中的隐形水印，考虑到屏摄图中可能存在部分屏的情况，因此，为了提高模型的适用性，我们引入了部分屏样本。引入部分屏样本后，训练得到的模型还能提取部分屏图像中的隐形水印，同时，还可以大幅提高数据集的数量，训练得到的模型更加精准。

需要特别注意的是，部分屏样本，相当于对数据集进行增强，让模型训练时的效果更佳，它是从所有样本（包括对齐样本、非对齐样本）的完整图中进行缩放和裁剪得到的。前面说的部分图样本，虽然也是从完整图中截取的，但它只是从非对齐样本的完整图中裁剪得到，且部分图样本的作用是用于校准非对齐样本，两者不能混为一谈。

优选地，所述利用数据集对深度神经网络模型进行训练包括：随机生成一个0到1的随机数z；若z＞α，则采用数据集中的任一样本对深度神经网络模型进行训练，其中α为预设的部分屏样本比例；否则，对数据集中任一样本进行缩放和裁剪后得到部分屏样本后，采用该部分屏样本对深度神经网络模型进行训练。比如α＝0.7，表示70%的训练采用的是部分屏样本。

优选地，本发明中通过随机的方式生成部分屏样本。具体地，所述的对数据集中任一样本进行缩放和裁剪后得到部分屏样本包括：设定原图水平、垂直方向上的缩放的最大比例sw、sh；生成1到sw的一个随机数x和1到sh的一个随机数y，将样本的原图及其对应的特征图均缩放至xL*yL大小，其中L为模型输入大小；在xL*yL大小的图片中选取随机位置，从原图和特征图中均截取L*L大小的图片得到部分屏样本。以sw=sh=4为例，我们是随机剪裁至少长和宽为原始图片的1/4的子图片生成的。

前面的实施例中，部分图样本的大小是完整图的1/3，理论上通过前面步骤裁剪得到的部分屏样本可能和部分图样本一样，但这种概率非常低，约几十亿分之一的概率，所以可以认为两者不会重合；即使出现了重合的情况，也不会影响到模型的训练。

本发明中还公开了一种计算机可读存储介质和一种电子设备。其中，一种计算机可读存储介质其上存储有计算机程序，所述计算机程序被处理器执行时，实现如前所述的针对非对齐样本的深度神经网络模型训练方法。一种电子设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现如前所述的针对非对齐样本的深度神经网络模型训练方法。

Claims

1.一种针对非对齐样本的深度神经网络模型训练方法，其特征在于：包括如下步骤：

构建数据集，数据集中包括对齐样本和非对齐样本，且非对齐样本的占比为20%~80%，样本均由完整图及其对应的第一特征图构成；对齐样本即样本的完整图中任一像素点与其对应的特征点在各自图中的位置是完全一致的，非对齐样本即样本的完整图中的任一像素点与其对应的特征点在各自图中的位置存在一定的偏移；

利用数据集对深度神经网络模型进行训练得到预训练模型；

对非对齐样本的完整图及其第一特征图进行裁剪得到部分图样本，部分图样本包括部分图及其对应的第二特征图；

将部分图样本的部分图代入预训练模型中得到预识别的第三特征图；

判断第三特征图相对于第二特征图的偏差是否小于设定阈值，若是则完成模型训练，否则，利用第三特征图的偏差对非对齐样本的第一特征图进行校准得到第四特征图，并利用第四特征图更新数据集重新对深度神经网络模型进行训练。

2.如权利要求1所述的针对非对齐样本的深度神经网络模型训练方法，其特征在于：所述的若是则完成模型训练后修改为如下步骤：

若是，则返回构建数据集的步骤中，删除所有对齐样本后再对深度神经网络模型进行训练得到最终的模型。

3.如权利要求1所述的针对非对齐样本的深度神经网络模型训练方法，其特征在于：所述的第三特征图相对于第二特征图的偏差通过如下步骤计算：

确定部分图中的特征点，并分别计算各特征点在第二特征图、第三特征图中的位置；

根据特征点的相对位置计算第三特征图相对于第二特征图的缩放比例；

根据特征点在第二特征图中的位置、在按缩放比例缩放后的第三特征图中的位置计算第三特征图相对于第二特征图的平移距离；

缩放比例和平移距离即构成所述的偏差；

若缩放比例和平移距离均小于设定阈值，则认为第三特征图相对于第二特征图的偏差小于设定阈值。

4.如权利要求3所述的针对非对齐样本的深度神经网络模型训练方法，其特征在于：所述的利用第三特征图的偏差对非对齐样本的第一特征图进行校准得到第四特征图包括：

将第三特征图的缩放比例和平移距离作为第三特征图中点的校准参数；

根据第一特征图和第二特征图的裁剪关系，确定第三特征图中点在第四特征图中的位置，从而得到第四特征图中部分点的校准参数；

利用线性插值的方法，计算第四特征图中所有像素点的校准参数；

根据第四特征图中每个像素点的校准参数计算该像素点在第一特征图中对应的点，并将对应点的像素值设为该像素点的像素值。

5.如权利要求1所述的针对非对齐样本的深度神经网络模型训练方法，其特征在于：所述的对非对齐样本的完整图及其第一特征图进行裁剪得到部分图样本包括：

确定裁剪后的部分图的宽、高占比b1、b2，其中b1=w/W，b2=h/H，W和H为完整图的宽和高，w和h为部分图的宽和高，1/b1和1/b2均为大于等于2的整数；

确定裁剪时水平方向、竖直方向的步长W/c1、H/c2，其中c1和c2分别是b1和b2的整数倍；

按如下公式选取左上角端点(x,y)：

x∈{i*W/c1；i=0,1,…,[(c1/b1)*(b1-1)]}，

y∈{j*H/c2；j=0,1,…,[(c1/b1)*(b1-1)]}，

按照左上角端点坐标(x,y)以及部分图的宽w、高h对非对齐样本的完整图及其第一特征图进行裁剪即得到部分图样本。

6.如权利要求1所述的针对非对齐样本的深度神经网络模型训练方法，其特征在于：所述的深度神经网络模型用于识别屏摄图中的隐形水印；所述利用数据集对深度神经网络模型进行训练包括：

随机生成一个0到1的随机数z；

若z＞α，则采用数据集中的任一样本对深度神经网络模型进行训练，其中α为预设的部分屏样本比例；

否则，对数据集中任一样本进行缩放和裁剪后得到部分屏样本后，采用该部分屏样本对深度神经网络模型进行训练。

7.如权利要求6所述的针对非对齐样本的深度神经网络模型训练方法，其特征在于：所述的对数据集中任一样本进行缩放和裁剪后得到部分屏样本包括：

设定完整图水平、垂直方向上的缩放的最大比例sw、sh；

生成1到sw的一个随机数x和1到sh的一个随机数y，将样本的完整图及其对应的第一特征图均缩放至xL*yL大小，其中L为模型输入大小；

在xL*yL大小的图片中选取随机位置，从完整图和第一特征图中均截取L*L大小的图片得到部分屏样本。

8.一种计算机可读存储介质，其特征在于：其上存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-7中任一项所述的针对非对齐样本的深度神经网络模型训练方法。

9.一种电子设备，其特征在于：包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一项所述的针对非对齐样本的深度神经网络模型训练方法。