CN111738270B

CN111738270B - 模型生成方法、装置、设备和可读存储介质

Info

Publication number: CN111738270B
Application number: CN202010866710.8A
Authority: CN
Inventors: 秦勇; 李兵
Original assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Current assignee: Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2020-11-13
Anticipated expiration: 2040-08-26
Also published as: CN111738270A

Abstract

本申请提出一种模型生成方法、装置、设备和可读存储介质，包括：获取包含多组图像对和图像对的标签，标签用于表示图像对中的两个图像是否相似；对图像对进行预设目标区域的剪切，得到区域图像对；对图像对进行预设采样倍数的降采样，得到降采样图像对；获取待训练神经网络模型，其中，待训练神经网络包括特征网络和分类网络，特征网络包括四个分支，四个分支的权重不相同，每个分支包括多个串联连接的基本块和第一全连接层，基本块的输出均连接第一全连接层，第一全连接层的输出连接分类网络；将区域图像对和降采样图像对对应输入特征网络的四个分支中，以训练待训练神经网络，得到图像相似度判定模型。本申请提高了图像相似度评估的准确率。

Description

模型生成方法、装置、设备和可读存储介质

技术领域

本申请涉及深度学习技术领域，尤其涉及一种模型生成方法、装置、设备和可读存储介质。

背景技术

目前基于深度学习的图像相似度评估方法，都在自然场景的图像相似度评估问题中取得了非常好效果。自然场景图像的分辨率相比于手写数字字符图像更高，内容丰富，包含更多的细节信息。但是，手写数字字符图像不仅内容单一，而且细节上差异也不大。因此，利用现有评估方法进行手写数字字符图像相似度评估时，效果比较差。

发明内容

本申请实施例提供一种模型生成方法、装置、设备和可读存储介质，以解决相关技术存在的问题，技术方案如下：

第一方面，本申请实施例提供了一种模型生成方法，包括：

获取包含多组图像对和图像对的标签，标签用于表示图像对中的两个图像是否相似；

对图像对进行预设目标区域的剪切，得到区域图像对；

对图像对进行预设采样倍数的降采样，得到降采样图像对；

获取待训练神经网络模型，其中，待训练神经网络包括特征网络和分类网络，特征网络包括四个分支，四个分支的权重不相同，每个分支包括多个串联连接的基本块和第一全连接层，基本块的输出均连接第一全连接层，第一全连接层的输出连接分类网络；

将区域图像对和降采样图像对对应输入特征网络的四个分支中，以训练待训练神经网络，得到图像相似度判定模型。

第二方面，本申请实施例提供了一种模型生成装置，包括：

训练图像获取模块，用于获取包含多组图像对和图像对的标签，标签用于表示图像对中的两个图像是否相似；

训练图像剪切模块，用于对图像对进行预设目标区域的剪切，得到区域图像对；

训练图像降采样模块，用于对图像对进行预设采样倍数的降采样，得到降采样图像对；

模型获取模块，用于获取待训练神经网络模型，其中，待训练神经网络包括特征网络和分类网络，特征网络包括四个分支，四个分支的权重不相同，每个分支包括多个串联连接的基本块和第一全连接层，基本块的输出均连接第一全连接层，第一全连接层的输出连接分类网络；

训练模块，用于将区域图像对和降采样图像对对应输入特征网络的四个分支中，以训练待训练神经网络，得到图像相似度判定模型。

第三方面，本申请实施例提供了一种模型生成设备，该模型生成设备包括：存储器和处理器。其中，该存储器和该处理器通过内部连接通路互相通信，该存储器用于存储指令，该处理器用于执行该存储器存储的指令，并且当该处理器执行该存储器存储的指令时，使得该处理器执行上述各方面任一种实施方式中的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储计算机程序，当计算机程序在计算机上运行时，上述各方面任一种实施方式中的方法被执行。

上述技术方案中的优点或有益效果至少包括：特征网络的四个分支的网络结构相同但权值不相同，提高了细节差异小的图像的相似度学习效果。此外，第一全连接层结合了不同基本块的特征向量，关注了图像的不同分辨率信息，有助于更好地区分两张原始图像是否匹配。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1为根据本申请实施例的模型生成方法的流程图一；

图2为根据本申请实施例的模型生成方法中待训练神经网络的结构示例图；

图3为根据本申请实施例的模型生成方法中基本块的结构示例图；

图4为根据本申请实施例的模型生成方法中分支的结构示例图；

图5为根据本申请实施例的模型生成方法中分类网络的结构示例图；

图6为根据本申请实施例的模型生成方法的流程图二；

图7为根据本申请实施例的模型生成方法的流程图三；

图8为根据本申请实施例的模型生成方法的示例图；

图9为根据本申请实施例的模型生成装置的结构框图一；

图10为根据本申请实施例的模型生成方法的结构框图二；

图11为根据本申请实施例的模型生成设备的结构框图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本申请的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出根据本申请一实施例的模型生成方法的流程图。如图1所示，该模型生成方法可以包括：

S101、获取包含多组图像对和图像对的标签，标签用于表示图像对中的两个图像是否相似。

S102、对图像对进行预设目标区域的剪切，得到区域图像对。

S103、对图像对进行预设采样倍数的降采样，得到降采样图像对。

S104、获取待训练神经网络模型。其中，待训练神经网络包括特征网络和分类网络。特征网络包括四个分支，四个分支的权重不相同。每个分支包括多个串联连接的基本块和第一全连接层。基本块的输出均连接第一全连接层，第一全连接层的输出连接分类网络。

S105、将区域图像对和降采样图像对对应输入特征网络的四个分支中，以训练待训练神经网络，得到图像相似度判定模型。

其中，参见图2，图2为步骤S104的待训练神经网络结构的示例图。特征网络中包括分支201、分支202、分支203和分支204。假设区域图像对包括区域图像101和区域图像102，降采样图像对包括降采样图像103和降采样图像104。区域图像101输入分支201，区域图像102输入分支202，降采样图像103输入分支203，降采样图像输入分支204。四个分支所输出的特征向量经过串联作为特征网络提取的特征网络，分类网络基于特征网络提取的特征输出图像对的相似度结果。

其中，步骤S104中，多个基本块串联连接，从而实现除了首个基本块外，其它基本块的输入均来自于上一基本块输出的特征向量。

本实施例中，首先，经过剪切的区域图像对，有利于关注到原始图像中的目标区域内的内容，经过将采样的降采样图像对，有利于关注到原始图像的语义信息。其次，特征网络的四个分支的网络结构相同但权值不相同，提高了细节差异小的图像的相似度学习效果。此外，第一全连接层结合了不同基本块的特征向量，关注了图像的不同分辨率信息，有助于更好地区分两张原始图像是否匹配。

综上，本实施例提供的模型生成方法，能够更好地关注图像表达的关键语义信息，能够提高细节差异小的图像的相似度学习效果，此外，提取的特征信息中包含了图像的多种分辨率信息。因此，本实施例不仅能够保证图像相似度判定模型的评估效率，还能够提高该相似度评估的准确率。

在一种实施方式中，每一图像对的标签可以设为0或1，其中，“0”表示两张图像不匹配，“1”表示两张图像匹配。

在一种实施方式中，目标区域为中心区域。

通常图像的中心区域包含较多的语义信息。例如字符图像，字符通常位于图像中心。因此，剪切出图像的中心区域，有利于关注到图像本身传达的信息。

在一种实施方式中，区域图像对和降采样图像对的图像尺寸相同。

可选地，区域图像对占原图像对的1/4。对原图像对进行2倍降采样，得到的降采样图像对占原图像对的1/4。

在一种实施方式中，基本块包括卷积层、批量归一化层和激活函数层，卷积层、批量归一化层和激活函数层交替分布。

在基本块中确定设定多次卷积操作和可以实现对图像进行多次卷积操作和多次批量归一化操作。除此之外，基本块中还可以包括设于卷积层之后的池化层。

可选地，参见图3，图3为基本块的一示例图，该示例中，卷积层、批量归一化层和激活函数层的层数均为两层。

可选地，激活函数可以包括RELU函数。

在一种实施方式中，在特征网络的同一分支中，依据最后一个基本块输出的第一特征向量的大小，对其余基本块输出的第一特征向量进行降采样处理，得到降采样处理后的第二特征向量；

将最后一个基本块的第一特征向量和其余基本块的第二特征向量，输入至第一全连接层。

可选地，分支中包括四个基本块，即分支中包括第一基本块、第二基本块、第三基本块和第四基本块。

参见图4，图4为分支的结构示例图。该分支中包括依次连接的基本块401、基本块402、基本块403和基本块404。分支内的特征处理过程如下示例。

（1）基本块401输出第一特征向量4011，基本块402输出第一特征向量4022，基本块403输出第一特征向量4033，基本块404输出第一特征向量4044。

（2）对第一特征向量4011、第一特征向量4022和第一特征向量4033依次进行降采样处理，得到和第一特征向量4044的大小相同的第二特征向量40111、第二特征向量40222和第二特征向量40333。

（3）将第二特征向量40111、第二特征向量40222、第二特征向量40333和第一特征向量4044进行串联，将串联后的特征向量输入至第一全连接层.

可选地，采用特征金字塔网络(feature pyramid networks，FPN)的方式，将多个基本块输出的特征向量进行组合。

在一种实施方式中，特征网络的各分支均采用Resnet18神经网络模型构建所得。其中，Resnet18神经网络模型至少包括依次连接的两个第一基本块、两个第二基本块、两个第三基本块、两个第四基本块和全连接层。每一个基本块中包括两层卷积层、两层池化层、两层批量归一化层和两层激活函数层。

Resnet18神经网络模型作为特征提取器，有利于获取图像的高层语义信息。

在一种实施方式中，分类网络包括依次连接的第二全连接层和归一化层。

其中，分类网络，也可以称为度量网络，用于度量图像距离，图像距离表示图像相似度。

可选地，归一化层包括softmax函数。其中，softmax函数，或称归一化指数函数。softmax函数用于将一个含任意实数的K维向量z“压缩”到另一个K维实向量σ(z)中，使得向量σ(z)中的每一个元素的范围都在（0，1）之间，并且所有元素的和为1。

归一化层，可以输出为两个概率值，第一个值表示两张图像不匹配的概率，第二个值表示两张图像匹配的概率。根据概率值大小，不仅能判断图像对是否匹配，还可以根据概率值大小，决定判定结果的置信度。

参见图5，图5为分类网络的结构示例图。该示例中，分类网络包括三层全连接层和归一化层。三层全连接层依次连接，最后一层全连接层连接归一化层。

在一种实施方式中，参见图6，步骤S105，包括：

S601、将区域图像对和降采样图像对应输入特征网络的四个分支中，得到分类网络的相似度结果；

S602、根据相似度结果、图像对的标签、损失函数和梯度反向传播算法，对待训练神经网络的参数进行优化，以训练待训练神经网络。

可选地，损失函数包括交叉熵损失（CrossEntropyLoss）函数。

可选地，相似度结果包括图像对是否相似的判定结果，还可以包括该判定结果的置信度。

在模型训练过程中，分类网络中还包括损失函数。损失函数又称为目标函数。基于归一化层输出的结果和图像对的标签的误差，确定损失函数的损失值。转入反向传播，沿着待训练神经网络逐层求出损失函数对各神经元权值的偏导数，构成损失函数对权值向量的梯量，作为修改权值的依据。网络的学习在权值修改过程中完成。误差达到所期望值时，即损失函数收敛时，神经网络完成训练，得到图像相似度判定模型。

在一种实施方式中，参见图7，图1所示的方法，还包括：

S701、获取待预测图像对；

S702、对待预测图像对进行预设目标区域的剪切，得到待预测区域图像对；

S703、对待预测图像对进行预设采样倍数的降采样，得到待预测降采样图像对；

S704、将待预测区域图像对和待预测降采样图像对输入至图像相似度判定模型，得到图像相似判定模型输出的相似度结果。

本申请实施例提供的模型生成方法，可以很好地适用于字符图像的相似度评估。字符图像分辨率低，内容单一，而且细节上差异也不大。但是，其变换却十分丰富，远非自然场景图像可比。不同的笔迹、不同的背景以及模糊、勾画、污损等等原因使得字符图像的细节信息规律难以捕捉。但是，相较于自然场景图像，字符图像的语义信息非常明确和单一。而本申请实施例，能够更好地关注图像表达的关键语义信息，能够提高细节差异小的图像的相似度学习效果，有利于手写数字字符图像相似度评估的准确率

本申请实施例可以运用于拍照批改数学题和拍照搜题等。由于书写者的笔迹与标准体之间的差距，识别题目答案的难度被放大。而本申请实施例的方法，可以对数字字符图像的相似度进行评估。将识别手写数字字符图像的数字结果与其可能的标准数字字符图像进行比较，从而得到两者之间的相似度值，为后续的判题和搜索等操作提供有力的先验知识。

下述给出本申请实施例的一种示例。该示例使用Resnet18神经网络模型作为特征提取器，旨在获得手写数字字符图像的高层语义信息。同时，使用FPN将提取到的浅层特征信息与深层特征信息组合起来，并将这些信息进行向量量化，然后输入度量网络进行相似度评估。

（一）待训练神经网络模型的结构

待训练神经网络模型包括特征网络和分类网络。

（1）特征网络

特征网络由4个分支组成。每个分支使用Resnet18神经网络模型提取特征，并采用特征叠加的方式组合特征，相互之间均不共享权重。4个分支的输出连接至分类网络。

其中，Resnet18模型按照基本块（BasicBlock）的方式堆叠构建，共有4个基本块。一个基本块，包含两次卷积操作，两次批归一化操作，使用RELU作为激活函数

对于同一分支，每个基本块输出的特征向量通过降采样，使其大小与最后一个基本块的输出一样。将降采样后的前3个基本块的特征向量和最后1个基本块的特征向量进行串联，然后输入至全连接层，全连接层输出的特征向量作为该分支的特征向量。

（2）分类网络

分类网络包括3个全连接层、softmax函数和目标函数。其中，3个全连接层依次连接，第3个全连接层后接的softmax函数。目标函数函数采用交叉熵损失（CrossEntropyLoss）函数。

（二）模型生成阶段

参见图8，图8给出了生成图像相似度判定模型过程的示例图。具体过程如下：

第一步，构建待训练神经网络。

第二步，收集大量手写数字字符图像组成图像对，作为手写数字字符图像相似度判定模型的训练集。

第三步，对于训练集中的图像对，将图像中心位置裁剪出来，裁剪出来的图像为原图像1/4大小，作为中心图像。对图像进行2倍降采样，得到的图像也为原图像1/4大小，作为全局图像。

第四步，将中心图像和全局图像输入待训练神经网络模型，训练待训练神经网络模型，得到用于手写数字字符图像的图像相似度判定模型。

具体地，将两张中心图像分别输入特征网络第1个分支和第2个分支，将两张全局图像分别输入特征网络第3个分支和第4个分支。

对于同一分支来说，各个基本块依次执行，上一基本块输出的特征向量将作为下一基本块的输入特征向量。

前3个基本块输出的特征向量进行降采样，以使前3个基本块输出的特征向量的大小和最后1个基本块输出的特征向量的大小相同。

将降采样后的前3个基本块的特征向量和最后1个基本块的特征向量进行串联。对串联后的特征向量进行维度调整。将调整维度后的特征向量输入至全连接层，以获得全连接层输出的特征向量，作为分支的特征向量。

将4个分支的特征向量串联，输入分类网络，以得到将分类网络输出的相似度结果。

根据目标函数、相似度结果、图像对的标签和梯度反向传播算法，对整个图像相似度判定模型的参数进行优化。

（三）手写字符图像相似度判定阶段

第一步，获取待预测的图像对。例如，图像对中包括一手写数字字符图像和标准字体的数字字符图像。

第二步，对于待预测的图像对，将图像中心位置裁剪出来，裁剪出来的图像为原图像1/4大小，作为待预测的中心图像对。对待预测的图像对进行2倍降采样，得到的图像也为原图像1/4大小，作为待预测的全局图像对。

第三步，将待预测的中心图像对和全局图像对输入图像相似度判定模型，得到图像对的相似度判定结果。

其中，图像相似度判定模型可以输出为两个概率值，第一个值表示两张图像不匹配的概率，第二个值表示两张图像匹配的概率。根据概率值大小，不仅能判断图像对是否匹配，同时可以根据概率值大小，决定判定结果的置信度。

图9示出根据本申请实施例的模型生成装置的结构框图。如图9所示，该装置可以包括：

训练图像获取模块901，用于获取包含多组图像对和图像对的标签，标签用于表示图像对中的两个图像是否相似；

训练图像剪切模块902，用于对图像对进行预设目标区域的剪切，得到区域图像对；

训练图像降采样模块903，用于对图像对进行预设采样倍数的降采样，得到降采样图像对；

模型获取模块904，用于获取待训练神经网络模型，其中，待训练神经网络包括特征网络和分类网络，特征网络包括四个分支，四个分支的权重不相同，每个分支包括多个串联连接的基本块和第一全连接层，基本块的输出均连接第一全连接层，第一全连接层的输出连接分类网络；

训练模块905，用于将区域图像对和降采样图像对对应输入特征网络的四个分支中，以训练待训练神经网络，得到图像相似度判定模型。

在一种实施方式中，目标区域为中心区域。

在一种实施方式中，其中，

特征网络包括：

特征向量降采样模块，用于在同一分支中，依据最后一个基本块输出的第一特征向量的大小，对其余基本块输出的第一特征向量进行降采样处理，得到降采样处理后的第二特征向量；

特征向量输入模块，用于将最后一个基本块的第一特征向量和其余基本块的第二特征向量，输入至第一全连接层。

在一种实施方式中，训练模块905，包括：

图像对输入子模块，用于将区域图像对和降采样图像对应输入特征网络的四个分支中，得到分类网络的相似度结果；

训练子模块，用于根据相似度结果、图像对的标签、损失函数和梯度反向传播算法，对待训练神经网络的参数进行优化，以训练待训练神经网络。

在一种实施方式中，参见图10，模型生成装置1000还包括：

待预测图像获取对模块1001，用于获取待预测图像对；

待预测图像剪切模块1002，用于对待预测图像对进行预设目标区域的剪切，得到待预测区域图像对；

待预测图像降采样模块1003，用于对待预测图像对进行预设采样倍数的降采样，得到待预测降采样图像对；

相似度预测模块1004，用于将待预测区域图像对和待预测降采样图像对输入至图像相似度判定模型，得到图像相似判定模型输出的相似度结果。

本申请实施例各装置中的各模块的功能可以参见上述方法中的对应描述，在此不再赘述。

图11示出根据本申请实施例的模型生成设备的结构框图。如图11所示，该模型生成设备包括：存储器1110和处理器1120，存储器1110内存储有可在处理器1120上运行的计算机程序。处理器1120执行该计算机程序时实现上述实施例中的模型生成方法。存储器1110和处理器1120的数量可以为一个或多个。

该模型生成设备还包括：

通信接口1130，用于与外界设备进行通信，进行数据交互传输。

如果存储器1110、处理器1120和通信接口1130独立实现，则存储器1110、处理器1120和通信接口1130可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构（Industry Standard Architecture，ISA）总线、外部设备互连（PeripheralComponentInterconnect，PCI）总线或扩展工业标准体系结构（Extended IndustryStandard Architecture，EISA）总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器1110、处理器1120及通信接口1130集成在一块芯片上，则存储器1110、处理器1120及通信接口1130可以通过内部接口完成相互间的通信。

本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现本申请实施例中提供的方法。

本申请实施例还提供了一种芯片，该芯片包括，包括处理器，用于从存储器中调用并运行存储器中存储的指令，使得安装有芯片的通信设备执行本申请实施例提供的方法。

本申请实施例还提供了一种芯片，包括：输入接口、输出接口、处理器和存储器，输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连，处理器用于执行存储器中的代码，当代码被执行时，处理器用于执行申请实施例提供的方法。

应理解的是，上述处理器可以是中央处理器(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(fieldprogrammablegate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是，处理器可以是支持进阶精简指令集机器(advanced RISC machines，ARM)架构的处理器。

进一步地，可选的，上述存储器可以包括只读存储器和随机存取存储器，还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以包括只读存储器(read-onlymemory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以包括随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用。例如，静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic random access memory ，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data date SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhancedSDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM，DR RAM)。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行***、装置或设备（如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***）使用，或结合这些指令执行***、装置或设备而使用。

应理解的是，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器，磁盘或光盘等。

以上，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种模型生成方法，其特征在于，包括：

获取多组图像对和所述图像对的标签，所述标签用于表示所述图像对中的两个图像是否相似；

对所述图像对进行预设目标区域的剪切，得到区域图像对；

对所述图像对进行预设采样倍数的降采样，得到降采样图像对；

获取待训练神经网络，其中，所述待训练神经网络包括特征网络和分类网络，所述特征网络包括四个分支，四个所述分支的权重不相同，每个所述分支包括多个串联连接的基本块和第一全连接层，所述基本块的输出均连接所述第一全连接层，所述第一全连接层的输出连接所述分类网络；

将所述区域图像对和所述降采样图像对对应输入所述特征网络的四个分支中，以训练所述待训练神经网络，得到图像相似度判定模型。

2.根据权利要求1所述的方法，其特征在于，所述目标区域为中心区域。

3.根据权利要求1所述的方法，其特征在于，所述区域图像对和所述降采样图像对的图像尺寸相同。

4.根据权利要求1所述的方法，其特征在于，所述基本块包括卷积层、批量归一化层和激活函数层，所述卷积层、所述批量归一化层和所述激活函数层交替分布。

5.根据权利要求1所述的方法，其特征在于，其中，

在同一所述分支中，依据最后一个所述基本块输出的第一特征向量的大小，对其余所述基本块输出的第一特征向量进行降采样处理，得到降采样处理后的第二特征向量；

将最后一个所述基本块的第一特征向量和其余所述基本块的第二特征向量，输入至所述第一全连接层。

6.根据权利要求1所述的方法，其特征在于，所述分类网络包括依次连接的第二全连接层和归一化层。

7.根据权利要求1所述的方法，其特征在于，所述将所述区域图像对和所述降采样图像对对应输入所述特征网络的四个分支中，训练所述待训练神经网络，包括：

将所述区域图像对和所述降采样图像对应输入所述特征网络的四个分支中，得到所述分类网络的相似度结果；

根据所述相似度结果、所述图像对的标签、损失函数和梯度反向传播算法，对所述待训练神经网络的参数进行优化，以训练所述待训练神经网络。

8.根据权利要求1-7任一项所述的方法，其特征在于，还包括：

获取待预测图像对；

对所述待预测图像对进行预设目标区域的剪切，得到待预测区域图像对；

对所述待预测图像对进行预设采样倍数的降采样，得到待预测降采样图像对；

将所述待预测区域图像对和所述待预测降采样图像对输入至所述图像相似度判定模型，得到所述图像相似判定模型输出的相似度结果。

9.一种模型生成装置，其特征在于，包括：

训练图像获取模块，用于获取多组图像对和所述图像对的标签，所述标签用于表示所述图像对中的两个图像是否相似；

训练图像剪切模块，用于对所述图像对进行预设目标区域的剪切，得到区域图像对；

训练图像降采样模块，用于对所述图像对进行预设采样倍数的降采样，得到降采样图像对；

模型获取模块，用于获取待训练神经网络，其中，所述待训练神经网络包括特征网络和分类网络，所述特征网络包括四个分支，四个所述分支的权重不相同，每个所述分支包括多个串联连接的基本块和第一全连接层，所述基本块的输出均连接所述第一全连接层，所述第一全连接层的输出连接所述分类网络；

训练模块，用于将所述区域图像对和所述降采样图像对对应输入所述特征网络的四个分支中，以训练所述待训练神经网络，得到图像相似度判定模型。

10.根据权利要求9所述的装置，其特征在于，所述目标区域为中心区域。

11.根据权利要求9所述的装置，其特征在于，所述区域图像对和所述降采样图像对的图像尺寸相同。

12.根据权利要求9所述的装置，其特征在于，所述基本块包括卷积层、批量归一化层和激活函数层，所述卷积层、所述批量归一化层和所述激活函数层交替分布。

13.根据权利要求9所述的装置，其特征在于，其中，

所述特征网络包括：

特征向量降采样模块，用于在同一所述分支中，依据最后一个所述基本块输出的第一特征向量的大小，对其余所述基本块输出的第一特征向量进行降采样处理，得到降采样处理后的第二特征向量；

特征向量输入模块，用于将最后一个所述基本块的第一特征向量和其余所述基本块的第二特征向量，输入至所述第一全连接层。

14.根据权利要求9所述的装置，其特征在于，所述分类网络包括依次连接的第二全连接层和归一化层。

15.根据权利要求9所述的装置，其特征在于，所述训练模块，包括：

图像对输入子模块，用于将所述区域图像对和所述降采样图像对应输入所述特征网络的四个分支中，得到所述分类网络的相似度结果；

训练子模块，用于根据所述相似度结果、所述图像对的标签、损失函数和梯度反向传播算法，对所述待训练神经网络的参数进行优化，以训练所述待训练神经网络。

16.根据权利要求9-15任一项所述的装置，其特征在于，还包括：

待预测图像获取对模块，用于获取待预测图像对；

待预测图像剪切模块，用于对所述待预测图像对进行预设目标区域的剪切，得到待预测区域图像对；

待预测图像降采样模块，用于对所述待预测图像对进行预设采样倍数的降采样，得到待预测降采样图像对；

相似度预测模块，用于将所述待预测区域图像对和所述待预测降采样图像对输入至所述图像相似度判定模型，得到所述图像相似判定模型输出的相似度结果。

17.一种模型生成设备，其特征在于，包括：处理器和存储器，所述存储器中存储指令，所述指令由处理器加载并执行，以实现如权利要求1至8任一项所述的方法。

18.一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。