CN117197616A

CN117197616A - 模型训练方法及其装置

Info

Publication number: CN117197616A
Application number: CN202311185409.0A
Authority: CN
Inventors: 赵小铭
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2023-09-13
Filing date: 2023-09-13
Publication date: 2023-12-08

Abstract

本申请公开了一种模型训练方法及其装置，属于人工智能领域。该方法包括：获取第一训练样本，第一训练样本包括第一图像三元组，第一图像三元组中的每张图像对应一个拍摄视角，第一图像三元组中的每张图像包含同一拍摄对象；基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；基于相似性信息，对匹配关键点定位模型进行训练；其中，关键点为每张图像中拍摄对象对应的关键点。

Description

模型训练方法及其装置

技术领域

本申请属于人工智能技术领域，具体涉及一种模型训练方法及其装置。

背景技术

目前，电子设备可以通过神经网络得到图像中的匹配关键点，从而可以根据该匹配关键点进行定位和建图。相关技术中，电子设备可以通过附带稠密深度和相机位姿的图像对进行匹配关键点训练；具体的，电子设备可以通过稠密深度和相机位姿，将一幅图像中的关键点投影到另一幅图像中，从而确定图像对中关键点的真值匹配关系，进而根据该真值匹配关系得到与关键点匹配的匹配关键点。

然而，上述方法对数据质量要求较高，即需要准确且稠密的深度信息，通常获取准确且稠密的深度的成本是极高的，如此，电子设备进行模型训练的成本较大。

发明内容

本申请实施例的目的是提供一种模型训练方法及其装置，能够在不提高训练成本的同时，保证模型的准确性。

第一方面，本申请实施例提供了一种模型训练方法，该模型训练方法包括：获取第一训练样本，该第一训练样本包括第一图像三元组，第一图像三元组中的每张图像对应一个拍摄视角，第一图像三元组中的每张图像包括同一拍摄对象；基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；基于相似性信息，对匹配关键点定位模型进行训练；其中，该匹配关键点为每张图像中拍摄对象对应的关键点。

第二方面，本申请实施例提供了一种模型训练装置，该模型训练装置包括：获取模块、确定模块和训练模块。获取模块，用于获取第一训练样本，该第一训练样本包括第一图像三元组，第一图像三元组中的每张图像对应一个拍摄视角，第一图像三元组中的每张图像包括同一拍摄对象。确定模块，用于基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。训练模块，用于基于相似性信息，对匹配关键点定位模型进行训练；其中，关键点为每张图像中拍摄对象对应的关键点。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，所述存储器存储可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

第六方面，本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如第一方面所述的方法。

在本申请实施例中，电子设备可以获取第一训练样本，该第一训练样本包括第一图像三元组，该第一图像三元组中的每张图像对应一个拍摄视角，该第一图像三元组中的每张图像包括同一拍摄对象；基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；基于相似性信息，对匹配关键点定位模型进行训练；其中，匹配关键点为每张图像中拍摄对象对应的关键点。本方案中，由于训练样本中包含的图像三元组中包括三张不同视图的图像，因此，当电子设备借助图像三元组来对训练特征点提取模型进行训练时，便可以根据三张不同视图的图像来确定匹配关键点，所以，本方案中不需要采集成本高昂的稠密深度图像，也基于第一图像三元组中的三张不同视图的图像检测到关键点之间的匹配关系，从而实现训练特征点提取模型的训练。也即，本发明在降低了训练特征点提取模型时对采集的数据的要求的同时，也可以保证模型的准确性。

附图说明

图1是相关技术中的一种极线示意图；

图2是本申请实施例提供的一种模型训练方法的流程图之一；

图3是本申请实施例提供的一种模型训练方法的流程图之二；

图4是本申请实施例提供的一种相机视锥的示意图；

图5是本申请实施例提供的一种模型训练方法的流程图之三；

图6是本申请实施例提供的一种极线投影的示意图之一；

图7是本申请实施例提供的一种极线投影的示意图之二；

图8是本申请实施例提供的一种模型训练方法的流程图之四；

图9是本申请实施例提供的一种模型训练装置的结构示意图之一；

图10是本申请实施例提供的一种模型训练装置的结构示意图之二；

图11是本申请实施例提供的一种模型训练装置的结构示意图之三；

图12是本申请实施例提供的一种电子设备的硬件结构示意图之一；

图13是本申请实施例提供的一种电子设备的硬件结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

本申请的说明书和权利要求书中的术语“至少一个(项)”、“至少之一”等指其包含对象中的任意一个、任意两个或两个以上的组合。例如，a、b、c中的至少一个(项)，可以表示：“a”、“b”、“c”、“a和b”、“a和c”、“b和c”以及“a、b和c”，其中a，b，c可以是单个，也可以是多个。同理，“至少两个(项)”是指两个或两个以上，其表达的含义与“至少一个(项)”类似。

下面对本申请实施例提供的模型训练方法、装置、电子设备及存储介质涉及的专业术语进行解释说明。

增强现实(Augmentation Reality，AR)：一种在现实世界中叠加虚拟信息的技术。用户通过手机、平板电脑等显示设备观察现实场景，***通过识别现实场景并将虚拟信息叠加在现实场景上。

虚拟现实(Virtual Reality，VR)：一种通过特殊设备创造出一种全新的虚拟环境，使用户沉浸在虚拟世界中的技术。例如用户通过佩戴VR头盔等设备，可以体验到身临其境的虚拟场景。

运动恢复结构(Structure from Motion，SFM)：从拍摄的照片中恢复场景的结构信息。例如：电子设备通过相机，在同一场景不同位置和角度拍摄大量的照片，使用这些照片拍摄的位姿，由此恢复场景的三维结构信息。

同时定位与建图(Simultaneous localization and mapping，SLAM)：即时定位与地图构建，或并发建图与定位。例如：将一个机器人放入未知环境中的未知位置，通过SLAM可以让机器人一边移动一边逐步描绘出此环境的地图。

图像特征点：包括图像关键点与关键点的描述子两个方面。其中关键点为在不同光照、视角等条件变化下仍然能够在图像中稳定存在的点(本发明中所述关键点为广泛意义上的图像关键点)。描述子为对关键点的特征描述。

位姿：位置和姿态，用来描述物体在空间中的三维位置和姿态。位置即空间位置，包含x,y,z三个量；姿态描述了朝向信息，包含俯仰、横滚和偏航三个旋转方向的旋转角度信息。

极线：相机在相对位姿的情况下，图像中的关键点投影到另一幅图像后仅为一条直线。

示例性地，如图1所示，C，C’为两个相机中心，X为空间中的一点，X在C，C’对应像平面上的投影分别为X’，X”。C，C’连线与像平面的焦点e、e’称为极点，l’称为极线。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的模型训练方法及其装置进行详细地说明。

目前，随着电子设备和通信技术的发展，电子设备中的功能也越来越多，例如，电子设备可以通过图像特征点，进行定位与建图，该图像特征点是在不同视角不同光照的图像中能够稳定提取和描述的点，在计算机视觉领域有广泛的应用。其中，视觉SLAM技术则基于稳定的图像特征点来解算设备自身的姿态，是电子设备或头显AR/VR应用实现自身定位的底层算法。

目前，在SLAM算法中，基于人类经验手工设计的图像特征点提取算法被广泛应用，但这类方法通常较为简单，无法有效地从复杂场景拍摄的图像中提取稳定的特征点。

近年来，基于神经网络的特征点提取算法得到了广泛的研究与应用。与基于人类经验人工设计的图像特征点相比，基于神经网络算法从大量的图像中进行学习特征点，其稳定性和鲁棒性更好，能够显著提高图像匹配的精度，进而确保SLAM算法的稳定性。进而为AR/VR应用提供更加稳定的定位与跟踪能力。

由于基于神经网络的特征点提取算法是数据驱动的，因此首先需要获取大量带有正确匹配关系的图像对。以便使用该匹配关系，对神经网络进行监督训练。

目前，对特征点提取网络的训练，通常有以下三种方式。

方式一：使用单应性图像对进行特征点训练。该训练方式中，将一幅图像进行单应性变换，得到一幅变换后的图像，从而形成图像对。该方法使用变换过程中生成的单应性矩阵就可求出该两幅图像各个关键点之间的匹配关系。然而，图像单应性变换只是一个简单二维平面变换，不能模拟在不同角度拍摄的图像之间的三维空间关系。

方式二：使用附带稠密深度和相机位姿的图像对进行特征点训练。该方法使用稠密深度和相机位姿，将一幅图像中的关键点投影到另一幅图像中，从而确定图像对中关键点的真值匹配关系。然而，该方法对数据质量要求较高，即需要准确且稠密的深度信息，然而获取准确且稠密的深度的成本是极高的。

方式三：使用附带相机位姿的图像对进行特征点训练。该方法舍弃了采集成本较高的图像深度，仅使用图像对之间的相对位姿进行网络训练。但在只有相对位姿的情况下，图像中的关键点投影到另一幅图像后仅为一条极线，极线上的点均有可能是匹配的关键点。因此此方式存在较大的歧义，难以得到较好的结果。

上述方案中，方式二是最理想的特征点提取神经网络的训练方案。但是稠密的图像深度采集较为困难，目前仅有少量训练数据能够满足此要求。而训练神经网络的数据的丰富程度对神经网络的训练结果至关重要。虽然方式一和方式三可以获得大量的数据，但方式一中生成的图像对与真实情况不完全匹配，方式三获取的数据又存在较大的歧义。因此上述方法均不能实现在大量数据下对特征点提取网络进行有效地训练。

本申请实施例中，由于训练样本中包含的图像三元组中包含三张不同视图的图像，因此，当电子设备借助图像三元组来对训练特征点提取模型进行训练时，便可以根据三张不同视图的图像来确定匹配关键点，所以，本方案中不需要采集成本高昂的稠密深度图像，也基于第一图像三元组中的三张不同视图的图像检测到关键点之间的匹配关系，从而实现训练特征点提取模型的训练。也即，本发明在降低了训练特征点提取模型时对采集的数据的要求的同时，也可以保证模型的准确性。而且，本发明降低了训练特征点提取模型时对采集的数据的要求，能够在更加丰富的数据而不是满足特定要求的数据上进行特征点提取网络的训练，使得训练后的训练特征点提取模型具有更好的泛化性能。为下游的SLAM算法提供更加可靠和鲁棒的图像特征点，进而为AR/VR等应用提供更稳定的定位与跟踪能力。

本申请实施例提供的模型训练方法的执行主体可以为模型训练装置，该模型训练装置可以为电子设备，或电子设备中的功能模块。以下以电子设备为例，对本申请实施例提供的技术方案进行说明。

本申请实施例提供一种模型训练方法，图2示出了本申请实施例提供的一种模型训练方法的流程图。如图2所示，本申请实施例提供的模型训练方法可以包括下述的步骤201至步骤203。

步骤201、电子设备获取第一训练样本。

本申请实施例中，上述第一训练样本包括第一图像三元组，该第一图像三元组中的每张图像对应一个拍摄视角，该第一图像三元组中的每张图像包括同一拍摄对象。

本申请实施例中，上述第一训练样本中可以包含一个或多个图像三元组。换句话说，上述第一图像三元组可以是第一训练样本中的其中一个图像三元组。

可选地，本申请实施例中，上述第一图像三元组中可以包括三张图像、该三张图像可以分别对应一个维度，即X轴，Y轴和Z轴，该三元组中的每张图像均为有序的。

示例性地，将3张图像记为1，2，3；则该第一图像三元组中的每张图像可以以1，2，3排序；或3，2，1排序。但是以1，2，3排序的图像三元组并不等于以3，2，1排序的图像三元组。

可选地，本申请实施例中，上述第一图像三元组中的每个图像可以为电子设备拍摄得到的；或者，电子设备从云服务器中得到的。

示例性地，针对上述第一图像三元组中的每个图像可以为电子设备拍摄得到的，可以理解为：电子设备可以通过摄像头在日常静态环境中对同一拍摄对象或同一拍摄场景的不同视角进行拍摄，从而得到上述第一图像三元组。

需要说明的是，上述第一图像三元组中的每个图像需要尽可能覆盖所采集场景的各个视角，因此所需采集的图像的多少与场景的大小有关，场景越大则需要采集更多的图像来覆盖整个场景。

可以理解的是，第一训练样本越多，电子设备基于第一训练样本对模型进行训练的效果就越好。

可选地，本申请实施例中，上述电子设备针对不同视角拍摄的图像可以为多次拍摄完成的，也可以是不连续的。

可选地，本申请实施例中，上述第一图像三元组中的每张图像可以为电子设备基于不同的视角，从电子设备拍摄的图像中随机获取的；或者，上述第一图像三元组为第一训练样本中满足下述预设条件的一个图像三元组。

示例性地，上述第一图像三元组中的每张图像对应的拍摄视角不同。

示例性地，上述拍摄视角可以包括以下至少一项：俯视、仰视、左视和右视等任意视角。具体可以根据实际使用情况确定，本申请实施例不作限制。

可选地，本申请实施例中，上述第一图像三元组的数量可以为一个或多个。

可选地，本申请实施例中，上述拍摄对象可以为人物、动物或物品等。具体可以根据实际使用情况确定，本申请实施例不作限制。

步骤202、电子设备基于上述第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

可选地，本申请实施实施例中，上述图像特征信息可以包括以下至少一项：图像亮度、图像色差、图像对比度和成像信息。

本申请实施例中，电子设备在得到每张图像中的关键点之后，电子设备可以基于关键点匹配网络模型得到该关键点对应的图像特征信息，即描述子，然后，电子设备可以通过描述子确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

示例性地，电子设备可以基于第一图像三元组中的每张图像，从中确定出每张图像的关键点对应的其他图像中的匹配关键点，进而通过关键点匹配网络模型得到该匹配关键点对应的描述子；然后，电子设备可以通过匹配关键点对应的描述子，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

示例性地，电子设备在得到第一图像三元组中任意两张图像的关键点对应的描述子之后，电子设备可以计算任意两张图像的匹配关键点对应的描述子的相似性信息。

本申请实施例中，上述相似性信息用于指示两两图像的匹配关键点对应的描述子的余弦相似性。

示例性地，电子设备可以通过第一算法计算任意两张图像的匹配关键点对应的描述子的余弦相似性。

示例性地，上述第一算法可以为人工智能(Artificial Intelligence，AI)算法或神经网络算法。

步骤203、电子设备基于相似性信息，对匹配关键点定位模型进行训练。

本申请实施例中，上述关键点为上述第一图像三元组中的每张图像中拍摄对象对应的关键点。

本申请实施例中，电子设备在得到上述相似性信息之后，电子设备可以通过相似性信息构建损失函数，从而对匹配关键点定位模型进行训练。

示例性地，电子设备可以基于余弦相似性构建损失函数，从而对匹配关键点定位模型进行训练。

示例性地，上述损失函数可以为以下任一项：交叉熵损失函数、平方损失函数、绝对值损失函数或对数损失函数等。具体可以根据实际使用情况确定，本申请实施例不作限制。

在本申请实施例提供的模型训练方法中，电子设备可以获取第一训练样本，该第一训练样本包括第一图像三元组，该第一图像三元组中的每张图像对应一个拍摄视角，该第一图像三元组中的每张图像包含同一拍摄对象；基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；基于相似性信息，对匹配关键点定位模型进行训练；其中，关键点为每张图像中拍摄对象对应的关键点。本方案中，由于训练样本中包含的图像三元组中包含三张不同视图的图像，因此，当电子设备借助图像三元组来对训练特征点提取模型进行训练时，便可以根据三张不同视图的图像来确定匹配关键点，所以，本方案中不需要采集成本高昂的稠密深度图像，也基于第一图像三元组中的三张不同视图的图像检测到关键点之间的匹配关系，从而实现训练特征点提取模型的训练。也即，本发明在降低了训练特征点提取模型时对采集的数据的要求的同时，也可以保证模型的准确性。

可选地，本申请实施例中，结合图2，如图3所示，在上述步骤201之后，本申请实施例提供的模型训练方法还包括下述的步骤301，并且上述步骤202具体可以通过下述的步骤202a实现。

步骤301、电子设备计算第一图像三元组中任意两张图像间的图像重叠度。

本申请实施例中，电子设备可以通过第一图像三元组中的每张图像对应的相机内参和相机位姿来计算任意两张图像间的图像重叠度。

示例性地，上述相机内参可以包括：相机焦距和相机中心点位置。

示例性地，上述相机内参还可以包括以下至少一项：相机胶圈、图像传感器的类型和图像传感器中的像素中的位置信息，即横轴坐标。

可选地，本申请实施例中，上述第一图像三元组中的每张图像对应一个相机位姿和相机内参。

示例性地，上述步骤301具体可以通过下述的步骤301a至步骤301e实现。

步骤301a、电子设备根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到第三图像与第四图像间的相对位姿信息。

本申请实施例中，上述第三图像和第四图像为第一图像三元组中的其中两张图像。

本申请实施例中，电子设备在根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到第三图像与第四图像间的相对位姿信息之前，电子设备可以通过SFM算法得到第三图像对应的相机位姿和相机内参，以及第四图像对应的相机位姿和相机内参。如此，电子设备可以通过第三图像对应的相机位姿和相机内参和第四图像对应的相机位姿和相机内参，得到第三图像与第四图像间的相对位姿信息。

示例性地，以第三图像为图像A，以第四图像为图像B为例，记图像A的位姿为T_A，图像A的位姿为T_B，则图像A与图像B之间的相对位姿为

步骤301b、电子设备根据相对位姿信息、第三图像对应的成像视锥以及第四图像对应的成像视锥，确定第三图像与第四图像间的成像视锥的重叠体积。

本申请实施例中，上述图像对应的成像视锥是指相机拍摄第一对象的视野。

本申请实施例中，在电子设备确定第三图像的位姿与第四图像的位姿为相对位姿，且电子设备得到第三图像对应的成像视锥以及第四图像对应的成像视锥的情况下，电子设备可以通过积分计算第三图像与第四图像间的成像视锥的重叠体积。

需要说明的是，本申请中可以考虑到第三图像与第四图像之间的相机视锥，根据相机在空间中的实际位姿，计算第三图像与第四图像间的成像视锥的重叠体积。

步骤301c、电子设备根据相对位姿信息以及第三图像对应的成像视锥，确定第三图像对应的成像视锥的三维体积。

本申请实施例中，电子设备根据在第三图像对应的相机空间中的实际位姿，通过积分得到第三图像的对应的成像视锥的三维体积。

步骤301d、电子设备根据相对位姿信息以及第四图像对应的成像视锥，确定第四图像对应的成像视锥的三维体积。

本申请实施例中，电子设备根据在第四图像对应的相机空间中的实际位姿，通过积分得到第四图像对应的成像视锥的三维体积。

步骤301e、电子设备根据重复体积、第三图像的三维体积以及第四图像的三维体积，得到第三图像与第四图像间的重叠度。

示例性地，电子设备可以通过下述公式1得到第三图像与第四图像间的重叠度，公式1具体为：

O_AB＝2*V_overlap/(V_frustumA+V_frustumB) (1)

其中，O_AB为第三图像与第四图像间的重叠度，V_overlap为第三图像与第四图像间的成像视锥的重叠体积，V_frustumA为第三图像的成像视锥的三维体积，V_frustumB为第四图像的成像视锥的三维体积。

需要说明的是，上述仅仅是针对第一图像三元组中的两张图像进行的说明，该第一图像三元组中的任意两张图像间均可以通过上述方法得到第一图像三元组中任意两张图像间的图像重叠度。

本申请实施例中，上述步骤301b、步骤301c、步骤301d这三个步骤先后顺序不作限定。示例性地，电子设备可以先执行步骤301c，再执行步骤301b，最后执行步骤301d；或者，电子设备可以先执行步骤301d，再执行步骤301b，最后执行步骤301c。具体可以根据实际使用情况确定。

步骤202a、在第一图像三元组中任意两张图像间的图像重叠度均大于或等于第一阈值的情况下，电子设备基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

可选地，本申请实施例中，在上述在第一图像三元组中任意两张图像间的图像重叠度中的任一个小于预设阈值的情况下，电子设备可以从上述第一训练样本再次随机选取第二图像三元组，并再次进行上述计算。

可选地，本申请实施例中，上述“第一图像三元组中任意两张图像间的图像重叠度均大于或等于预设阈值”是指/表征任意两张图像间所拍摄得到的相同图像区域大于或等于预设阈值。

本申请实施例中，电子设备通过使用相机成像视锥来估计图像的重叠率，避免了对采集成本较高的稠密深度图像的依赖，而且，由于使用相机成像视锥来估计图像的重叠率所需要的计算量相对于稠密深度图像来说，计算量较小，所以同时也提高了图像重叠率估计的效率。

可选地，本申请实施例中，在上述步骤301b之前，本申请实施例提供的模型训练方法包括下述的步骤401至步骤404。

步骤401、电子设备基于第五图像对应的相机位姿，设置第一平面和第二平面。

本申请实施例中，上述第一平面与相机之间的距离小于第二平面到相机之间的距离，该第一平面包含相机成像范围，第二平面包含相机成像范围。

本申请实施例中，上述“第一平面包含相机成像范围”是指第一平面可以包含完整的相机成像范围。

本申请实施例中，上述“第二平面包含相机成像范围”是指第二平面可以包含完整的相机成像范围。

本申请实施例中，上述“第一平面与相机之间的距离小于第二平面到相机之间的距离”是指第一平面为小成像范围，第二平面为大成像范围。

示例性地，电子设备可以基于相机位姿和相机中心线，在距离相机前方第一距离和第二距离设置第一平面和第二平面，并且电子设备可以根据相机成像范围设置第一平面对应的宽和高和第二平面对应的宽和高，该第二距离大于第一距离。

步骤402、电子设备基于第一平面与相机之间的距离、相机内参以及第一平面的宽和高，得到第一平面的顶点信息。

示例性地，电子设备可以通过下述的公式2得到第一平面的顶点信息。

具体地，该公式2可以为：

其中，corner₁为第一平面的顶点信息，d₁为第一距离，K为相机内参，w₁为第一平面的宽，h₁为第一平面的高。

需要说明的是，上述第一平面的顶点信息包含第一平面的4个顶点坐标。

步骤403、电子设备基于第二平面与相机之间的距离、相机内参、和第二平面的宽和高，得到第二平面的顶点信息。

示例性地，电子设备可以通过下述的公式3得到第二平面的顶点信息。

具体地，该公式3可以为：

其中，corner₂为第二平面的顶点信息，d₂为第二距离，K为相机内参，w₂为第一平面的宽，h₂为第一平面的高。

需要说明的是，上述第二平面的顶点信息包含第二平面的4个顶点坐标。

步骤404、电子设备基于第一平面的顶点信息和第二平面的顶点信息，得到第五图像对应的成像视锥。

本申请实施例中，上述第五图像为第一图像三元组中的其中一张图像。

本申请实施例中，电子设备在得到第一平面的顶点信息和第二平面的顶点信息之后，电子设备可以基于第一平面的4个顶点坐标和第二平面的4个顶点坐标与相机的中心线进行相交，从而得到第五图像对应的成像视锥。

示例性地，如图4所示，图4中包含第一平面10和第二平面11，在电子设备得到第一平面10对应的4个顶点坐标，和第二平面11对应的4个顶点坐标之后，电子设备可以从第二平面11的4个顶点出发做延长线，直至与相机的中心线相交，如此，得到第五图像对应的成像视锥12。

需要说明的是，上述仅仅是通过第一图像三元组中的一张图像进行的解释说明，上述第一图像三元组中的每张图像均可以通过上述的实施例得到每张图像对应的成像视锥，为避免重复，此处不再赘述。

本申请实施例中，上述步骤402、403之间的执行顺序，本申请不作限制。示例性地，电子设备可以先执行402，再执行403；或者，电子设备可以先执行403，再执行402。具体可以根据实际使用情况确定，本申请实施例不作限制。

本申请实施例中，电子设备可以通过第五图像对应相机内参和设置的第一平面和第二平面得到第五图像对应的成像视锥，如此可以保证电子设备可以通过成像视锥来估计图像的重叠度。

可选地，本申请实施例中，上述第一图像三元组包括参考图像、第一图像和第二图像。其中，第一图像三元组中的参考图像可以是第一图像三元组中的任一张图像。

示例性地，结合图2，如图5所示，在上述步骤202之前，本申请实施例提供的模型训练方法还包括下述的步骤501和步骤502。

步骤501、电子设备基于第一图像中的所有关键点与第一极线间的距离，从参考图像中确定与第一图像中的第一关键点对应的同一匹配关键点。

可选地，本申请实施例中，上述参考图像为电子设备随机设置的，即上述第一图像三元组中的三个图像中的任一个图像都可以是参考图像。

本申请实施例中，上述第一图像中的所有关键点为电子设备通过特征点提取网络模型确定的。

本申请实施例中，上述第一极线为参考图像中的第一关键点投影到第一图像中的投影极线，上述第一关键点为参考图像中的其中一个关键点。

本申请实施例中，电子设备可以将第一图像中的所有关键点与第一极线间的距离之间的距离最小的关键点，确定为参考图像中的第一关键点对应的同一匹配关键点。

可以理解，上述仅是通过一个关键点进行说明，对于参考图像中的所有关键点，电子设备均可以通过上述的方式得到参考图像中的所有关键点在第一图像中对应的同一匹配关键点。

也就是说，电子设备可以遍历参考图像中的每个关键点，从而得到每个关键点在第一图像中对应的匹配关键点。

步骤502、电子设备基于第二图像中的所有关键点与第二极线间的距离，从参考图像中确定与第二图像中的第一关键点对应的同一匹配关键点。

本申请实施例中，上述第二极线为参考图像中的第一关键点投影到第二图像中的投影极线，上述第一关键点为参考图像中的其中一个匹配关键点。

本申请实施例中，上述第一图像中的所有关键点为电子设备通过特征点提取网络确定的。

本申请实施例中，电子设备可以将第二图像中的所有关键点与第二极线间的距离之间的距离最小的关键点确定为参考图像中的第一关键点对应的匹配关键点。

可以理解，上述仅是通过一个关键点进行说明，对于参考图像中的所有关键点，电子设备均可以通过上述的方式得到参考图像中的所有关键点在第二图像中对应的匹配关键点。

也就是说，电子设备可以遍历参考图像中的每个关键点，从而得到每个关键点在第二图像对应的匹配关键点。

可选地，本申请实施例中，在电子设备得到第一图像对应的匹配关键点和第二图像对应的匹配关键点之前，电子设备可以通过上述第一极线和第二极线分别得到参考图像在第一图像中的第一候选匹配关键点和第二图像中的第二候选匹配关键点；然后基于该第一候选匹配关键点和第二候选匹配关键点得到同一匹配关键点。

示例性地，上述第一候选匹配关键点的数量可以为一个或多个，上述第二候选匹配关键点的数量可以为一个或多个。

示例性地，如图6所示，假设图像A为参考图像、图像B为第一图像以及图像C为第二图像，该图像A中的第一关键点在图6中以星星表示，第一极线在图像B中以l_AB表示，该图像B中可以包含8个关键点，图6中以空心圆表示，第二极线在图像C中以l_AC表示，该图像C中可以包含8个关键点，图6中以空心圆表示，在图像B和图像C中，电子设备可以分别计算所有检测到的关键点到极线l_AB和l_AC的距离。以图像B为例，设第一关键点坐标为P_BM＝(x_b,y_b)，，则第一极线l_AB的参数方程为：a_ABx_b+b_ABy_b+c_AB＝0，其中，a，b，c为常数，则图像B中的所有关键点到将第一极线l_AB的距离为：若距离小于与预先设定的阈值(通常设置为3个像素)，则保留该关键点(图6中的实心关键点)作为候选匹配关键点；若距离大于阈值，则舍弃该关键点(图6中的空心关键点)。

需要说明的是，图像C中同样可以通过上述示例得到图像C中的候选匹配关键点，为避免重复，此处不再赘述。

可选地，本申请实施例中，电子设备可以从第一候选匹配关键点和第二候选匹配关键点中确定匹配关键点。

示例性地，电子设备可以通过第一图像三元组中的图像A、图像B和图像C之间的投影关系，来进一步确定匹配关键点。结合图6，如图7所示，以图像B为例，在电子设备确定图像B中的所有候选匹配点之后，电子设备可以通过上述投影方法将图像B中的所有候选匹配点(图7中以P_B3，P_B2和P_B3表示)均投影到图像C中，以得到图像B到图像C的极线，得到图像B到图像C的极线(l_B1C，l_B2C和l_B3C)，并分别计算图像C中所有候选匹配点(P_C1，P_C2和P_C3)到图像C中所有极线的距离，同理可计算图像B中所有候选匹配点到图像B中所有极线的距离。由此可得图像B与图像C中一对候选匹配点之间的对称极线距离进而构建图像A中点P_A与图像B中点P_BM和图像C中点P_CM之间的极线距离：

若小于预设阈值，则判定p_A,p_Bm,p_cn三点为匹配关键点(图7中以五角星表示)；反之，则该三点不是匹配关键点。按照此步骤对图像A、图像B和图像C中所有的关键点进行判别，从而获得用于描述子训练的匹配关键点集合。

可以理解，在上述第一候选匹配关键点的数量为一个的情况下，电子设备可以直接将该第一候选匹配关键点作为匹配关键点；在上述第二候选匹配关键点的数量为一个的情况下，电子设备可以直接将该第二候选匹配关键点作为匹配关键点。

本申请实施例中，电子设备可以根据第一图像中的所有关键点与第一极线间的距离，确定第一图像中参考图像中的第一关键点对应的匹配关键点，以及第二图像中的所有关键点与第二极线间的距离，确定第一图像中参考图像中的第一关键点对应的匹配关键点，也就是说，电子设备可以根据第一图像三元组中的除参考图像之外的其他图像之间的关键点投影后的极线，结合关键点到参考图像投影后的极线距离，实现匹配关键点的确定。

可选地，本申请实施例中，上述第一图像三元组包括参考图像、第一图像以及第二图像。

示例性地，结合图2，如图8所示，在上述步骤201之前，本申请实施例提供的模型训练方法还包括下述的步骤601。

步骤601、在第一极线与第二极线间的夹角大于或等于第二阈值的情况下，电子设备将第一图像三元组作为训练样本。

本申请实施例中，上述第一极线为参考图像中的第一关键点投影到第一图像中的投影极线，上述第二极线为参考图像中的第一关键点投影到第二图像中的投影极线，上述第一关键点为参考图像中的任一匹配关键点。

可选地，本申请实施例中，在一极线与第二极线间的夹角小于第二阈值的情况下，电子设备可以从上述第一训练样本中重新获取第三图像三元组，并根据上述方法重新确定，第三图像三元组中的每张图像中的关键匹配点。

本申请实施例中，电子设备可以将第一极线与第二极线间的夹角大于或等于第二阈值的情况下，电子设备将第一图像三元组作为训练样本可以确保电子设备基于第一图像三元组得到关键匹配点的准确性。

示例性地，下面通过具体的实例对本申请提供的模型训练方法进行详细的解释说明。具体可以通过下述的步骤20至步骤32实现。

步骤20、电子设备采集N张图像，N为大于或等于3的整数。

示例性地，上述N张图像为电子设备在日常静态环境中对同一场景的不同视角拍摄得到的。

示例性地，上述不同视角至少为三个。

步骤21、电子设备计算N张图像中的每张图像的相机内参和相机位姿。

步骤22、电子设备采样图像三元组。

示例性地，电子设备可以从基于步骤20采集的同一场景的所有图像根据不同视角中随机采样三幅图像，该三幅图像分别记为A、B、C。其中，该三幅图像中的每幅图像都有对应的相机内参与位姿。

步骤24、针对图像三元组中的每张图像，电子设备构建每张图像对应的相机成像视锥。

步骤25、电子设备基于每张图像对应的相机成像视锥对图像三元组进行筛选。

示例性地，电子设备可以通过图像三元组中任意两张图像之间的重复度来筛选图像三元组。

步骤26、在上述图像三元组中任意两张图像之间的重复度满足第一阈值的情况下，电子设备基于极线几何关系再次对图像三元组中的任意两张图像之间进行筛选。

示例性地，在第一极线与第二极线间的夹角大于或等于第二阈值的情况下，电子设备将第一图像三元组作为训练样本。

步骤27、采样图像三元组计数，并保存筛选后的图像三元组。

步骤28、针对图像三元组中的每张图像，电子设备通过特征点提取网络提取每张图像中的图像关键点和描述子。

步骤29、电子设备通过图像关键点计算投影极线。

步骤30、电子设备通过投影极线得到候选匹配关键点。

步骤31、电子设备通过候选匹配关键点对应的投影极线得到匹配关键点。

步骤32、电子设备计算图像三元组中任意两张图像(AB，BC，AC)间的匹配点之间的描述子的余弦相似性，并基于余弦相似性构建损失函数进行网络训练。

需要说明的是，本申请实施例提供的模型训练方法，执行主体可以为模型训练装置，或者电子设备，或者还可以为电子设备中的功能模块或实体。本申请实施例中以模型训练装置执行模型训练方法为例，说明本申请实施例提供的模型训练装置。

图9示出了本申请实施例中涉及的模型训练装置的一种可能的结构示意图。如图9所示，该模型训练装置70可以包括：获取模块71、确定模块72和训练模块73。

其中，所述获取模块71，用于获取第一训练样本，该第一训练样本包括第一图像三元组，该第一图像三元组中的每张图像对应一个拍摄视角，该第一图像三元组中的每张图像包括同一拍摄对象。确定模块72，用于基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。训练模块73，用于基于相似性信息，对匹配关键点定位模型进行训练；其中，关键点为每张图像中拍摄对象对应的关键点。

在一种可能的实现方式中，上述第一图像三元组包括参考图像、第一图像和第二图像；上述确定模块72，还用于基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息之前，基于第一图像中的所有关键点与第一极线间的距离，从参考图像中确定与第一图像中的第一关键点对应的同一匹配关键点；并基于第二图像中的所有关键点与第二极线间的距离，从参考图像中确定与第二图像中的第一关键点对应的同一匹配关键点；其中，第一极线为参考图像中的第一关键点投影到第一图像中的投影极线，第二极线为参考图像中的第一关键点投影到第二图像中的投影极线，第一关键点为参考图像中的任意一个匹配关键点。

在一种可能的实现方式中，结合图9，如图10所示，本申请实施例提供的模型训练装置70还包括：处理模块74。处理模块74，用于上述获取模块71获取第一训练样本之后，计算第一图像三元组中任意两张图像间的图像重叠度。上述确定模块72，具体用于在第一图像三元组中任意两张图像间的图像重叠度均大于或等于预设阈值的情况下，基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

在一种可能的实现方式中，上述第一图像三元组中的每张图像对应一个相机位姿和相机内参。上述处理模块74，具体用于根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到第三图像与第四图像间的相对位姿信息；根据相对位姿信息、第三图像对应的成像视锥以及第四图像对应的成像视锥，确定第三图像与第四图像间的成像视锥的重叠体积；根据相对位姿信息以及第三图像对应的成像视锥，确定第三图像对应的成像视锥的三维体积；根据相对位姿信息以及第四图像对应的成像视锥，确定第四图像对应的成像视锥的三维体积；根据重复体积、第三图像的三维体积以及第四图像的三维体积，得到第三图像与第四图像间的重叠度；其中，第三图像和第四图像为第一图像三元组中的其中两张图像。

在一种可能的实现方式中，结合图10，如图11所示，本申请实施例提供的模型训练装置70还包括：设置模块75；设置模块75，用于上述处理模块74，根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到第三图像与第四图像间的相对位姿信息之前，基于第五图像对应的相机位姿，设置第一平面和第二平面，第一平面与相机之间的距离小于第二平面到相机之间的距离，第一平面包含的相机成像范围，第二平面包含的相机成像范围。上述处理模块74，还用于基于第一平面与相机之间的距离、相机内参以及第一平面的宽和高，得到第一平面的顶点信息；并基于第二平面与相机之间的距离、相机内参、和第二平面的宽和高，得到第二平面的顶点信息；以及基于第一平面的顶点信息和第二平面的顶点信息，得到第五图像对应的成像视锥；其中，第五图像为第一图像三元组中的任意一张图像。

本申请实施例提供一种模型训练装置，由于训练样本中包含的图像三元组中包含三张不同视图的图像，因此，当模型训练装置借助图像三元组来对训练特征点提取模型进行训练时，便可以根据三张不同视图的图像来确定匹配关键点，所以，本方案中不需要采集成本高昂的稠密深度图像，也基于第一图像三元组中的三张不同视图的图像检测到关键点之间的匹配关系，从而实现训练特征点提取模型的训练。也即，本发明在降低了训练特征点提取模型时对采集的数据的要求的同时，也可以保证模型的准确性。

本申请实施例中的模型训练装置可以是电子设备，也可以是电子设备中的部件，例如集成电路或芯片。该电子设备可以是终端，也可以为除终端之外的其他设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、移动上网装置(Mobile Internet Device，MID)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、机器人、可穿戴设备、超级移动个人计算机(ultra-mobilepersonal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，还可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的模型训练装置可以为具有操作***的装置。该操作***可以为安卓(Android)操作***，可以为iOS操作***，还可以为其他可能的操作***，本申请实施例不作具体限定。

本申请实施例提供的模型训练装置能够实现上述方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选地，如图12所示，本申请实施例还提供一种电子设备90，包括处理器91和存储器92，存储器92上存储有可在所述处理器91上运行的程序或指令，该程序或指令被处理器1执行时实现上述模型训练方法实施例的各个步骤，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图13为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理***与处理器110逻辑相连，从而通过电源管理***实现管理充电、放电、以及功耗管理等功能。图13中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，输入单元104，用于获取第一训练样本，该第一训练样本包括第一图像三元组，该第一图像三元组中的每张图像对应一个拍摄视角，该第一图像三元组中的每张图像包括同一拍摄对象。处理器110，用于基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；并基于相似性信息，对匹配关键点定位模型进行训练；其中，匹配关键点为每张图像中拍摄对象对应的关键点。

本申请实施例提供一种电子设备，由于训练样本中包含的图像三元组中包含三张不同视图的图像，因此，当电子设备借助图像三元组来对训练特征点提取模型进行训练时，便可以根据三张不同视图的图像来确定匹配关键点，所以，本方案中不需要采集成本高昂的稠密深度图像，也基于第一图像三元组中的三张不同视图的图像检测到关键点之间的匹配关系，从而实现训练特征点提取模型的训练。也即，本发明在降低了训练特征点提取模型时对采集的数据的要求的同时，也可以保证模型的准确性。

可选地，本申请实施例中，上述第一图像三元组包括参考图像、第一图像和第二图像。上述处理器110，还用于基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息之前，基于第一图像中的所有关键点与第一极线间的距离，从参考图像中确定与第一图像中的第一关键点对应的同一匹配关键点；并基于第二图像中的所有关键点与第二极线间的距离，从参考图像中确定与第二图像中的第一关键点对应的同一匹配关键点；其中，第一极线为参考图像中的第一关键点投影到第一图像中的投影极线，第二极线为参考图像中的第一关键点投影到第二图像中的投影极线，第一关键点为参考图像中的任意一个匹配关键点。

可选地，本申请实施例中，上述处理器110，还用于获取第一训练样本之后，计算第一图像三元组中任意两张图像间的图像重叠度。上述处理器110，具体用于在第一图像三元组中任意两张图像间的图像重叠度均大于或等于第一阈值的情况下，基于第一图像三元组中的每张图像中的关键点的图像特征信息，确定第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

可选地，本申请实施例中，上述第一图像三元组中的每张图像对应一个相机位姿和相机内参；上述处理器110，具体用于根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到第三图像与第四图像间的相对位姿信息；根据相对位姿信息、第三图像对应的成像视锥以及第四图像对应的成像视锥，确定第三图像与第四图像间的成像视锥的重叠体积；根据相对位姿信息以及第三图像对应的成像视锥，确定第三图像对应的成像视锥的三维体积；根据相对位姿信息以及第四图像对应的成像视锥，确定第四图像对应的成像视锥的三维体积；根据重复体积、第三图像对应的成像视锥的三维体积以及第四图像对应的成像视锥的三维体积，得到第三图像与第四图像间的重叠度；其中，第三图像和第四图像为第一图像三元组中的其中两张图像。

可选地，本申请实施例中，上述处理器110，还用于根据相对位姿信息、第三图像对应的成像视锥以及第四图像对应的成像视锥，确定第三图像与第四图像间的成像视锥的重叠体积之前，基于第五图像对应的相机位姿，设置第一平面和第二平面，第一平面与相机之间的距离小于第二平面到相机之间的距离，第一平面包含的相机成像范围，第二平面包含的相机成像范围；基于第一平面与相机之间的距离、相机内参以及第一平面的宽和高，得到第一平面的顶点信息；基于第二平面与相机之间的距离、相机内参、和第二平面的宽和高，得到第二平面的顶点信息；基于第一平面的顶点信息和第二平面的顶点信息，得到第五图像对应的成像视锥；其中，第五图像为第一图像三元组中的任意一张图像。

本申请实施例提供的电子设备能够实现上述方法实施例实现的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本实施例中各种实现方式具有的有益效果具体可以参见上述方法实施例中相应实现方式所具有的有益效果，为避免重复，此处不再赘述。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072中的至少一种。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。

存储器109可用于存储软件程序以及各种数据。存储器109可主要包括存储程序或指令的第一存储区和存储数据的第二存储区，其中，第一存储区可存储操作***、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外，存储器109可以包括易失性存储器或非易失性存储器，或者，存储器109可以包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synch link DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。本申请实施例中的存储器109包括但不限于这些和任意其它适合类型的存储器。

处理器110可包括一个或多个处理单元；可选的，处理器110集成应用处理器和调制解调处理器，其中，应用处理器主要处理涉及操作***、用户界面和应用程序等的操作，调制解调处理器主要处理无线通信信号，如基带处理器。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器ROM、随机存取存储器RAM、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为***级芯片、***芯片、芯片***或片上***芯片等。

本申请实施例提供一种计算机程序产品，该程序产品被存储在存储介质中，该程序产品被至少一个处理器执行以实现如上述模型训练方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

获取第一训练样本，所述第一训练样本包括第一图像三元组，所述第一图像三元组中的每张图像对应一个拍摄视角，所述第一图像三元组中的每张图像包括同一拍摄对象；

基于所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；

基于所述相似性信息，对关键点定位模型进行训练；

其中，所述关键点为所述每张图像中所述拍摄对象对应的关键点。

2.根据权利要求1所述的方法，其特征在于，所述第一图像三元组包括参考图像、第一图像和第二图像；

所述基于所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息之前，所述方法还包括：

基于所述第一图像中的所有关键点与第一极线间的距离，从所述参考图像中确定与所述第一图像中的第一关键点对应的同一匹配关键点；

基于所述第二图像中的所有关键点与第二极线间的距离，从所述参考图像中确定与所述第二图像中的第一关键点对应的同一匹配关键点；

其中，所述第一极线为所述参考图像中的第一关键点投影到所述第一图像中的投影极线，所述第二极线为所述参考图像中的第一关键点投影到所述第二图像中的投影极线，所述第一关键点为所述参考图像中的任意一个关键点。

3.根据权利要求1所述的方法，其特征在于，所述获取第一训练样本之后，所述方法还包括：

计算所述第一图像三元组中任意两张图像间的图像重叠度；

所述基于所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息，包括：

在所述第一图像三元组中任意两张图像间的图像重叠度均大于或等于第一阈值的情况下，基于所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

4.根据权利要求3所述的方法，其特征在于，所述第一图像三元组中的每张图像对应一个相机位姿和相机内参；

所述计算所述第一图像三元组中任意两张图像间的图像重叠度，包括:

根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到所述第三图像与所述第四图像间的相对位姿信息；

根据所述相对位姿信息、所述第三图像对应的成像视锥以及所述第四图像对应的成像视锥，确定所述第三图像与所述第四图像间的成像视锥的重叠体积；

根据所述相对位姿信息以及所述第三图像对应的成像视锥，确定所述第三图像对应的成像视锥的三维体积；

根据所述相对位姿信息以及所述第四图像对应的成像视锥，确定所述第四图像对应的成像视锥的三维体积；

根据所述重复体积、所述第三图像对应的成像视锥的三维体积以及所述第四图像对应的成像视锥的三维体积，得到所述第三图像与所述第四图像间的重叠度；

其中，所述第三图像和所述第四图像为所述第一图像三元组中的任意两张图像。

5.根据权利要求4所述的方法，其特征在于，所述根据所述相对位姿信息、所述第三图像对应的成像视锥以及所述第四图像对应的成像视锥，确定所述第三图像与所述第四图像间的成像视锥的重叠体积之前，所述方法还包括：

基于第五图像对应的相机位姿，设置第一平面和第二平面，所述第一平面与所述相机之间的距离小于所述第二平面到所述相机之间的距离，所述第一平面包含所述的相机成像范围，所述第二平面包含所述的相机成像范围；

基于所述第一平面与所述相机之间的距离、相机内参以及所述第一平面的宽和高，得到所述第一平面的顶点信息；

基于所述第二平面与所述相机之间的距离、相机内参、和所述第二平面的宽和高，得到所述第二平面的顶点信息；

基于所述第一平面的顶点信息和所述第二平面的顶点信息，得到所述第五图像对应的成像视锥；

其中，所述第五图像为所述第一图像三元组中的任意一张图像。

6.一种模型训练装置，其特征在于，所述装置包括：获取模块、确定模块和训练模块；

所述获取模块，用于获取第一训练样本，所述第一训练样本包括第一图像三元组，所述第一图像三元组中的每张图像对应一个拍摄视角，所述第一图像三元组中的每张图像包括同一拍摄对象；

所述确定模块，用于基于所述获取模块获取的所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息；

所述训练模块，用于基于所述确定模块确定的所述相似性信息，对匹配关键点定位模型进行训练；

7.根据权利要求6所述的装置，其特征在于，所述第一图像三元组包括参考图像、第一图像和第二图像；所述确定模块，还用于所述基于所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息之前，基于所述第一图像中的所有关键点与第一极线间的距离，从所述参考图像中确定与所述第一图像中的第一关键点对应的同一匹配关键点；并基于所述第二图像中的所有关键点与第二极线间的距离，从所述参考图像中确定与所述第二图像中的第一关键点对应的同一匹配关键点；其中，所述第一极线为所述参考图像中的第一关键点投影到所述第一图像中的投影极线，所述第二极线为所述参考图像中的第一关键点投影到所述第二图像中的投影极线，所述第一关键点为所述参考图像中的任意一个匹配关键点。

8.根据权利要求6所述的装置，其特征在于，所述模型训练装置还包括：处理模块；

所述处理模块，用于在所述获取模块获取第一训练样本之后，计算所述第一图像三元组中任意两张图像间的图像重叠度；

所述确定模块，具体用于在所述第一图像三元组中任意两张图像间的图像重叠度均大于或等于第一阈值的情况下，基于所述第一图像三元组中的每张图像中的关键点的图像特征信息，确定所述第一图像三元组中任意两张图像间同一匹配关键点之间的相似性信息。

9.根据权利要求8所述的装置，其特征在于，所述第一图像三元组中的每张图像对应一个相机位姿和相机内参；

所述处理模块，具体用于根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到所述第三图像与所述第四图像间的相对位姿信息；根据所述相对位姿信息、所述第三图像对应的成像视锥以及所述第四图像对应的成像视锥，确定所述第三图像与所述第四图像间的成像视锥的重叠体积；根据所述相对位姿信息以及所述第三图像对应的成像视锥，确定所述第三图像对应的成像视锥的三维体积；根据所述相对位姿信息以及所述第四图像对应的成像视锥，确定所述第四图像对应的成像视锥的三维体积；根据所述重复体积、所述第三图像的三维体积以及所述第四图像的三维体积，得到所述第三图像与所述第四图像间的重叠度；其中，所述第三图像和所述第四图像为所述第一图像三元组中的任意两张图像。

10.根据权利要求9所述的装置，其特征在于，所述模型训练装置还包括：设置模块；

所述设置模块，用于所述处理模块根据第三图像对应的相机位姿和第四图像对应的相机位姿，得到所述第三图像与所述第四图像间的相对位姿信息之前，基于第五图像对应的相机位姿，设置第一平面和第二平面，所述第一平面与所述相机之间的距离小于所述第二平面到所述相机之间的距离，所述第一平面包含所述的相机成像范围，所述第二平面包含所述的相机成像范围；

所述处理模块，还用于基于所述第一平面与所述相机之间的距离、相机内参以及所述第一平面的宽和高，得到所述第一平面的顶点信息；并基于所述第二平面与所述相机之间的距离、相机内参、和所述第二平面的宽和高，得到所述第二平面的顶点信息；以及基于所述第一平面的顶点信息和所述第二平面的顶点信息，得到所述第五图像对应的成像视锥；其中，所述第五图像为所述第一图像三元组中的任意一张图像。