CN114241013B

CN114241013B - 物体锚定方法、锚定***及存储介质

Info

Publication number: CN114241013B
Application number: CN202210173770.0A
Authority: CN
Inventors: 张旭; 毛文涛; 邓伯胜; 于天慧; 蔡宝军
Original assignee: Beijing Yingchuang Information Technology Co ltd
Current assignee: Beijing Yingchuang Information Technology Co ltd
Priority date: 2022-02-25
Filing date: 2022-02-25
Publication date: 2022-05-10
Anticipated expiration: 2042-02-25
Also published as: CN114241013A

Abstract

本申请提供一种物体锚定方法、锚定***及存储介质，物体锚定方法包括：根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型；根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计，得到感兴趣物体的位姿，并根据该位姿将虚拟信息叠加到感兴趣物体上，以实现对感兴趣物体的渲染。本申请能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题，进而实现移动终端自定义物体信息增益与显示的方法，且信息的显示与和物体3D位置和姿态对应。

Description

物体锚定方法、锚定***及存储介质

技术领域

本申请属于图像识别技术领域，具体涉及一种物体锚定方法、锚定***及存储介质。

背景技术

常见的物体识别与3D位置和姿态跟踪深度学习算法需要大量的人工标注数据，用户自定义物体训练很难保证在各种复杂光照和环境下的准确度。现有技术很多使用的是特征工程的方法，使用SIFT、SURF等特征，虽然这些特则对光照背景有一定的健壮性，但是对于有些复杂的光照背景会比较敏感，且容易跟踪失败。现有的很多方法需要用户给定初始位姿，并且需要用户提供精确的3D模型，对于没有3D模型的物体不能跟踪。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种物体锚定方法、锚定***及存储介质。

根据本申请实施例的第一方面，本申请提供了一种物体锚定方法，其包括以下步骤：

根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型；

根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计，得到感兴趣物体的位姿，并根据该位姿将虚拟信息叠加到感兴趣物体上，以实现对感兴趣物体的渲染。

上述物体锚定方法中，所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中，基于深度学习或计算机视觉完成建模。

进一步地，所述基于深度学习完成建模的过程为：

提取每一帧图像的特征，估计出每一帧图像对应的相机初始化位姿；

利用预训练完成的显著性分割网络获取每一帧图像的掩模；

进行模型训练与推断，以获取模型的网格。

更进一步地，所述进行模型训练与推断的过程为：

在图像

上随机采集K个像素点，各像素点的位置坐标为

；

利用内参将各像素点的位置坐标

转换为成像平面坐标

；

将成像平面坐标和优化后的相机位姿输入神经网络

，提取帧间的色差特征

；将帧间的色差特征

增加至原图像上，以补偿帧间的色差。

其中，帧间的色差特征

为：

，

将图像对应的相机初始化位姿

输入神经网络

中，获得优化后的位姿

；

其中，优化后的位姿

为：

；

根据优化后的位姿

获取优化后相机的初始位置

；

其中，优化后相机的初始位置为：

；

式中，T为函数，其表示取位置坐标；

自优化后相机的初始位置

向图像的成像平面发射光线，该光线的方向为w，其穿过像素点的位置坐标

；

其中，光线的方向w为：

；

沿方向w采样M个点

，这M个点

的坐标为

；

利用深度学习网络

预测这M个点

在隐式方程（即隐式函数TSDF）表面的概率；

其中，预测为在隐式方程表面的点的判断条件为：

；

式中，

表示预测为在隐式方程表面的点，

表示阈值，

表示符合条件的最小的

；

将预测为在隐式方程表面的点

送入神经渲染器R，获取预测的RGB颜色的值

；

其中，预测的RGB颜色的值

为：

；

根据预测的

值和采集的K个像素点的颜色计算得到像素差值的平方损耗；

其中，像素差值的平方损耗L为：

；

式中，

均表示系数；

表示图像像素的差值，

表示背景掩模的差值

和前景掩模的差值

之和，

表示边缘的差值；

式中，图像像素的差值

为：

；

式中，P表示所有选择的k个点；

背景掩模的差值

为：

；

式中，

表示所有选择的k个点中掩模外的点；

前景掩模的差值

为：

；

式中，BCE表示二值交叉熵损耗，

表示所有选择的k个点中掩模内的点；

边缘的差值

为：

；

式中，

表示掩模的边界；

模型推断时，向神经网络

、深度学习网络

和神经网络

的组合模型中输入3D 点；使用该组合模型获取存在于其表面的点，由这些点构成网格。

进一步地，所述基于计算机视觉完成建模的过程为：

采用视觉算法或深度学习算法进行特征提取与匹配；

对相机位姿进行估计；

对图像序列中的显著性物体进行分割；

对稠密点云进行重建；

将重建的稠密点云作为网格生成的输入，使用重建算法重建物体的网格；

根据相机位姿及其对应的图像，找到网格顶点对应的纹理坐标，获得网格的贴图；

根据物体的网格和网格的贴图得到立体模型。

上述物体锚定方法中，所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为：

根据物体的立体模型和预置场景模型，采用PBR渲染方法得到合成数据集；所述合成数据集中包括合成训练数据；

根据相机位姿和物***姿，采用模型重投影分割算法得到真实数据集；所述真实数据集中包括真实训练数据；

利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型。

进一步地，所述根据物体的立体模型和预置场景模型，采用PBR渲染方法得到合成数据集的具体过程为：

读取物体的立体模型和预置场景模型；

采用PBR渲染方法进行物***姿随机、渲染相机位姿随机、材质随机、光照随机，得到一系列图像序列及其对应的标注标签；所述标注标签为类别、位置和六自由度位姿。

进一步地，所述根据相机位姿和物***姿，采用模型重投影分割算法得到真实数据集的具体过程为：

获取图像序列、相机位姿和物***姿，将真实图像中的物体分割出来；

将位姿离散的真实数据合成为位姿密集连续的数据，进而获得真实图像及其对应的标注标签；所述标注标签为类别、位置和六自由度位姿。

更进一步地，所述利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型的具体过程为：

输入图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask；

采用以下损失函数对六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型；

训练六自由度位姿估计神经网络时需要用的损失函数为：

；

式中，

表示损失，

均表示系数，

表示分类损失，

表示包围框损失，

表示2D损失，

表示3D损失，

表示掩模损失，

表示投影损失；

其中，分类损失

为：

；

式中，

表示取第i个检测锚点的分类信息，

表示取第j个背景特征的信息；

表示锚点，

表示背景的锚点，

表示类别真值，

表示神经网络提出的特征；

包围框损失

为：

；

式中，

表示第i个检测锚点的坐标特征，

表示检测框的坐标真值；

2D损失

为：

；

式中，

表示取2D坐标特征，

表示物体的2D特征点真值，

表示神经网络预测的特征点和掩模；

3D损失

为：

；

式中，

表示取3D坐标特征，

表示物体的3D特征点真值，

表示神经网络预测的特征点和掩模；

掩模损失

为：

；

式中，

表示取前景的第i个特征，

表示取背景的第j个特征，fg表示前景，bg表示背景；

投影损失

为：

；

式中，

表示将3D特征投影到2D后和2D真值做差值，

表示神经网络预测的特征点和掩模。

上述物体锚定方法中，所述实现对感兴趣物体的渲染通过移动终端实现或通过移动终端与云服务器混合实现；

所述通过移动终端实现的过程为：

在开始跟踪前，访问云服务器，将用户的物体模型、深度学习模型、特征数据库下载后，其他计算都在移动终端进行；

移动终端从设备上读取摄像机数据，经过检测或识别神经网络、六自由度位姿估计神经网络，获得物***姿；

根据物***姿将需要渲染的内容渲染出来；

所述通过移动终端与云服务器混合实现的过程为：

在移动终端中输入图像序列，并对每一帧图像进行显著性检测；

将显著性检测区域上传至云服务器进行检索，得到物体的信息以及与其相关的深度学习模型，并载到移动终端；

在移动终端进行物***姿估计，获得物***姿；

根据物***姿将需要渲染的内容渲染出来。

根据本申请实施例的第二方面，本申请还提供了一种物体锚定***，其包括云端训练单元和物***姿计算与渲染单元；

所述云端训练单元用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型；

所述物***姿计算与渲染单元用于根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计，并将虚拟信息叠加到感兴趣物体上，实现对感兴趣物体的渲染；

所述云端训练单元包括建模单元、合成训练数据生成单元、真实训练数据生成单元和训练算法单元；

所述建模单元用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型；

所述合成训练数据生成单元用于根据物体的立体模型和预置场景模型得到合成数据集，所述合成数据集中包括合成训练数据；

所述真实训练数据生成单元用于根据相机位姿和物***姿得到真实数据集，所述真实数据集中包括真实训练数据；

所述训练算法单元用于根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型。

根据本申请实施例的第三方面，本申请还提供了一种存储介质其上存储有可执行程序，当可执行程序被调用时，执行上述任一项所述的物体锚定方法中的步骤。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请提供的物体锚定方法通过采用合成数据合成、真实数据合成，训练使用2D图像进行识别、3D位置和姿态跟踪的模型，能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题，进而实现移动终端自定义物体信息增益与显示的方法，且信息的显示与和物体3D位置和姿态对应。

本申请提供的物体锚定方法通过采用建模渲染合成数据与自动标注真实数据结合的方法，能够解决人工标注的工作量大速度慢的问题，提升模型训练的效率与准确度，使跟踪用户自定义物体的深度学习模型成为可能，且跟踪的初始化可以是自动初始化，对光照、环境等敏感度较低。

本申请提供的物体锚定方法通过采用端云结合的架构，使移动终端的大规模物体识别与3D位置和姿态跟踪成为可能。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种物体锚定方法的流程图。

图2为本申请具体实施方式提供的一种物体锚定***的结构框图。

图3为本申请具体实施方式提供的一种物体锚定***中云端训练单元的结构框图。

图4为本申请具体实施方式提供的一种物体锚定***中基于深度学习的建模单元的结构框图。

图5为本申请具体实施方式提供的一种物体锚定***中基于计算机视觉的建模单元建模过程示意图。

图6为本申请具体实施方式提供的一种物体锚定***中合成训练数据生成单元的结构框图。

图7为本申请具体实施方式提供的一种物体锚定***中PBR渲染单元的处理流程图。

图8为本申请具体实施方式提供的一种物体锚定***中合成图像真实性迁移单元的处理流程图。

图9为本申请具体实施方式提供的一种物体锚定***中真实训练数据生成单元的结构框图。

图10为本申请具体实施方式提供的一种物体锚定***中物***姿计算与渲染单元通过移动终端实现的流程图。

图11为本申请具体实施方式提供的一种物体锚定***中物***姿计算与渲染单元通过移动终端与云服务器混合实现的流程图。

附图标记说明：

1、云端训练单元；

11、建模单元；

12、合成训练数据生成单元；121、PBR渲染单元；122、合成图像真实性迁移单元；

13、真实训练数据生成单元；131、模型重投影分割算法单元；132、帧间数据合成单元；

14、训练算法单元；

2、物***姿计算与渲染单元。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

如图1所示，本申请实施例提供的物体锚定方法包括以下步骤：

S1、根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型。

S2、根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计，得到感兴趣物体的位姿，并根据该位姿将虚拟信息叠加到该感兴趣物体上，以实现对该感兴趣物体的渲染。

在上述步骤S1中，根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中，可以基于深度学习完成建模，也可以基于计算机视觉完成建模。

当基于深度学习完成建模时，其具体过程为：

S111、特征提取与初始化相机位姿估计；

提取每一帧图像

的特征，估计出每一帧图像对应的相机初始化位姿

。

S112、显著性物体分割；

利用预训练完成的显著性分割网络获取每一帧图像

的掩模

。

S113、模型训练与推断；

模型训练的目标是获取模型的网格。

在图像

上随机采k个像素点，各像素点的位置坐标为

。

利用内参将各像素点的位置坐标

转换为成像平面坐标

。

将成像平面坐标和优化后的相机位姿输入神经网络

，提取帧间的色差特征

；将帧间的色差特征

增加至原图像上，以补偿帧间的色差。

其中，帧间的色差特征

为：

（1）

将图像对应的相机初始化位姿

输入神经网络

中，获得更准确的优化后的位姿

。优化后的相机位姿特征为

，

表示x轴的旋转角度，

表示y轴的旋转角度，

表示z轴的旋转角度；相机的初始位置为

。

其中，优化后的位姿

为：

（2）

根据优化后的位姿

获取优化后相机的初始位置

。

其中，优化后相机的初始位置为：

（3）

式（3）中，T为函数，其表示取位置坐标。

自优化后相机的初始位置

。

其中，光线的方向w为：

（4）

沿方向w采样M个点

，这M个点

的坐标为

_。

利用深度学习网络

预测这M个点

在隐式方程（即隐式函数TSDF）表面的概率。

其中，预测为在隐式方程表面的点的判断条件为：

（5）

式（5）中，

表示预测为在隐式方程表面的点，

表示阈值，

表示符合条件的最小的m。满足式（5）的点可以预测为在隐式方程表面的点。

将预测为在隐式方程表面的点

送入神经渲染器R，获取预测的RGB颜色的值

。

其中，预测的RGB颜色的值

为：

（6）

根据预测的

值和采集的K个像素点的颜色计算得到像素差值的平方损耗，以使网格的形状与图像中物体的网格更接近。

其中，像素差值的平方损耗L为：

（7）

式（7）中，

均表示系数，

可以为1，

可以为0.5，

可以为1；

表示图像像素的差值，

表示背景掩模的差值

和前景掩模的差值

之和，

表示边缘的差值。

式（7）中，图像像素的差值

为：

（8）

式（8）中，P表示所有选择的k个点。

背景掩模的差值

为：

（9）

式（9）中，

表示所有选择的k个点中掩模外的点。

式（9）的物理意义为：对于不在物体上的点，估计出的背景掩模值要尽量和0接近。

前景掩模的差值

为：

（10）

式（10）的物理意义为：对于在物体上的点，估计出的前景掩模值要尽量和1接近。

式（9）和式（10）中，BCE表示二值交叉熵损耗，

表示所有选择的k个点中掩模内的点。

式（7）中，边缘的差值

为：

（11）

式（11）中，

表示掩模的边界。

式（11）对边缘点进行损耗加强，以增加权重。

模型推断时，向神经网络

、深度学习网络

和神经网络

的组合模型中输入 3D点；使用该组合模型获取存在于其表面的点，由这些点构成网格。

当基于计算机视觉完成建模时，其具体过程为：

S121、采用视觉算法或深度学习算法进行特征提取与匹配；

从输入的图像序列中提取特征并进行特征间的匹配，匹配得到的特征作为相机位姿估计的输入。

其中，输入的图像序列可以为彩色图像，也可以为灰度图像。进行特征提取与匹配所采用的算法可以是SIFT、HAAR、ORB等传统的视觉算法，也可以是深度学习算法。

S122、对相机位姿进行估计；

将匹配得到的特征作为观测量，使用SFM算法（structure-from-motion算法是一种基于各种收集到的无序图片进行三维重建的离线算法）对相机的位姿进行估计。

S123、对图像序列中的显著性物体进行分割；

以相机位姿作为先验，使用显著性物体分割算法将图像序列中的显著性物体分割出来，以作为点云重建的输入。

S124、对稠密点云进行重建；

根据相机位姿和特征点生成特征点的3D点云，利用块匹配算法获得稠密点云。

S125、将重建的稠密点云作为网格生成的输入，使用泊松等重建算法重建物体的网格。

S126、根据相机位姿及其对应的图像，找到网格顶点对应的纹理坐标，获得网格的贴图。

S127、根据物体的网格和网格的贴图得到立体模型。

上述步骤S1中，根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为：

根据物体的立体模型和预置场景模型，采用PBR渲染方法得到合成数据集。其中，合成数据集中包括合成训练数据。

根据相机位姿和物***姿，采用模型重投影分割算法得到真实数据集。其中，真实数据集中包括真实训练数据。

在一个具体的实施例中，根据物体的立体模型和预置场景模型，采用PBR渲染方法得到合成数据集的具体过程为：

读取物体的立体模型和预置场景模型；

采用PBR渲染方法进行物***姿随机、渲染相机位姿随机、材质随机、光照随机，得到一系列图像序列及其对应的标注标签。其中，标注标签可以为类别、位置和六自由度位姿等。

根据物体的立体模型和预置场景模型，采用PBR渲染方法得到合成数据集的具体过程还包括：

读取立体模型或真实图像或PBR图像，对图像进行背景去除等预处理工作；通过GAN（Generative Adversarial Network，对抗生成网络）或者NERF（Neural RadianceFields，神经辐射场）等深度学习网络生成不同角度的合成图像及其对应的标注标签。其中，标注标签可以为类别、位置和六自由度位姿等。

在一个具体的实施例中，根据相机位姿和物***姿，采用模型重投影分割算法得到真实数据集的具体过程为：

将位姿离散的真实数据合成为位姿更加密集连续的数据，进而获得真实图像及其对应的标注标签。其中，标注标签可以为类别、位置和六自由度位姿等。

在一个具体的实施例中，利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型的具体过程为：

输入图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask。

采用以下损失函数对六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型。

训练六自由度位姿估计神经网络时需要用的损失函数为：

（12）

式（12）中，

表示损失，

均表示系数，

表示分类损失，

表示包围框损失，

表示2D损失，

表示3D损失，

表示掩模损失，

表示投影损失。

具体地，分类损失

为：

（13）

式（13）中，

表示取第i个检测锚点的分类信息，

表示取第j个背景特征的信息。

表示锚点，

表示背景的锚点，

表示类别真值，

表示神经网络提出的特征。

包围框损失

为：

（14）

式（14）中，

表示第i个检测锚点的坐标特征，

表示检测框的坐标真值。

2D损失

为：

（15）

式（15）中，

表示取2D坐标特征，

表示物体的2D特征点真值，

表示神经网络预测的特征点和掩模。

3D损失

为：

（16）

式（16）中，

表示取3D坐标特征，

表示物体的3D特征点真值，

表示神经网络预测的特征点和掩模。

掩模损失

为：

（17）

式（17）中，

表示取前景的第i个特征，

表示取背景的第j个特征，fg表示前景，bg表示背景。

投影损失

为：

（18）

式（18）中，

表示将3D特征投影到2D后和2D真值做差值，

表示神经网络预测的特征点和掩模。

在上述步骤S2中，可以通过移动终端实现感兴趣物体的位姿计算和渲染，也可以通过移动终端与云服务器混合实现感兴趣物体的位姿计算和渲染。

通过移动终端实现感兴趣物体的位姿计算和渲染的模式适用于用户的自定义模型较少的情况。在开始跟踪前，只需要访问一次云服务器，将用户的物体模型、深度学习模型、特征数据库等下载后，其他计算都在移动终端进行。移动终端从设备上读取摄像机数据，经过检测或识别神经网络、六自由度位姿估计神经网络，获得物***姿，然后根据此位姿将需要渲染的内容渲染出来。

通过移动终端与云服务器混合实现感兴趣物体的位姿计算和渲染的模式适用于用户的自定义模型较多的情况，是通用物***姿跟踪解决方案。在跟踪过程中，需要一次或者多次访问云服务器并下载资源。移动终端输入的是图像序列，输出的是物***姿及渲染后的图像。

该模式的主要流程为：在移动终端中输入图像序列，对每一帧图像进行显著性检测，将显著性检测区域上传至云服务器进行检索，得到物体的信息以及与其相关的深度学习模型，并载到移动终端，进行位姿估计，然后获得物***姿并根据此位姿将需要渲染的内容渲染出来。

本申请提供的物体锚定方法采用无监督深度学习的建模方式，只需要提供少量特征点，计算出初始的相机姿态，即可建模，不需要物体上的特征点，因此可以对纯色物体或者纹理较少物体进行建模。

本申请提供的物体锚定方法通过采用合成数据合成、真实数据合成，训练使用2D图像进行识别、3D位置和姿态跟踪的模型，能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题，进而实现移动终端自定义物体信息增益与显示的方法，且信息的显示与和物体3D位置和姿态对应。

基于本申请提供的物体锚定方法，本申请还提供了一种本申请提供的物体锚定***。

图2是本申请实施例提供的一种物体锚定***的结构示意图。

如图2所示，本申请实施例提供的物体锚定***包括云端训练单元1和物***姿计算与渲染单元2。其中，云端训练单元1用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型。物***姿计算与渲染单元2用于根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计，并将虚拟信息叠加到该感兴趣物体上，实现对感兴趣物体的渲染。

在本实施例中，如图3所示，云端训练单元1包括建模单元11、合成训练数据生成单元12、真实训练数据生成单元13和训练算法单元14。

其中，建模单元11用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型。

合成训练数据生成单元12用于根据物体的立体模型和预置场景模型得到合成数据集，其中，合成数据集中包括合成训练数据。

真实训练数据生成单元13用于根据相机位姿和物***姿得到真实数据集，其中，真实数据集中包括真实训练数据。

训练算法单元14用于根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型。

在一个具体的实施例中，建模单元11包括基于深度学习的建模单元和基于计算机视觉的建模单元。

如图4所示，基于深度学习的建模单元的输入为图像序列，其输出为深度学习模型。将多张图像输入深度学习模型中进行推断，得到网格和纹理。

基于深度学习的建模单元的建模过程与上述步骤S111-S113的内容相同，在此不再赘述。

如图5所示，基于计算机视觉的建模单元的输入为图像序列，其输出为建模完成的立体模型。

基于计算机视觉的建模单元的建模过程与上述步骤S121-S127的内容相同，在此不再赘述。

在上述实施例中，如图6和图7所示，合成训练数据生成单元12包括PBR（Physically-Based Rendering）渲染单元。PBR渲染单元121使用blender、unity等渲染框架，读取物体的立体模型和预置场景模型，进行物***姿随机、渲染相机位姿随机、材质随机、光照随机，得到一系列图像序列及其对应的标注标签。其中，标注标签可以为类别、位置和六自由度位姿等。

如图6和图8所示，合成训练数据生成单元12还包括合成图像真实性迁移单元122，合成图像真实性迁移单元122读取立体模型或真实图像或PBR图像，对图像进行背景去除等预处理工作，然后通过GAN（Generative Adversarial Network，对抗生成网络）或者NERF（Neural Radiance Fields，神经辐射场）等深度学习网络生成不同角度的合成图像及其对应的标注标签。其中，标注标签可以为类别、位置和六自由度位姿等。

在上述实施例中，如图9所示，真实训练数据生成单元13包括模型重投影分割算法单元131。模型重投影分割算法单元131获取图像序列、相机位姿和物***姿，将真实图像中的物体分割出来。

真实训练数据生成单元13还包括帧间数据合成单元132，其用于将位姿离散的真实数据合成为位姿更加密集连续的数据，进而获得真实图像及其对应的标注标签。其中，标注标签可以为类别、位置和六自由度位姿等。

在上述实施例中，训练算法单元14根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练。

使用端到端的方法训练六自由度位姿估计神经网络。一个网络即可完成物体检测和六自由度位姿估计。六自由度位姿估计神经网络输入的是图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask。网络结构如图9所示，

为第一阶段的神经网络，其用于输出检测框；

为第二阶段的神经网络，其用于计算物体的2D关键点和 3D关键点。mask的交叉熵主要用于去除背景特征的干扰，2D关键点由高斯热力图的方式回归，3D关键点需要基于物体的初始姿态归一化到0-1，投影误差用于保证2D和3D关键点的一致性。

训练六自由度位姿估计神经网络时需要用的损失函数与上述式（12）-式（18）相同，在此不再赘述。

在上述各实施例中，物***姿计算与渲染单元2可以通过移动终端实现，也可以通过移动终端与云服务器混合实现。

如图10所示，物***姿计算与渲染单元2通过移动终端实现的模式适用于用户的自定义模型较少的情况。在开始跟踪前，只需要访问一次云服务器，将用户的物体模型、深度学习模型、特征数据库等下载后，其他计算都在移动终端进行。移动终端从设备上读取摄像机数据，经过检测或识别神经网络、六自由度位姿估计神经网络，获得物***姿，然后根据此位姿将需要渲染的内容渲染出来。

如图11所示，物***姿计算与渲染单元2通过移动终端与云服务器混合实现的模式适用于用户的自定义模型较多的情况，是通用物***姿跟踪解决方案。在跟踪过程中，需要一次或者多次访问云服务器并下载资源。移动终端输入的是图像序列，输出的是物***姿及渲染后的图像。

需要说明的是：上述实施例提供的物体锚定***仅以上述各程序模块的划分进行举例说明，实际应用中，可以根据需要而将上述处理分配由不同的程序模块完成，即将物体锚定***的内部结构划分成不同的程序模块，以完成以上描述的全部或者部分处理。另外，上述实施例提供的物体锚定***与物体锚定方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

在示例性实施例中，本申请实施例还提供了一种存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由处理器执行，以完成前述物体锚定方法中的所述步骤。

上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如，本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务，其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而，根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。

Claims

1.一种物体锚定方法，其特征在于，包括以下步骤：

根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型；所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中，基于深度学习或计算机视觉完成建模，所述基于深度学习完成建模的过程为：

利用预训练完成的显著性分割网络获取每一帧图像的掩模；

进行模型训练与推断，以获取模型的网格；

所述基于计算机视觉完成建模的过程为：

采用视觉算法或深度学习算法进行特征提取与匹配；

对相机位姿进行估计；

对图像序列中的显著性物体进行分割；

对稠密点云进行重建；

根据物体的网格和网格的贴图得到立体模型；

所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为：

利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型；

2.根据权利要求1所述的物体锚定方法，其特征在于，所述进行模型训练与推断的过程为：

在图像

上随机采集

个像素点，各像素点的位置坐标

；

利用内参将各像素点的位置坐标

转换为成像平面坐标

；

将成像平面坐标和优化后的相机位姿输入神经网络

，提取帧间的色差特征

；将帧间的色差特征

增加至原图像上，以补偿帧间的色差；

其中，帧间的色差特征

为：

，

式中，

表示图像真值；

将图像对应的相机初始化位姿

输入神经网络

中，获得优化后的位姿

；

其中，优化后的位姿

为：

；

根据优化后的位姿

获取优化后相机的初始位置

；

其中，优化后相机的初始位置为：

；

式中，T为函数，其表示取位置坐标；

自优化后相机的初始位置

；

其中，光线的方向w为：

；

沿方向w采样M个点

，这M个点的坐标为

；

利用深度学习网络

预测这M个点

在隐式方程表面的概率；

其中，预测为在隐式方程表面的点的判断条件为：

；

式中，

表示预测为在隐式方程表面的点，

表示阈值，

表示符合条件的最小的m；

将预测为在隐式方程表面的点

送入神经渲染器R，获取预测的RGB颜色的值

；

其中，预测的RGB颜色的值

为：

；

根据预测的

值和采集的K个像素点的颜色计算得到像素差值的平方损耗；

其中，像素差值的平方损耗L为：

；

式中，

均表示系数；

表示图像像素的差值，

表示背景掩模的差值

和前景掩模的差值

之和，

表示边缘的差值；

式中，图像像素的差值

为：

；

式中，P表示所有选择的k个点，

表示预测的颜色值；

背景掩模的差值

为：

；

式中，

表示所有选择的k个点中掩模外的点；

前景掩模的差值

为：

；

式中，BCE表示二值交叉熵损耗，

表示所有选择的k个点中掩模内的点；

边缘的差值

为：

；

式中，

表示掩模的边界；

模型推断时，向神经网络

、深度学习网络

和神经网络

的组合模型中输入3D点；使用该组合模型获取存在于其表面的点，由这些点构成网格。

3.根据权利要求1所述的物体锚定方法，其特征在于，所述根据物体的立体模型和预置场景模型，采用PBR渲染方法得到合成数据集的具体过程为：

读取物体的立体模型和预置场景模型；

4.根据权利要求1所述的物体锚定方法，其特征在于，所述根据相机位姿和物***姿，采用模型重投影分割算法得到真实数据集的具体过程为：

5.根据权利要求1所述的物体锚定方法，其特征在于，所述利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练，得到六自由度位姿估计神经网络模型的具体过程为：

训练六自由度位姿估计神经网络时需要用的损失函数为：

；

式中，

表示损失，

均表示系数，

表示分类损失，

表示包围框损失，

表示2D损失，

表示3D损失，

表示掩模损失，

表示投影损失；

其中，分类损失

为：

；

式中，

表示取第i个检测锚点的分类信息，

表示取第j个背景特征的信息；

表示锚点，

表示背景的锚点，

表示类别真值，

表示神经网络提出的特征；

包围框损失

为：

；

式中，

表示第i个检测锚点的坐标特征，

表示检测框的坐标真值；

2D损失

为：

；

式中，

表示取2D坐标特征，

表示物体的2D特征点真值；

3D损失

为：

；

式中，

表示取3D坐标特征，

表示物体的3D特征点真值；

掩模损失

为：

；

式中，

表示取前景的第i个特征，

表示取背景的第j个特征，fg表示前景，bg表示背景；

投影损失

为：

；

式中，

表示将3D特征投影到2D后和2D真值做差值，

表示神经网络预测的特征点和掩模。

6.根据权利要求1所述的物体锚定方法，其特征在于，所述实现对感兴趣物体的渲染通过移动终端实现或通过移动终端与云服务器混合实现；

所述通过移动终端实现的过程为：

根据物***姿将需要渲染的内容渲染出来；

所述通过移动终端与云服务器混合实现的过程为：

在移动终端进行物***姿估计，获得物***姿；

根据物***姿将需要渲染的内容渲染出来。

7.一种物体锚定***，其特征在于，包括云端训练单元和物***姿计算与渲染单元；

8.一种存储介质，其特征在于，其上存储有可执行程序，当可执行程序被调用时，执行如权利要求1-6中任一项所述的物体锚定方法中的步骤。