CN114241013B - 物体锚定方法、锚定***及存储介质 - Google Patents

物体锚定方法、锚定***及存储介质 Download PDF

Info

Publication number
CN114241013B
CN114241013B CN202210173770.0A CN202210173770A CN114241013B CN 114241013 B CN114241013 B CN 114241013B CN 202210173770 A CN202210173770 A CN 202210173770A CN 114241013 B CN114241013 B CN 114241013B
Authority
CN
China
Prior art keywords
pose
model
neural network
training
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210173770.0A
Other languages
English (en)
Other versions
CN114241013A (zh
Inventor
张旭
毛文涛
邓伯胜
于天慧
蔡宝军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yingchuang Information Technology Co ltd
Original Assignee
Beijing Yingchuang Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yingchuang Information Technology Co ltd filed Critical Beijing Yingchuang Information Technology Co ltd
Priority to CN202210173770.0A priority Critical patent/CN114241013B/zh
Publication of CN114241013A publication Critical patent/CN114241013A/zh
Application granted granted Critical
Publication of CN114241013B publication Critical patent/CN114241013B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/251Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • G06T7/75Determining position or orientation of objects or cameras using feature-based methods involving models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请提供一种物体锚定方法、锚定***及存储介质,物体锚定方法包括:根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。本申请能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题,进而实现移动终端自定义物体信息增益与显示的方法,且信息的显示与和物体3D位置和姿态对应。

Description

物体锚定方法、锚定***及存储介质
技术领域
本申请属于图像识别技术领域,具体涉及一种物体锚定方法、锚定***及存储介质。
背景技术
常见的物体识别与3D位置和姿态跟踪深度学习算法需要大量的人工标注数据,用户自定义物体训练很难保证在各种复杂光照和环境下的准确度。现有技术很多使用的是特征工程的方法,使用SIFT、SURF等特征,虽然这些特则对光照背景有一定的健壮性,但是对于有些复杂的光照背景会比较敏感,且容易跟踪失败。现有的很多方法需要用户给定初始位姿,并且需要用户提供精确的3D模型,对于没有3D模型的物体不能跟踪。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供了一种物体锚定方法、锚定***及存储介质。
根据本申请实施例的第一方面,本申请提供了一种物体锚定方法,其包括以下步骤:
根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;
根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。
上述物体锚定方法中,所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,基于深度学习或计算机视觉完成建模。
进一步地,所述基于深度学习完成建模的过程为:
提取每一帧图像的特征,估计出每一帧图像对应的相机初始化位姿;
利用预训练完成的显著性分割网络获取每一帧图像的掩模;
进行模型训练与推断,以获取模型的网格。
更进一步地,所述进行模型训练与推断的过程为:
在图像
Figure 100002_DEST_PATH_IMAGE001
上随机采集K个像素点,各像素点的位置坐标为
Figure 100002_DEST_PATH_IMAGE002
利用内参将各像素点的位置坐标
Figure 100002_DEST_PATH_IMAGE003
转换为成像平面坐标
Figure 100002_DEST_PATH_IMAGE004
将成像平面坐标和优化后的相机位姿输入神经网络
Figure 100002_DEST_PATH_IMAGE005
,提取帧间的色差特征
Figure 100002_DEST_PATH_IMAGE006
;将帧间的色差特征
Figure 100002_DEST_PATH_IMAGE007
增加至原图像上,以补偿帧间的色差。
其中,帧间的色差特征
Figure 100002_DEST_PATH_IMAGE008
为:
Figure 100002_DEST_PATH_IMAGE009
将图像对应的相机初始化位姿
Figure 100002_DEST_PATH_IMAGE010
输入神经网络
Figure 100002_DEST_PATH_IMAGE011
中,获得优化后的位姿
Figure 100002_DEST_PATH_IMAGE012
其中,优化后的位姿
Figure 100002_DEST_PATH_IMAGE013
为:
Figure 100002_DEST_PATH_IMAGE014
根据优化后的位姿
Figure 100002_DEST_PATH_IMAGE015
获取优化后相机的初始位置
Figure 100002_DEST_PATH_IMAGE016
其中,优化后相机的初始位置为:
Figure 609336DEST_PATH_IMAGE017
式中,T为函数,其表示取位置坐标;
自优化后相机的初始位置
Figure 100002_DEST_PATH_IMAGE018
向图像的成像平面发射光线,该光线的方向为w,其穿 过像素点的位置坐标
Figure 681328DEST_PATH_IMAGE019
其中,光线的方向w为:
Figure 100002_DEST_PATH_IMAGE020
沿方向w采样M个点
Figure 779865DEST_PATH_IMAGE021
,这M个点
Figure 100002_DEST_PATH_IMAGE022
的坐标为
Figure 607224DEST_PATH_IMAGE023
利用深度学习网络
Figure 100002_DEST_PATH_IMAGE024
预测这M个点
Figure 271555DEST_PATH_IMAGE025
在隐式方程(即隐式函数TSDF)表面的概率;
其中,预测为在隐式方程表面的点的判断条件为:
Figure 100002_DEST_PATH_IMAGE026
式中,
Figure 576765DEST_PATH_IMAGE027
表示预测为在隐式方程表面的点,
Figure 100002_DEST_PATH_IMAGE028
表示阈值,
Figure 428178DEST_PATH_IMAGE029
表示符合条件的 最小的
Figure 100002_DEST_PATH_IMAGE030
将预测为在隐式方程表面的点
Figure 47509DEST_PATH_IMAGE031
送入神经渲染器R,获取预测的RGB颜色的值
Figure 100002_DEST_PATH_IMAGE032
其中,预测的RGB颜色的值
Figure 769609DEST_PATH_IMAGE032
为:
Figure 42458DEST_PATH_IMAGE033
根据预测的
Figure 100002_DEST_PATH_IMAGE034
值和采集的K个像素点的颜色计算得到像素差值的平方损耗;
其中,像素差值的平方损耗L为:
Figure 381167DEST_PATH_IMAGE035
式中,
Figure 100002_DEST_PATH_IMAGE036
均表示系数;
Figure 69768DEST_PATH_IMAGE037
表示图像像素的差值,
Figure 100002_DEST_PATH_IMAGE038
表示背景掩模的差值
Figure 911953DEST_PATH_IMAGE039
和前景掩模的差值
Figure 100002_DEST_PATH_IMAGE040
之和,
Figure 27808DEST_PATH_IMAGE041
表示边缘的差值;
式中,图像像素的差值
Figure 100002_DEST_PATH_IMAGE042
为:
Figure 119392DEST_PATH_IMAGE043
式中,P表示所有选择的k个点;
背景掩模的差值
Figure 100002_DEST_PATH_IMAGE044
为:
Figure 877264DEST_PATH_IMAGE045
式中,
Figure 100002_DEST_PATH_IMAGE046
表示所有选择的k个点中掩模外的点;
前景掩模的差值
Figure 105114DEST_PATH_IMAGE047
为:
Figure 100002_DEST_PATH_IMAGE048
式中,BCE表示二值交叉熵损耗,
Figure 188607DEST_PATH_IMAGE049
表示所有选择的k个点中掩模内的点;
边缘的差值
Figure 100002_DEST_PATH_IMAGE050
为:
Figure 490189DEST_PATH_IMAGE051
式中,
Figure 100002_DEST_PATH_IMAGE052
表示掩模的边界;
模型推断时,向神经网络
Figure 786173DEST_PATH_IMAGE053
、深度学习网络
Figure 100002_DEST_PATH_IMAGE054
和神经网络
Figure 399688DEST_PATH_IMAGE055
的组合模型中输入3D 点;使用该组合模型获取存在于其表面的点,由这些点构成网格。
进一步地,所述基于计算机视觉完成建模的过程为:
采用视觉算法或深度学习算法进行特征提取与匹配;
对相机位姿进行估计;
对图像序列中的显著性物体进行分割;
对稠密点云进行重建;
将重建的稠密点云作为网格生成的输入,使用重建算法重建物体的网格;
根据相机位姿及其对应的图像,找到网格顶点对应的纹理坐标,获得网格的贴图;
根据物体的网格和网格的贴图得到立体模型。
上述物体锚定方法中,所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为:
根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集;所述合成数据集中包括合成训练数据;
根据相机位姿和物***姿,采用模型重投影分割算法得到真实数据集;所述真实数据集中包括真实训练数据;
利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
进一步地,所述根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程为:
读取物体的立体模型和预置场景模型;
采用PBR渲染方法进行物***姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注标签;所述标注标签为类别、位置和六自由度位姿。
进一步地,所述根据相机位姿和物***姿,采用模型重投影分割算法得到真实数据集的具体过程为:
获取图像序列、相机位姿和物***姿,将真实图像中的物体分割出来;
将位姿离散的真实数据合成为位姿密集连续的数据,进而获得真实图像及其对应的标注标签;所述标注标签为类别、位置和六自由度位姿。
更进一步地,所述利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型的具体过程为:
输入图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask;
采用以下损失函数对六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型;
训练六自由度位姿估计神经网络时需要用的损失函数为:
Figure 100002_DEST_PATH_IMAGE056
式中,
Figure 122924DEST_PATH_IMAGE057
表示损失,
Figure 100002_DEST_PATH_IMAGE058
均表示系数,
Figure 392363DEST_PATH_IMAGE059
表示分类损失,
Figure 100002_DEST_PATH_IMAGE060
表示包 围框损失,
Figure 492037DEST_PATH_IMAGE061
表示2D损失,
Figure 100002_DEST_PATH_IMAGE062
表示3D损失,
Figure 835425DEST_PATH_IMAGE063
表示掩模损失,
Figure 100002_DEST_PATH_IMAGE064
表示投影损失;
其中,分类损失
Figure 401666DEST_PATH_IMAGE065
为:
Figure 100002_DEST_PATH_IMAGE066
式中,
Figure 220718DEST_PATH_IMAGE067
表示取第i个检测锚点的分类信息,
Figure 100002_DEST_PATH_IMAGE068
表示取第j个背景特征的信息;
Figure 655241DEST_PATH_IMAGE069
表示锚点,
Figure 100002_DEST_PATH_IMAGE070
表示背景的锚点,
Figure 977769DEST_PATH_IMAGE071
表示类别真值,
Figure 100002_DEST_PATH_IMAGE072
表示神经网络提出的特征;
包围框损失
Figure 42808DEST_PATH_IMAGE073
为:
Figure 100002_DEST_PATH_IMAGE074
式中,
Figure 83577DEST_PATH_IMAGE075
表示第i个检测锚点的坐标特征,
Figure 100002_DEST_PATH_IMAGE076
表示检测框的坐标真值;
2D损失
Figure 790633DEST_PATH_IMAGE077
为:
Figure 100002_DEST_PATH_IMAGE078
式中,
Figure 967667DEST_PATH_IMAGE079
表示取2D坐标特征,
Figure 100002_DEST_PATH_IMAGE080
表示物体的2D特征点真值,
Figure 480906DEST_PATH_IMAGE081
表示神经 网络预测的特征点和掩模;
3D损失
Figure 100002_DEST_PATH_IMAGE082
为:
Figure 8970DEST_PATH_IMAGE083
式中,
Figure 100002_DEST_PATH_IMAGE084
表示取3D坐标特征,
Figure 254138DEST_PATH_IMAGE085
表示物体的3D特征点真值,
Figure 100002_DEST_PATH_IMAGE086
表示神经 网络预测的特征点和掩模;
掩模损失
Figure 551258DEST_PATH_IMAGE087
为:
Figure 100002_DEST_PATH_IMAGE088
式中,
Figure 754837DEST_PATH_IMAGE089
表示取前景的第i个特征,
Figure DEST_PATH_IMAGE090
表示取背景的第j个特征,fg表示前景,bg表 示背景;
投影损失
Figure 973460DEST_PATH_IMAGE091
为:
Figure DEST_PATH_IMAGE092
式中,
Figure 287898DEST_PATH_IMAGE093
表示将3D特征投影到2D后和2D真值做差值,
Figure DEST_PATH_IMAGE094
表示神经网络预测 的特征点和掩模。
上述物体锚定方法中,所述实现对感兴趣物体的渲染通过移动终端实现或通过移动终端与云服务器混合实现;
所述通过移动终端实现的过程为:
在开始跟踪前,访问云服务器,将用户的物体模型、深度学习模型、特征数据库下载后,其他计算都在移动终端进行;
移动终端从设备上读取摄像机数据,经过检测或识别神经网络、六自由度位姿估计神经网络,获得物***姿;
根据物***姿将需要渲染的内容渲染出来;
所述通过移动终端与云服务器混合实现的过程为:
在移动终端中输入图像序列,并对每一帧图像进行显著性检测;
将显著性检测区域上传至云服务器进行检索,得到物体的信息以及与其相关的深度学习模型,并载到移动终端;
在移动终端进行物***姿估计,获得物***姿;
根据物***姿将需要渲染的内容渲染出来。
根据本申请实施例的第二方面,本申请还提供了一种物体锚定***,其包括云端训练单元和物***姿计算与渲染单元;
所述云端训练单元用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;
所述物***姿计算与渲染单元用于根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,并将虚拟信息叠加到感兴趣物体上,实现对感兴趣物体的渲染;
所述云端训练单元包括建模单元、合成训练数据生成单元、真实训练数据生成单元和训练算法单元;
所述建模单元用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型;
所述合成训练数据生成单元用于根据物体的立体模型和预置场景模型得到合成数据集,所述合成数据集中包括合成训练数据;
所述真实训练数据生成单元用于根据相机位姿和物***姿得到真实数据集,所述真实数据集中包括真实训练数据;
所述训练算法单元用于根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
根据本申请实施例的第三方面,本申请还提供了一种存储介质其上存储有可执行程序,当可执行程序被调用时,执行上述任一项所述的物体锚定方法中的步骤。
根据本申请的上述具体实施方式可知,至少具有以下有益效果:本申请提供的物体锚定方法通过采用合成数据合成、真实数据合成,训练使用2D图像进行识别、3D位置和姿态跟踪的模型,能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题,进而实现移动终端自定义物体信息增益与显示的方法,且信息的显示与和物体3D位置和姿态对应。
本申请提供的物体锚定方法通过采用建模渲染合成数据与自动标注真实数据结合的方法,能够解决人工标注的工作量大速度慢的问题,提升模型训练的效率与准确度,使跟踪用户自定义物体的深度学习模型成为可能,且跟踪的初始化可以是自动初始化,对光照、环境等敏感度较低。
本申请提供的物体锚定方法通过采用端云结合的架构,使移动终端的大规模物体识别与3D位置和姿态跟踪成为可能。
应了解的是,上述一般描述及以下具体实施方式仅为示例性及阐释性的,其并不能限制本申请所欲主张的范围。
附图说明
下面的所附附图是本申请的说明书的一部分,其示出了本申请的实施例,所附附图与说明书的描述一起用来说明本申请的原理。
图1为本申请具体实施方式提供的一种物体锚定方法的流程图。
图2为本申请具体实施方式提供的一种物体锚定***的结构框图。
图3为本申请具体实施方式提供的一种物体锚定***中云端训练单元的结构框图。
图4为本申请具体实施方式提供的一种物体锚定***中基于深度学习的建模单元的结构框图。
图5为本申请具体实施方式提供的一种物体锚定***中基于计算机视觉的建模单元建模过程示意图。
图6为本申请具体实施方式提供的一种物体锚定***中合成训练数据生成单元的结构框图。
图7为本申请具体实施方式提供的一种物体锚定***中PBR渲染单元的处理流程图。
图8为本申请具体实施方式提供的一种物体锚定***中合成图像真实性迁移单元的处理流程图。
图9为本申请具体实施方式提供的一种物体锚定***中真实训练数据生成单元的结构框图。
图10为本申请具体实施方式提供的一种物体锚定***中物***姿计算与渲染单元通过移动终端实现的流程图。
图11为本申请具体实施方式提供的一种物体锚定***中物***姿计算与渲染单元通过移动终端与云服务器混合实现的流程图。
附图标记说明:
1、云端训练单元;
11、建模单元;
12、合成训练数据生成单元;121、PBR渲染单元;122、合成图像真实性迁移单元;
13、真实训练数据生成单元;131、模型重投影分割算法单元;132、帧间数据合成单元;
14、训练算法单元;
2、物***姿计算与渲染单元。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本申请所揭示内容的精神,任何所属技术领域技术人员在了解本申请内容的实施例后,当可由本申请内容所教示的技术,加以改变及修饰,其并不脱离本申请内容的精神与范围。
本申请的示意性实施例及其说明用于解释本申请,但并不作为对本申请的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
关于本文中所使用的“第一”、“第二”、…等,并非特别指称次序或顺位的意思,也非用以限定本申请,其仅为了区别以相同技术用语描述的元件或操作。
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
关于本文中的“多个”包括“两个”及“两个以上”;关于本文中的“多组”包括“两组”及“两组以上”。
某些用以描述本申请的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本申请的描述上额外的引导。
如图1所示,本申请实施例提供的物体锚定方法包括以下步骤:
S1、根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型。
S2、根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到该感兴趣物体上,以实现对该感兴趣物体的渲染。
在上述步骤S1中,根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,可以基于深度学习完成建模,也可以基于计算机视觉完成建模。
当基于深度学习完成建模时,其具体过程为:
S111、特征提取与初始化相机位姿估计;
提取每一帧图像
Figure 173946DEST_PATH_IMAGE095
的特征,估计出每一帧图像对应的相机初始化位姿
Figure DEST_PATH_IMAGE096
S112、显著性物体分割;
利用预训练完成的显著性分割网络获取每一帧图像
Figure 282847DEST_PATH_IMAGE097
的掩模
Figure DEST_PATH_IMAGE098
S113、模型训练与推断;
模型训练的目标是获取模型的网格。
在图像
Figure 519924DEST_PATH_IMAGE099
上随机采k个像素点,各像素点的位置坐标为
Figure DEST_PATH_IMAGE100
利用内参将各像素点的位置坐标
Figure 372474DEST_PATH_IMAGE101
转换为成像平面坐标
Figure DEST_PATH_IMAGE102
将成像平面坐标和优化后的相机位姿输入神经网络
Figure 644186DEST_PATH_IMAGE103
,提取帧间的色差特征
Figure DEST_PATH_IMAGE104
;将帧间的色差特征
Figure 189568DEST_PATH_IMAGE105
增加至原图像上,以补偿帧间的色差。
其中,帧间的色差特征
Figure DEST_PATH_IMAGE106
为:
Figure 179521DEST_PATH_IMAGE107
(1)
将图像对应的相机初始化位姿
Figure DEST_PATH_IMAGE108
输入神经网络
Figure 570182DEST_PATH_IMAGE109
中,获得更准确的优化后的位姿
Figure DEST_PATH_IMAGE110
。优化后的相机位姿特征为
Figure 696401DEST_PATH_IMAGE111
Figure DEST_PATH_IMAGE112
表示x轴的旋转角度,
Figure 147105DEST_PATH_IMAGE113
表示y轴的旋转角 度,
Figure DEST_PATH_IMAGE114
表示z轴的旋转角度;相机的初始位置为
Figure 93196DEST_PATH_IMAGE115
其中,优化后的位姿
Figure DEST_PATH_IMAGE116
为:
Figure 10250DEST_PATH_IMAGE117
(2)
根据优化后的位姿
Figure DEST_PATH_IMAGE118
获取优化后相机的初始位置
Figure 990975DEST_PATH_IMAGE119
其中,优化后相机的初始位置为:
Figure DEST_PATH_IMAGE120
(3)
式(3)中,T为函数,其表示取位置坐标。
自优化后相机的初始位置
Figure 284685DEST_PATH_IMAGE119
向图像的成像平面发射光线,该光线的方向为w,其穿 过像素点的位置坐标
Figure 249229DEST_PATH_IMAGE121
其中,光线的方向w为:
Figure DEST_PATH_IMAGE122
(4)
沿方向w采样M个点
Figure 247272DEST_PATH_IMAGE123
,这M个点
Figure DEST_PATH_IMAGE124
的坐标为
Figure 82504DEST_PATH_IMAGE125
利用深度学习网络
Figure DEST_PATH_IMAGE126
预测这M个点
Figure 140590DEST_PATH_IMAGE127
在隐式方程(即隐式函数TSDF)表面的概率。
其中,预测为在隐式方程表面的点的判断条件为:
Figure DEST_PATH_IMAGE128
(5)
式(5)中,
Figure 61273DEST_PATH_IMAGE129
表示预测为在隐式方程表面的点,
Figure DEST_PATH_IMAGE130
表示阈值,
Figure 863007DEST_PATH_IMAGE131
表示符合条件 的最小的m。满足式(5)的点可以预测为在隐式方程表面的点。
将预测为在隐式方程表面的点
Figure DEST_PATH_IMAGE132
送入神经渲染器R,获取预测的RGB颜色的值
Figure 552745DEST_PATH_IMAGE133
其中,预测的RGB颜色的值
Figure DEST_PATH_IMAGE134
为:
Figure 516153DEST_PATH_IMAGE135
(6)
根据预测的
Figure DEST_PATH_IMAGE136
值和采集的K个像素点的颜色计算得到像素差值的平方损耗,以 使网格的形状与图像中物体的网格更接近。
其中,像素差值的平方损耗L为:
Figure 924132DEST_PATH_IMAGE137
(7)
式(7)中,
Figure DEST_PATH_IMAGE138
均表示系数,
Figure 998398DEST_PATH_IMAGE139
可以为1,
Figure DEST_PATH_IMAGE140
可以为0.5,
Figure 277064DEST_PATH_IMAGE141
可以为1;
Figure DEST_PATH_IMAGE142
表示图像 像素的差值,
Figure 411373DEST_PATH_IMAGE143
表示背景掩模的差值
Figure DEST_PATH_IMAGE144
和前景掩模的差值
Figure 837807DEST_PATH_IMAGE145
之和,
Figure DEST_PATH_IMAGE146
表示边缘的差值。
式(7)中,图像像素的差值
Figure 981343DEST_PATH_IMAGE147
为:
Figure DEST_PATH_IMAGE148
(8)
式(8)中,P表示所有选择的k个点。
背景掩模的差值
Figure 911253DEST_PATH_IMAGE149
为:
Figure DEST_PATH_IMAGE150
(9)
式(9)中,
Figure 759341DEST_PATH_IMAGE151
表示所有选择的k个点中掩模外的点。
式(9)的物理意义为:对于不在物体上的点,估计出的背景掩模值要尽量和0接近。
前景掩模的差值
Figure DEST_PATH_IMAGE152
为:
Figure 141912DEST_PATH_IMAGE153
(10)
式(10)的物理意义为:对于在物体上的点,估计出的前景掩模值要尽量和1接近。
式(9)和式(10)中,BCE表示二值交叉熵损耗,
Figure DEST_PATH_IMAGE154
表示所有选择的k个点中掩模内的 点。
式(7)中,边缘的差值
Figure 89139DEST_PATH_IMAGE155
为:
Figure DEST_PATH_IMAGE156
(11)
式(11)中,
Figure 404714DEST_PATH_IMAGE157
表示掩模的边界。
式(11)对边缘点进行损耗加强,以增加权重。
模型推断时,向神经网络
Figure DEST_PATH_IMAGE158
、深度学习网络
Figure 880826DEST_PATH_IMAGE159
和神经网络
Figure DEST_PATH_IMAGE160
的组合模型中输入 3D点;使用该组合模型获取存在于其表面的点,由这些点构成网格。
当基于计算机视觉完成建模时,其具体过程为:
S121、采用视觉算法或深度学习算法进行特征提取与匹配;
从输入的图像序列中提取特征并进行特征间的匹配,匹配得到的特征作为相机位姿估计的输入。
其中,输入的图像序列可以为彩色图像,也可以为灰度图像。进行特征提取与匹配所采用的算法可以是SIFT、HAAR、ORB等传统的视觉算法,也可以是深度学习算法。
S122、对相机位姿进行估计;
将匹配得到的特征作为观测量,使用SFM算法(structure-from-motion算法是一种基于各种收集到的无序图片进行三维重建的离线算法)对相机的位姿进行估计。
S123、对图像序列中的显著性物体进行分割;
以相机位姿作为先验,使用显著性物体分割算法将图像序列中的显著性物体分割出来,以作为点云重建的输入。
S124、对稠密点云进行重建;
根据相机位姿和特征点生成特征点的3D点云,利用块匹配算法获得稠密点云。
S125、将重建的稠密点云作为网格生成的输入,使用泊松等重建算法重建物体的网格。
S126、根据相机位姿及其对应的图像,找到网格顶点对应的纹理坐标,获得网格的贴图。
S127、根据物体的网格和网格的贴图得到立体模型。
上述步骤S1中,根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为:
根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集。其中,合成数据集中包括合成训练数据。
根据相机位姿和物***姿,采用模型重投影分割算法得到真实数据集。其中,真实数据集中包括真实训练数据。
利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
在一个具体的实施例中,根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程为:
读取物体的立体模型和预置场景模型;
采用PBR渲染方法进行物***姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注标签。其中,标注标签可以为类别、位置和六自由度位姿等。
根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程还包括:
读取立体模型或真实图像或PBR图像,对图像进行背景去除等预处理工作;通过GAN(Generative Adversarial Network,对抗生成网络)或者NERF(Neural RadianceFields,神经辐射场)等深度学习网络生成不同角度的合成图像及其对应的标注标签。其中,标注标签可以为类别、位置和六自由度位姿等。
在一个具体的实施例中,根据相机位姿和物***姿,采用模型重投影分割算法得到真实数据集的具体过程为:
获取图像序列、相机位姿和物***姿,将真实图像中的物体分割出来;
将位姿离散的真实数据合成为位姿更加密集连续的数据,进而获得真实图像及其对应的标注标签。其中,标注标签可以为类别、位置和六自由度位姿等。
在一个具体的实施例中,利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型的具体过程为:
输入图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask。
采用以下损失函数对六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
训练六自由度位姿估计神经网络时需要用的损失函数为:
Figure 16272DEST_PATH_IMAGE161
(12)
式(12)中,
Figure DEST_PATH_IMAGE162
表示损失,
Figure 501611DEST_PATH_IMAGE163
均表示系数,
Figure DEST_PATH_IMAGE164
表示分类损失,
Figure 406113DEST_PATH_IMAGE165
表 示包围框损失,
Figure DEST_PATH_IMAGE166
表示2D损失,
Figure 318705DEST_PATH_IMAGE167
表示3D损失,
Figure DEST_PATH_IMAGE168
表示掩模损失,
Figure 675869DEST_PATH_IMAGE169
表示投影损失。
具体地,分类损失
Figure DEST_PATH_IMAGE170
为:
Figure 230478DEST_PATH_IMAGE171
(13)
式(13)中,
Figure DEST_PATH_IMAGE172
表示取第i个检测锚点的分类信息,
Figure 723907DEST_PATH_IMAGE173
表示取第j个背景特征的信息。
Figure DEST_PATH_IMAGE174
表示锚点,
Figure 72980DEST_PATH_IMAGE175
表示背景的锚点,
Figure DEST_PATH_IMAGE176
表示类别真值,
Figure 917439DEST_PATH_IMAGE177
表示神经网络提出的特 征。
包围框损失
Figure DEST_PATH_IMAGE178
为:
Figure 479002DEST_PATH_IMAGE179
(14)
式(14)中,
Figure DEST_PATH_IMAGE180
表示第i个检测锚点的坐标特征,
Figure 92517DEST_PATH_IMAGE181
表示检测框的坐标真值。
2D损失
Figure DEST_PATH_IMAGE182
为:
Figure 81333DEST_PATH_IMAGE183
(15)
式(15)中,
Figure DEST_PATH_IMAGE184
表示取2D坐标特征,
Figure 147509DEST_PATH_IMAGE185
表示物体的2D特征点真值,
Figure DEST_PATH_IMAGE186
表示 神经网络预测的特征点和掩模。
3D损失
Figure 512762DEST_PATH_IMAGE187
为:
Figure DEST_PATH_IMAGE188
(16)
式(16)中,
Figure 980784DEST_PATH_IMAGE189
表示取3D坐标特征,
Figure DEST_PATH_IMAGE190
表示物体的3D特征点真值,
Figure 394361DEST_PATH_IMAGE191
表示 神经网络预测的特征点和掩模。
掩模损失
Figure DEST_PATH_IMAGE192
为:
Figure 947833DEST_PATH_IMAGE193
(17)
式(17)中,
Figure DEST_PATH_IMAGE194
表示取前景的第i个特征,
Figure 851198DEST_PATH_IMAGE195
表示取背景的第j个特征,fg表示前景,bg表示背景。
投影损失
Figure DEST_PATH_IMAGE196
为:
Figure 908147DEST_PATH_IMAGE197
(18)
式(18)中,
Figure DEST_PATH_IMAGE198
表示将3D特征投影到2D后和2D真值做差值,
Figure 769924DEST_PATH_IMAGE199
表示神经网络 预测的特征点和掩模。
在上述步骤S2中,可以通过移动终端实现感兴趣物体的位姿计算和渲染,也可以通过移动终端与云服务器混合实现感兴趣物体的位姿计算和渲染。
通过移动终端实现感兴趣物体的位姿计算和渲染的模式适用于用户的自定义模型较少的情况。在开始跟踪前,只需要访问一次云服务器,将用户的物体模型、深度学习模型、特征数据库等下载后,其他计算都在移动终端进行。移动终端从设备上读取摄像机数据,经过检测或识别神经网络、六自由度位姿估计神经网络,获得物***姿,然后根据此位姿将需要渲染的内容渲染出来。
通过移动终端与云服务器混合实现感兴趣物体的位姿计算和渲染的模式适用于用户的自定义模型较多的情况,是通用物***姿跟踪解决方案。在跟踪过程中,需要一次或者多次访问云服务器并下载资源。移动终端输入的是图像序列,输出的是物***姿及渲染后的图像。
该模式的主要流程为:在移动终端中输入图像序列,对每一帧图像进行显著性检测,将显著性检测区域上传至云服务器进行检索,得到物体的信息以及与其相关的深度学习模型,并载到移动终端,进行位姿估计,然后获得物***姿并根据此位姿将需要渲染的内容渲染出来。
本申请提供的物体锚定方法采用无监督深度学习的建模方式,只需要提供少量特征点,计算出初始的相机姿态,即可建模,不需要物体上的特征点,因此可以对纯色物体或者纹理较少物体进行建模。
本申请提供的物体锚定方法通过采用合成数据合成、真实数据合成,训练使用2D图像进行识别、3D位置和姿态跟踪的模型,能够解决用户自定义物体识别与3D跟踪时的不准确与光照、环境等对算法影响较大的问题,进而实现移动终端自定义物体信息增益与显示的方法,且信息的显示与和物体3D位置和姿态对应。
本申请提供的物体锚定方法通过采用建模渲染合成数据与自动标注真实数据结合的方法,能够解决人工标注的工作量大速度慢的问题,提升模型训练的效率与准确度,使跟踪用户自定义物体的深度学习模型成为可能,且跟踪的初始化可以是自动初始化,对光照、环境等敏感度较低。
本申请提供的物体锚定方法通过采用端云结合的架构,使移动终端的大规模物体识别与3D位置和姿态跟踪成为可能。
基于本申请提供的物体锚定方法,本申请还提供了一种本申请提供的物体锚定***。
图2是本申请实施例提供的一种物体锚定***的结构示意图。
如图2所示,本申请实施例提供的物体锚定***包括云端训练单元1和物***姿计算与渲染单元2。其中,云端训练单元1用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型。物***姿计算与渲染单元2用于根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,并将虚拟信息叠加到该感兴趣物体上,实现对感兴趣物体的渲染。
在本实施例中,如图3所示,云端训练单元1包括建模单元11、合成训练数据生成单元12、真实训练数据生成单元13和训练算法单元14。
其中,建模单元11用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型。
合成训练数据生成单元12用于根据物体的立体模型和预置场景模型得到合成数据集,其中,合成数据集中包括合成训练数据。
真实训练数据生成单元13用于根据相机位姿和物***姿得到真实数据集,其中,真实数据集中包括真实训练数据。
训练算法单元14用于根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
在一个具体的实施例中,建模单元11包括基于深度学习的建模单元和基于计算机视觉的建模单元。
如图4所示,基于深度学习的建模单元的输入为图像序列,其输出为深度学习模型。将多张图像输入深度学习模型中进行推断,得到网格和纹理。
基于深度学习的建模单元的建模过程与上述步骤S111-S113的内容相同,在此不再赘述。
如图5所示,基于计算机视觉的建模单元的输入为图像序列,其输出为建模完成的立体模型。
基于计算机视觉的建模单元的建模过程与上述步骤S121-S127的内容相同,在此不再赘述。
在上述实施例中,如图6和图7所示,合成训练数据生成单元12包括PBR(Physically-Based Rendering)渲染单元。PBR渲染单元121使用blender、unity等渲染框架,读取物体的立体模型和预置场景模型,进行物***姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注标签。其中,标注标签可以为类别、位置和六自由度位姿等。
如图6和图8所示,合成训练数据生成单元12还包括合成图像真实性迁移单元122,合成图像真实性迁移单元122读取立体模型或真实图像或PBR图像,对图像进行背景去除等预处理工作,然后通过GAN(Generative Adversarial Network,对抗生成网络)或者NERF(Neural Radiance Fields,神经辐射场)等深度学习网络生成不同角度的合成图像及其对应的标注标签。其中,标注标签可以为类别、位置和六自由度位姿等。
在上述实施例中,如图9所示,真实训练数据生成单元13包括模型重投影分割算法单元131。模型重投影分割算法单元131获取图像序列、相机位姿和物***姿,将真实图像中的物体分割出来。
真实训练数据生成单元13还包括帧间数据合成单元132,其用于将位姿离散的真实数据合成为位姿更加密集连续的数据,进而获得真实图像及其对应的标注标签。其中,标注标签可以为类别、位置和六自由度位姿等。
在上述实施例中,训练算法单元14根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练。
使用端到端的方法训练六自由度位姿估计神经网络。一个网络即可完成物体检测 和六自由度位姿估计。六自由度位姿估计神经网络输入的是图像、物体上提取的若干个特 征点的2D坐标及其对应的3D坐标以及图像掩模mask。网络结构如图9所示,
Figure DEST_PATH_IMAGE200
为第一阶段的 神经网络,其用于输出检测框;
Figure 545113DEST_PATH_IMAGE201
为第二阶段的神经网络,其用于计算物体的2D关键点和 3D关键点。mask的交叉熵主要用于去除背景特征的干扰,2D关键点由高斯热力图的方式回 归,3D关键点需要基于物体的初始姿态归一化到0-1,投影误差用于保证2D和3D关键点的一 致性。
训练六自由度位姿估计神经网络时需要用的损失函数与上述式(12)-式(18)相同,在此不再赘述。
在上述各实施例中,物***姿计算与渲染单元2可以通过移动终端实现,也可以通过移动终端与云服务器混合实现。
如图10所示,物***姿计算与渲染单元2通过移动终端实现的模式适用于用户的自定义模型较少的情况。在开始跟踪前,只需要访问一次云服务器,将用户的物体模型、深度学习模型、特征数据库等下载后,其他计算都在移动终端进行。移动终端从设备上读取摄像机数据,经过检测或识别神经网络、六自由度位姿估计神经网络,获得物***姿,然后根据此位姿将需要渲染的内容渲染出来。
如图11所示,物***姿计算与渲染单元2通过移动终端与云服务器混合实现的模式适用于用户的自定义模型较多的情况,是通用物***姿跟踪解决方案。在跟踪过程中,需要一次或者多次访问云服务器并下载资源。移动终端输入的是图像序列,输出的是物***姿及渲染后的图像。
该模式的主要流程为:在移动终端中输入图像序列,对每一帧图像进行显著性检测,将显著性检测区域上传至云服务器进行检索,得到物体的信息以及与其相关的深度学习模型,并载到移动终端,进行位姿估计,然后获得物***姿并根据此位姿将需要渲染的内容渲染出来。
需要说明的是:上述实施例提供的物体锚定***仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将物体锚定***的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的物体锚定***与物体锚定方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
在示例性实施例中,本申请实施例还提供了一种存储介质,是计算机可读存储介质,例如,包括计算机程序的存储器,上述计算机程序可由处理器执行,以完成前述物体锚定方法中的所述步骤。
上述的本申请实施例可在各种硬件、软件编码或两者组合中进行实施。例如,本申请的实施例也可为在数据信号处理器中执行上述方法的程序代码。本申请也可涉及计算机处理器、数字信号处理器、微处理器或现场可编程门阵列执行的多种功能。可根据本申请配置上述处理器执行特定任务,其通过执行定义了本申请揭示的特定方法的机器可读软件代码或固件代码来完成。可将软件代码或固件代码发展为不同的程序语言与不同的格式或形式。也可为不同的目标平台编译软件代码。然而,根据本申请执行任务的软件代码与其他类型配置代码的不同代码样式、类型与语言不脱离本申请的精神与范围。
以上所述仅为本申请示意性的具体实施方式,在不脱离本申请的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本申请保护的范围。

Claims (8)

1.一种物体锚定方法,其特征在于,包括以下步骤:
根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;所述根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型的过程中,基于深度学习或计算机视觉完成建模,所述基于深度学习完成建模的过程为:
提取每一帧图像的特征,估计出每一帧图像对应的相机初始化位姿;
利用预训练完成的显著性分割网络获取每一帧图像的掩模;
进行模型训练与推断,以获取模型的网格;
所述基于计算机视觉完成建模的过程为:
采用视觉算法或深度学习算法进行特征提取与匹配;
对相机位姿进行估计;
对图像序列中的显著性物体进行分割;
对稠密点云进行重建;
将重建的稠密点云作为网格生成的输入,使用重建算法重建物体的网格;
根据相机位姿及其对应的图像,找到网格顶点对应的纹理坐标,获得网格的贴图;
根据物体的网格和网格的贴图得到立体模型;
所述根据获取的包含感兴趣物体的图像序列训练得到用于物体姿态估计的六自由度位姿估计神经网络模型的具体过程为:
根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集;所述合成数据集中包括合成训练数据;
根据相机位姿和物***姿,采用模型重投影分割算法得到真实数据集;所述真实数据集中包括真实训练数据;
利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型;
根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,得到感兴趣物体的位姿,并根据该位姿将虚拟信息叠加到感兴趣物体上,以实现对感兴趣物体的渲染。
2.根据权利要求1所述的物体锚定方法,其特征在于,所述进行模型训练与推断的过程为:
在图像
Figure DEST_PATH_IMAGE001
上随机采集
Figure DEST_PATH_IMAGE002
个像素点,各像素点的位置坐标
Figure DEST_PATH_IMAGE003
利用内参将各像素点的位置坐标
Figure DEST_PATH_IMAGE004
转换为成像平面坐标
Figure DEST_PATH_IMAGE005
将成像平面坐标和优化后的相机位姿输入神经网络
Figure DEST_PATH_IMAGE006
,提取帧间的色差特征
Figure DEST_PATH_IMAGE007
;将帧间的色差特征
Figure DEST_PATH_IMAGE008
增加至原图像上,以补偿帧间的色差;
其中,帧间的色差特征
Figure DEST_PATH_IMAGE009
为:
Figure DEST_PATH_IMAGE010
式中,
Figure DEST_PATH_IMAGE011
表示图像真值;
将图像对应的相机初始化位姿
Figure DEST_PATH_IMAGE012
输入神经网络
Figure DEST_PATH_IMAGE013
中,获得优化后的位姿
Figure DEST_PATH_IMAGE014
其中,优化后的位姿
Figure DEST_PATH_IMAGE015
为:
Figure DEST_PATH_IMAGE016
根据优化后的位姿
Figure DEST_PATH_IMAGE017
获取优化后相机的初始位置
Figure DEST_PATH_IMAGE018
其中,优化后相机的初始位置为:
Figure DEST_PATH_IMAGE019
式中,T为函数,其表示取位置坐标;
自优化后相机的初始位置
Figure DEST_PATH_IMAGE020
向图像的成像平面发射光线,该光线的方向为w,其穿过像素点的位置坐标
Figure DEST_PATH_IMAGE021
其中,光线的方向w为:
Figure DEST_PATH_IMAGE022
沿方向w采样M个点
Figure DEST_PATH_IMAGE023
,这M个点的坐标为
Figure DEST_PATH_IMAGE024
利用深度学习网络
Figure DEST_PATH_IMAGE025
预测这M个点
Figure DEST_PATH_IMAGE026
在隐式方程表面的概率;
其中,预测为在隐式方程表面的点的判断条件为:
Figure DEST_PATH_IMAGE027
式中,
Figure DEST_PATH_IMAGE028
表示预测为在隐式方程表面的点,
Figure DEST_PATH_IMAGE029
表示阈值,
Figure DEST_PATH_IMAGE030
表示符合条件的最小的m
将预测为在隐式方程表面的点
Figure DEST_PATH_IMAGE031
送入神经渲染器R,获取预测的RGB颜色的值
Figure DEST_PATH_IMAGE032
其中,预测的RGB颜色的值
Figure DEST_PATH_IMAGE033
为:
Figure DEST_PATH_IMAGE034
根据预测的
Figure DEST_PATH_IMAGE035
值和采集的K个像素点的颜色计算得到像素差值的平方损耗;
其中,像素差值的平方损耗L为:
Figure DEST_PATH_IMAGE036
式中,
Figure DEST_PATH_IMAGE037
均表示系数;
Figure DEST_PATH_IMAGE038
表示图像像素的差值,
Figure DEST_PATH_IMAGE039
表示背景掩模的差值
Figure DEST_PATH_IMAGE040
和前景掩模的差值
Figure DEST_PATH_IMAGE041
之和,
Figure DEST_PATH_IMAGE042
表示边缘的差值;
式中,图像像素的差值
Figure DEST_PATH_IMAGE043
为:
Figure DEST_PATH_IMAGE044
式中,P表示所有选择的k个点,
Figure DEST_PATH_IMAGE045
表示预测的颜色值;
背景掩模的差值
Figure DEST_PATH_IMAGE046
为:
Figure DEST_PATH_IMAGE047
式中,
Figure DEST_PATH_IMAGE051
Figure DEST_PATH_IMAGE048
表示所有选择的k个点中掩模外的点;
前景掩模的差值
Figure DEST_PATH_IMAGE049
为:
Figure DEST_PATH_IMAGE050
式中,BCE表示二值交叉熵损耗,
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE051
表示所有选择的k个点中掩模内的点;
边缘的差值
Figure DEST_PATH_IMAGE052
为:
Figure DEST_PATH_IMAGE053
式中,
Figure DEST_PATH_IMAGE054
表示掩模的边界;
模型推断时,向神经网络
Figure DEST_PATH_IMAGE055
、深度学习网络
Figure DEST_PATH_IMAGE056
和神经网络
Figure DEST_PATH_IMAGE057
的组合模型中输入3D点;使用该组合模型获取存在于其表面的点,由这些点构成网格。
3.根据权利要求1所述的物体锚定方法,其特征在于,所述根据物体的立体模型和预置场景模型,采用PBR渲染方法得到合成数据集的具体过程为:
读取物体的立体模型和预置场景模型;
采用PBR渲染方法进行物***姿随机、渲染相机位姿随机、材质随机、光照随机,得到一系列图像序列及其对应的标注标签;所述标注标签为类别、位置和六自由度位姿。
4.根据权利要求1所述的物体锚定方法,其特征在于,所述根据相机位姿和物***姿,采用模型重投影分割算法得到真实数据集的具体过程为:
获取图像序列、相机位姿和物***姿,将真实图像中的物体分割出来;
将位姿离散的真实数据合成为位姿密集连续的数据,进而获得真实图像及其对应的标注标签;所述标注标签为类别、位置和六自由度位姿。
5.根据权利要求1所述的物体锚定方法,其特征在于,所述利用合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型的具体过程为:
输入图像、物体上提取的若干个特征点的2D坐标及其对应的3D坐标以及图像掩模mask;
采用以下损失函数对六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型;
训练六自由度位姿估计神经网络时需要用的损失函数为:
Figure DEST_PATH_IMAGE058
式中,
Figure DEST_PATH_IMAGE059
表示损失,
Figure DEST_PATH_IMAGE060
均表示系数,
Figure DEST_PATH_IMAGE061
表示分类损失,
Figure DEST_PATH_IMAGE062
表示包围框损失,
Figure DEST_PATH_IMAGE063
表示2D损失,
Figure DEST_PATH_IMAGE064
表示3D损失,
Figure DEST_PATH_IMAGE065
表示掩模损失,
Figure DEST_PATH_IMAGE066
表示投影损失;
其中,分类损失
Figure DEST_PATH_IMAGE067
为:
Figure DEST_PATH_IMAGE068
式中,
Figure DEST_PATH_IMAGE069
表示取第i个检测锚点的分类信息,
Figure DEST_PATH_IMAGE070
表示取第j个背景特征的信息;
Figure DEST_PATH_IMAGE071
表示锚点,
Figure DEST_PATH_IMAGE072
表示背景的锚点,
Figure DEST_PATH_IMAGE073
表示类别真值,
Figure DEST_PATH_IMAGE074
表示神经网络提出的特征;
包围框损失
Figure DEST_PATH_IMAGE075
为:
Figure DEST_PATH_IMAGE076
式中,
Figure DEST_PATH_IMAGE077
表示第i个检测锚点的坐标特征,
Figure DEST_PATH_IMAGE078
表示检测框的坐标真值;
2D损失
Figure DEST_PATH_IMAGE079
为:
Figure DEST_PATH_IMAGE080
式中,
Figure DEST_PATH_IMAGE081
表示取2D坐标特征,
Figure DEST_PATH_IMAGE082
表示物体的2D特征点真值;
3D损失
Figure DEST_PATH_IMAGE083
为:
Figure DEST_PATH_IMAGE084
式中,
Figure DEST_PATH_IMAGE085
表示取3D坐标特征,
Figure DEST_PATH_IMAGE086
表示物体的3D特征点真值;
掩模损失
Figure DEST_PATH_IMAGE087
为:
Figure DEST_PATH_IMAGE088
式中,
Figure DEST_PATH_IMAGE089
表示取前景的第i个特征,
Figure 853643DEST_PATH_IMAGE090
表示取背景的第j个特征,fg表示前景,bg表示背景;
投影损失
Figure DEST_PATH_IMAGE091
为:
Figure 527201DEST_PATH_IMAGE092
式中,
Figure DEST_PATH_IMAGE093
表示将3D特征投影到2D后和2D真值做差值,
Figure 398205DEST_PATH_IMAGE094
表示神经网络预测的特征点和掩模。
6.根据权利要求1所述的物体锚定方法,其特征在于,所述实现对感兴趣物体的渲染通过移动终端实现或通过移动终端与云服务器混合实现;
所述通过移动终端实现的过程为:
在开始跟踪前,访问云服务器,将用户的物体模型、深度学习模型、特征数据库下载后,其他计算都在移动终端进行;
移动终端从设备上读取摄像机数据,经过检测或识别神经网络、六自由度位姿估计神经网络,获得物***姿;
根据物***姿将需要渲染的内容渲染出来;
所述通过移动终端与云服务器混合实现的过程为:
在移动终端中输入图像序列,并对每一帧图像进行显著性检测;
将显著性检测区域上传至云服务器进行检索,得到物体的信息以及与其相关的深度学习模型,并载到移动终端;
在移动终端进行物***姿估计,获得物***姿;
根据物***姿将需要渲染的内容渲染出来。
7.一种物体锚定***,其特征在于,包括云端训练单元和物***姿计算与渲染单元;
所述云端训练单元用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型;
所述物***姿计算与渲染单元用于根据感兴趣物体的立体模型以及用于物体姿态估计的六自由度位姿估计神经网络模型对感兴趣物体进行位姿估计,并将虚拟信息叠加到感兴趣物体上,实现对感兴趣物体的渲染;
所述云端训练单元包括建模单元、合成训练数据生成单元、真实训练数据生成单元和训练算法单元;
所述建模单元用于根据获取的包含感兴趣物体的图像序列训练得到感兴趣物体的立体模型;
所述合成训练数据生成单元用于根据物体的立体模型和预置场景模型得到合成数据集,所述合成数据集中包括合成训练数据;
所述真实训练数据生成单元用于根据相机位姿和物***姿得到真实数据集,所述真实数据集中包括真实训练数据;
所述训练算法单元用于根据合成训练数据和真实训练数据对基于深度学习的六自由度位姿估计神经网络进行训练,得到六自由度位姿估计神经网络模型。
8.一种存储介质,其特征在于,其上存储有可执行程序,当可执行程序被调用时,执行如权利要求1-6中任一项所述的物体锚定方法中的步骤。
CN202210173770.0A 2022-02-25 2022-02-25 物体锚定方法、锚定***及存储介质 Active CN114241013B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210173770.0A CN114241013B (zh) 2022-02-25 2022-02-25 物体锚定方法、锚定***及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210173770.0A CN114241013B (zh) 2022-02-25 2022-02-25 物体锚定方法、锚定***及存储介质

Publications (2)

Publication Number Publication Date
CN114241013A CN114241013A (zh) 2022-03-25
CN114241013B true CN114241013B (zh) 2022-05-10

Family

ID=80748105

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210173770.0A Active CN114241013B (zh) 2022-02-25 2022-02-25 物体锚定方法、锚定***及存储介质

Country Status (1)

Country Link
CN (1) CN114241013B (zh)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9996936B2 (en) * 2016-05-20 2018-06-12 Qualcomm Incorporated Predictor-corrector based pose detection
EP3705049A1 (en) * 2019-03-06 2020-09-09 Piur Imaging GmbH Apparatus and method for determining motion of an ultrasound probe including a forward-backward directedness
CN112884820B (zh) * 2019-11-29 2024-06-25 杭州三坛医疗科技有限公司 一种影像初始配准及神经网络的训练方法、装置和设备

Also Published As

Publication number Publication date
CN114241013A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
EP3944200B1 (en) Facial image generation method and apparatus, device and storage medium
Hepp et al. Learn-to-score: Efficient 3d scene exploration by predicting view utility
CN108876814B (zh) 一种生成姿态流图像的方法
CN113822993B (zh) 一种基于3d模型匹配的数字孪生方法和***
US20220415030A1 (en) AR-Assisted Synthetic Data Generation for Training Machine Learning Models
CN114450719A (zh) 人体模型重建方法、重建***及存储介质
Joshi et al. Deepurl: Deep pose estimation framework for underwater relative localization
CN114581571A (zh) 基于imu和前向变形场的单目人体重建方法及装置
CN116070687B (zh) 一种基于全局光线空间仿射变换的神经网络光场表示方法
CN115428027A (zh) 神经不透明点云
CN115018989A (zh) 基于rgb-d序列的三维动态重建方法、训练装置及电子设备
CN115953476A (zh) 基于可泛化神经辐射场的人体自由视角合成方法
Jeon et al. Struct-MDC: Mesh-refined unsupervised depth completion leveraging structural regularities from visual SLAM
KR20230150867A (ko) 얼굴 표정, 신체 자세 형상 및 의류 퍼포먼스 캡처를 위해 암시적 구별가능 렌더러를 사용하는 멀티뷰 신경 사람 예측
Maxim et al. A survey on the current state of the art on deep learning 3D reconstruction
CN114241013B (zh) 物体锚定方法、锚定***及存储介质
Bubenıcek Using Game Engine to Generate Synthetic Datasets for Machine Learning
CN114049678B (zh) 一种基于深度学习的面部动作捕捉方法及***
Englert et al. Enhancing the ar experience with machine learning services
CN115841546A (zh) 一种场景结构关联的地铁站多视矢量仿真渲染方法及***
CN113034675A (zh) 一种场景模型构建方法、智能终端及计算机可读存储介质
Yao et al. Neural Radiance Field-based Visual Rendering: A Comprehensive Review
Blomqvist et al. NeRFing it: Offline Object Segmentation Through Implicit Modeling
Griffiths et al. Curiosity-driven 3D object detection without labels
Johnston et al. Single View 3D Point Cloud Reconstruction using Novel View Synthesis and Self-Supervised Depth Estimation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant