CN112396073A - 基于双目图像的模型训练方法、装置及数据处理设备 - Google Patents

基于双目图像的模型训练方法、装置及数据处理设备 Download PDF

Info

Publication number
CN112396073A
CN112396073A CN201910753808.XA CN201910753808A CN112396073A CN 112396073 A CN112396073 A CN 112396073A CN 201910753808 A CN201910753808 A CN 201910753808A CN 112396073 A CN112396073 A CN 112396073A
Authority
CN
China
Prior art keywords
image
optical flow
sample images
images
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910753808.XA
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huya Technology Co Ltd
Original Assignee
Guangzhou Huya Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huya Technology Co Ltd filed Critical Guangzhou Huya Technology Co Ltd
Priority to CN201910753808.XA priority Critical patent/CN112396073A/zh
Priority to PCT/CN2020/104926 priority patent/WO2021027544A1/zh
Priority to US17/630,115 priority patent/US20220277545A1/en
Publication of CN112396073A publication Critical patent/CN112396073A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种基于双目图像的模型训练方法、装置及数据处理设备,图像匹配模型包括教师模型及学生模型。在本申请提供的方法中,首先获取通过双目图像采集装置在不同时间点采集的两组样本图像。然后针对两组样本图像中的任意两个样本图像,通过教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得更准确的高置信度光流估计结果,预设几何约束为基于双目图像的几何约束。最后将置信度高的光流估计结果作为标注信息,使用该两个样本图像对学生模型进行图像元素匹配的机器学习训练。如此,可以实现使用未标注图像的自监督训练,并且训练获得的模型具有较高的识别准确性。

Description

基于双目图像的模型训练方法、装置及数据处理设备
技术领域
本申请涉及计算机视觉技术领域,具体涉及一种基于双目图像的模型训练方法、装置及数据处理设备。
背景技术
在计算机视觉识别领域,如何识别匹配不同图像中的同一物体是被广泛研究的计算机视觉任务,其中获得能够准确进行光流(opticalflow)估计或双目立体匹配(stereomatching)的卷积神经网络(Convolutional Neural Networks,CNN)模型是热点研究项目。
为了获得准确的图像匹配模型,需要对图像匹配模型进行机器学习训练,通常训练方式包括监督训练方法和无监督训练方法。有监督训练方法需要大量已标注的训练图像样本,如果使用已标注的真实图像作为训练样本,训练成本非常高,如果使用仿真的已标注图像作为训练样本,得到的模型在对真实图像进行识别时的准确度不佳。一些无监督训练方法采用了由教师模型得出的光流估计作为标记来指导学生模型的训练,但基于教师模型的光流估计不够准确,导致学生模型的识别能力可能受到极大影响。
发明内容
为了克服现有技术中的至少一个不足,本申请的目的之一在于提供一种基于双目图像的模型训练方法,应用于对图像匹配模型进行训练,所述图像匹配模型包括教师模型及学生模型,所述方法包括:
获取通过双目图像采集装置在不同时间点采集的两组样本图像;
针对所述两组样本图像中的任意两个样本图像,通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得光流估计结果,所述预设几何约束为基于双目图像的几何约束;
将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练,所述图像元素匹配的过程为识别所述两个样本图像中属于同一物体的图像元素。
本申请的另一目的在于提供一种基于双目图像的模型训练装置,应用于对图像匹配模型进行训练,所述图像匹配模型包括教师模型及学生模型,所述装置包括:
图像获取模块,用于获取通过双目图像采集装置在不同时间点采集的两组样本图像;
第一训练模块,用于针对所述两组样本图像中的任意两个样本图像,通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得光流估计结果,所述预设几何约束为基于双目图像的几何约束;
第二训练模块,用于将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练,所述图像元素匹配的过程为识别所述两个样本图像中属于同一物体的图像元素。
本申请的另一目的在于提供一种数据处理设备,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现本实施例提供的基于双目图像的模型训练方法。
相对于现有技术而言,本申请至少具有以下有益效果:
本申请提供的基于双目图像的模型训练方法、装置及数据处理设备,通过使用双目图像作为训练样本,结合双目图像的固有几何约束使教师模型输出高置信度的光流估计结果来指导学生模型的图像匹配学习。如此,可以实现使用未标注图像的自监督训练,并且训练获得的模型具有较高的识别准确性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的数据处理设备的示意图;
图2为本申请实施例提供的基于双目图像的模型训练方法的流程示意图;
图3为本申请实施例提供的双目立体匹配与光流的关联性示意图;
图4为本申请实施例提供的基于双目图像的模型训练原理的示意图;
图5为本申请实施例提供的光流图的获取示意图;
图6为本申请实施例提供的光流图几何约束示意图;
图7为光流估计测试结果示意图;
图8为双目立体匹配测试结果示意图;
图9为本申请实施例提供的基于双目图像的模型训练装置的示意图。
图标:100-数据处理设备;110-基于双目图像的模型训练装置;111-图像获取模块;112-第一训练模块;113-第二训练模块;120-机器可读存储介质;130-处理器。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在一些无监督训练方式中,采用一个光流估计模型作为教师模型,对训练样本进行光流估计得到的标注结果,然后用该标注结果指导另一个作为学生模型的光流估计模型进行光流估计训练,其中,教师模型光流估计的不准确会直接导致训练出的学生模型的光流估计准确度不佳。
基于对上述问题的发现,在本实施例提供一种采用双目图像作为训练样本,利用双目图像具有的固定几何约束进行光流估计,从而使教师模型得到更准确的光流估计结果,进而可以有效提高学生模型图像匹配准确度的方案,下面对本实施例提供的方案进行详细阐述。
请参照图1,图1是本申请实施例提供的数据处理设备100的结构意图。所述数据处理设备100包括基于双目图像的模型训练装置110、机器可读存储介质120及处理器130。
所述机器可读存储介质120及处理器130各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述基于双目图像的模型训练装置110包括至少一个可以软件或固件(firmware)的形式存储于所述机器可读存储介质120中或固化在所述数据处理设备100的操作***(operating system,OS)中的软件功能模块。所述处理器130用于执行所述机器可读存储介质120中存储的可执行模块,例如所述基于双目图像的模型训练装置110所包括的软件功能模块及计算机程序等。
其中,所述机器可读存储介质120可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-Only Memory,PROM),可擦除只读存储器(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。其中,机器可读存储介质120用于存储程序,所述处理器130在接收到执行指令后,执行所述程序。
请参照图2,图2为应用于图1所示的数据处理设备100的一种基于双目图像的模型训练方法的流程图,以下将对所述方法包括各个步骤进行详细阐述。
步骤S210,获取通过双目图像采集装置在不同时间点采集的两组样本图像。
步骤S220,针对所述两组样本图像中的任意两个样本图像,通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得光流估计结果,所述预设几何约束为基于双目图像的几何约束。
其中,所述预设几何约束为,利用双目图像的是左右摄像机在同一时间同一水平线上从不同角度拍摄的图像这一3D的空间几何特性,确定出的样本图像之间的光流的几何限制。
步骤S230,将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练,所述图像元素匹配的过程为识别所述两个样本图像中属于同一物体的图像元素。
光流是基于一种短时间内拍摄的不同图像中同一目标亮度不会发生改变的假设及短时间内物体不产生巨大位置变化的假设,根据亮度来确定不同帧图像中同一物体的运动的技术。
双目立体匹配是一种从同一时间不同角度拍摄的图像中识别出同一物体的计算机视觉任务。
经发明人研究发现,双目图像中的两个图像可以视作摄像机在一个角度拍摄图像后,立即运动至另一角度再次拍摄得到的两个图像。因此,双目图像匹配可以视为光流估计的一个特例。并且对于矫正好水平极线的双目图像,图像之间具有固有的几何约束关系。因此,在步骤S210中,将双目图像采集设备采集的图像作为训练样本,可以利用双目图像的固有几何约束使教师模型得出准确的光流估计。
具体地,请参照图3,示出了3D空间中光流和立体视差之间的几何关系。其中,Ol和Or分别为双目图像采集装置中左右摄像机矫正好的中心点,B为两个摄像机中心之间的距离,P(X,Y,Z)为t时刻3D空间中的点,Pl和Pr分别为点P在左右摄像机采集图像上的投影位置。
点P在t+1时刻移动到P+ΔP处,其中位移ΔP=(ΔX,ΔY,ΔZ)。光流wl和wr分别表示点P移动前到移动后在左右摄像机采集画面中得到的光流,而立体视差表示同时记录的两个双目图像之间匹配点的位移。尽管定义不同,但光流估计和双目立体匹配可视为同一类型的问题,即对应像素的匹配。
在双目立体匹配中,匹配像素应位于双目图像对之间的极线上,而光流不被此种结构约束。因此在本实施例中,双目立体匹配可以视为光流的特例。也就是说,双目图像之间的位移可以看作是一维“运动”。对于矫正好的双目图像,极线是水平的,也就是说,双目立体匹配变为沿水平方向寻找相匹配像素。由于双目图像的固有几何约束,使用双目图像进行光流估计可以得到较为准确的光流估计结果。
另外,由于被遮挡的物体不符合光流估计中光度不变的假设,会极大地影响教师模型输出结果的准确定。为了使教师模型能够得出更准确的光流估计,在本实施例的步骤S220中,可以通过所述教师模型根据所述预设几何约束及由所述两个样本图像中未被遮挡区域确定出的置信度图进行光流估计,获得排除被遮挡区域后的所述光流估计结果。
如此,在教师模型中结合了根据光度差异得出的置信度图分析出遮挡区域得到置信度图,通过结合置信度图可以得出高置信度的光流图,进而可以指导学生模型更准确学习图像匹配。
具体地,请参照图4,图4为本实施例提供的基于双目图像的模型训练方法的原理示意图。通过步骤S210获得的两组样本图像中,每组样本图像可以包括两个样本图像。进一步参照图5,假设在t时刻双目图像采集装置中左右摄像机分别采集图像为I1和I2,在t+1时刻双目图像采集装置中左右摄像机分别采集图像为I3和I4
在步骤S220中,可以从上述四个图像中任选两个样本图像,先根据所述预设几何约束计算获得该两个样本图像的初始光流图。如图5所示,步骤S210获得的四个样本图像相互之间可以得到12张光流图,在本实施例中,将图像Ii到Ij的光流图记为wi→j
然后,可以对所述初始光流图进行前向-后向亮度检测,将亮度差异超过预设范围的像素作为被遮挡的像素,将被遮挡的像素的置信度设置为0;将亮度差异未超过预设范围的像素作为未被遮挡的像素,将未被遮挡的像素的置信度设置为1。由于置信度图中将被遮挡的像素的置信度置0了,将光流图与置信度图相乘后,就排除了被遮挡的像素,从而获得的光流图中只包括高置信度的未被遮挡的区域。
在执行前向-后向检检测时,可以先获得所述两个样本中图像Ii到图像Ij的初始光流图上像素p的前向光流wi→j(p),并获得图像Ij到图像Ii的后向光流
Figure BDA0002168104450000071
其中,
Figure BDA0002168104450000072
然后检测所述前向光流wi→j(p)及后向光流
Figure BDA0002168104450000073
是否满足以下条件:
Figure BDA0002168104450000074
其中,α=0.01,β=0.5。
若满足,表示该像素p的光度差异在预设范围内,即像素p位于未被遮挡的区域,则将像素p的置信度设置为1。
若不满足,表示该像素p的光度差异超过预设范围,即像素p位于被遮挡的区域,则将像素p的置信度设置为0。
得到所述置信度图以后,可以根据所述预设几何约束及置信度图对所述两个样本图像进行光流估计,获得所述光流估计结果。
在本实施例中,所述预设几何约束包括三角形约束及四边形约束,可以通过光度损失函数Lp、由所述四边形约束确定的四边形损失函数Lq、由所述三角形约束确定的三角形损失函数Lt及所述置信度图对所述两个样本图像进行光流估计。
具体地,根据双目图像的固有特性,在步骤S210中得到的四个图像具有固定的几个约束。假设
Figure BDA0002168104450000081
为图像I1中的像素,
Figure BDA0002168104450000082
Figure BDA0002168104450000083
分别为图像I2、I3和I4中的像素。请参照图6,以图像I1作为基准为例,可选择w1→2、w3→4表示立体视差,选择w1→3、w2→4表示不同时间点的光流,选择w1→4表示跨视差光流。则有,
Figure BDA0002168104450000084
由于某一物体从图像I1中的位置移动至图像I4中的位置,等效于从图像I1中的位置移动至图像I2中的位置后再从图像I2中的位置移动至图像I4中的位置,则有,
Figure BDA0002168104450000085
相应地,根据物体从图像I1中的位置移动至图像I3中的位置,再从图像I3中的位置移动至图像I4中的位置,可得,
Figure BDA0002168104450000086
在根据上述两式可得,
Figure BDA0002168104450000087
又由于在处理双目立体匹配任务时,相互匹配的像素都处于同一极线上,并且矫正好的双目图像中极线是水平的,结合上述等式可得,
Figure BDA0002168104450000091
其中,ui→j为图像Ii到图像Ij的水平方向的光流,vi→j为图像Ii到图像Ij的竖直方向的光流。
针对像素点p,所述光度损失函数Lp为:
Figure BDA0002168104450000092
其中,
Figure BDA0002168104450000093
为根据所述两个样本中图像Ii到图像Ij的光流wi→j将图像Ij扭曲到图像Ii获得的扭曲图像,Mi→j为图像Ii到图像Ij的置信度图,ψ(x)=(|x|+s)q,s=0.01,q=0.4。
所述四边形约束用于限定光流与立体视差之间的几何关系,在本实施例中,仅对高置信度的像素使用四边形约束。所述四边形损失函数Lq=Lqu+Lqv,Lqu为四边形损失函数Lq在水平方向上的分量,Lqv为四边形损失函数Lq在竖直方向上的分量,其中:
Figure BDA0002168104450000094
Figure BDA0002168104450000095
Figure BDA0002168104450000096
Figure BDA0002168104450000097
分别为图像I1、I2、I3和I4上相同位置的像素,I1和I2为t时刻采集的双目图像,I3和I4为t+1时刻采集的双目图像,Mq=M1→2(p)⊙M1→3(p)⊙M1→4(p)。
所述三角约束用于限定光流、立体视差和跨视角光流之间的关系。与四边形约束损失类似,在本实施例中仅对高置信度像素使用所述三角形约束。所述三角形损失函数Lt为:
Figure BDA0002168104450000101
其中,
Figure BDA0002168104450000102
分别为图像I1、I2相同位置的像素,w1→4为图像I1到图像I4的光流,w2→4为图像I2到图像I4的光流,w1→2为图像I1到图像I2的光流,I1和I2为t时刻采集的双目图像,I3和I4为t+1时刻采集的双目图像。
在通过步骤S220获得高置信度的光流估计结果后,可以在步骤S230中将该光流估计结果作为标注信息,使用步骤S220中的两个样本图像对学生模型进行训练。
在所述学生模型的训练过程中使用预设的自监督损失函数Ls。对于损失学生模型,可以将步骤S220得到的高置信度的所述光流估计结果中代理光流记为
Figure BDA0002168104450000103
和代理置信度图记为
Figure BDA0002168104450000104
则有,
Figure BDA0002168104450000105
其中,wi→j为所述学生模型得出的光流。
需要说明的是,在本实施例中,与教师模型的训练不同,在学生模型的自监督训练中不再对被遮挡区域和未被遮挡的区域进行区分,从而可以使所述学生模型能够估计被遮挡区域的光流。
采用本实施例提供的方法,在训练过程中,所述教师模型用于从输入的样本图像中获取部分高置信度的像素点的光流作为标记信息,学生模型根据教师模型得出的标记信息进行针对图像上所有像素点的光流估计训练。
因此,在本实施例中,在所述图像匹配模型训练完成后,可以使用所述学生模型来执行光流估计或双目图像匹配。在使用过程中,可以获取两个待处理图像,然后将所述两个待处理图像输入训练好的所述学生模型,获得所述学生模型针对所述两个待处理图像输出的图像匹配结果。
当训练好的所述学生模型被用于进行光流估计时,可以将不同时间点采集的两个图像输入所述学生模型,所述学生模型输出这两个图像之间的光流图。当训练好的所述学生模型被用于进行双目图像匹配时,可以将双目图像中的左右摄像机采集的图像输入所述学生模型,所述学生模型输出这两个图像的立体视差图。
可选地,为了提高学生模型的识别能力,在本实施例中,可以先对所述两个样本图像进行相同的随机剪裁,使用剪裁后的两个样本图像对所述学生模型进行图像元素匹配的机器学习训练。进一步地,在本实施例中,在对学生模型训练时,还可以将所述两个样本图像进行相同的随机缩放和旋转,如此,可以避免训练过程的过度拟合。
在本实施例中,可以使用带有Adam优化器的TensorFlow***构建所述图像匹配模型。对于教师模型,可以将批处理参数设置为1,因为对于4幅图像有12个光流估计。对于学生模型,可以将批处理参数设置为4,同时采用一些数据增强策略。在训练期间,可以设置分辨率为320*896的图像作为输入。而在测试期间,可以将图像的分辨率调整为384*1280。
图7示出了一些现有模型与本实施例训练出的图像匹配模型在KITTI2012和KITTI2015数据集上进行光流估计的测试结果,其中,‘fg’和‘bg’分别表示前景色和背景色区域的结果。图7中,“Ours+Lp+Lq+Lt+Self-supervision”项为本实施例训练出的图像匹配模型的光流估计测试数据,可以看出,该图像匹配模型识别能力明显高于图7其中的其他模型。
图8示出了一些现有模型与本实施例训练出图像匹配模型在KITTI2012和KITTI2015数据集上进行双目立体匹配的测试结果。图8中,“Ours+Lp+Lq+Lt+Self-supervision”项为本实施例训练出的图像匹配模型的双目立体匹配测试数据,可以看出,该图像匹配模型识别能力明显高于图7其中的其他模型。
请参照图9,本实施例还提供一种基于双目图像的模型训练装置110,该装置可以包括图像获取模块111、第一训练模块112及第二训练模块113。
所述图像获取模块111用于获取通过双目图像采集装置在不同时间点采集的两组样本图像。
本实施例中,所述图像获取模块111可用于执行图2所示的步骤S210,关于所述图像获取模块111的具体描述可参对所述步骤S210的描述。
所述第一训练模块112用于针对所述两组样本图像中的任意两个样本图像,通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得光流估计结果,所述预设几何约束为基于双目图像的几何约束。
本实施例中,所述第一训练模块112可用于执行图2所示的步骤S220,关于所述第一训练模块112的具体描述可参对所述步骤S220的描述。
所述第二训练模块113用于将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练,所述图像元素匹配的过程为识别所述两个样本图像中属于同一物体的图像元素。
本实施例中,所述第二训练模块113可用于执行图2所示的步骤S230,关于所述第二训练模块113的具体描述可参对所述步骤S230的描述。
综上所述,本申请提供的基于双目图像的模型训练方法、装置及数据处理设备,通过使用双目图像作为训练样本,结合双目图像的固有几何约束使教师模型输出高置信度的光流估计结果来指导学生模型的图像匹配学习。如此,可以实现使用未标注图像的自监督训练,并且训练获得的模型具有较高的识别准确性。
以上所述,仅为本申请的各种实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (13)

1.一种基于双目图像的模型训练方法,其特征在于,应用于对图像匹配模型进行训练,所述图像匹配模型包括教师模型及学生模型,所述方法包括:
获取通过双目图像采集装置在不同时间点采集的两组样本图像;
针对所述两组样本图像中的任意两个样本图像,通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得光流估计结果,所述预设几何约束为基于双目图像的几何约束;
将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练,所述图像元素匹配的过程为识别所述两个样本图像中属于同一物体的图像元素。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取两个待处理图像;
将所述两个待处理图像输入训练好的所述学生模型,获得所述学生模型针对所述两个待处理图像输出的图像匹配结果。
3.根据权利要求1所述的方法,其特征在于,所述通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,包括:
通过所述教师模型根据所述预设几何约束及由所述两个样本图像中未被遮挡区域确定出的置信度图进行光流估计,获得排除被遮挡区域后的所述光流估计结果。
4.根据权利要求3所述的方法,其特征在于,所述根据所述预设几何约束及由所述两个样本图像中未被遮挡区域确定出的置信度图进行光流估计,包括:
根据所述预设几何约束计算获得所述两个样本图像的初始光流图;
对所述初始光流图进行前向-后向亮度检测,将亮度差异超过预设范围的像素作为被遮挡的像素,将被遮挡的像素的置信度设置为0;将亮度差异未超过预设范围的像素作为未被遮挡的像素,将未被遮挡的像素的置信度设置为1;
根据所述预设几何约束及置信度图对所述两个样本图像进行光流估计,获得所述光流估计结果。
5.根据权利要求4所述的方法,其特征在于,所述根据所述初始光流图进行前向-后向亮度检测,包括:
获得所述两个样本中图像Ii到图像Ij的初始光流图上像素p的前向光流wi→j(p),并获得图像Ij到图像Ii后向光流
Figure FDA0002168104440000021
其中,
Figure FDA0002168104440000022
Figure FDA0002168104440000023
检测所述前向光流wi→j(p)及后向光流
Figure FDA0002168104440000024
是否满足以下条件:
Figure FDA0002168104440000025
其中,α=0.01,β=0.5,
若满足,则将像素p的置信度设置为1;
若不满足,则将像素p的置信度设置为0。
6.根据权利要求3所述的方法,其特征在于,所述预设几何约束包括三角形约束及四边形约束;所述根据所述预设几何约束及由所述两个样本图像中未被遮挡区域确定出的置信度图进行光流估计,包括:
通过光度损失函数Lp、根据所述四边形约束确定的四边形损失函数Lq、根据所述三角形约束确定的三角形损失函数Lt及所述置信度图对所述两个样本图像进行光流估计。
7.根据权利要求6所述的方法,其特征在于,针对像素点p,所述光度损失函数Lp为:
Figure FDA0002168104440000031
其中,
Figure FDA0002168104440000032
为根据所述两个样本中图像Ii到图像Ij的光流wi→j将图像Ij扭曲到图像Ii获得的扭曲图像,
Mi→j为图像Ii到图像Ij的置信度图,
ψ(x)=(|x|+s)q,s=0.01,q=0.4。
8.根据权利要求7所述的方法,其特征在于,所述四边形损失函数Lq=Lqu+Lqv,Lqu为四边形损失函数Lq在水平方向上的分量,Lqv为四边形损失函数Lq在竖直方向上的分量,其中:
Figure FDA0002168104440000033
Figure FDA0002168104440000034
Figure FDA0002168104440000035
Figure FDA0002168104440000036
分别为图像I1、I2、I3和I4上相同位置的像素,I1和I2为t时刻采集的双目图像,I3和I4为t+1时刻采集的双目图像,u为水平方向的光流,v为竖直方向的光流,
ψ(x)=(|x|+s)q,s=0.01,q=0.4,
Mq=M1→2(p)⊙M1→3(p)⊙M1→4(p),Mi→j为图像Ii到图像Ij的置信度图。
9.根据权利要求7所述的方法,其特征在于,所述三角形损失函数Lt为:
Figure FDA0002168104440000037
其中,
Figure FDA0002168104440000038
分别为图像I1、I2相同位置的像素,w1→4为图像I1到图像I4的光流,w2→4为图像I2到图像I4的光流,w1→2为图像I1到图像I2的光流,I1和I2为t时刻采集的双目图像,I3和I4为t+1时刻采集的双目图像,
Mi→j为图像Ii到图像Ij的置信度图,
ψ(x)=(|x|+s)q,s=0.01,q=0.4。
10.根据权利要求3所述的方法,其特征在于,对于所述学生模型,所述光流估计结果包括所述教师模型输出的代理光流
Figure FDA0002168104440000041
和代理置信度图
Figure FDA0002168104440000042
所述将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练的步骤,包括:
使用所述两个样本图像,根据自监督损失函数Ls对所述学生模型进行图像元素匹配的机器学习训练,其中:
Figure FDA0002168104440000043
p为所述两个样本中图像Ii到图像Ij上的像素点,wi→j为所述学生模型得出的光流,ψ(x)=(|x|+s)q,s=0.01,q=0.4。
11.根据权利要求1所述的方法,其特征在于,所述将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练的步骤,包括:
对所述两个样本图像进行相同的随机剪裁;
所述将所述光流估计结果作为标注信息,使用剪裁后的两个样本图像对所述学生模型进行图像元素匹配的机器学习训练。
12.一种基于双目图像的模型训练装置,其特征在于,应用于对图像匹配模型进行训练,所述图像匹配模型包括教师模型及学生模型,所述装置包括:
图像获取模块,用于获取通过双目图像采集装置在不同时间点采集的两组样本图像;
第一训练模块,用于针对所述两组样本图像中的任意两个样本图像,通过所述教师模型根据该两个样本图像之间的预设几何约束进行光流估计,获得光流估计结果,所述预设几何约束为基于双目图像的几何约束;
第二训练模块,用于将所述光流估计结果作为标注信息,使用该两个样本图像对所述学生模型进行图像元素匹配的机器学习训练,所述图像元素匹配的过程为识别所述两个样本图像中属于同一物体的图像元素。
13.一种数据处理设备,其特征在于,包括机器可读存储介质及处理器,所述机器可读存储介质存储有机器可执行指令,所述机器可执行指令在被所述处理器执行时,实现权利要求1-11任意一项所述的方法。
CN201910753808.XA 2019-08-15 2019-08-15 基于双目图像的模型训练方法、装置及数据处理设备 Pending CN112396073A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910753808.XA CN112396073A (zh) 2019-08-15 2019-08-15 基于双目图像的模型训练方法、装置及数据处理设备
PCT/CN2020/104926 WO2021027544A1 (zh) 2019-08-15 2020-07-27 基于双目图像的模型训练方法、装置及数据处理设备
US17/630,115 US20220277545A1 (en) 2019-08-15 2020-07-27 Binocular image-based model training method and apparatus, and data processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910753808.XA CN112396073A (zh) 2019-08-15 2019-08-15 基于双目图像的模型训练方法、装置及数据处理设备

Publications (1)

Publication Number Publication Date
CN112396073A true CN112396073A (zh) 2021-02-23

Family

ID=74570917

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910753808.XA Pending CN112396073A (zh) 2019-08-15 2019-08-15 基于双目图像的模型训练方法、装置及数据处理设备

Country Status (3)

Country Link
US (1) US20220277545A1 (zh)
CN (1) CN112396073A (zh)
WO (1) WO2021027544A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361572A (zh) * 2021-05-25 2021-09-07 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113850012A (zh) * 2021-06-11 2021-12-28 腾讯科技(深圳)有限公司 数据处理模型生成方法、装置、介质及电子设备
CN116894791A (zh) * 2023-08-01 2023-10-17 中国人民解放军战略支援部队航天工程大学 一种低光照条件下图像增强的视觉slam方法和***

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112396074A (zh) * 2019-08-15 2021-02-23 广州虎牙科技有限公司 基于单目图像的模型训练方法、装置及数据处理设备
CN112991419B (zh) * 2021-03-09 2023-11-14 Oppo广东移动通信有限公司 视差数据生成方法、装置、计算机设备及存储介质
CN113848964A (zh) * 2021-09-08 2021-12-28 金华市浙工大创新联合研究院 一种非平行光轴双目测距方法
CN117475411B (zh) * 2023-12-27 2024-03-26 安徽蔚来智驾科技有限公司 信号灯倒计时识别方法、计算机可读存储介质及智能设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140002441A1 (en) * 2012-06-29 2014-01-02 Hong Kong Applied Science and Technology Research Institute Company Limited Temporally consistent depth estimation from binocular videos
CN103745458B (zh) * 2013-12-26 2015-07-29 华中科技大学 一种鲁棒的基于双目光流的空间目标旋转轴及质心估计方法
CN109919110B (zh) * 2019-03-13 2021-06-04 北京航空航天大学 视频关注区域检测方法、装置及设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113361572A (zh) * 2021-05-25 2021-09-07 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113361572B (zh) * 2021-05-25 2023-06-27 北京百度网讯科技有限公司 图像处理模型的训练方法、装置、电子设备以及存储介质
CN113850012A (zh) * 2021-06-11 2021-12-28 腾讯科技(深圳)有限公司 数据处理模型生成方法、装置、介质及电子设备
CN113850012B (zh) * 2021-06-11 2024-05-07 腾讯科技(深圳)有限公司 数据处理模型生成方法、装置、介质及电子设备
CN116894791A (zh) * 2023-08-01 2023-10-17 中国人民解放军战略支援部队航天工程大学 一种低光照条件下图像增强的视觉slam方法和***
CN116894791B (zh) * 2023-08-01 2024-02-09 中国人民解放军战略支援部队航天工程大学 一种低光照条件下图像增强的视觉slam方法和***

Also Published As

Publication number Publication date
US20220277545A1 (en) 2022-09-01
WO2021027544A1 (zh) 2021-02-18

Similar Documents

Publication Publication Date Title
CN112396073A (zh) 基于双目图像的模型训练方法、装置及数据处理设备
KR102480245B1 (ko) 패닝 샷들의 자동 생성
CN110427917B (zh) 用于检测关键点的方法和装置
CA3121440C (en) Assembly body change detection method, device and medium based on attention mechanism
US11315274B2 (en) Depth determination for images captured with a moving camera and representing moving features
JP5206853B2 (ja) 補間画像生成装置、再構成画像生成装置、補間画像生成方法及びプログラム
CN107452015B (zh) 一种具有重检测机制的目标跟踪***
US9253415B2 (en) Simulating tracking shots from image sequences
CN103458261B (zh) 一种基于立体视觉的视频场景变化检测方法
CN113129241B (zh) 图像处理方法及装置、计算机可读介质、电子设备
WO2021027543A1 (zh) 基于单目图像的模型训练方法、装置及数据处理设备
US11928840B2 (en) Methods for analysis of an image and a method for generating a dataset of images for training a machine-learned model
CN109525786B (zh) 视频处理方法、装置、终端设备及存储介质
US11093778B2 (en) Method and system for selecting image region that facilitates blur kernel estimation
US11620730B2 (en) Method for merging multiple images and post-processing of panorama
CN111382613A (zh) 图像处理方法、装置、设备和介质
CN112648994B (zh) 基于深度视觉里程计和imu的相机位姿估计方法及装置
CN110717593B (zh) 神经网络训练、移动信息测量、关键帧检测的方法及装置
CN105809664A (zh) 生成三维图像的方法和装置
CN105335959B (zh) 成像装置快速对焦方法及其设备
JP7312026B2 (ja) 画像処理装置、画像処理方法およびプログラム
US20220215576A1 (en) Information processing device, information processing method, and computer program product
CN113298707B (zh) 图像帧拼接方法、视频巡检方法、装置、设备及存储介质
CN111866493B (zh) 基于头戴显示设备的图像校正方法、装置及设备
CN115409707A (zh) 一种基于全景视频拼接的图像融合方法及***

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination