CN113066115B - 深度预测网络训练方法、装置、服务器和可读存储介质 - Google Patents

深度预测网络训练方法、装置、服务器和可读存储介质 Download PDF

Info

Publication number
CN113066115B
CN113066115B CN202110467332.0A CN202110467332A CN113066115B CN 113066115 B CN113066115 B CN 113066115B CN 202110467332 A CN202110467332 A CN 202110467332A CN 113066115 B CN113066115 B CN 113066115B
Authority
CN
China
Prior art keywords
depth
prediction
image
loss
prediction network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110467332.0A
Other languages
English (en)
Other versions
CN113066115A (zh
Inventor
保长存
朱海涛
陈智超
江坤
户磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Dilusense Technology Co Ltd
Original Assignee
Beijing Dilusense Technology Co Ltd
Hefei Dilusense Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dilusense Technology Co Ltd, Hefei Dilusense Technology Co Ltd filed Critical Beijing Dilusense Technology Co Ltd
Priority to CN202110467332.0A priority Critical patent/CN113066115B/zh
Publication of CN113066115A publication Critical patent/CN113066115A/zh
Application granted granted Critical
Publication of CN113066115B publication Critical patent/CN113066115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • G06T2207/30201Face

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例涉及神经网络领域,公开了一种深度预测网络训练方法、装置、服务器和可读存储介质。本发明中,获取样本图像和所述样本图像对应的标签深度图像,所述标签深度图像标注前景区域;将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图;根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,以获得训练完成的深度预测网络。使得提高预测深度图的精确性。

Description

深度预测网络训练方法、装置、服务器和可读存储介质
技术领域
本发明实施例涉及神经网络领域,特别涉及深度预测网络训练方法、装置、服务器和可读存储介质。
背景技术
随着机器学习的迅速发展,机器模仿人类从图像中一定程度上估计物体距离远近已成为可能,即机器能在一定程度上对单张图像进行深度预测并获得深度图。深度图在三维重建、机器人导航等领域应用较广;同时,深度图由于提供了物体远近的信息,有助于检测、分割等计算机视觉领域。
传统的深度图预测网络的预测方法,会对待预测图像中的全部内容进行深度预测,但在许多种类的待预测图像中会存在有非重点区域,如在人脸图像中的背景区域为非重点区域。如果对待预测图像中的全部内容进行预测,会存在过多噪声影响预测结果的精确性。
发明内容
本发明实施方式的目的在于提供一种深度预测网络训练方法、装置、服务器和可读存储介质,使得提高预测深度图的精确性。
为解决上述技术问题,本发明的实施方式提供了一种深度预测网络的训练方法,包括以下步骤:
获取样本图像和所述样本图像对应的标签深度图像,所述标签深度图像标注前景区域;
将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图;
根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,以获得训练完成的深度预测网络。
本发明的实施方式还提供了一种深度预测网络的训练装置,包括:
样本获取模块,用于获取样本图像和所述样本图像对应的标签深度图像,所述标签深度图像标注前景区域;
网络预测模块,用于将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图;
网络训练模块,用于根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,以获得训练完成的深度预测网络。
本发明的实施方式还提供了一种服务器,包括:至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行任一所述的深度预测网络的训练方法。
本发明的实施方式还提供了一种计算机可读存储介质,所述计算机程序被处理器执行时实现任一项所述的深度预测网络的训练方法。
本发明实施方式提供的深度预测网络训练方法、装置、服务器和可读存储介质,在对图像进行深度预测时,只对图像的前景区域进行深度预测,训练深度预测网络时也只对前景区域进行训练,即有针对性地训练网络,忽略在深度图中较为无效的背景区域,使得深度预测网络生成的深度预测图仅对前景区域进行预测,使预测更具有针对性;同时,由于忽略了背景区域,避免了背景区域中无效的像素影响前景区域深度的预测,使得预测深度图中前景区域的预测效果更具有准确性;并且,由于深度预测网络只对前景区域的预测进行学习,无需对图像的全部内容进行学习,降低了网络学习的难度。
另外,本发明实施方式提供的深度预测网络训练方法,所述将所述样本图像输入预设深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图,包括:通过所述预设深度预测网络第一网络分支生成所述样本图像的全景预测深度图,所述全景预测深度图为对前景和背景的深度预测;通过所述预设深度预测网络第二网络分支生成所述样本图像的分类前景掩模,所述分类前景掩模中前景的类别为1,背景的类别为0;根据所述全景预测深度图和所述分类前景掩模生成所述预测深度图,所述预测深度图忽略背景区域。由于在生成的预测深度图中忽略背景,使得在后续训练时只针对前景区域进行学习,学习更具有针对性。
另外,本发明实施方式提供的深度预测网络训练方法,所述将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图后,还包括:根据所述标签深度图像和所述预测深度图获得最小噪声距离阈值,当像素的距离超过所述最小噪声距离阈值时,将所述像素视为噪声;将所述标签深度图像和所述预测深度图中距离大于所述最小噪声距离阈值的像素权重置为0。忽略距离较远的像素对,使得生成的预测深度图更加准确。
另外,本发明实施方式提供的深度预测网络训练方法,所述获取样本图像和所述样本图像对应的标签深度图像后,还包括:通过分割网络检测所述样本图像的前景区域;根据所述样本图像的前景区域标注所述标签深度图像。对样本图像和标签深度图像的前景区域也进行区分和标记,使得训练时更具有针对性。
另外,本发明实施方式提供的深度预测网络训练方法,所述深度预测网络还集成分类器,所述分类器用于对图像身份进行区分。是深度预测网络生成的深度图更具有区分性。
另外,本发明实施方式提供的深度预测网络训练方法,所述基于所述标签深度图像对所述预测深度图进行训练直至收敛,包括:对所述预测深度图计算回归损失、光滑损失、细节损失、身份损失和前景分类损失直至收敛。通过计算光滑损失,使得生成预测深度图分布更加连续,提高了预测深度图的质量。
另外,本发明实施方式提供的深度预测网络训练方法,所述通过所述预设深度预测网络生成所述样本图像的全景预测深度图,包括:通过所述预设深度预测网络中预设节点生成多个节点预测深度图;将所述多个节点预测深度图相加作为所述全景预测深度图。由于融合了多节点的预测深度图,提高了深度预测网络的预测效果。
另外,本发明实施方式提供的深度预测网络训练方法,所述根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛后,还包括:将测试样本输入收敛后的所述深度预测网络进行测试;当所述深度预测网络生成的测试预测深度图为针对所述测试样本前景区域进行的深度预测时,将收敛后的所述预测深度网络作为所述训练完成的深度预测网络。对收敛后的深度预测网络进行测试,使得深度预测网络最终可以实现对图像前景区域的预测,提高预测的准确性。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本发明的实施方式提供的深度预测网络的训练方法的流程图;
图2是本发明的实施方式提供的深度预测网络的训练方法的测试阶段示意图;
图3是本发明的实施方式提供的深度预测网络的训练装置的结构示意图;
图4是本发明的实施方式提供的服务器的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本发明各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
以下各个实施例的划分是为了描述方便,不应对本发明的具体实现方式构成任何限定,各个实施例在不矛盾的前提下可以相互结合相互引用。
本发明的实施方式涉及一种深度预测网络训练方法。具体流程如图1所示。
步骤101,获取样本图像和所述样本图像对应的标签深度图像,所述标签深度图像标注前景区域;
在本实施方式中,样本图像为人脸彩色图,标签深度图像为人脸真值深度图,样本图像与标签深度图相对应。
将样本图像和标签深度图对齐,检测出样本图像的关键点。检测关键点的方法可以为基于模型的ASM(Active Shape Model)算法或基于级联形状回归CPR(Cascaded poseregression)等,此处对检测关键点的方法不做限制。将检测出来的关键点与预先设置的模板关键点进行仿射变换,并将样本图像和标签深度图剪裁至预设尺寸。对关键点进行仿射变换以避免样本图像中人像姿态过分扭曲,影响深度图预测的准确性。检测的关键点与预先设置的关键点数量相同,例如设置模板关键点为五个关键点,分别为左眼、右眼、鼻子、左嘴角和右嘴角,则对样本图像检测的关键点为上述五个位置的关键点。
可选地,通过分割网络检测所述样本图像的前景区域;根据所述样本图像的前景区域标注所述标签深度图像。具体地,通过分割网络,检测出样本图像的前景掩模(Maskseg),若样本图像为人脸图像,则前景区域为图像中的人头区域,包括人脸、脖子和头发。根据检测出的前景掩模在标签深度图像中标注处前景区域,使得后续在回归训练时,针对前景区域进行学习。
在对深度预测网络进行训练前,需要对样本图像和标签深度图做预处理:将样本图像转化为灰度图,并归一化至[-1,1];对标签深度图做中心化处理,具体为计算出标签深度图的平均深度,将标签深度图的整体减去平均深度实现中心化,同时根据前景区域的深度,统一截断背景区域的深度,以使标签深度图只保留前景区域的细节。例如,前景区域的深度为[-200,200],则将背景区域统一截断为200。
步骤102,将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图;
预设的深度预测网络采用图像分隔(unet)结构的编码-解码网络模型(Encoder-Decoder),将样本图像转化的灰度图输入深度预测网络中。其中,Encoder网络为常见的深度学习网络,如卷积神经网络(Convolutional Neural Networks,CNN)。
可选地,通过所述预设深度预测网络第一网络分支生成所述样本图像的全景预测深度图,所述全景预测深度图为对前景和背景的深度预测;通过所述预设深度预测网络第二网络分支生成所述样本图像的分类前景掩模,所述分类前景掩模中前景的类别为1,背景的类别为0;根据所述全景预测深度图和所述分类前景掩模生成所述预测深度图,所述预测深度图忽略背景区域。
具体地,Decoder网络分为两个分支,第一网络分支用于生成样本图像的全景预测深度图(Depthregression),全景预测深度图对输入的样本图像做整体预测;第二网络分支用于生成分类前景掩模(Maskpred),分类前景掩模为通过二分类算法计算获得,其中,前景区域的类别为1,背景区域的类别为0;将全景预测深度图和分类前景掩模相乘作为预测深度图(Depthpred),如公式1所示。由于二分类的前景掩模中背景区域置为0,输出的预测深度图忽略背景细节。
Depthpred=Maskpred*Depthregression (1)
可选地,对于第一网络分支,通过所述预设深度预测网络中预设节点生成多个节点预测深度图;将所述多个节点预测深度图相加作为所述全景预测深度图。具体地,在深度预测网络对样本图像进行预测时,不同节点会处理不同分辨率的特征图,将不同分辨率的特征图卷积生成节点预测深度图并剪裁至预设尺寸;将多个节点预测深度图相加作为全景预测深度图。由于在网络中融合了多分辨率多尺度的特征,充分发掘网络对深度的预测效果,使得预测结果更为准确。
步骤103,根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,以获得训练完成的深度预测网络。
对预测深度图计算损失值,根据损失值调整深度预测网络直至收敛。
可选地,对所述预测深度图计算回归损失、光滑损失、细节损失、身份损失和前景分类损失直至收敛。
可选地,根据所述标签深度图像和所述预测深度图获得最小噪声距离阈值,当像素的距离超过所述最小噪声距离阈值时,将所述像素视为噪声;将所述标签深度图像和所述预测深度图中距离大于所述最小噪声距离阈值的像素权重置为0。具体为:为了保证训练的优化方向放在前景区域,忽略预测深度图与标签深度图中像素距离过大的像素点,计算获得最小噪声距离阈值(thres),如公式2所示。
Figure BDA0003044674890000061
Figure BDA0003044674890000062
其中,thres为最小噪声距离阈值,
Figure BDA0003044674890000063
为预测深度图,
Figure BDA0003044674890000064
为标签深度图像,W1i为二分类权重。
需要说明的是,在计算thres时,禁止梯度传播,保证thres数值不发生梯度变化。
具体地,标签深度图像中深度是200或前景掩模中是0的为背景区域,将背景区域的权重置为0。
在计算回归损失时,考虑像素距离带来的误差,因此将标签深度图像和预测深度图中距离大于最小噪声距离阈值的像素权重(W2i)置为0,如公式4所示。
Figure BDA0003044674890000065
综上,回归损失(Lossrec)计算如公式5所示。
Figure BDA0003044674890000066
除对预测深度图计算回归损失外,还利用二分类权重(W1i)和像素权重(W2i)进行细节损失计算,细节损失(Lossgradient)如公式6所示。
Figure BDA0003044674890000067
其中,Gradient为梯度计算。
为了让生成的预测深度图中深度过渡更为平滑,分布更为连续,对预测深度图计算光滑损失,光滑损失函数(Losssmooth)如公式7所示。
Losssmooth=∑i|Gradient(Depthpred)i (7)
由于第二网络分支通过二分类算法计算前景区域获得分类前景掩模,在深度预测网络中前景掩模的通道为2,预测深度图中每个像素由于前景二分类导致的前景分类损失(Losscl)如公式8所示。
Figure BDA0003044674890000068
其中,Losscl为前景分类损失,N为总像素数量,softmax_cross_entropy为交叉熵计算,
Figure BDA0003044674890000069
为分类前景掩模,
Figure BDA00030446748900000610
为前景掩模。
可选地,深度预测网络还集成分类器,所述分类器用于对图像身份进行区分。
具体地,根据标签深度图像和所述标签深度图像对应的ID,在深度预测网络中集成识别网络(M)和分类器(Classfier),用于根据ID对预测深度图(Depthpred)做出区分,避免多张预测深度图之间一定程度的同质化。
身份损失函数(Lossid)如公式9所示。
Lossid=softmax_cross_entropy(Claaafier(M(Depthpred)),ID) (9)
通过计算回归损失、光滑损失、细节损失、身份损失和前景分类损失获得损失值,根据损失值修正深度预测网络,直至损失计算达到收敛,将收敛的深度预测网络作为训练完成的深度预测网络。
本发明实施方式相对于相关技术而言,在对图像进行深度预测时,只对图像的前景区域进行深度预测,训练深度预测网络时也只对前景区域进行训练,即有针对性地训练网络,忽略在深度图中较为无效的背景区域,使得深度预测网络生成的深度预测图仅对前景区域进行预测,使预测更具有针对性;同时,由于忽略了背景区域,避免了背景区域中无效的像素影响前景区域深度的预测,使得预测深度图中前景区域的预测效果更具有准确性;并且,由于深度预测网络只对前景区域的预测进行学习,无需对图像的全部内容进行学习,降低了网络学习的难度。另外,深度预测网络中融合了多分辨率多尺度的特征,充分发掘了深度预测网络对深度图的预测能力,并且忽略了距离过大的像素点,使得网络学习更加稳定,预测效果更加准确;另外,由于集成分类器使得预测深度图更具有区分性;另外,计算光滑损失使得预测深度图分布连续,较标签深度图像没有空洞,提高了预测深度图的生成质量。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本发明实施方式涉及一种深度预测网络训练方法,应用上述训练得到的深度预测网络进行测试。
将测试样本输入收敛后的所述深度预测网络进行测试;当所述深度预测网络生成的测试预测深度图为针对所述测试样本前景区域进行的深度预测时,将收敛后的所述预测深度网络作为所述训练完成的深度预测网络。测试方法如图2所示。
具体地,获取测试样本,其中,测试样本为彩色图;将测试样本输入收敛后的深度预测网络;通过收敛后的深度预测网络输出测试样本对应的测试预测深度图。
需要说明是,当收敛后的深度预测网络生成的测试预测深度图为针对测试样本前景区域进行的深度预测时,深度预测网络训练完成。也就是说,深度预测网络生成的预测深度图是仅对待处理彩色图的前景区域进行了预测,背景区域为统一的值,以便与前景区域的深度预测进行区分。可选地,深度预测网络集成了分类器,因此生成的预测深度图根据待处理彩色图的ID做出了有区分性的处理。
由于本实施方式应用了上述训练得到的深度预测网络,因此其他实施方式提到的相关细节可以应用于本实施方式,本实施方式提到的相关细节也可应用于其他实施方式,此处不再一一赘述。
本发明实施方式相对于相关技术而言,在对图像进行深度预测时,只对图像的前景区域进行深度预测,训练深度预测网络时也只对前景区域进行训练,即有针对性地训练网络,忽略在深度图中较为无效的背景区域,使得深度预测网络生成的深度预测图仅对前景区域进行预测,使预测更具有针对性;同时,由于忽略了背景区域,避免了背景区域中无效的像素影响前景区域深度的预测,使得预测深度图中前景区域的预测效果更具有准确性;并且,由于深度预测网络只对前景区域的预测进行学习,无需对图像的全部内容进行学习,降低了网络学习的难度。另外,深度预测网络中融合了多分辨率多尺度的特征,充分发掘了深度预测网络对深度图的预测能力,并且忽略了距离过大的像素点,使得网络学习更加稳定,预测效果更加准确;另外,由于集成分类器使得预测深度图更具有区分性;另外,计算光滑损失使得预测深度图分布连续,较标签深度图像没有空洞,提高了预测深度图的生成质量。
本发明实施方式涉及一种深度预测网络的训练装置,如图3所示,包括:
样本获取模块301,用于获取样本图像和所述样本图像对应的标签深度图像,所述标签深度图像标注前景区域;
网络预测模块302,用于将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图;
网络训练模块303,用于根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,以获得训练完成的深度预测网络。
不难发现,本实施方式为与其他实施方式相对应的***装置实施例,本实施方式可与其他实施方式互相配合实施。其他实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在其他实施方式中。
值得一提的是,本实施方式中所涉及到的各模块均为逻辑模块,在实际应用中,一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理单元的组合实现。此外,为了突出本发明的创新部分,本实施方式中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入,但这并不表明本实施方式中不存在其它的单元。
本发明实施方式涉及一种服务器,如图4所示,包括:
至少一个处理器401;以及,与所述至少一个处理器401通信连接的存储器402;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述实施方式。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路链接在一起。总线还可以将诸如***设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
处理器负责管理总线和通常的处理,还可以提供各种功能,包括定时,***接口,电压调节、电源管理以及其他控制功能。而存储器可以被用于存储处理器在执行操作时所使用的数据。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施方式是实现本发明的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。

Claims (10)

1.一种深度预测网络的训练方法,其特征在于,包括:
获取样本图像和所述样本图像对应的标签深度图像,所述标签深度图像标注前景区域,其中,所述样本图像为彩色图像;
将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图;
根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,以获得训练完成的深度预测网络;其中,通过计算回归损失、光滑损失、细节损失、身份损失和前景分类损失获得所述损失函数的损失值。
2.根据权利要求1所述的深度预测网络的训练方法,其特征在于,所述将所述样本图像输入预设深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图,包括:
通过所述预设深度预测网络第一网络分支生成所述样本图像的全景预测深度图,所述全景预测深度图为对前景和背景的深度预测;
通过所述预设深度预测网络第二网络分支生成所述样本图像的分类前景掩模,所述分类前景掩模中前景的类别为1,背景的类别为0;
根据所述全景预测深度图和所述分类前景掩模生成所述预测深度图,所述预测深度图忽略背景区域。
3.根据权利要求2所述的深度预测网络的训练方法,其特征在于,所述通过所述预设深度预测网络生成所述样本图像的全景预测深度图,包括:
通过所述预设深度预测网络中预设节点生成多个节点预测深度图;
将所述多个节点预测深度图相加作为所述全景预测深度图。
4.根据权利要求1所述的深度预测网络的训练方法,其特征在于,所述根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛,包括:
对所述预测深度图计算所述回归损失、所述光滑损失、所述细节损失、所述身份损失和所述前景分类损失直至收敛;
所述回归损失Lossrec通过以下公式计算:
Figure FDA0003448405770000011
所述细节损失Lossgradient通过以下公式计算:
Figure FDA0003448405770000021
所述光滑损失Losssmooth通过以下公式计算:
Figure FDA0003448405770000022
所述前景分类损失Losscl通过以下公式计算:
Figure FDA0003448405770000023
所述身份损失Lossid通过以下公式计算:
Lossid=softmax_cross_entropy(Classfier(M(Depthpred)),ID)
其中,i为第i个像素,Depthpred为所述预测深度图,
Figure FDA0003448405770000024
为所述预测深度图第i个像素的预测深度值,
Figure FDA0003448405770000025
为所述标签深度图像,W1i为二分类权重,W2i为像素权重,Gradient为梯度计算,N为总像素数量,softmax_cross_entropy为交叉熵计算,
Figure FDA0003448405770000026
为分类前景掩模,
Figure FDA0003448405770000027
为前景掩模,ID为所述标签深度图像的ID,M为识别网络,Classfier为分类器。
5.根据权利要求1-4任一所述的深度预测网络的训练方法,其特征在于,所述将所述样本图像输入预设的深度预测网络,对所述样本图像的前景区域进行深度图预测,生成预测深度图后,还包括:
根据所述标签深度图像和所述预测深度图获得最小噪声距离阈值,当像素的距离超过所述最小噪声距离阈值时,将所述像素视为噪声;
将所述标签深度图像和所述预测深度图中距离大于所述最小噪声距离阈值的像素权重置为0。
6.根据权利要求1-4任一所述的深度预测网络的训练方法,其特征在于,所述获取样本图像和所述样本图像对应的标签深度图像后,还包括:
通过分割网络检测所述样本图像的前景区域;
根据所述样本图像的前景区域标注所述标签深度图像。
7.根据权利要求1-4任一所述的深度预测网络的训练方法,其特征在于,所述根据预设的损失函数,结合所述标签深度图像和所述预测深度图对所述深度预测网络进行训练直至收敛后,还包括:
将测试样本输入收敛后的所述深度预测网络进行测试;
当所述深度预测网络生成的测试预测深度图为针对所述测试样本前景区域进行的深度预测时,将收敛后的预测深度网络作为所述训练完成的深度预测网络。
8.根据权利要求1-4任一所述的深度预测网络的训练方法,其特征在于,所述深度预测网络还集成分类器,所述分类器用于对图像身份进行区分。
9.一种服务器,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-8任一所述的深度预测网络的训练方法。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的深度预测网络的训练方法。
CN202110467332.0A 2021-04-28 2021-04-28 深度预测网络训练方法、装置、服务器和可读存储介质 Active CN113066115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110467332.0A CN113066115B (zh) 2021-04-28 2021-04-28 深度预测网络训练方法、装置、服务器和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110467332.0A CN113066115B (zh) 2021-04-28 2021-04-28 深度预测网络训练方法、装置、服务器和可读存储介质

Publications (2)

Publication Number Publication Date
CN113066115A CN113066115A (zh) 2021-07-02
CN113066115B true CN113066115B (zh) 2022-03-25

Family

ID=76568283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110467332.0A Active CN113066115B (zh) 2021-04-28 2021-04-28 深度预测网络训练方法、装置、服务器和可读存储介质

Country Status (1)

Country Link
CN (1) CN113066115B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113591823B (zh) * 2021-10-08 2022-03-25 北京的卢深视科技有限公司 深度预测模型的训练及人脸深度图像的生成方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN110473185A (zh) * 2019-08-07 2019-11-19 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN111160378A (zh) * 2018-11-07 2020-05-15 电子科技大学 基于单张图像的多任务增强的深度估计***
CN112365510A (zh) * 2020-11-12 2021-02-12 Oppo(重庆)智能科技有限公司 图像处理方法、装置、设备及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8744168B2 (en) * 2009-08-24 2014-06-03 Samsung Electronics Co., Ltd. Target analysis apparatus, method and computer-readable medium
US9191643B2 (en) * 2013-04-15 2015-11-17 Microsoft Technology Licensing, Llc Mixing infrared and color component data point clouds
CN108711144B (zh) * 2018-05-16 2021-02-19 上海白泽网络科技有限公司 增强现实方法及装置
US10897558B1 (en) * 2018-09-11 2021-01-19 Apple Inc. Shallow depth of field (SDOF) rendering
US10846870B2 (en) * 2018-11-29 2020-11-24 Adobe Inc. Joint training technique for depth map generation
US11449079B2 (en) * 2019-01-30 2022-09-20 Adobe Inc. Generalizable robot approach control techniques
CN111553940B (zh) * 2020-05-19 2023-06-16 上海海栎创科技股份有限公司 一种深度图人像边缘优化方法及处理装置
CN112258528B (zh) * 2020-11-02 2024-05-14 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109658418A (zh) * 2018-10-31 2019-04-19 百度在线网络技术(北京)有限公司 场景结构的学习方法、装置及电子设备
CN111160378A (zh) * 2018-11-07 2020-05-15 电子科技大学 基于单张图像的多任务增强的深度估计***
CN110473185A (zh) * 2019-08-07 2019-11-19 Oppo广东移动通信有限公司 图像处理方法和装置、电子设备、计算机可读存储介质
CN112365510A (zh) * 2020-11-12 2021-02-12 Oppo(重庆)智能科技有限公司 图像处理方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Depth map generation by image classification;S. Battiato 等;《International Society for Optics and Photonics》;20041231;第1-10页 *
基于单幅图像的深度估计;a_newer_of_csdn;《网页https://blog.csdn.net/a_newer_of_CSDN/article/details/39477329》;20140922;第1-2页 *
基于单目图像的深度估计算法研究;徐慧慧;《中国博士学位论文全文数据库 信息科技辑》;20190215;第5-12页 *

Also Published As

Publication number Publication date
CN113066115A (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN112232293B (zh) 图像处理模型训练、图像处理方法及相关设备
CN111444878B (zh) 一种视频分类方法、装置及计算机可读存储介质
Žbontar et al. Stereo matching by training a convolutional neural network to compare image patches
CN110414526B (zh) 语义分割网络的训练方法、训练装置、服务器和存储介质
US11983245B2 (en) Unmanned driving behavior decision-making and model training
CN113486726A (zh) 一种基于改进卷积神经网络的轨道交通障碍物检测方法
US10943352B2 (en) Object shape regression using wasserstein distance
CN112232426B (zh) 目标检测模型的训练方法、装置、设备及可读存储介质
CN110232418B (zh) 一种语义识别方法、终端及计算机可读存储介质
TWI792560B (zh) 資訊處理裝置及資訊處理方法
KR20230171966A (ko) 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
Jiang et al. A CNN model for semantic person part segmentation with capacity optimization
CN113066115B (zh) 深度预测网络训练方法、装置、服务器和可读存储介质
CN115795355B (zh) 一种分类模型训练方法、装置及设备
CN115620082A (zh) 模型训练方法、头部姿态估计方法、电子设备及存储介质
CN115797701A (zh) 目标分类方法、装置、电子设备及存储介质
CN115937661A (zh) 一种3d场景理解方法、***、电子设备及存储介质
CN113536845B (zh) 人脸属性识别方法、装置、存储介质和智能设备
CN113033525B (zh) 图像识别网络的训练方法、电子设备及存储介质
CN110414845B (zh) 针对目标交易的风险评估方法及装置
CN115482426A (zh) 视频标注方法、装置、计算设备和计算机可读存储介质
CN113255807B (zh) 人脸解析模型训练方法、电子设备及存储介质
CN116168201B (zh) 无需精确标注数据的车道线分割方法及装置
CN118013234B (zh) 基于多源异构大数据的重点车辆驾驶员画像智能生成***
CN116012574A (zh) 兴趣区域的生成方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230404

Address after: 230091 room 611-217, R & D center building, China (Hefei) international intelligent voice Industrial Park, 3333 Xiyou Road, high tech Zone, Hefei, Anhui Province

Patentee after: Hefei lushenshi Technology Co.,Ltd.

Address before: 100083 room 3032, North B, bungalow, building 2, A5 Xueyuan Road, Haidian District, Beijing

Patentee before: BEIJING DILUSENSE TECHNOLOGY CO.,LTD.

Patentee before: Hefei lushenshi Technology Co.,Ltd.

TR01 Transfer of patent right