CN110400337A

CN110400337A - 图像处理方法、装置、电子设备及存储介质

Info

Publication number: CN110400337A
Application number: CN201910618669.XA
Authority: CN
Inventors: 安世杰; 张渊; 马重阳
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-11-01
Anticipated expiration: 2039-07-10
Also published as: CN110400337B

Abstract

本申请是关于一种图像处理方法、装置、电子设备及存储介质，获取待处理图像的每个像素的深度信息；根据所述深度信息和所述像素在图像坐标系中的二维位置，获得所述像素在图像采集装置坐标系中的像素三维位置；获取视角参数，以及对焦点的对焦三维位置；其中，视角参数为与待处理图像对应的固定观察视角不同的视角的参数；根据所述对焦三维位置、所述视角参数以及所述像素三维位置，获得所述像素的偏移后的三维位置；分别根据每个像素的所述偏移后的三维位置，将每个像素投影至待处理图像的二维坐标系中，得到目标图像。通过本方案能够实现待处理图像中的场景具有不同的观察视角所对应的不同展示效果。

Description

图像处理方法、装置、电子设备及存储介质

技术领域

本申请涉及图像处理技术领域，尤其涉及一种图像处理方法、装置、电子设备及存储介质。

背景技术

图像采集设备采集到的图像中的场景，往往是用户能够在真实世界中观察到的场景。并且，在真实世界中观察时，用户的不同观察视角对同一场景的观察效果不同。举例而言，在真实世界中，对于同一场景，观察视角为左视角时，观察效果为该场景左边清晰，以及右边模糊等等；观察视角为右视角时，观察效果为该场景右边清晰，以及左边模糊等等。

但是，图像采集设备通常以固定观察视角采集图像，相应的，对采集得到的图像进行展示时，该图像中场景的展示效果就是在采集得到该图像时的固定观察视角下，该场景的固定效果。因此，如何使采集得到的图像中的场景具有不同的观察视角所对应的不同展示效果，是亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本申请提供一种图像处理方法、装置、电子设备及存储介质。

根据本申请实施例的第一方面，提供一种图像处理方法，所述方法包括：

获取待处理图像的每个像素的深度信息；

根据所述深度信息和所述像素在图像坐标系中的二维位置，获得所述像素在图像采集装置坐标系中的像素三维位置；

获取视角参数，以及对焦点的对焦三维位置；其中，所述视角参数为与所述待处理图像对应的固定观察视角不同的视角的参数；所述对焦点为改变观察所述待处理图像中场景的视角时，作为旋转轴的点；

根据所述对焦三维位置、所述视角参数以及所述像素三维位置，获得所述像素的偏移后的三维位置；其中，所述偏移后的三维位置为在所述视角参数下观察处于所述像素三维位置的场景时，观察到的所述场景的三维位置；

分别根据所述每个像素的所述偏移后的三维位置，将所述每个像素投影至所述待处理图像的二维坐标系中，得到目标图像。

可选的，所述获取待处理图像的每个像素的深度信息的步骤，包括：

将所述待处理图像输入预设的神经网络模型，得到所述深度信息；其中，所述预设的神经网络模型为预先利用多个样本图像和所述多个样本图像的深度信息标签训练得到的模型；所述样本图像中的场景与所述待处理图像中的场景的类型相同；所述场景的类型为按照场景的深度的分布差异划分的类型。

可选的，所述预设的神经网络，采用如下步骤训练得到：

分别将所述多个样本图像输入初始的神经网络模型进行训练，得到每个样本图像的预测深度信息；

根据所述预测深度信息，所述深度信息标签，第一损失函数，第二损失函数以及第三损失函数，判断处于当前训练阶段的神经网络模型是否收敛；其中，所述第一损失函数为用于计算所述预测深度信息与所述深度信息标签的整体误差的损失函数；所述第二损失函数为用于计算所述预测深度信息和所述深度信息标签在梯度方向的误差的损失函数；所述第三损失函数为用于计算所述预测深度信息和所述深度信息标签在法向量方向的误差的损失函数；

如果收敛，则将处于当前训练阶段的神经网络模型确定为所述预设的神经网络模型；

如果不收敛，则利用随机梯度下降算法，调整处于当前训练阶段的神经网络模型的模型参数，得到调整后的神经网络模型；

分别将所述多个样本图像输入所述调整后的神经网络模型，并重复上述进行训练和调整所述模型参数的步骤，直至调整后的神经网络模型收敛。

可选的，所述分别将所述多个样本图像输入初始的神经网络模型进行训练，得到每个样本图像的预测深度信息的步骤，包括：

按照每个样本图像中场景的类型，将所述多个样本图像划分为与所述场景的类型对应的图像集合；

统计所述多个样本图像的第一总数，以及每个所述图像集合中样本图像的第二总数；

将所述第一总数和所述图像集合的所述第二总数的比值，作为所述图像集合的采样权重；

选取所述图像集合中与所述采样权重对应数量个的样本图像，输入初始的神经网络模型进行训练，得到所述样本图像的预测深度信息。

可选的，所述根据所述深度信息和所述像素在图像的二维坐标系中的二维位置，获得所述像素在图像采集装置坐标系中的像素三维位置的步骤，包括：

将所述像素的所述二维位置转换为齐次坐标；

将所述像素的所述深度信息作为所述像素的所述齐次坐标的Z坐标，得到所述像素在图像采集装置坐标系中的像素三维位置。

可选的，所述根据所述对焦三维位置、所述视角参数以及所述像素三维位置，获得所述像素的偏移后的三维位置的步骤，包括：

根据所述视角参数，获取将所述像素从所述三维位置偏移至所述偏移后的三维位置的偏移矢量；

计算所述像素三维位置相对于所述对焦三维位置的偏移量；

将所述像素的所述偏移量与所述偏移矢量相乘，得到所述像素从所述三维位置偏移至所述偏移后的三维位置的偏移距离；

将所述像素三维位置与所述像素的所述偏移距离相加，得到所述像素的偏移后的三维位置。

可选的，所述获取视角参数，以及对焦点的对焦三维位置的步骤，包括：

获取展示所述待处理图像的电子设备中，角运动传感器采集的所述电子设备的角运动参数，并将所述角运动参数作为所述视角参数；

将所述待处理图像中指定点的三维位置，作为所述对焦点的对焦三维位置。

根据本申请实施例的第二方面，提供一种图像处理装置，所述装置包括：

深度信息获取模块，被配置为获取待处理图像的每个像素的深度信息；

像素三维位置获取模块，被配置为根据所述深度信息和所述像素在图像坐标系中的二维位置，获得所述像素在图像采集装置坐标系中的像素三维位置；

参数获取模块，被配置为获取视角参数，以及对焦点的对焦三维位置；其中，所述视角参数为与所述待处理图像对应的固定观察视角不同的视角的参数；所述对焦点为改变观察所述待处理图像中场景的视角时，作为旋转轴的点；

偏移后的三维位置获取模块，被配置为根据所述对焦三维位置、所述视角参数以及所述像素三维位置，获得所述像素的偏移后的三维位置；其中，所述偏移后的三维位置为所述图像采集装置在所述视角参数下观察处于所述像素三维位置的场景时，观察到的所述场景的三维位置；

目标图像获取模块，被配置为分别根据所述每个像素的所述偏移后的三维位置，将所述每个像素投影至所述待处理图像的二维坐标系中，得到目标图像。

可选的，所述深度信息获取模块，被配置为：

可选的，所述预设的神经网络，采用如下步骤训练得到：

可选的，所述像素三维位置获取模块，被配置为：

将所述像素的所述二维位置转换为齐次坐标；

将所述像素的所述深度信息作为所述像素的所述齐次坐标的Z坐标，得到所述像素在图像采集装置坐标系中的三维位置。

可选的，所述偏移后的三维位置获取模块，被配置为：

计算所述像素三维位置相对于所述对焦三维位置的偏移量；

可选的，所述参数获取模块，被配置为：

根据本申请实施例的第三方面，提供一种电子设备，该电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器，被配置为执行所述存储器上所存放的可执行指令时，实现上述第一方面所述的图像处理方法的步骤。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述处理器能够执行上述第一方面所述的图像处理方法的步骤。

根据本申请实施例的第五方面，提供一种计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述第一方面所述的图像处理方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：待处理图像的深度信息可以反映待处理图像的各个像素代表的场景在真实世界中与图像采集设备之间的距离，并且，各个像素在图像坐标系中的二维位置可以反映各个像素各自代表的不同场景之间的位置关系。因此，根据像素的深度信息和像素在图像坐标系中的的二维位置，可以获得像素在图像采集装置坐标系中的三维位置，该三维位置能够反映待处理图像中的场景在图像采集装置坐标系中的三维结构。在此基础上，视角参数为与待处理图像对应的固定观察视角不同的视角的参数，并且，对焦点为改变观察待处理图像中场景的视角时作为旋转轴的点。因此，可以根据对焦点的对焦三维位置、视角参数以及像素三维位置，可以获得该像素的偏移后的三维位置。并且，该偏移后的三维位置为图像采集装置在视角参数下观察处于像素三维位置的场景时，观察到的该场景的三维位置。因此，分别根据每个像素的偏移后的三维位置，将每个像素投影至待处理图像的二维坐标系中，得到的目标图像，是图像采集装置在视角参数下对该场景进行采集时，采集得到的该场景的图像。由此，目标图像的展示效果就具有与待处理图像对应的固定观察视角不同的视角参数所对应的不同展示效果。可见，通过本方案能够实现待处理图像中的场景具有在真实世界中进行观察时，与不同的观察视角对应的不同展示效果。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种图像处理方法的流程图。

图2(a)是根据一示例性实施例示出的一种图像处理方法中，一种待处理图像和目标图像的示例图。

图2(b)是根据一示例性实施例示出的一种图像处理方法中，另一种待处理图像和目标图像的示例图。

图3是根据另一示例性实施例示出的一种图像处理方法的流程图。

图4是根据另一示例性实施例示出的一种图像处理方法中，预设的神经网络的结构示意图。

图5是根据一示例性实施例示出的一种图像处理装置的框图。

图6是根据一示例性实施例示出的一种电子设备的框图。

图7是根据另一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

本申请实施例提供的图像处理方法的执行主体可以为电子设备，该电子设备具体可以是图像采集设备，或者，可以是图像展示设备。举例而言，当该电子设备为图像采集设备时，可以是安装有图像采集装置的台式计算机、智能移动终端、笔记本电脑以及可穿戴式智能终端等等。当该电子设备为图像展示设备时，可以是台式计算机、互联网电视、智能移动终端、笔记本电脑以及可穿戴式智能终端等等。任何可以进行图像展示的电子设备均可用于本发明，在此不作限制。

图1是根据一示例性实施例示出的一种图像处理方法的流程图，如图1所示，一种图像处理方法，该方法可以包括以下步骤：

步骤S101，获取待处理图像的每个像素的深度信息。

其中，每个像素的深度信息可以反映该像素对应的场景与图像采集装置之间的距离，因此，可以利用像素的深度信息在后续步骤S102中获取像素的像素三维位置。在具体应用中，待处理图像的每个像素的深度信息的获取方式可以是多种的。示例性的，可以利用双目视觉深度估计方法获取：采用双摄相机拍摄待处理图像中的场景，得到两张图像；根据两张图像的视差，利用三角测量和立体几何计算得到待处理图像的每个像素的深度信息。或者，示例性的，可以将待处理图像输入预设的神经网络模型，得到每个像素的深度信息；其中，预设的神经网络模型为预先利用多个样本图像和多个样本图像的深度信息标签训练得到的模型。为了便于理解和合理布局，后续在图2实施例中对利用预设的神经网络模型获取待处理图像的每个像素的深度信息的方式，进行具体说明。任何能够获取图像的每个像素的深度信息的方式，均可用于本发明，本实施例对此不作限制。

步骤S102，根据深度信息和像素在图像坐标系中的二维位置，获得像素在图像采集装置坐标系中的像素三维位置。

其中，待处理图像的图像坐标系为二维坐标系，像素在在图像坐标系中的二维位置可以反映各个像素分别对应的各场景在真实世界中的位置关系，例如，场景S1在场景S2的左边。并且，图像采集坐标系为：以采集得到待处理图像的图像采集装置的光心为原点，以图像采集装置的光轴为Z轴，以与待处理图像的X轴平行的轴为X轴、以及与待处理图像的Y轴平行的轴为Y轴，建立的直角坐标系，该坐标系是可以反映真实世界的三维坐标系。在此基础上，为了得到每个像素在图像采集装置坐标系中的像素三维位置，以在后续步骤S104中利用该三维位置获取像素的偏移后的三维位置，需要在像素的二维位置的基础上，获取像素与图像采集装置的距离。并且，待处理图像的深度信息可以反映待处理图像的各个像素对应的场景在真实世界中与图像采集设备之间的距离。因此，可以针对每个像素，根据该像素的深度信息和该像素的二维位置，获得该像素在图像采集装置坐标系中的像素三维位置。为了便于理解和合理布局，后续以可选实施例的形式对获取待处理图像的每个像素在图像采集装置坐标系中的像素三维位置的方式，进行具体说明。

另外，图像采集装置可以是多种的。示例性的，当本发明的执行主体为可以进行图像采集的电子设备时，该执行主体即为图像采集装置。例如，智能移动终端，平板电脑等等。或者，当本发明实施例提供的图像处理方法的执行主体为无法进行图像采集的电子设备时，该图像采集装置为采集得到待处理图像的装置。例如，区别于本发明执行主体的摄像机，智能移动终端等等。

步骤S103，获取视角参数，以及对焦点的对焦三维位置。其中，视角参数为与待处理图像对应的固定观察视角不同的视角；对焦点为改变观察待处理图像中场景的视角时，作为旋转轴的点。

在具体应用中，视角参数和对焦点的获取方式可以是多种的。下面以可选实施例的方式进行描述。

在一种可选的实施例中，步骤S103可以包括：从预存的多个视角中，选择一个与待处理图像对应的视角不同的视角的参数，作为视角参数。从预存的多个二维位置中，选择一个与视角参数对应的二维位置，并将该二维位置对应的三维位置作为对焦点的对焦三维位置。

其中，对于视角参数，示例性的，用户从展示有多个视角参数的选项中选择一个，作为视角参数，或者，电子设备自动从预存的多个视角参数中选择一个，作为视角参数。例如，可以选择左视角、右视角或者上视角等等。另外，待处理图像是二维的，像素的三维位置是基于像素在待处理图像中的二维位置获得的。因此，对于任一采集得到待处理图像时图像采集装置的观察视角，也就是任一待处理图像中场景对应的视角，均可以看作待处理图像固有的视角，为不涉及景深变化的固定观察视角，由此，为了得到不同视角下的展示效果，视角参数与待处理图像对应的固定观察视角不同。

对焦点的对焦三维位置可以是多种的。示例性的，可以是预存的多个二维位置可以是待处理图像的中心点在图像采集装置坐标系中的三维位置，或者，将待处理图像均分四部分后，左上部分的中心位置以及左下部分的中心点在图像采集装置坐标系中的三维位置等等。或者，示例性的，可以将待处理图像中任一点的三维位置作为对焦点的对焦三维位置。在具体应用中，对焦三维维位置可以与任一视角参数对应，或者，可以是左上部分的中心位置与左上视角对应，左下部分的中心位置与左下视角对应等等。并且，由于对焦点为改变观察待处理图像中场景的视角时，作为旋转轴的点，因此，对焦点可以作为视角变化过程中不同视角分别对应的不同图像的中心点。

本可选实施例预存了视角参数和对焦三维位置，因此，对作为本发明执行主体的电子设备的硬件需求相对而言较少，无需电子设备安装角运动传感器、触摸屏、和/或者外接鼠标等人机互动装置，即可获取视角参数和对焦点的三维位置。

在另一种可选的实施例中，上述步骤S103，具体可以包括如下步骤：

获取展示待处理图像的电子设备中，角运动传感器采集的电子设备的角运动参数，并将角运动参数作为视角参数；

将待处理图像中指定点的三维位置，作为对焦点的对焦三维位置。

在具体应用中，用户可以通过与电子设备的交互姿态选择视角参数，当用户以交互姿态与电子设备交互时，电子设备出现运动，此时，电子设备的角运动传感器可以采集电子设备的角运动参数，并将角运动参数作为视角参数。本可选实施例可以通过用户与电子设备的姿态交互，获取视角参数和对焦点，提高图像展示过程中用户的交互感和趣味性，使得图像展示效果更加真实生动。

其中，示例性的，角运动传感器具体可以是陀螺仪，相应的，角运动参数可以包括：滚转角和俯仰角。举例而言，电子设备水平时，俯仰角和滚转角均为0度，电子设备竖直时俯仰角为90度，电子设备侧面朝下时滚转角为90度。并且，用户与电子设备的交互姿态可以是向左倾斜电子设备，向右倾斜电子，向上倾斜电子设备以及向下倾斜电子设备等等。举例而言，用户向左倾斜电子设备时的角运动参数，可以作为视角参数左视角，用户向右倾斜电子设备时的角运动参数，可以作为视角参数右视角等等。并且，待处理图像中作为对焦点的指定点可以是多种的。示例性的，指定点可以是用户在触摸屏上移动，和/或者，旋转图像时，指尖触摸的位置的点，或者，用户利用鼠标等交互装置在待处理图像中所选择的位置的点。任何能够获取获取视角参数以及对焦点的三维位置的方式，均可用于本发明，本实施例对此不作限制。

步骤S104，根据对焦三维位置、视角参数以及像素三维位置，获得像素的偏移后的三维位置。其中，偏移后的三维位置为图像采集装置在视角参数下观察处于像素三维位置的场景时，观察到的场景的三维位置。

在真实世界中，当以不同的视角对同一场景进行观察时，观察到的两个视角分别对应的图像中，场景的像素排列位置会出现偏移。因此，为了得到视角参数下观察处于像素三维位置的场景时，得到的目标图像，需要获取待处理图像中每个像素的三维位置的偏移情况，进而按照该偏移情况确定每个像素偏移后的三维位置。

在此基础上，为了保证改变视角时，各个场景之间的位置关系不会发生改变，可以确定对焦点，像素三维位置改变相当于以对焦点为定点，进行在视角参数下的方向和距离的偏移。因此，可以根据对焦三维位置、视角参数以及像素三维位置，获得像素的偏移后的三维位置。为了便于理解和合理布局，后续以可选实施例的形式对像素的偏移后的三维位置的获取方式进行具体描述。

步骤S105，分别根据每个像素的偏移后的三维位置，将每个像素投影至待处理图像的二维坐标系中，得到目标图像。

示例性的，根据每个像素的偏移后的三维位置，将每个像素投影至待处理图像的二维坐标系中，得到目标图像，具体可以包括：将每个像素的偏移后的三维位置投影之待处理图像的二维坐标系中，得到每个像素的偏移后的二维位置；按照每个像素的偏移后的二维位置，对待处理图像中的像素进行排列，得到目标图像。

对于待处理图像而言，呈现对待处理图像中场景的观察视角改变后，该场景的观察效果，相当于在视角参数下观察真实世界中该场景得到目标图像。因此，需要通过步骤S105，根据每个像素的偏移后的三维位置，将每个像素投影至待处理图像的二维坐标系中，得到目标图像。

示例性的，如图2(a)所示，待处理图像201为聚焦近处的左视角图像，目标图像202为聚焦近处的右视角图像。聚焦近处，选择待处理图像场景中近处的点作为对焦点，此时，远处的场景模糊。当视角从待处理图像的左视角改变为目标图像的右视角后，待处理图像201中场景2011与目标图像202中相同场景相比，可被观察到的部分变少，目标图像202中场景2021与待处理图像201中相同场景相比，可被观察到的部分变多。并且，可以理解的是，在观察视角从聚焦近处的左视角改变为聚焦近处的右视角时，观察到的图像为图2(a)中的目标图像202。可见本发明实施例可以实现待处理图像中的场景具有不同的观察视角所对应的不同展示效果。

类似的，如图2(b)所示，待处理图像203为聚焦远处的上视角图像，目标图像204为聚焦远处的下视角图像。聚焦远处，选择待处理图像场景中远处的点作为对焦点，此时，近处的场景模糊。当视角从待处理图像的上视角改变为目标图像的下视角后，待处理图像203中场景2031与目标图像204中相同场景2041相比，原本在待处理图像203中被绿化带遮住的部分在目标图像204中可被观察到。并且，可以理解的是，在观察视角从聚焦远处的上视角改变为聚焦远处的下视角时，观察到的图像为图2(b)中的目标图像204。可见本发明实施例可以实现待处理图像中的场景具有在真实世界中进行观察时，与不同的观察视角对应的不同展示效果。

可选的，上述步骤S102：根据深度信息和像素在图像的二维坐标系中的二维位置，获得像素在图像采集装置坐标系中的像素三维位置，具体可以包括如下步骤：

将像素的二维位置转换为齐次坐标；

将像素的深度信息作为该像素的齐次坐标的Z坐标，得到该像素在图像采集装置坐标系中的像素三维位置。

其中，齐次坐标包括：用一个n+1维向量表示一个n维的向量。因此，为了得到像素在图像采集装置坐标系中的三维位置，可以针对待处理图像的每个像素，将该像素的二维位置转换为齐次坐标。举例而言，某一像素的二维位置为(X，Y)，则该像素的齐次坐标为(X，Y，1)。并且，该像素的深度信息可以反映该像素所代表的场景与图像采集装置之间的距离，因此，可以将该像素的深度信息作为该像素的齐次坐标的Z坐标，从而得到该像素在图像采集装置坐标系中的像素三维位置。举例而言，该像素的深度信息为Z，则该像素在图像采集装置坐标系中的像素三维位置为(X，Y，Z)。

可选的，上述步骤S104：根据对焦三维位置、视角参数以及像素维位置，获得像素的偏移后的三维位置，具体可以包括如下步骤：

根据像素的视角参数，获取将像素从像素三维位置偏移至偏移后的三维位置的偏移矢量；

计算像素三维位置相对于对焦三维位置的偏移量；

将像素的偏移量与偏移矢量相乘，得到像素从像素三维位置偏移至偏移后的三维位置的偏移距离；

将像素的三维位置与像素的偏移距离相加，得到像素的偏移后的三维位置。

其中，偏移矢量用于表明将某一像素从像素三维位置偏移至偏移后的三维位置的偏移方向。偏移矢量的获取方式可以是多种的。示例性的，当视角参数为预存的多个视角中的一个时，可以针对每个预存的视角计算相应的偏移矢量，从而得到预设的偏移矢量与视角的对应关系。因此，可以从预设的偏移矢量与视角的对应关系中，查找视角参数对应的偏移矢量。或者，示例性的，当视角参数为用于展示待处理图像的电子设备中的角运动传感器采集的角运动参数时，角运动参数为反映电子设备所在平面与水平面夹角的变化情况的角度参数，例如，俯仰角和滚转角。并且，电子设备所在平面相当于待处理图像所在的平面，此时的视角参数可以反映将待处理图像偏移至偏移后的三维位置时，待处理图像与水平面夹角的变化情况。因此，可以将视角参数，也就是角运动参数，例如，将俯仰角和滚转角转换为偏移矢量。

在具体应用中，针对每个像素，计算该像素的像素三维位置相对于对焦三维位置的偏移量，可以包括：偏移量△d＝a×(Zi-Z0)。其中，对焦三维位置为(X0,Y0,Z0)，像素i的像素三维位置为(Xi,Yi,Zi)，a为常数，i为像素的序号。如果偏移矢量为(x,y)，像素i从像素三维位置偏移至偏移后的三维位置的偏移距离d可以包括：d＝[a×(Zi-Z0)×x，a×(Zi-Z0)y，a×(Zi-Z0)]。相应的，像素i的偏移后的三维位置为[Xi+a×(Xi-X0)×x，Yi+a×(Yi-Y0)y，Zi+a×(Zi-Z0)]。

示例性的，待处理图像的深度信息的范围是0～1，对焦点为待处理图像的中心点(L/2,W/2,0.5)，其中，L为待处理图像的长，W为待处理图像的宽。左上角的某一像素深度为0，该像素的像素三维位置为(0,0,0)。视角参数下的偏移矢量为(x,y)，将该像素偏移至视角参数下的偏移后的三维位置后，该像素的新的三维位置，也就是该像素的偏移后三维位置为[0+a×(0-0.5)×x，0+a×(0-0.5)y，0]。

图3是根据另一示例性实施例示出的一种图像处理方法的流程图，如图3所示，一种个性化内容的确定方法，该方法可以包括以下步骤：

步骤S301，将待处理图像输入预设的神经网络模型，得到待处理图像中每个像素的深度信息。其中，预设的神经网络模型为预先利用多个样本图像和多个样本图像的深度信息标签训练得到的模型；样本图像中的场景与待处理图像中的场景的类型相同；场景的类型为按照场景的深度的分布差异划分的类型。

在具体应用中，不同场景的深度的分布不同，因此，为了保证训练得到的预设的神经网络模型可以应对多样化的深度分布，可以按照场景的深度的分布差异划分场景的类型，并保证样本图像中的场景与待处理图像中的场景的类型相同。示例性的，场景类型可以包括室内场景、室外场景以及存在人物的场景。

示例性的，如图4所示，根据图3实施例示出的一种图像处理方法中，预设的神经网络的结构示意图，该预设的神经网络可以包括四个部分：Base Model(基础模型)，Multi-Scale Model(多尺度模型)，Feature Fuse layer(特征融合层)以及Prediction layer(预测层)。在任一部分中，示例性的，卷积层的具体结构可以是depthwise-pointwise(纵向-逐点)结构，具有参数少、模型小一级准确率与部分卷积结构相比损失少等特点，该结构的卷积层可以利用不同的卷积核对待处理图像401的不同channel(通道)提取特征；并且，可以针对待处理图像401的每个像素提取特征。

Base Model用于对待处理图像401进行从图片底层到高层的特征提取，用于为Multi-Scale Model提供特征。其中，底层特征可以为一些角点、边缘以及拐角等等基础对象。高于底层特征的中层特征可以是几何形状，例如三角形、圆形、正方形等等形状对象，高于中层特征的高层特征比较复杂，代表该特征所在位置是人、杯子、汽车等物体对象。由此预设的神经网络可以理解图片中不同的场景信息，从而为神经网络后续部分进行深度计算提供相对而言更加充足、清晰的数据。

Multi-Scale Model用于对Base Model提供的特征提取不同尺度的特征图。具体的，特征图的每一个像素位置记录了该点在待处理图像中的感受野在整幅待处理图像上的相对关系。因此，不同尺度的特征图可以分别反映待处理图像中的局部特征和全局特征，从而可以为Feature Fuse layer和Prediction layer提供局部特征和全局特征。

Feature Fuse layer用于恢复图像分辨率以及缩减通道数，并对底层到高层的特征进行了融合，以向Prediction layer提供待处理图像中各场景的整体信息。Predictionlayer用于利用接收到的特征，计算出待处理图像中每个像素的深度信息，并对得到的深度信息以图像402的形式输出。

步骤S302，根据像素的深度信息和像素的二维位置，获得像素在图像采集装置坐标系中的像素三维位置。

步骤S303，获取视角参数，以及对焦点的对焦三维位置。

步骤S304，根据对焦三维位置、视角参数以及像素三维位置，获得像素的偏移后的三维位置。

步骤S305，分别根据每个像素的偏移后的三维位置，将每个像素投影至待处理图像的二维坐标系中，得到目标图像。

上述步骤S302至步骤S305与本发明图1实施例的步骤S102至步骤S105相同，在此不再赘述，详见本发明图1实施例和可选实施例的描述。

在上述图2实施例中，利用预设的神经网络获取待处理图像的深度信息，可以提高深度信息获取的效率，降低深度信息获取的硬件成本和获取便捷性。由此，在实现待处理图像中的场景具有在真实世界中进行观察时，与不同的观察视角对应的不同展示效果的同时，兼顾图像展示的效率提升和便捷性。

可选的，上述预设的神经网络，具体可以采用如下步骤训练得到：

分别将多个样本图像输入初始的神经网络模型进行训练，得到每个样本图像的预测深度信息；

根据样本图像的预测深度信息，深度信息标签，第一损失函数，第二损失函数以及第三损失函数，判断处于当前训练阶段的神经网络模型是否收敛；其中，第一损失函数为用于计算预测深度信息与深度信息标签的整体误差的损失函数；第二损失函数为用于计算预测深度信息和深度信息标签在梯度方向的误差的损失函数；第三损失函数为用于计算预测深度信息和深度信息标签在法向量方向的误差的损失函数；

如果收敛，则将处于当前训练阶段的神经网络模型确定为预设的神经网络模型；

分别将多个样本图像输入所述调整后的神经网络模型，并重复进行训练和调整模型参数的步骤，直至调整后的神经网络模型收敛。

在具体应用中，在多个样本图像中，场景深度简单的样本图像，如简单平面图像的深度信息的预测难度，往往高于场景深度复杂的样本图像，如存在大片花草树木的图像的深度信息的预测难度。并且，在某一样本图像中，对边缘处如物体边界和雕像边界等等复杂样本特征的深度信息的预测难度，往往高于平面中的像素如路面和桌面等等简单样本特征的深度信息的预测难度。因此，可以设置不同的损失函数，以实现对不同的预测难度采取不同的训练程度的差异化训练。

具体的，可以设置第一损失函数计算预测深度信息与深度信息标签的整体误差，以从样本图像整体上实现针对性误差计算。示例性的，第一损失函数可以为HuBer损失函数，该损失函数可以减少预测难度相对而言低的样本图像的训练程度，并增预测难度相对而言高的样本图像的训练程度，从而实现对场景深度复杂的样本图像和场景深度简单的样本图像的差异化训练。并且，可以设置第二损失函数计算预测深度信息和深度信息标签在梯度方向的误差的损失函数。其中，梯度方向包括水平方向和竖直方向，并且梯度方向的深度信息在边缘处相对而言比较显著，因此，增加第二损失函数可以提高边界处样本特征的训练程度，从而提高边界处像素的深度信息的预测准确度。第三损失函数计算预测深度信息和深度信息标签在法向量方向的误差。其中，法向量方向代表了平面的朝向，因此，增加第三损失函数可以在采用了第二损失函数时，保证平面位置处样本的训练差异化，从而保证平面位置处像素的深度信息的预测准确性。由此，利用第一损失函数实现对复杂样本图像和简单样本图像的差异化训练，利用第二损失函数和第三损失函数实现对复杂样本特征和简单样本特征的差异化训练。

其中，每个损失函数输出的误差都是越小越好，当处于当前训练阶段的神经网络模型收敛时，表明经过训练，处于当前训练阶段的神经网络模型中，每个损失函数输出的误差达到期望水平，即：待处理图像的整体特征的深度信息的预测值达到期望水平，边缘位置处的深度信息和平面位置处的深度信息的预测值也达到期望水平。并且，在训练过程中，随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数，以使卷积神经网络模型经过模型参数调整后，检测结果得到改善，减少与预先标注的类别信息之间的差异，从而达到收敛。相应的，在处于当前训练阶段的模型收敛之前，可以重复进行上述训练和调整模型参数的步骤，直至调整后的神经网络模型收敛。当然，每次训练都是针对最新调整了模型参数的卷积神经网络模型。

另外，可以在训练得到预设的神经网络模型后，利用多个测试图像和多个测试图像的深度信息标签验证模型的预测效果。其中，测试图像中场景的类型与样本图像中场景的类型相同。具体可以包括：分别将多个测试图像输入预设的神经网络模型，得到每个测试图像的预测深度信息；根据测试图像的预测深度信息，深度信息标签以及第四损失函数，计算测试图像的预测深度信息与深度信息标签的误差；当误差符合期望水平时，测试通过，该预设的神经网络模型可以用于获取待处理图像的每个像素的深度信息，否则，可以更换样本图像重新进行训练。其中，第四损失函数具体可以为平均相对误差函数，或者均方根误差函数等等损失函数。

可选的，在上述分别将多个样本图像输入初始的神经网络模型进行训练，得到每个样本图像的预测深度信息的步骤之前，本申请实施例提供的图像展示方法还可以包括：

利用样本图像和预设的随机扰动规则，获取增强后的样本图像；预设的随机扰动规则为能够调整样本图像的指定图像特征的规则；

在多个样本图像中增加增强后的样本图像，用于训练得到预设的神经网络模型。

在具体应用中，预设的随机扰动规则可以是多种的。示例性的，预设的随机扰动规则可以是图像对比度增强，图像左右旋转，图像随机裁剪，和/或者图像像素扰动等等指定图像特征的调整。增强后的样本图像相当于对样本图像进行了预设的随机扰动规则中的图像特征调整后，得到的新的样本图像。

本可选实施例是在进行训练前对样本图像进行的预处理，一张样本图像经过该预处理之后，可以增加样本图像的多样性。在多个样本图像中增加增强后的样本图像后，用于训练得到预设的神经网络模型的样本图像就包括多个样本图像，以及增强后的样本图像，以此保证模型可以学习包含多种情况的样本图像。因此，可以提高预设的神经网络模型的鲁棒性，使预设的神经网络模型受外界因素的干扰影响相对而言较小，例如，对于存在光照变动，对比度变动等等干扰的图像可以计算深度信息。

可选的，上述分别将多个样本图像输入初始的神经网络模型进行训练，得到每个样本图像的预测深度信息的步骤，具体可以包括：

按照每个样本图像中场景的类型，将多个样本图像划分为与场景的类型对应的图像集合；

统计多个样本图像的第一总数，以及每个图像集合中样本图像的第二总数；

将第一总数和图像集合的第二总数的比值，作为图像集合的采样权重；

选取图像集合中与采样权重对应数量个的样本图像，输入初始的神经网络模型进行训练，得到样本图像的预测深度信息。

在具体应用中，不同场景类型的样本图像的数量有一定的差别，如果按照传统方法随机从中选取一个样本图像进行训练，会出现由样本数量不均衡导致的模型过拟合，深度信息不准确的问题。因此，为了减少预设的神经网络模型的过拟合，提高深度信息的准确度，可以针对不同场景的类型对应的图像集合，设置相应的采样权重。不同图像集合的样本图像设置不同的采样权重，从而保证每种类型的样本数量的均衡，减少模型过拟合。

示例性的，按照每个样本图像中场景的类型，划分得到室外场景的图像集合ag1、室内场景的图像集合ag2以及存在人物对象的场景的图像集合ag3。统计各多个样本图像的第一总数K，图像集合ag1的第二总数为k1，图像集合ag2的第二总数为k2，以及图像集合ag3的第二总数为k3。每个图像集合的采样权重为K/ki：图像集合ag1的采样权重为K/k1，图像集合ag2的采样权重为K/k2，图像集合ag3的采样权重为K/k3。其中，数量越多的样本图像采样权重越小，数量越少的样本图像采样权重越大，这样保证在网络模型训练时不同场景类型的样本图像的数量均衡，防止模型训练出现偏差。

相应于上述方法实施例，本申请还提供一种图像处理装置。

图5是根据一示例性实施例示出的一种图像处理装置框图。如图5所示，一种图像处理装置，该装置可以包括：深度信息获取模块501、三维位置获取模块502、参数获取模块503、偏移后的三维位置获取模块504、目标图像获取模块505以及目标图像展示模块506，其中：

深度信息获取模块501，被配置为获取待处理图像的每个像素的深度信息；

像素三维位置获取模块502，被配置为根据所述深度信息和所述像素在图像坐标系中的二维位置，获得所述像素在图像采集装置坐标系中的像素三维位置；

参数获取模块503，被配置为获取视角参数，以及对焦点的对焦三维位置；其中，所述视角参数为与所述待处理图像对应的固定观察视角不同的视角；所述对焦点为改变观察所述待处理图像中场景的视角时，作为旋转轴的点；

偏移后的三维位置获取模块504，被配置为根据所述对焦三维位置、所述视角参数以及所述像素三维位置，获得所述像素的偏移后的三维位置；其中，所述偏移后的三维位置为所述图像采集装置在所述视角参数下观察处于所述像素三维位置的场景时，观察到的所述场景的三维位置；

目标图像获取模块505，被配置为分别根据所述每个像素的所述偏移后的三维位置，将所述每个像素投影至所述待处理图像的二维坐标系中，得到目标图像。

可选的，所述深度信息获取模块501，被配置为：

可选的，所述预设的神经网络，采用如下步骤训练得到：

可选的，所述像素三维位置获取模块502，被配置为：

将所述像素的所述二维位置转换为齐次坐标；

可选的，所述偏移后的三维位置获取模块504，被配置为：

计算所述像素三维位置相对于所述对焦三维位置的偏移量；

将所述像素的所述三维位置与所述像素的所述偏移距离相加，得到所述像素的偏移后的三维位置。

可选的，所述参数获取模块503，被配置为：

相应于上述方法实施例，本申请还提供一种电子设备。

图6是根据一示例性实施例示出的一种电子设备。参照图6，该电子设备可以包括：

处理器601；

用于存储处理器可执行指令的存储器602；

其中，处理器601，被配置为执行存储器602上所存放的可执行指令时，实现本申请实施例所提供的任一种图像处理方法的步骤。

图7是根据另一示例性实施例示出的电子设备700的框图。例如，电子设备700可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，健身设备，个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，以及输入/输出(I/O)的接口710。

处理组件702通常控制电子设备700的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如SRAM(Static Random Access Memory，静态随机存取存储器)，EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦除可编程只读存储器)，EPROM(Erasable Programmable Read-Only Memory，可擦除可编程只读存储器)，PROM(Programmable Read-Only Memory，可编程只读存储器)，ROM，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为装置700的各种组件提供电力。电源组件706可以包括电源管理设备，一个或多个电源，及其他与为装置700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜设备或具有焦距和光学变焦能力。

I/O接口710为处理组件702和***接口模块之间提供接口，上述***接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

在示例性实施例中，电子设备700可以被一个或多个应用ASIC(ApplicationSpecific Integrated Circuit，专用集成电路)、DSP(Digital Signal Processor，数字信号处理器)、DSPD(Digital Signal Processing Equipment，数字信号处理设备)、PLD(Programmable Logic Devices，可编程逻辑器件)、FPGA(Field Programmable GateArray，现场可编程门阵列)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图像处理方法。

另外，本申请还提供了一种非临时性计算机可读存储介质，包含于电子设备，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请实施例中任一所述的图像处理方法的步骤。

在示例性实施例中，一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器402，上述指令可由处理器401执行以完成上述方法；或者，包括指令的存储器704，上述指令可由电子设备700的处理组件器702执行以完成上述任一实施例提供的图像处理方法。例如，所述非临时性计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，光盘只读存储器)、磁带、软盘和光数据存储设备等。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述实施例中任一所述图像处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线，例如：同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线；或无线，例如：红外线、无线电、微波等方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，例如：软盘、硬盘、磁带；光介质，例如：DVD(Digital Versatile Disc，数字通用光盘)；或者半导体介质，例如：SSD(Solid StateDisk，固态硬盘)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同以及相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种图像处理方法，其特征在于，所述方法包括：

获取待处理图像的每个像素的深度信息；

2.根据权利要求1所述的方法，其特征在于，所述获取待处理图像的每个像素的深度信息的步骤，包括：

3.根据权利要求2所述的方法，其特征在于，所述预设的神经网络，采用如下步骤训练得到：

4.根据权利要求3所述的方法，其特征在于，所述分别将所述多个样本图像输入初始的神经网络模型进行训练，得到每个样本图像的预测深度信息的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述根据所述深度信息和所述像素在图像的二维坐标系中的二维位置，获得所述像素在图像采集装置坐标系中的像素三维位置的步骤，包括：

将所述像素的所述二维位置转换为齐次坐标；

6.根据权利要求5所述的方法，其特征在于，所述根据所述对焦三维位置、所述视角参数以及所述像素三维位置，获得所述像素的偏移后的三维位置的步骤，包括：

计算所述像素三维位置相对于所述对焦三维位置的偏移量；

将所述像素的所述偏移量与所述偏移矢量相乘，得到所述像素从所述像素三维位置偏移至所述偏移后的三维位置的偏移距离；

7.根据权利要求1至6任一所述的方法，其特征在于，所述获取视角参数，以及对焦点的对焦三维位置的步骤，包括：

8.一种图像处理装置，其特征在于，所述装置包括：

偏移后的三维位置获取模块，被配置为据所述对焦三维位置、所述视角参数以及该像素的所述三维位置，获得该像素的偏移后的三维位置；其中，所述偏移后的三维位置为在所述视角参数下观察处于所述像素三维位置的场景时，观察到的所述场景的三维位置；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器，被配置为执行所述存储器上所存放的可执行指令时，实现权利要求1至7任一所述的图像处理方法的步骤。

10.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得所述处理器能够执行权利要求1至7任一所述的图像处理方法的步骤。