CN113191462A - 信息获取方法、图像处理方法、装置及电子设备 - Google Patents
信息获取方法、图像处理方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113191462A CN113191462A CN202010033125.XA CN202010033125A CN113191462A CN 113191462 A CN113191462 A CN 113191462A CN 202010033125 A CN202010033125 A CN 202010033125A CN 113191462 A CN113191462 A CN 113191462A
- Authority
- CN
- China
- Prior art keywords
- information
- attribute
- relationship
- image
- corrected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 92
- 238000003672 processing method Methods 0.000 title claims description 38
- 238000012545 processing Methods 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 35
- 230000033001 locomotion Effects 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 23
- 230000009471 action Effects 0.000 claims description 16
- 230000036544 posture Effects 0.000 description 86
- 238000001514 detection method Methods 0.000 description 27
- 238000010586 diagram Methods 0.000 description 27
- 238000009877 rendering Methods 0.000 description 25
- 238000000605 extraction Methods 0.000 description 15
- 230000003993 interaction Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000003190 augmentative effect Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000011022 operating instruction Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 102100023264 Zinc finger and BTB domain-containing protein 7A Human genes 0.000 description 1
- 101710096779 Zinc finger and BTB domain-containing protein 7A Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/20—Editing of 3D images, e.g. changing shapes or colours, aligning objects or positioning parts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T15/00—3D [Three Dimensional] image rendering
- G06T15/005—General purpose rendering architectures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
- G06T19/006—Mixed reality
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2219/00—Indexing scheme for manipulating 3D models or images for computer graphics
- G06T2219/20—Indexing scheme for editing of 3D models
- G06T2219/2004—Aligning objects, relative positioning of parts
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Computer Graphics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Architecture (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种信息获取方法、图像处理方法、装置及电子设备,涉及图像处理技术领域。该信息获取方法包括:获取图像中的对象的属性特征和对象间的关系特征;根据所述属性特征对所述关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据所述关系特征对所述属性特征进行校正,根据校正后的属性特征获取对象的属性信息。本申请实施例提供的信息获取方法可以提高对信息获取的准确性。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,本申请涉及一种信息获取方法、图像处理方法、装置及电子设备。
背景技术
目标检测(object detection)是计算机视觉中从图像或视频中识别特定类别对象的一种技术。近年来,人们开始尝试利用图片的整体信息对图片进行3D对象检测,即检测对象的属性信息,如对象的位置、类别,以及不同对象之间的关系。
现有技术中,通常采用多个不同的神经网络分别对图像进行识别,分别得到对象的属性和不同对象之间的关系,但在一些情况下,例如当图像中出现外表接近的不同类别的对象时,或是出现被遮挡的对象时,单靠不同的神经网络难以分别识别对象的属性和不同对象之间的关系,信息获取的准确率较低。
发明内容
本申请提供了一种信息获取方法、图像,用于解决在将智能聊天机器人应用于与用户进行交互时,如何更为准确地输出答复信息,该技术方案如下所示:
第一方面,提供了一种信息获取方法,该方法包括:
获取图像中的对象的属性特征和对象间的关系特征;
根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息。
第二方面,提供了一种图像处理方法,该方法包括:
获取图像中对象的属性信息和关系信息;
根据属性信息和关系信息,在图像中添加虚拟对象。
第三方面,提供了一种信息获取装置,该装置包括:
第一获取模块,用于获取图像中的对象的属性特征和对象间的关系特征;
校正模块,用于根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息。
第四方面,提供了一种图像处理装置,该装置包括:
第二获取模块,用于获取图像中对象的属性信息和关系信息;
添加模块,用于根据属性信息和关系信息,在图像中添加虚拟对象。
第五方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面所示的信息获取方法所对应的操作。
第六方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第二方面所示的图像处理方法所对应的操作。
第七方面,提供了一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所示的信息获取方法。
第八方面,提供了一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第二方面所示的图像处理方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种信息获取方法、图像处理方法、装置和电子设备,与现有技术相比,本申请的信息获取方法通过采用神经网络的多个子网络对特征区域进行检测,获取图像中的对象的属性特征和对象间的关系特征;多个子网络相互联合且在检测过程中互相进行信息传递,即根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息,从而更准确的识别出目标图像中对象的属性信息和对象间的关系信息。
本申请的图像处理方法通过将属性信息和/或关系信息输入渲染预测网络,得到可渲染至图像中的虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息,可以根据图像中的真实对象的类别、姿态、和关系来对应的估计虚拟对象可能的位置、姿态及动作,从而实现虚拟、现实间的自然交互。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为现有技术中对对象三维姿态进行估计的方案的示意图;
图2a为一个示例中待识别的对象示意图;
图2b为一个示例中整体场景的示意图;
图3a为一个示例中待识别对象的示意图;
图3b为一个示例中整体场景的示意图;
图4a为现有技术中对图像进行识别的方案的示意图;
图4b为现有技术中对图像进行识别的方案的示意图;
图4c为现有技术中对图像进行识别的方案的示意图;
图4d为现有技术中对图像进行识别的方案的示意图;
图5为本申请实施例提供的一种信息获取方法流程示意图;
图6为本申请实施例提供的一种子网络相互校正的方案的示意图;
图7为本申请实施例提供的一种子网络相互校正的方案的示意图;
图8为本申请一个示例中一种信息获取方法流程示意图;
图9为本申请一个示例中对信息获取的示意图;
图10为本申请一个示例中对信息获取的示意图;
图11为一个示例中显示场景示意图以及待增加的虚拟人物示意图;
图12为现有技术中对虚拟人物进行渲染的示意图;
图13为本申请一个示例中对虚拟人物进行渲染的示意图;
图14为本申请实施例提供的一种图像处理方法流程示意图;
图15为本申请一个示例中一种图像处理方法流程示意图;
图16为本申请一个示例中对图像进行识别并渲染的示意图;
图17为本申请一个示例中一种图像处理方法流程示意图;
图18为本申请一个示例中一种图像处理方法流程示意图;
图19为本申请一个示例中一种图像处理方法流程示意图;
图20为本申请实施例提供的一种信息获取装置结构示意图;
图21为本申请实施例提供的一种图像处理装置结构示意图;
图22为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
目标检测是计算机视觉中从图像或视频中检测特定类别对象的一种技术。具体来说,对于输入的图像,能够给出图像中每个对象的包围框(bounding box),并给出对应的对象类别标签(label),在计算机视觉中有非常广泛的应用。在过去一段时间中,通常都是在二维彩色图像上(2D RGB)进行目标检测,所得到的包围框也是一个二维的矩形。在包含深度数据的三维场景中(RGB-D),单纯了获得对象的2D包围框是不足够的,还需要对于对象的三维姿态(3D pose)进行准确的估计,进而得到一个长方体状的包围框。
如图1所示,在进行对象检测和三维姿态估计时,对于原始的输入图像,会进行多次卷积操作,得到不同尺度的特征,然后再将各个尺度的特征进行拼接融合,并在其基础上进行对象分类,以及包围框回归(bounding box regression)。
现有方法通常只能利用图像中的局部信息对对象的三维姿态进行估计,通常采用多个不同的检测网络分别对图像进行检测,然而,在一些情况下,如外表接近的不同类别对象、被遮挡的对象等,单采用一种网络检测图像的局部,并不能很好的判断出对象的类别和姿态。
如图2a所示,单纯从图2a来看,很难区分图2a中所示的是一幅画还是一个电视,结合图2b所示,如果能够将整张图片综合考虑,通过分析图像中对象的关系,可以得到更准确的结果。如图2b中,可以根据对象挂在墙上,并位于沙发后面的信息,就容易推断出,这是一个画框而不是电视。
同样的,如图3a所示,难以判断图3a所示的对象的类别和朝向,结合图3b所示,可以根据床、左边,以及灯下面的关系,判断出该对象为床头柜。
近两年在学术界,部分研究人员开始尝试利用图片的整体信息来改善3D对象检测的效果。
目前有如下几种方式进行3D图像检测:
1)结合图4a和图4b所示,对于输入的图像,首先进行初步的对象检测及姿态估计,然后利用预先准备好的CAD模型,对场景进行重新建模。对于输入图像和建模后的场景图,分别提取曲面的法线方向(surface normal),深度图(depth map),以及对象遮罩(objectmask),并将其两两进行比较,以修正对象姿态估计的结果。修正后,再次进行渲染和比较,通过迭代的方式提高对象姿态估计的准确度。
这种方法,虽然在一定程度上利用了整个场景的信息来提高对象姿态估计的性能,但是依然存在很多不足:首先,初始的对象检测和姿态估计以及用于比较的曲面法线方向、深度图、对象遮罩都是从输入图像中单独提取的。在提取过程中,彼此间并没有信息的传递。其次,需要使用对象的CAD模型,才能根据对象类别和姿态,渲染出场景图,进而惊醒比较。然而实际使用中,无法获取场景中各种对象的精确模型,如果使用粗略的近似模型,必然会造成即便正确估计了对象姿态和种类,但渲染图和输入图在特征层面依然有较大的差异。
2)如图4c所示,还可以采用整体三维室内场景理解,整体三维室内场景理解是指在三维环境下,联合对象边界框、房间布局和摄像机进行室内场景理解。图4c中的模型在只给出一幅RGB图像的情况下,能同时解决所有三个任务,即2D检测、整体3D推理和2D投影。该方法的实质是通过对目标进行参数化而不是直接估计目标来改进预测,与单独训练不同模块的协同训练进行对比,对三维边界框、二维投影和物理约束采用三种协作损失来估计几何一致且物理上可信的三维场景。
3)如图4d所示,充分利用两个互补的数据源从彩色深度图像进行6D目标姿态估计,提出了一种密集聚变模型,这种模型是从彩色深度图像中估计一组已知对象的6D姿态的通用框架,该模型是一种异构的体系结构,它对两个数据源分别进行处理,并使用一种新的密集融合网络来提取像素级的密集特征嵌入,从中估计姿态。
对于对象的三维姿态进行估计,现有技术中通常采用多个不同的子网络分别对图像进行检测,多个子网络分别用来进行三个任务:对象类别,对象姿态,以及对象间关系识别。每个子网络中都包含多个卷积/全连接层。现有方法会将三个网络作为独立的任务来分别训练,或者只解决其中一个或两个任务。在独立训练的时候,不同网络所提取的特征并不能在网络间进行传递,因此,无法利用其他网络的信息对当前网络特征进行更新。
因此,本发明提出了将对象类别、姿态、对象间关系识别三个相关联的任务联合训练的方法,来提高***性能。具体来说,通过在三个分支后面增加具有门限的信息传递***(Gated message passing)来实现三个网络间的特征修正(feature refinement),并使用修正后的特征(refined feature)来进行最终的识别。
针对现有技术中所存在的上述至少一个技术问题或者需要改善的地方,本申请实施例提供了一种图像检测方法、装置、电子设备及计算机可读存储介质,本申请的图像检测方法可以采用神经网络的多个子网络对特征区域进行检测,获取图像中的对象的属性特征和对象间的关系特征;多个子网络相互联合且在检测过程中互相进行信息传递,即根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息,从而更准确的识别出目标图像中对象的属性信息和对象间的关系信息。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例中提供了一种可能的实现方式,如图5所示,提供了一种信息获取方法,可以包括以下步骤:
步骤S501,获取图像中的对象的属性特征和对象间的关系特征。
其中,图像可以是彩色图像,也可以是包含有深度信息的彩色图像;图像的特征区域可以是图像中具有关联的对象对形成的区域。
在具体实施过程中,可以通过AR(Augmented Reality,增强现实)设备等图像采集设备获取图像。
具体的,可以使用现有的基础网络对图像进行特征提取以及对象检测。对象检测模块在得到对象候选框后,会对对象两两进行组合,筛选出具有关联的对象对,形成特征区域,从而得到图像。
具体的,获取图像中的对象的属性特征和对象间的关系特征,可以包括:
将图像输入神经网络进行识别,在识别过程中神经网络的各个子网络的中间层结构输出属性特征和关系特征。
步骤S502,根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息。
其中,属性信息包括对象的类别信息和对象的姿态信息;神经网络包括多个子网络,多个子网络包括用于识别类别信息的类别识别网络、用于识别姿态信息的姿态识别网络,以及用于识别关系信息的关系识别网络。
本申请实施例的一种可能的实现方式,属性信息包括对象的类别信息、对象的姿态信息。
具体的,对象的类别信息用于该对象具体是什么对象,对象的姿态信息可以是对象在目标图中的旋转角度,对象之间的关联关系可以包括对象的动作信息,还可以包括两个对象之间的联系,如“人读书”中的“读”就是指关联关系,“画挂在墙上”也可以是中的“挂在……上”也可以是关联关系。
可以理解的是,识别对象的类别的同时,可以直接识别出对象所在的位置,即可以直接得到对象的位置信息。
如图6所示,在识别过程中,多个子网络之间可以相互传递信息,对识别过程中的对象的属性特征和对象间的关系特征进行校正,从而得到对象的属性信息和关系信息。
上述实施例中,通过采用神经网络的多个子网络对特征区域进行检测,获取图像中的对象的属性特征和对象间的关系特征;多个子网络相互联合且在检测过程中互相进行信息传递,即根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息,从而更准确的识别出目标图像中对象的属性信息和对象间的关系信息。
本申请实施例的一种可能的实现方式,步骤S501之前,还可以包括:
(1)获取初始图像,基于特征提取网络对初始图像进行特征提取,得到共享特征图;
(2)基于识别网络识别出共享特征图中的对象;
(3)从所识别的对象中筛选出具有关联的对象对,基于具有关联的对象对形成特征区域,将特征区域作为图像。
具体的,特征提取网络可以采用VGG16网络,VGG16网络是一种卷积申请网络,它包含了16个卷积层和全连接层,VGG网络简化了神经网络结构;识别网络可以采用Faster R-CNN网络,Faster R-CNN网络是一种神经网络,包括卷积层、RPN网络(Region ProposalNetwork,区域生成网络)、RoI pooling(感兴趣区域池化)以及分类和回归网络。
在具体实施过程中,对初始图像进行特征提取、以及对共享特征图进行识别的过程也可以采用其他网络,在此不作限制。
具体的,识别出共享特征图中的对象后,会对对象两两进行组合,筛选出具有关联的对象对,形成候选区域。
本申请实施例的一种可能的实现方式,将图像输入神经网络进行识别,在识别过程中神经网络的各个子网络的中间层结构输出属性特征和关系特征,可以包括:
a、获取图像中的对象3特征,将对象特征输入类别识别网络,得到类别识别网络的中间层结构所输出的类别特征;
b、获取图像中的姿态特征,将姿态特征输入姿态识别网络,得到姿态识别网络的中间层结构所输出的姿态特征;
c、获取图像的场景特征,将场景特征输入关系识别网络,得到关系识别网络的中间层结构所输出的关系特征。
本申请实施例的一种可能的实现方式,如图7所示,步骤S502的根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息,可以包括:
(1)根据属性特征对关系特征进行校正得到校正后的关系特征,和/或根据关系特征对属性特征进行校正得到校正后的属性特征。
其中,属性特征包括识别图像中的对象的类别信息的过程中得到的类别特征,还包括识别图像中的对象的姿态信息的过程中得到的姿态特征;关系特征为识别图像中对象间的关系信息的过程中得到的特征。
在具体实施过程中,对图像进行识别时,根据属性特征对关系特征进行校正,和/或根据关系特征对属性特征进行校正,但各个子网络的参数并不进行更改。
(2)将校正后的关系特征和/或校正后的属性特征分别输入各个子网络的中间层结构的下一层网络结构继续识别,得到属性信息和关系信息。
具体的,将校正后的第一属性信息输入类别识别网络的中间层结构的下一层网络结构继续识别,得到对象的类别信息;将校正后的第二属性信息输入姿态识别网络的中间层结构的下一层网络结构继续识别,得到对象的姿态信息;将校正后的关系特征输入关系识别网络的中间层结构的下一层网络结构继续识别,得到对象间的关系信息。在具体实施过程中,类别识别网络、姿态识别网络和关系识别网络均可以采用CNN(ConvolutionalNeural Networks,卷积神经网络),Faster RCNN和YOLO(You Only Look Once:Unified,Real-Time Object Detection,一种神经网络)等等网络,具体采用的网络类型在此不作限制。
以对类别识别网络的某一层网络结构的输出信息的校正为例,可以将类别识别网络中某一层网络结构输出的类别特征加上姿态识别网络中某一层网络结构的部分输出的姿态特征以及关系识别网络的某一层网络结构的输出的部分的关系特征,得到类别识别网络的某一层网络结构的校正后的类别特征,再将校正后的类别特征输入到类别识别网络的该一层网络结构的下一层网络结构,得到最后的对象的类别信息。
本申请实施例的一种可能的实现方式,根据属性特征对关系特征进行校正得到校正后的关系特征,和/或根据关系特征对属性特征进行校正得到校正后的属性特征,可以包括:
a、基于属性特征中的类别特征、属性特征中的姿态特征、关系特征和预设的第一权重系数数组获取校正后的类别特征;
b、基于类别特征、姿态特征、关系特征和预设的第二权重系数数组获取校正后的姿态特征;
c、基于类别特征、姿态特征、关系特征和预设的第三权重系数数组获取校正后的关系特征。
其中,第一权重系数组可以包括在对类别特征校正的过程中,类别特征的权重系数、姿态特征的权重系数和关系特征的权重系数;同样的,第二权重系数可以是对姿态特征校正的过程中,类别特征的权重系数、姿态特征的权重系数和关系特征的权重系数;第三权重系数可以是对关系特征校正的过程中,类别特征的权重系数、姿态特征的权重系数和关系特征的权重系数。
以对类别特征校正为例,可以通过如下方式进行校正:
第一权重系数数组为[a11,a12,a13],校正后的类别特征为:
同样的,校正后的姿态特征可以根据第二权重系数数组进行计算,校正后的关系特征可以根据第三权重系数数组进行计算。
第一权重系数数组、第二权重系数数组和第三权重系数数组的数值可以根据类别特征、姿态特征和关系特征的重要程度设置。
上述实施例中,对类别特征、姿态特征和关系特征之间相互校正,得到与类别特征对应的校正后的类别特征、姿态特征对应的校正后的姿态特征以及与关系特征对应的校正后的关系特征,以便于结合姿态信息和关系信息校正类别信息、结合类别信息和关系信息校正姿态信息,以及结合类别信息和姿态信息校正关系信息,以提高对对象的类别信息、姿态信息和对象间的关系信息的准确性。
本申请实施例的一种可能的实现方式,基于识别神经网络的多个子网络对特征区域进行识别之前,还可以包括:
基于多个样本图像对初始识别神经网络进行训练,得到识别神经网络;其中,每一样本图像已对应设置有对象的属性信息和对象间的关系信息。
具体的,将已设置有对象的属性信息和对象间的关系信息的多个样本图像输入到初始识别神经网络中,初始识别神经网络包括三个相互联合且在识别过程中互相进行信息校正的子网络,基于样本图像所设置的对象的真实的属性信息和真实的对象间的关系信息、以及初始识别神经网络输出的识别得到的属性信息和关系信息,对初始识别神经网络的参数进行调整,例如可以计算真实的属性信息、真实的关系信息和识别得到的属性信息和关系信息之间的损失值,通过损失值调整初始识别神经网络的参数,直至计算得到的损失值小于预设阈值,得到训练后的识别神经网络。
需要说明的是,在训练过程中,初始神经网络的三个子网络之间的识别信息也相互校正,同时初始神经网络的三个子网络之间的参数在不断调整;但训练得到的神经网络,在对图像进行识别时,识别过程中三个子网络之间进行信息传递,即识别信息在相互校正,但三个子网络的网络参数并不更改。
也可以对初始识别神经网络训练预设次数,得到训练后的识别神经网络,具体对于初始识别神经网络的训练方式在此不作限制。
上述的信息获取方法,通过采用神经网络的多个子网络对特征区域进行检测,获取图像中的对象的属性特征和对象间的关系特征;多个子网络相互联合且在检测过程中互相进行信息传递,即根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息,从而更准确的识别出目标图像中对象的属性信息和对象间的关系信息。
进一步的,对类别特征、姿态特征和关系特征之间相互校正,得到与类别特征对应的校正后的类别特征、姿态特征对应的校正后的姿态特征以及与关系特征对应的校正后的关系特征,以便于结合姿态信息和关系信息校正类别信息、结合类别信息和关系信息校正姿态信息,以及结合类别信息和姿态信息校正关系信息,以提高对对象的类别信息、姿态信息和对象间的关系信息的准确性。
为了更好地理解上述的信息获取方法,以下详细阐述一个本发明的信息获取的示例:
在一个示例中,如图8所示,本申请提供的信息获取方法,可以包括如下步骤:
1)获取待识别的图像,基于VGG16网络来提取图像特征,得到共享特征;
2)采用Faster R-CNN网络对共享特征进行对象识别,得到特征区域;
3)基于特征区域分别截取候选对象区域、候选对象周围区域以及关联对象对所在的区域;其中,候选对象区域用于表示特征区域中的对象所在的区域;候选对象周围区域用于表示特征区域中对象周围的区域;关联对象对所在的区域表示特征区域中关联的对象对所在的区域;
4)将所截取的选对象区域、候选对象周围区域以及关联对象对所在的区域分别输入类别识别网络以检测对象特征、输入姿态识别网络以检测对象的姿态特征,以及输入关系识别网络以检测对象的场景图特征;
5)在检测过程中类别识别网络、姿态识别网络和关系识别网络之间相互进行特征修正,即信息校正;
6)检测网络输出对象的属性信息,即对象类别,如人、帽子或风筝等;输出姿态信息,以及输出对象间的关系信息,即输出场景图,如人戴帽子、人放风筝和人站在草地等等。
上述示例中,类别识别网络、姿态识别网络和关系识别网络之间相互联合且在检测过程中互相进行信息校正,即可以将属性信息和对象间的关系信息相互校正,从而更准确的识别出目标图像中对象的属性信息和对象间的关系信息。
本申请的图像检测方法,其包含对象检测、姿态估计、对象间关系识别的三维场景理解有非常重要的作用。本申请中联合估计模块可以提供高准确率的结果,相较于现有的独立训练方法,充分利用了整个场景及对象间的关系。其检测结果不仅可以用于增强现实***,也可以用在智能家居、自动驾驶、安防等领域。
此外,联合估计模块也可以为其他应用提供必要的信息作为输入。例如,在智能家居中,利用本申请识别到的对象关系,如图9所示,可以识别“人-跌倒-地”这样事件,从而发出警报,提醒用户。
当对象间存在遮挡时,利用周围对象的信息,该***能够更好的识别被遮挡对象的类别和姿态。如图10所示,图10右方的椅子2,大面积被前方的桌子和左侧的椅子1所遮挡,现有方法通常无法识别到该对象类别以及其三围姿态。利用本发明中的联合训练模块,能够更准确的识别到其三维姿态及对象类别。
本申请还提出了虚拟对象预测(virtual object prediction)模块,根据场景中真实对象的姿态关系来预测虚拟对象在场景中可能的位置和姿态,以及与周围对象间的关系,使其与周围环境有真实自然的交互。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对针对图像处理的现有技术进行简单描述。
当真实场景中的椅子旁边有一个书架,当增强现实***在场景中增加一个虚拟人物的时候,为了与场景真实的互动,那么这个人可能会坐在椅子上,看一本书;如果椅子面对一个放着笔记本电脑的桌子的时候,虚拟人物可以坐在椅子上并使用桌子上的电脑;但如果椅子背对桌子,但是椅子面向一个电视的话,那么虚拟人物可能坐在椅子上看电视。总的来说,这个***会根据场景中的真实对象的类别、姿态、和关系来对应的估计虚拟对象可能的位置姿态及动作,从而实现虚拟、现实间的自然交互。
当AR***需要在如图11左边所示的场景中增加右边所示的虚拟人物或对象时,例如在下图的沙发上增加一个虚拟人物时,通常会直接在沙发上渲染虚拟人物,并不会结合场景对虚拟人物的姿态进行调整,最后生成的图像如图12所示,虚拟人物会直接站在沙发上,与周围的场景融合并不自然。
然而利用本申请的图像处理方法,可以能够结合周围场景,渲染出一个坐在沙发上看书的人,如图13所示,显示效果会更加真实自然。
以下将结合实施例和附图对本申请的图像处理方法进行详细阐述。
本申请实施例中提供了一种可能的实现方式,如图14所示,提供了一种图像处理方法,可以包括以下步骤:
步骤S1401,获取图像中对象的属性信息和关系信息;
步骤S1402,根据属性信息和关系信息,在图像中添加虚拟对象。
具体的,可以通过上述实施例中的信息获取方法,获取图像中的对象的属性信息和/或关系信息。
具体的,根据属性信息和关系信息,在图像中添加虚拟对象可以包括:
(1)根据属性信息和关系信息,得到虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息;
在具体实施过程中,可以将属性信息和关系信息输入渲染预测网络,得到可渲染至图像中的虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息。
其中,虚拟位置信息用于表示虚拟对象可以渲染的位置,虚拟姿态信息用于表示虚拟对象的旋转角度,虚拟动作信息用于表示虚拟对象的动作。
具体的,虚拟对象可以包括虚拟人物,也可以包括虚拟物体。
具体的,可渲染至图像表示当将虚拟对象以符合所预测的虚拟位置信息、虚拟姿态信息和虚拟动作信息渲染至图像时,可以得到真实、自然的场景。
在具体实施过程中,渲染预测网络包括三个子网络,三个子网络分别用于预测对象的位置信息、虚拟对象的姿态信息和虚拟对象的动作信息。
三个子网络中:位置回归网络使用对象特征作为输入,通过多个卷积(convolutional)、采样(pooling)层、全连接(Fully connected)来预测虚拟对象合适的位置;姿态预测网络是一个用来估计虚拟对象在场景中三维姿态的回归网络;动作候选网络预测虚拟对象和周围对象之间的关系,其输出是一个包含虚拟对象和真实对象的场景图(scene graph)。
(2)基于虚拟位置信息、虚拟姿态信息和虚拟动作信息,在图像中添加虚拟对象。
具体的,渲染预测网络输出的虚拟位置信息中可以包括至少一个位置,虚拟姿态信息中可以包括虚拟对象在各个位置的不同姿态,虚拟动作信息可以包括虚拟对象的至少一种动作,当预测得到多种姿态、位置和动作时,用户可以从预测的多种姿态、位置和动作中选取一种姿态、位置和动作,根据所选取的姿态、位置和动作渲染虚拟对象。
在具体实施过程中,基于虚拟位置信息、虚拟姿态信息和虚拟动作信息,在图像中渲染出对应的虚拟对象,可以是以符合虚拟位置信息、符合虚拟姿态信息、符合虚拟动作信息的形式在图像中渲染出对应的虚拟对象。
上述实施例中,通过将属性信息和关系信息输入渲染预测网络,得到可渲染至图像中的虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息,可以根据图像中的真实对象的类别、姿态、和关系来对应的估计虚拟对象可能的位置、姿态及动作,从而实现虚拟、现实间的自然交互。
本申请实施例中提供了一种可能的实现方式,渲染预测网络的三个子网络也可以互相联合,在在分别预测对象的位置信息、虚拟对象的姿态信息和虚拟对象的动作信息的过程中,也可以相互进行信息校正,使得输入的虚拟对象和现实之间的交互更加自然。
如图15所示,在一个示例中,获取包含有深度图像的彩色图像,将该彩色图像输入联合估计模块进行估计,即采用上述实施例的信息获取方法进行识别,得到该彩色图像中的对象的类别信息、姿态信息和关系信息,即图中所示的类别、三维姿态和场景图,将对象的类别信息、姿态信息和关系信息输入渲染预测网络,即图中的虚拟对象预测模块进行预测,得到可渲染至图像中的虚拟对象(即图中的虚拟物体)的虚拟位置信息、虚拟姿态信息和虚拟动作信息。
以图16所示为例,对于左上图所示的场景,通过使用本申请的联合估计模块,即本申请的信息获取方法,能够获取图像中每个对象的类别、三维姿态、及对象间的关系。当AR***需要在场景中增加一个虚拟对象(黄色的Poke-mon),虚拟对象预测模块,即采用本申请的图像处理方法会在利用前面的识别结果,预测该虚拟对象可能出现的位置、姿态以及与周围真实对象的关系(右上图)。该预测结果会发送给CG引擎,最终在真是场景中比较自然的渲染虚拟对象(下图)。
本申请实施例中提供了一种可能的实现方式,图像处理方法还可以包括:
(1)针对多个样本图像中的每一样本图像,获取该样本图像中除预设对象以外的其他场景部分;
(2)将场景部分的对象的属性信息和关系信息作为输入,将预设对象的位置信息、姿态信息和动作信息作为输出,对初始渲染预测网络进行训练,得到渲染预测网络。
具体的,针对每一样本图像,将样本图像中的预设对象和其他场景部分分离,然后获取其他场景部分的属性信息和关系信息,获取预设对象的位置信息、姿态信息和动作信息,对初始渲染预测网络进行训练。
例如,样本图像中包括人坐在椅子上,可以将人和椅子分离,获取椅子的属性信息和椅子与地面的关系信息,并获取人的位置信息、姿态信息和动作信息,以人的真实的位置信息、姿态信息和动作信息为输出,以椅子的属性信息和椅子与地面的关系信息为输入,对初始渲染预测网络进行训练,得到渲染预测网络。
为了实现这一功能,我们首先设计了一种虚拟对象数据库生成的方法。具体来说,首先从现有数据集中选取含有人的数据,即提取预设对象的数据,接下来使用前面提到的联合估计模块,即上述的信息获取方法,从真实数据中提取对象类别、姿态、关系信息(即上述的对象属性信息和关系信息),最终,将人相关的信息与其他信息分离,分别作为初始渲染预测网络输出的目标(人的位置、姿态、关系)和输入(其他对象的位置、姿态、关系),生成新的数据集。
在具体实施过程中,虚拟对象预测网络,能够对于一张输入的图片,首先使用联合各级模块提取场景中真实对象的类别、姿态、及场景图(场景图可以理解为一个矩阵,该矩阵大小为N×N大小,N为识别到的对象的数量,该矩阵中的每一行和每一列分别与一个对象对应,矩阵中的每个元素与对象间关系对应,然后将其特征作为输入,传递给虚拟对象预测模块。该模块包含虚拟对象位置回归、姿态预测、动作候选三个子网络,最终会输出能够让虚拟对象与场景自然融合的候选位置、姿态、及动作。
为了更好地理解上述的图像处理方法,以下详细阐述一个本发明的图像处理方法的示例:
如图17所示,在一个示例中,本申请的图像处理方法包括如下步骤:
1)虚拟现实设备采集图像;
2)将图像进行联合估计,即进行信息获取,得到图像中的对象的属性信息及关系信息;
3)当虚拟现实设备接收到对于虚拟对象的渲染指令时,即接收到控制命令时,将对象的属性信息及关系信息输入虚拟对象预测网络,即渲染预测网络进行预测,即图中所示的虚拟物体预测,得到预测的虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息;
4)CG引擎根据预测得到的虚拟位置信息、虚拟姿态信息和虚拟动作信息,在图像中渲染虚拟对象,即图中的渲染虚拟物体。
上述示例中,联合估计模块获取AR设备采集到的彩色及深度图像(RGB-D)作为输入数据,通过一个深度学习网络来计算场景中对象的属性(类别,姿态)以及对象间的关系(对应上图对象属性及关系)。当AR***接收到用户或***发出的控制命令,在场景中增加虚拟对象时,虚拟对象预测模块会将通过前一模块得到的对象属性及关系作为输入,通过深度学习网络,输出虚拟对象的位置、姿态、以及与周围对象之间的交互(对应于上图的动作预测)。最终,CG引擎根据虚拟对象预测的结果在场景中渲染虚拟对象。
视觉特征提取包含:对象识别,单一对象视觉特征提取(对应上图中的当前对象特征提取),临近对象视觉特征提取(对应上图中的周边对象特征提取),整张图像特征提取(对应上图中的完整图像特征提取),物位尺寸、位置特征提取,对象间关系特征提取等。
为了更好地理解上述的图像处理方法,以下详细阐述一个本发明的图像处理方法的示例:
如图18所示,在一个示例中,本申请的图像处理方法包括如下步骤:
1)获取输入图像,将输入图像输入CNN网络进行特征提取,得到共享特征图;
2)将共享特征图输入RPN网络,进行目标识别,得到特征区域;
3)将特征区域输入联合估计网络,即识别神经网络,分别得到输入图像中的对象的属性信息和对象之间的关系信息,即对象类别、对象的3D姿势和场景图;
4)将对象的属性信息及关系信息输入虚拟对象预测网络,即渲染预测网络进行预测,得到预测的虚拟对象的虚拟位置信息(即图中的虚拟物***置预测)、虚拟姿态信息和虚拟动作信息;或者是指定虚拟对象的虚拟位置信息(即图中的指定虚拟物***置),将对象的属性信息及关系信息输入虚拟对象预测网络,得到虚拟姿态信息和虚拟动作信息。
为了更好地理解上述的图像处理方法,以下详细阐述一个本发明的图像处理方法的示例:
如图19所示,在一个示例中,本申请的图像处理方法包括如下步骤:
1)获取包含有深度图像的彩色图像,即图中所示的RGB-D图像;
2)从RGB-D图像中获取候选区域;
3)对候选区域进行联合估计,即采用三个子网络,分别进行类别特征、姿态特征和场景特征图的识别;
4)在识别过程中,三个子网络相互联合且互相进行信息校正,得到校正类别特征、校正姿态特征和校正场景特征图;
5)基于校正类别特征、校正姿态特征和校正场景特征图识别得到彩色图像中对象类别、3D姿态和场景图;
6)基于场景图进行虚拟对象的位置、姿态和动作预测(即图中的虚拟物***置和姿态预测和虚拟物体动作预测)。
上述的图像处理方法,通过将属性信息和关系信息输入渲染预测网络,得到可渲染至图像中的虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息,可以根据图像中的真实对象的类别、姿态、和关系来对应的估计虚拟对象可能的位置、姿态及动作,从而实现虚拟、现实间的自然交互。
上述实施例通过方法流程的角度介绍信息获取方法,下述通过虚拟模块的角度进行介绍,具体如下所示:
本申请实施例提供了一种信息获取装置200,如图20所示,该装置200可以包括第一获取模块201和校正模块202,其中:
第一获取模块201,用于获取图像中的对象的属性特征和对象间的关系特征;
校正模块202,用于根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息。上述的信息获取装置,通过采用神经网络的多个子网络对特征区域进行检测,获取图像中的对象的属性特征和对象间的关系特征;多个子网络相互联合且在检测过程中互相进行信息传递,即根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息,从而更准确的识别出目标图像中对象的属性信息和对象间的关系信息。
本申请实施例的一种可能的实现方式,第一获取模块201在获取图像中的对象的属性特征和对象间的关系特征时,具体用于:
将图像输入神经网络进行识别,在识别过程中神经网络的各个子网络的中间层结构输出属性特征和关系特征;
其中,属性信息包括对象的类别信息和对象的姿态信息;神经网络包括多个子网络,多个子网络包括用于识别类别信息的类别识别网络、用于识别姿态信息的姿态识别网络,以及用于识别关系信息的关系识别网络。
本申请实施例的一种可能的实现方式,校正模块202在根据属性特征对关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据关系特征对属性特征进行校正,根据校正后的属性特征获取对象的属性信息时,具体用于:
根据属性特征对关系特征进行校正得到校正后的关系特征,和/或根据关系特征对属性特征进行校正得到校正后的属性特征;
将校正后的关系特征和/或校正后的属性特征分别输入各个子网络的中间层结构的下一层网络结构继续识别,得到属性信息和关系信息。本申请实施例的一种可能的实现方式,校正模块202在根据属性特征对关系特征进行校正得到校正后的关系特征,和/或根据关系特征对属性特征进行校正得到校正后的属性特征时,具体用于:
基于属性特征中的类别特征、属性特征中的姿态特征、关系特征和预设的第一权重系数数组获取校正后的类别特征;
基于类别特征、姿态特征、关系特征和预设的第二权重系数数组获取校正后的姿态特征;
基于类别特征、姿态特征、关系特征和预设的第三权重系数数组获取校正后的关系特征。本申请实施例提供了一种图像处理装置210,如图21所示,该装置210可以包括第二获取模块211和添加模块212,其中:
第二获取模块211,用于获取图像中对象的属性信息和关系信息;
添加模块212,用于根据属性信息和关系信息,在图像中添加虚拟对象。
上述的图像处理装置,通过将属性信息和关系信息输入渲染预测网络,得到可渲染至图像中的虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息,可以根据图像中的真实对象的类别、姿态、和关系来对应的估计虚拟对象可能的位置、姿态及动作,从而实现虚拟、现实间的自然交互。
本申请实施例的一种可能的实现方式,添加模块212在根据属性信息和关系信息,在图像中添加虚拟对象时,具体用于:
根据属性信息和关系信息,得到虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息;
基于虚拟位置信息、虚拟姿态信息和虚拟动作信息,在图像中添加虚拟对象。
本公开实施例的图片的信息获取装置可执行本公开的实施例所提供的一种图片的信息获取方法,其实现原理相类似,本公开各实施例中的图片的信息获取装置中的各模块所执行的动作是与本公开各实施例中的图片的信息获取方法中的步骤相对应的,对于图片的信息获取装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的信息获取方法中的描述,此处不再赘述。
本公开实施例的图片的图像处理装置可执行本公开的实施例所提供的一种图片的图像处理方法,其实现原理相类似,本公开各实施例中的图片的图像处理装置中的各模块所执行的动作是与本公开各实施例中的图片的图像处理方法中的步骤相对应的,对于图片的图像处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的图片的图像处理方法中的描述,此处不再赘述。
上面从功能模块化的角度对本申请实施例提供的信息获取装置和图像处理装置进行介绍,接下来,将从硬件实体化的角度对本申请实施例提供的电子设备进行介绍,并同时对电子设备的计算***进行介绍。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的信息获取方法。与现有技术相比,本申请中的信息获取方法可以更准确的识别出图像中对象的属性信息和对象间的关系信息。
基于与本公开的实施例中所示的方法相同的原理,本公开的实施例中还提供了一种电子设备,该电子设备可以包括但不限于:处理器和存储器;存储器,用于存储计算机操作指令;处理器,用于通过调用计算机操作指令执行实施例所示的图像处理方法。与现有技术相比,本申请中的图像处理方法可以实现虚拟、现实间的自然交互。
在一个可选实施例中提供了一种电子设备,如图22所示,图22所示的电子设备2200包括:处理器2201和存储器2203。其中,处理器2201和存储器2203相连,如通过总线2202相连。可选地,电子设备2200还可以包括收发器2204。需要说明的是,实际应用中收发器2204不限于一个,该电子设备2200的结构并不构成对本申请实施例的限定。
处理器2201可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器2201也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线2202可包括一通路,在上述组件之间传送信息。总线2202可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线2202可以分为地址总线、数据总线、控制总线等。为便于表示,图22中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2203可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器2203用于存储执行本申请方案的应用程序代码,并由处理器2201来控制执行。处理器2201用于执行存储器2203中存储的应用程序代码,以实现前述方法实施例所示的内容。
其中,电子设备包括但不限于:移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图22示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,本申请中的信息获取方法可以更准确的识别出图像中对象的属性信息和对象间的关系信息;本申请中的图像处理方法可以实现虚拟、现实间的自然交互。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行***、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的***、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的***来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“获取图像的模块”。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种信息获取方法,其特征在于,包括:
获取图像中的对象的属性特征和对象间的关系特征;
根据所述属性特征对所述关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据所述关系特征对所述属性特征进行校正,根据校正后的属性特征获取对象的属性信息。
2.根据权利要求1所述的方法,其特征在于,所述获取图像中的对象的属性特征和对象间的关系特征,包括:
将所述图像输入神经网络进行识别,在识别过程中所述神经网络的各个子网络的中间层结构输出所述属性特征和所述关系特征;
其中,所述属性信息包括对象的类别信息和对象的姿态信息;所述神经网络包括多个子网络,所述多个子网络包括用于识别所述类别信息的类别识别网络、用于识别所述姿态信息的姿态识别网络,以及用于识别所述关系信息的关系识别网络。
3.根据权利要求2所述的方法,其特征在于,根据所述属性特征对所述关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据所述关系特征对所述属性特征进行校正,根据校正后的属性特征获取对象的属性信息,包括:
根据所述属性特征对所述关系特征进行校正得到校正后的关系特征,和/或根据所述关系特征对所述属性特征进行校正得到校正后的属性特征;
将校正后的关系特征和/或校正后的属性特征分别输入对应各个子网络的中间层结构的下一层网络结构继续识别,得到所述属性信息和所述关系信息。
4.根据权利要求3所述的方法,其特征在于,所述根据所述属性特征对所述关系特征进行校正得到校正后的关系特征,和/或根据所述关系特征对所述属性特征进行校正得到校正后的属性特征,包括:
基于所述属性特征中的类别特征、所述属性特征中的姿态特征、所述关系特征和预设的第一权重系数数组获取校正后的类别特征;
基于所述类别特征、所述姿态特征、所述关系特征和预设的第二权重系数数组获取校正后的姿态特征;
基于所述类别特征、所述姿态特征、所述关系特征和预设的第三权重系数数组获取校正后的关系特征。
5.一种图像处理方法,其特征在于,包括:
获取图像中对象的属性信息和关系信息;
根据所述属性信息和所述关系信息,在所述图像中添加虚拟对象。
6.根据权利要求5所述的图像处理方法,其特征在于,所述根据所述属性信息和所述关系信息,在所述图像中添加虚拟对象,包括:
根据所述属性信息和所述关系信息,得到虚拟对象的虚拟位置信息、虚拟姿态信息和虚拟动作信息;
基于所述虚拟位置信息、虚拟姿态信息和虚拟动作信息,在所述图像中添加虚拟对象。
7.一种信息获取装置,其特征在于,包括:
第一获取模块,用于获取所述图像中的对象的属性特征和对象间的关系特征;
校正模块,用于根据所述属性特征对所述关系特征进行校正,根据校正后的关系特征获取对象间的关系信息,和/或根据所述关系特征对所述属性特征进行校正,根据校正后的属性特征获取对象的属性信息。
8.一种图像处理装置,其特征在于,包括:
第二获取模块,用于获取图像中对象的属性信息和关系信息;
添加模块,用于根据所述属性信息和所述关系信息,在所述图像中添加虚拟对象。
9.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1至4任一项所述的信息获取方法。
10.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求5或6所述的图像处理方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至4任一项所述的信息获取方法。
12.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求5或6所述的图像处理方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010033125.XA CN113191462A (zh) | 2020-01-13 | 2020-01-13 | 信息获取方法、图像处理方法、装置及电子设备 |
KR1020200165002A KR20210091033A (ko) | 2020-01-13 | 2020-11-30 | 객체 정보 추정과 가상 객체 생성을 위한 전자 장치 및 전자 장치의 동작 방법 |
US17/146,895 US20210217194A1 (en) | 2020-01-13 | 2021-01-12 | Method and apparatus with object information estimation and virtual object generation |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010033125.XA CN113191462A (zh) | 2020-01-13 | 2020-01-13 | 信息获取方法、图像处理方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113191462A true CN113191462A (zh) | 2021-07-30 |
Family
ID=76972275
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010033125.XA Pending CN113191462A (zh) | 2020-01-13 | 2020-01-13 | 信息获取方法、图像处理方法、装置及电子设备 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20210091033A (zh) |
CN (1) | CN113191462A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102415616B1 (ko) * | 2021-10-18 | 2022-07-01 | 라이트하우스(주) | 예술품의 이미지 표준화 기반 교육 및 거래 서비스 제공 방법, 장치 및 시스템 |
-
2020
- 2020-01-13 CN CN202010033125.XA patent/CN113191462A/zh active Pending
- 2020-11-30 KR KR1020200165002A patent/KR20210091033A/ko active Search and Examination
Also Published As
Publication number | Publication date |
---|---|
KR20210091033A (ko) | 2021-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sahu et al. | Artificial intelligence (AI) in augmented reality (AR)-assisted manufacturing applications: a review | |
US20200380769A1 (en) | Image processing method and apparatus, storage medium, and computer device | |
CN111797753B (zh) | 图像驱动模型的训练、图像生成方法、装置、设备及介质 | |
US10977818B2 (en) | Machine learning based model localization system | |
US10235771B2 (en) | Methods and systems of performing object pose estimation | |
US10924676B2 (en) | Real-time visual effects for a live camera view | |
US20190147221A1 (en) | Pose estimation and model retrieval for objects in images | |
US20220139057A1 (en) | Scalable three-dimensional object recognition in a cross reality system | |
CN109816769A (zh) | 基于深度相机的场景地图生成方法、装置及设备 | |
Barandiaran et al. | Real-time optical markerless tracking for augmented reality applications | |
CN110363817B (zh) | 目标位姿估计方法、电子设备和介质 | |
US11113571B2 (en) | Target object position prediction and motion tracking | |
US20210407125A1 (en) | Object recognition neural network for amodal center prediction | |
KR20140139394A (ko) | 교육용 로봇과 상호 작용하는 증강 현실 구현 장치 및 그 방법 | |
KR20220149717A (ko) | 단안 카메라로부터 전체 골격 3d 포즈 복구 | |
CN113763440A (zh) | 一种图像处理方法、装置、设备及存储介质 | |
CN113191462A (zh) | 信息获取方法、图像处理方法、装置及电子设备 | |
CN107704106A (zh) | 姿态定位方法、装置及电子设备 | |
CN116503474A (zh) | 位姿获取方法、装置、电子设备、存储介质及程序产品 | |
CN112307799A (zh) | 姿态识别方法、装置、***、存储介质及设备 | |
CN115393423A (zh) | 目标检测方法和装置 | |
CN112862840B (zh) | 图像分割方法、装置、设备及介质 | |
CN114638921A (zh) | 动作捕捉方法、终端设备及存储介质 | |
CN115994944A (zh) | 三维关键点预测方法、训练方法及相关设备 | |
Lee et al. | Real-time camera tracking using a particle filter and multiple feature trackers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |