CN104408743A

CN104408743A - 图像分割方法和装置

Info

Publication number: CN104408743A
Application number: CN201410618207.5A
Authority: CN
Inventors: 顾嘉唯; 余轶南; 王睿; 余凯
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2014-11-05
Filing date: 2014-11-05
Publication date: 2015-03-11
Also published as: EP3023937A1; US20160125235A1; US9418280B2; KR20160053729A; KR101706365B1; JP2016091528A; JP6339489B2

Abstract

本发明提出一种图像分割方法和装置，该图像分割方法包括：接收描述目标物体的动态移动过程的视频图像，获取视频图像的全图光流和背景光流，将所述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得目标物体的前景区域；确定所述目标物体的个数；对上述目标物体进行视觉跟踪和运动轨迹分析，以对所述目标物体进行跟踪；根据所述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对所述目标物体进行静止判断和图像分割。本发明可以实现在对想要进行图像识别和认识的物体进行识别的过程中，只需要拿取或摇晃目标物体即可快速获得对目标物体的图像分割，为下一步针对目标物体的图像识别做准确的识别输入。

Description

图像分割方法和装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种图像分割方法和装置。

背景技术

在下一个互联网风潮的人工智能领域，如何让智能穿戴设备或者机器人用人类自然的交互方式进行识别和认知，成为当下研究的核心问题，这里创造自然的人机交互方式尤为重要。基于人工智能的设备和机器人在人类生活的各方各面发生着革命性的创新，人为干预的机器视觉和认知也应该通过新技术的手段变得更加便捷高效，因此需要更自然的方式去进行机器认知和图像识别。

现在，对于图像识别和机器视觉认知的输入方式一般都采用先拍照再确定目标物体的方式，这种方式往往受限于取景内容的复杂度因而需要过多步骤，学习成本高，并且这种方式通常需要人工干预拍好的照片，例如：对拍好的照片进行圈划和涂抹。另外，识别内容无法准确让机器获得从而导致识别精度较低，难以识别不规则形状物体，操作极为不便，用户体验较差。

发明内容

本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的第一个目的在于提出一种图像分割方法。通过该方法，在对想要进行图像识别和认识的物体进行识别的过程中，只需要拿取或摇晃目标物体即可快速获得对目标物体的图像分割，为下一步针对目标物体的图像识别做准确的识别输入。

本发明的第二个目的在于提出一种图像分割装置。

为了实现上述实施例，本发明第一方面实施例的图像分割方法，包括：接收描述目标物体的动态移动过程的视频图像，获取所述视频图像的全图光流，估计所述视频图像中每个像素的位移,以及获取所述视频图像的背景光流，估计所述视频图像中背景像素的位移；将所述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得所述目标物体的前景区域；对所述目标物体的前景区域中的视频图像进行特征点提取，并通过计算提取的特征点的概率密度确定所述目标物体的个数；对所述目标物体进行视觉跟踪和运动轨迹分析，以对所述目标物体进行跟踪；根据所述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对所述目标物体进行静止判断和图像分割。

本发明实施例的图像分割方法，接收描述目标物体的动态移动过程的视频图像之后，通过获取全图光流、背景光流进而确定目标物体的前景区域即目标物体，在目标物体的动态移动过程中，对目标物体进行跟踪，对目标物体进行静止判断并分割出上述目标物体所在的图像区域，从而可以实现在对想要进行图像识别和认识的物体进行识别的过程中，只需要拿取或摇晃目标物体即可快速获得对目标物体的图像分割，为下一步针对目标物体的图像识别做准确的识别输入。

为了实现上述实施例，本发明第二方面实施例的图像分割装置，包括：接收模块，用于接收描述目标物体的动态移动过程的视频图像；获取模块，用于获取所述接收模块接收的视频图像的全图光流，估计所述视频图像中每个像素的位移,以及获取所述接收模块接收的视频图像的背景光流，估计所述视频图像中背景像素的位移；对比模块，用于将所述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得所述目标物体的前景区域；提取模块，用于对所述对比模块获得的目标物体的前景区域中的视频图像进行特征点提取；确定模块，用于通过计算所述提取模块提取的特征点的概率密度确定所述目标物体的个数；跟踪模块，用于对所述目标物体进行视觉跟踪和运动轨迹分析，以对所述目标物体进行跟踪；分割模块，用于根据所述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对所述目标物体进行静止判断和图像分割。

本发明实施例的图像分割装置，接收模块接收描述目标物体的动态移动过程的视频图像之后，通过获取全图光流、背景光流进而确定目标物体的前景区域即目标物体，在目标物体的动态移动过程中，对目标物体进行跟踪，对目标物体进行静止判断并分割出上述目标物体所在的图像区域，从而可以实现在对想要进行图像识别和认识的物体进行识别的过程中，只需要拿取或摇晃目标物体即可快速获得对目标物体的图像分割，为下一步针对目标物体的图像识别做准确的识别输入。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本发明图像分割方法一个实施例的流程图；

图2为本发明图像分割方法另一个实施例的示意图；

图3为本发明图像分割装置一个实施例的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1为本发明图像分割方法一个实施例的流程图，如图1所示，该图像分割方法可以包括：

步骤101，接收描述目标物体的动态移动过程的视频图像，获取视频图像的全图光流，估计上述视频图像中每个像素的位移,以及获取上述视频图像的背景光流，估计上述视频图像中背景像素的位移。

其中，接收描述目标物体的动态移动过程的视频图像可以为：接收通过摄像头输入的描述目标物体的动态移动过程的视频图像。

进一步地，接收描述目标物体的动态移动过程的视频图像之前，还可以接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发接收上述视频图像的操作。

也就是说，本实施例中，带有摄像头的智能设备接收到用户通过语音、触摸屏或者动态传感器输入的图像识别请求之后，开启上述智能设备上的摄像头，通过上述摄像头摄取用户拿取或移动目标物体的过程，即通过摄像头接收描述用户拿取或移动目标物体的视频图像，进而执行后续流程。

其中，上述带有摄像头的智能设备可以为带有摄像头的智能移动终端，或者带有摄像头的头戴式穿戴设备，例如：谷歌眼镜(Google Glass)、百度智能眼镜(BaiduEye)等，或者带有摄像头的智能手表，或者带有摄像头视觉输入的机器人，本实施例对此不作限定。

步骤102，将上述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得上述目标物体的前景区域。

具体地，每个像素的位移描述的是“前景区域(目标物体)+背景区域(环境)”，背景像素的位移描述的是“背景区域(环境)”，对比二者之后，即可获得目标物体的前景区域。采用的算法逻辑可以简单表述为“(前景区域+背景区域)-背景区域＝前景区域”。

步骤103，对上述目标物体的前景区域中的视频图像进行特征点提取，并通过计算提取的特征点的概率密度确定上述目标物体的个数。

步骤104，对上述目标物体进行视觉跟踪和运动轨迹分析，以对上述目标物体进行跟踪。

步骤105，根据上述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对上述目标物体进行静止判断和图像分割。

本实施例中，获得对目标物体的图像分割之后，就可以在此基础上进行目标物体的图像识别，然后通过上述带有摄像头的智能设备的音频输出通道将识别结果告知用户，或者通过上述带有摄像头的智能设备的图像输出通道将识别结果告知给用户，从而完成对于目标物体的识别过程。

上述实施例中，接收描述目标物体的动态移动过程的视频图像之后，通过获取全图光流、背景光流进而确定目标物体的前景区域即目标物体，在目标物体的动态移动过程中，对目标物体进行跟踪，对目标物体进行静止判断并分割出上述目标物体所在的图像区域，从而可以实现在对想要进行图像识别和认识的物体进行识别的过程中，只需要拿取或摇晃目标物体即可快速获得对目标物体的图像分割，为下一步针对目标物体的图像识别做准确的识别输入。

图2为本发明图像分割方法另一个实施例的示意图，从图2可以看出，在第一人称视角的手拿取物品，或用手自然摇晃物体时，本发明图1所示实施例提供的方法，通过摄像头捕捉手部的动态移动过程，通过获取全图光流、背景光流进而确定目标物体的前景区域，对目标物体进行跟踪，对目标物体进行静止判断和图像分割，从而分割出目标物体，即框选出用于识别的图像。

图3为本发明图像分割装置一个实施例的结构示意图，本实施例中的图像分割装置可以实现本发明图1所示实施例的流程，如图3所示，该图像分割装置可以包括：接收模块31、获取模块32、对比模块33、提取模块34、确定模块35、跟踪模块36和分割模块37；进一步地，上述图像分割装置还可以包括摄像头38；

其中，接收模块31，用于接收描述目标物体的动态移动过程的视频图像。本实施例中，接收模块31，具体用于接收通过摄像头38输入的描述目标物体的动态移动过程的视频图像。进一步地，接收模块31，还用于在接收描述目标物体的动态移动过程的视频图像之前，接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发接收上述视频图像的操作。

也就是说，本实施例中，接收模块31接收到用户通过语音、触摸屏或者动态传感器输入的图像识别请求之后，开启摄像头38，通过上述摄像头38摄取用户拿取或移动目标物体的过程，即通过摄像头38接收描述用户拿取或移动目标物体的视频图像，进而执行后续流程。

获取模块32，用于获取接收模块31接收的视频图像的全图光流，估计上述视频图像中每个像素的位移,以及获取接收模块31接收的视频图像的背景光流，估计上述视频图像中背景像素的位移。

对比模块33，用于将上述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得上述目标物体的前景区域。具体地，每个像素的位移描述的是“前景区域(目标物体)+背景区域(环境)”，背景像素的位移描述的是“背景区域(环境)”，对比模块33对比二者之后，即可获得目标物体的前景区域。对比模块33采用的算法逻辑可以简单表述为“(前景区域+背景区域)-背景区域＝前景区域”。

提取模块34，用于对对比模块33获得的目标物体的前景区域中的视频图像进行特征点提取；

确定模块35，用于通过计算提取模块34提取的特征点的概率密度确定目标物体的个数；

跟踪模块36，用于对上述目标物体进行视觉跟踪和运动轨迹分析，以对上述目标物体进行跟踪；

分割模块37，用于根据上述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对目标物体进行静止判断和图像分割。

本实施例中，获得对目标物体的图像分割之后，就可以在此基础上进行目标物体的图像识别，然后通过上述图像分割装置的音频输出通道将识别结果告知用户，或者通过上述图像分割装置的图像输出通道将识别结果告知给用户，从而完成对于目标物体的识别过程。

本实施例中的图像分割装置可以为带有摄像头的智能设备，或者带有摄像头的智能设备的一部分，上述带有摄像头的智能设备可以为带有摄像头的智能移动终端，或者带有摄像头的头戴式穿戴设备，例如：谷歌眼镜(Google Glass)、百度智能眼镜(BaiduEye)等，或者带有摄像头的智能手表，或者带有摄像头视觉输入的机器人，本实施例对此不作限定。

上述图像分割装置中，接收模块31接收描述目标物体的动态移动过程的视频图像之后，通过获取全图光流、背景光流进而确定目标物体的前景区域即目标物体，在目标物体的动态移动过程中，对目标物体进行跟踪，对目标物体进行静止判断并分割出上述目标物体所在的图像区域，从而可以实现在对想要进行图像识别和认识的物体进行识别的过程中，只需要拿取或摇晃目标物体即可快速获得对目标物体的图像分割，为下一步针对目标物体的图像识别做准确的识别输入。

图像识别是人工智能方向最重要的突破，而且具有相当广泛且有价值的使用场景，是今后搜索领域的重中之重，本发明采用全新的人机交互方式，自然的用户界面接口，比现有的先拍照再对目标物体进行圈划涂抹的图像识别方式更自然更便捷。对于智能穿戴设备上的图像识别功能，自然的交互方式显得尤为重要，本发明可以实现用户“所拿起即可搜索获得结果”，本发明所实现的交互方式和用户体验是一种相当大的区别于其他同类或相似类别产品的重要特性。

本发明提供的方法是各种可以进行第一视角做视觉图像信息捕捉和处理的一切智能产品非常有可能会涉及并采用的方法，本发明提供的方法是从底层算法到表象人机交互方式都有可能会复制并立即采用到产品中的一个特性和技术支持，是作为穿戴式智能视觉产品进行手势识别的一个基本技术支持。

本发明提供的方法对于其他一切基于图像和视觉认知能力的人工智能产品，机器人的视觉认知同用户人类的交互方式都具有革命性的体验，例如：将一个物体拿到机器人面前举起摇动进而让其认知和识别判断此物体。

需要说明的是，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(Programmable Gate Array；以下简称：PGA)，现场可编程门阵列(Field ProgrammableGate Array；以下简称：FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，本发明各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像分割方法，其特征在于，包括：

接收描述目标物体的动态移动过程的视频图像，获取所述视频图像的全图光流，估计所述视频图像中每个像素的位移,以及获取所述视频图像的背景光流，估计所述视频图像中背景像素的位移；

将所述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得所述目标物体的前景区域；

对所述目标物体的前景区域中的视频图像进行特征点提取，并通过计算提取的特征点的概率密度确定所述目标物体的个数；

对所述目标物体进行视觉跟踪和运动轨迹分析，以对所述目标物体进行跟踪；

根据所述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对所述目标物体进行静止判断和图像分割。

2.根据权利要求1所述的方法，其特征在于，所述接收描述目标物体的动态移动过程的视频图像包括：

接收通过摄像头输入的描述目标物体的动态移动过程的视频图像。

3.根据权利要求1-2任意一项所述的方法，其特征在于，所述接收描述目标物体的动态移动过程的视频图像之前，还包括：

接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发接收所述视频图像的操作。

4.一种图像分割装置，其特征在于，包括：

接收模块，用于接收描述目标物体的动态移动过程的视频图像；

获取模块，用于获取所述接收模块接收的视频图像的全图光流，估计所述视频图像中每个像素的位移,以及获取所述接收模块接收的视频图像的背景光流，估计所述视频图像中背景像素的位移；

对比模块，用于将所述视频图像中每个像素的位移与对应的背景像素的位移进行对比，获得所述目标物体的前景区域；

提取模块，用于对所述对比模块获得的目标物体的前景区域中的视频图像进行特征点提取；

确定模块，用于通过计算所述提取模块提取的特征点的概率密度确定所述目标物体的个数；

跟踪模块，用于对所述目标物体进行视觉跟踪和运动轨迹分析，以对所述目标物体进行跟踪；

分割模块，用于根据所述特征点的帧间位移、帧间切割窗口相似度和跟踪框尺度变换，对所述目标物体进行静止判断和图像分割。

5.根据权利要求4所述的装置，其特征在于，还包括：摄像头；

所述接收模块，具体用于接收通过所述摄像头输入的描述目标物体的动态移动过程的视频图像。

6.根据权利要求4-5任意一项所述的装置，其特征在于，

所述接收模块，还用于在接收描述目标物体的动态移动过程的视频图像之前，接收用户通过语音、触摸屏或者动态传感器输入的图像识别请求，以触发接收所述视频图像的操作。