CN1222897C

CN1222897C - 视频序列中产生标记对象图像的设备和方法

Info

Publication number: CN1222897C
Application number: CNB011252383A
Authority: CN
Inventors: 李性德; 金昌容; 金智渊; 金相均; 文永秀; 朴斗植
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2001-01-20
Filing date: 2001-08-31
Publication date: 2005-10-12
Anticipated expiration: 2021-08-31
Also published as: US20020097893A1; JP2002232839A; CN1367616A; KR100355382B1; EP1225518B1; US7024020B2; KR20020062429A; JP4370387B2; DE60116717D1; EP1225518A3; EP1225518A2; DE60116717T2

Abstract

本发明公开了一种基于询问对象的图像来标记视频序列中的询问对象的方法，包括步骤：接收所述视频序列以及所述询问对象的图像；将所述视频序列划分为一个或多个片段，每个所述片段是具有类似画面的一系列帧，并且从每个所述片段中选出一个或多个关键帧；确定在每个所述关键帧中是否存在对应于所述询问对象的图像的对象，并且如果在所述关键帧中存在着对应的对象，则提取由对应于询问对象的所述对象的区域所形成的初始对象区域；基于所述初始对象区域，跟踪每个所述片段的所有帧的对象区域；基于所述询问对象中的信息，标记在每个所述帧中跟踪的对象区域。这样，应用产生标记对象图像的方法而无须考虑对象的运动程度并且提取询问对象的时间可减少。

Description

视频序列中产生标记对象图像的设备和方法

技术领域

本发明是关于由视频序列提取出询问对象的设备和方法及为询问对象产生标记对象图像。

背景技术

在传统技术中，为了在运动图像中产生对象标记，询问对象是在运动视频序列中由手工从每幅图像提取出来的。最近，公布了无需多余操作的自动提取对象方法。

图像自动提取对象方法包括了基于运动的提取方法和基于特征的提取方法。基于运动的提取方法又包含了基于帧差的提取法，背景删减提取法，运动分析提取法。帧差提取法，如美国专利第5,500,904和5,109,435号中披露，由计算一幅图像中连续的帧的不同亮度来提取运动对象。背景删减提取法，如美国专利第5,748,775号中披露，背景图像是由该图像的特征参数的暂短改变而得以恢复，而对象区域是根据原图像和背景的不同而提取的。在运动分析提取法中，如美国联邦专利第5,862,508号中披露，运动区域是通过计算运动对象的运动方向及速度而被提取的。

然而，上述对象区域提取法只适用于对象的运动速度在一定范围内。如果对象为静止，或以很慢速度运动，或以很高速度运动，上述方法就很难应用。

利用对象区域的特征值来解决问题包括了模板匹配提取法，如美国联邦专利第5,943,442号中披露，多值阈值提取法，如美国专利第5,138,671号中披露，为一种特征值对照方法。为了利用这些方法从运动图像数据中提取出询问对象，上述方法必须对所有询问对象的帧进行解算，这样就需要大量时间。

发明内容

为了解决上述问题，本发明的目的在于提供了一种设备和方法，用于在运动图像中产生标记对象图像，其中询问对象区域可基于关键帧而在每一帧中自动被提取，而无需进行任何手工操作，也无需考虑对象的运动程度，且在各帧中产生基于相应的询问对象的信息而得到标记的对象图像。

根据本发明的一个方面，提供了一种基于询问对象的图像来标记视频序列中的询问对象的方法，所述标记的视频序列被用于基于对象的交互式服务中，所述方法包括步骤：

(a)接收所述视频序列以及所述询问对象的图像；

(b)将所述视频序列划分为一个或多个片段，每个所述片段是具有类似画面的一系列帧，并且从每个所述片段中选出一个或多个关键帧；

(c)确定在每个所述关键帧中是否存在对应于所述询问对象的图像的对象，并且如果在所述关键帧中存在着对应的对象，则提取由对应于询问对象的所述对象的区域所形成的初始对象区域；

(d)基于所述初始对象区域，跟踪每个所述片段的所有帧的对象区域；

(e)基于所述询问对象中的信息，标记在每个所述帧中跟踪的对象区域。

根据本发明的另一个方面，提供了一种基于询问对象的图像来标记视频序列中的询问对象的设备，所述标记的视频序列被用于基于对象的交互式服务中，所述设备包括：

用于接收所述视频序列的视频序列接收单元；

用于接收所述询问对象的图像的询问图像接收单元；

片段及关键帧设定单元，用于将所述视频序列划分为一个或多个片段，并且用于从每个所述片段中选出一个或多个关键帧，其中每个所述片段是具有类似画面的一系列帧；

用于确定在每个所述关键帧中是否存在对应于所述询问对象的图像的对象，并且如果在所述关键帧中存在着对应的对象，则提取由对应于询问对象的所述对象的区域所形成的初始对象区域的初始对象区域提取器；

用于基于所述初始对象区域，跟踪每个所述片段的所有帧的对象区域的对象区域追踪器；

用于基于所述询问对象中的信息，标记在每个所述帧中跟踪的对象区域的标记对象图像发生器。

附图说明

参照附图，并通过描述优选实施例，上述目标及本发明的优点将更为显而易见。

图1为应用本发明的基于对象的交互式服务***的框图。

图2为根据本发明的用于产生标记对象图像的设备的框图。

图3中3A和3B为本发明的用于产生标记对象图像的方法的流程图。

图4为分解为p段片段及每段片段的关键帧的视频序列的，实例。

图5为分解为9段片段及每段片段的关键帧的视频列的，实例。

图6为一个图像帧及在此图像帧中的询问对象的，实例。

图7对象标记和相应的标记号的，实例。

图8为对象被标记并标出质心及包含对象的最小矩形的实例。

图9为利用图8中对象标记的质心及包含对象的最小矩形的坐标值。

图10显示了应用本发明的基于对象的交互式服务的，实施例。

具体实施方式

图1为应用于本发明的基于对象的交互式服务***的流程示意图。该基于对象的交互式服务***包括用户终端100，服务器120，用于视频序列的图像数据库(DB)130，和用于感兴趣对象的对象数据库DB 140。

作为本发明的一个应用实例，为基于对象交互式服务***的服务，如图1中所示，在运动图像数据中的一个或多个对象区域-它们相应于一个或多个询问对象-将作为标记对象图像而得到产生。

参照图1，每一用户终端100包括基于对象的对象交互图像放映机或MPEG4放映机，并通过网络100运用远程手段而连接到服务器120上。当用户终端100与服务器120连接时，用户可操作该交互放映设备，而在用户终端的屏幕上观看由服务器120提供的运动图像(视频序列)。在通过基于图像的交互放映设备观看的同时，用户可在任意视频序列帧中选择任何对象(即感兴趣的对象)。

服务器120给每台用户终端提供储存在图像数据库DB130的视频序列，并通过引用对象数据库DB 140提供该用户选定的该对象的详细信息。此时，用户可在观看终端的RGB(或YUV)帧的同时，在另一帧观看被选定对象的信息。

图1中，服务器120管理着储存各种视频序列的图像数据库DB130，也同时管理着储存着感兴趣对象(如某一产品或人物)的对象数据库DB 140，DB 140亦包括储存的视频序列的一些特殊图像。DB130和140可在服务器120中实施。图1中所示交互式服务***可在互联网环境下实现。在此情况下，服务器120可作为网络服务器，每一用户终端100包括一个网络浏览器，并通过互联网110联接到网络服务器120上。

下文中，将描述本发明由视频序列中对产生标记对象图像的装置和方法。

图2为根据本发明的用于产生标记对象图像的设备的框图。标记对象图像产生设备包括了视频序列接收单元200、询问图像接收单元210、片段及关键帧设定单元220、初始对象区域提取器230、对象区域追踪器240和标记对象图像发生器250。

参照图2，视频序列接收单元200接收某一视频序列，即一系列三原色帧数据，如RGB(或YUV)图像，并将接收到的视频序列输出到片段及关键帧设定单元220。这里，视频序列为一系列帧。每一帧可能是包含了询问对象的图像或是不包含询问对象的图像。

摄影片段及关键帧设定单元220将输入的视频序列分解为一段或几段片段，每段片段为一系列有相似画面的帧，并将分解的片段的信息，如构成每段片段的帧的信息，输出到对象区域追踪器240。同样，摄影片段及关键帧设定单元220选出关键帧(代表帧(R))作为该段片段的代表。这里，每段片段中的关键帧数为一个或多个。

初始对象提取器230依次地接收询问图像，各询问图像包括从询问图像接收单元210输出的询问对象及从摄影片段及关键帧设定单元220输出的每段片段的关键帧。初始对象区域提取器230判定每段片段的关键帧是否包括从询问图像接收单元210输入的相应于询问图像的询问对象的对象，提取与每段片段关键帧的询问对象对应的初始对象区域，并将初始对象区域转换为二值化图像、灰度图像等等，以产生一段遮蔽(mask)图像。在对所有的关键帧的每一询问对象制成遮蔽图像后，遮蔽(mask)图像被输出到对象区域追踪器240。

对象区域追踪器240接收由原始视频序列分割的片段，各个询问图像却包括一个询问对像，及片段遮蔽图像。对象区域追踪器240根据初始对象区域对每一片段的所有帧中的对象区域进行跟踪。特别是，对每一片段的所有帧的对象区域都根据相应的根据有询问对象而提取的初始对象区域而得到跟踪。如果某一帧中存在对象区域，帧中对象区域的位置和区域被确定，初始对象区域被转换为二值化图像，灰度图像等，以产生片段遮蔽图像帧。这种对象区域跟踪在每一片段的所有帧中得到进行和重复，直至产生所有询问对象的帧遮蔽图像。

标记对象图像产生器250根据每一帧中询问对象而合并被跟踪的帧遮蔽图像。特别是，每一帧中的基于询问对象的帧遮蔽图像被合并为单一标记对象图像帧，其中所有的对象都被标记。例如，假设一个帧包含三个询问对象，相应于三个询问对象的对象区域可以被标上一位于1和255之间的像素值，而无询问对象的其它像素区域可标为“0”(关)。

标记对象图像帧的信息由标记对象图像发生器250产生，相应于被标记对象图像的真实对象的信息被储存在图1所示的对象数据库DB 140中。

图3A和3B为本发明的标记对象图像产生方法的流程图。图2中标记对象图像产生设备的操作将在图3A和3B详细描述。

从中将提取询问对象的视频序列被分割为一段或几段片段，每段片段包含有相似画面的一系列帧，每段片段中选出一个或几个关键帧(步骤300到304)。通常，一段视频序列可根据镜头的角度、人物或主题、地点、和亮度的变化，而被分解为多段片段。例如，就色彩而言，每段片段之间的变化程度大于构成每段片段的帧之间的变化程度，感兴趣的片段的两个帧之间(如关键帧)的色彩的不同会被辨别出。

构成每段片段的帧的某一帧被选为关键帧。每段片段的第一或中间的帧被选为关键帧。在本发明中只有每段片段的关键帧被用于决定每段片段中是否存在询问对象。例如，如果有p段片段，则关键帧数等于p。

具体的来说，在图3中，视频序列和询问对象(1到n)被输入(步骤300)。视频序列被分解为一段或多段(1到p)片段，每段片段中选中关键帧(步骤302)。然后，p个关键帧被缓存(步骤304)。图4显示了分解为p段片段的视频序列的一个实例及它们的关键帧。图4中，每段片段的第一个帧被选为关键帧，如关键帧KF-1，KF-2，KF-3，....，和KF-p。图5显示了从一段肥皂剧中提取的视频序列被分解为8段片段及选择每段片段的关键帧的实例。图5中，视频序列共由619个帧组成并被分为9段片段，每段片段的关键帧由帧数来确定。

根据询问对象从每一关键帧中提取出对象区域(步骤306到312)。更可取的是，根据彩色直方图或诸如构成对象的多色区的组构或结构，判定在各询问对象中是否存在与询问对象相似的对象。

具体的来说，n个询问对象一一被输入。第一个询问对象被装载(步骤306)。且检查p个关键帧的每一帧中是否有与第一个询问对象相似的一个对象，且如果这样的对象存在，该对象作为相应的关键帧的一个初始对象区域而得到提取(步骤308)。属于该关键帧的初始对象区域的像素转到开(“1”)，其余的像素转到关(“0”)，并对此关键帧产生一段片段遮蔽图像(步骤310)。判断询问对象数是否大于n(步骤312)。如果不是，下一个询问对象被装载(步骤314)。对n个询问对象重复上述步骤。具体的来说，相应于p个关键帧和n个询问对象共产生n×p个片段遮蔽图像(无对象区域的片段遮蔽图像的像素都转到关(“0”))。

基于初始对象区域，每段片段的所有帧的对象区域都被跟踪(步骤316到330)。在前面步骤中基于询问区域而从片段的每一关键帧中提取出的初始对象区域被延伸到每段片段的其余帧。特别是，将片段中每一关键帧中提取出的片段遮蔽图像作为最初遮蔽图像，在每段片段的所有帧中，根据相应于询问对象的询问图像的色彩信息，相应于询问对象的对象区域的位置和面积(范围)得到跟踪。通过检查被跟踪对象区域的相似性和利用运动模型及色彩信息，通过考虑对象图像面积和位置的变化，更精确的对象区域会被提取。

具体的来说，在装载了第一个询问对象(步骤316)的状态下，装载了第一询问对象的片段遮蔽图像时(步骤318)。当装载的片段遮蔽图像的像素转到关(“0”)时，即，当确定装载的片段遮蔽图像不包括一个相应于第一询问图像的对象区域时(步骤320)，下一段片段遮蔽图像被装载(步骤328)。特别是，如果确定装载的片段遮蔽图像不包括相应于第一询问图像的对象区域时，将确定该片段数是否大于p(步骤326)。如果该片段数不大于p，下一片段遮蔽图像被装载(步骤328)。同时，当确定对象区域存在于装载的片段遮蔽图像中，对象区域在对应的片段的所有帧中被跟踪(步骤322)，从而根据第一个询问对象为该相应片段产生帧遮蔽图像(步骤324)。对所有片段和所有询问对象重复上述操作(步骤330和332)。

在每帧中，基于询问对象的帧图像遮蔽被合并，并且存在于每帧的询问对象区域被标记(步骤334)。当输入视频序列由m个帧组成并每帧包含n个询问对象时，n-乘-m个帧遮蔽图像可通过上述过程生成并被合并为m个帧。然而，并非所有帧都包含n个询问对象，所以产生的帧遮蔽图像数少于n-乘-m个。每个询问对象具有介于0与255之间的特定色值，存在于这些合并帧中的询问对象区域的像素对应于这些询问对象，并且具有分配给对应询问对象的唯一色值。

图6为一帧图像及在此帧图像中的询问对象的实例。图6中，左边显示的任意帧图像有多个询问对象，如办公笔记本552、项链553、杯子554、衣服555、和背景551。

图7为用标记数对象标记的实例。如图7所示，每一询问对象具有唯一标记数。这样，当每一帧中根据询问对象产生的帧遮蔽图像被合并时，每一帧遮蔽图像被标记了相应的唯一标记数，如图7右边所示。

图8为对象被标记并标出质心及包含对象的最小矩形的实例。作为代表对象区域的另外一种方法，对象区域的质心，由“X”标志，包含对象区域的最小矩形或包含在一个帧中的对象区域内的最小矩形可用于代替唯一标记数。这里，P1和P2代表矩形的两个对角。图9为利用图8中包含对象的最小矩形的质心和坐标值对象标记的实例。

根据本发明，视频序列被分解为多段片段，每片段由一系列有相似画面的帧组成，通过判定片段的关键帧中是否存在对象图像从每段片段中提取出一个最初对象图像。基于从每一关键帧提取出的最初对象图像，对象区域在该片段的所有帧中被跟踪。然后，对象区域被标记以产生标记对象图像。

因此，与传统提取对象并产生标记对象图像的方法相比，本发明的应用无须考虑对象的运动程度而且提取询问对象的时间减少。再者，本发明无须多余的手工操作即可提供对象交互式服务。

图10显示应用本发明的基于对象的交互式服务的一个实施例。存在于每一帧的对象图像被标记为标记对象图像并储存在对象数据库DB 140，参见图1的描述。例如，当用户点击任意帧中妇女罩衫的任意部分时，如图10右边所示，利用基于对象的交互播放器，用户浏览器被提供相应于点击的对象图像的对象信息，该信息被存储在对象数据库DB 140中。图10的右边显示对象信息的实例。

通过运行来自计算机可用介质的程序，本发明可在通用的数据计算机上实现，该介质包括但不限于存储介质，如磁存储介质(如ROM，软盘，硬盘，等)、光学可读介质(如CD-ROM，DVD，等)和载波(如，互联网上的传输)。在通过网络连接的分布式计算机***中，有可读程序编码单元的计算机可用介质亦可实现本发明。

如上所述，在根据本发明的在视频序列中产生标记对象图像的设备和方法中，根据询问对象所产生的帧遮蔽图像在每一帧中被合并，这样，比较传统的对象提取方法，由一个帧中提取多个询问对象的时间可减少。因此，本发明可很容易的用于产生、编辑、和编码基于对象的运动图像数据。本发明可广泛地用于交互的互联网传播中，亦可用于准备互联网下的广告材料，互联网内容，和作为书写工具。

虽然结合本发明的优选实施例对本发明进行了具体的描述，但本领域的技术人员应当理解的是，在不脱离如所附权利要求书限定的本发明的范围的前提下，可进行各种形式和细节上的改动。

Claims

1、一种基于询问对象的图像来标记视频序列中的询问对象的方法，所述标记的视频序列被用于基于对象的交互式服务中，所述方法包括步骤：

(a)接收所述视频序列以及所述询问对象的图像；

2、根据权利要求1的方法，其中步骤(c)包括：

将从每个所述关键帧中提取的所述初始对象区域的像素设定为第一数值，将每个所述关键帧中的剩余像素设定为第二数值，以便对于每个所述帧中的所有关键帧生成片段遮蔽图像。

3、根据权利要求2所述的方法，其中步骤(d)包括：

(d1)基于所述询问对象的片段遮蔽图像以及视频特征值，跟踪每个所述片段的所有帧中的对象区域；

(d2)将在每个所述帧中跟踪的对象区域的像素设定为所述第一数值，将每个所述帧的剩余像素设定为所述第二数值，以便对于每个所述片段的所有帧生成片段遮蔽图像。

4、根据权利要求1所述的方法，其中在步骤(e)中，在每个所述帧中，都利用为所述询问对象所设定的唯一编号来标记每个所述对象区域。

5、一种基于询问对象的图像来标记视频序列中的询问对象的设备，所述标记的视频序列被用于基于对象的交互式服务中，所述设备包括：

用于接收所述视频序列的视频序列接收单元；

用于接收所述询问对象的图像的询问图像接收单元；

6、根据权利要求5所述的设备，其中所述初始对象区域提取器将从每个所述关键帧中提取的所述初始对象区域的像素设定为第一数值，将每个所述关键帧中的剩余像素设定为第二数值，以便对于每个所述帧中的所有关键帧生成片段遮蔽图像。

7、根据权利要求6所述的设备，其中所述对象区域追踪器基于所述询问对象的片段遮蔽图像以及视频特征值，跟踪每个所述片段的所有帧中的对象区域；并且将在每个所述帧中跟踪的对象区域的像素设定为所述第一数值，将每个所述帧的剩余像素设定为所述第二数值，以便对于每个所述片段的所有帧生成片段遮蔽图像。

8、根据权利要求5所述的设备，其中所述标记对象图像发生器利用为所述询问对象设定的唯一编号来标记每个帧中的每个对象区域。