CN1134175C

CN1134175C - 多摄像头视频目标提取的视频图象通信***及实现方法

Info

Publication number: CN1134175C
Application number: CNB001214411A
Authority: CN
Inventors: 芸何; 何芸; 张越成
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2000-07-21
Filing date: 2000-07-21
Publication date: 2004-01-07
Anticipated expiration: 2020-07-21
Also published as: CN1275871A

Abstract

本发明属于基于信息内容的视频图象通信技术领域，***包括由与多个摄像头相连的基于多视和多种特征结合的视频对象提取单元和视频对象编码单元组成的发射端，由视频对象解码单元和视频对象显示单元组成的接收端，所说的发射端与接收端通过通信信道相连；本发明可以获得物理目标的三维空间信息，解决了从多视频流中实时提取物理目标的深度信息算法的关键技术，使得视频目标提取能够快速执行。

Description

多摄像头视频目标提取的视频图象通信***及实现方法

本发明属于基于信息内容的视频图象通信技术领域，特别涉及视频目标提取，基于信息内容的视频图象编码方法。

基于视频目标的视频图象通信，是国际标准化组织ISO/IEC MPEG-4中的一个主要部分。在该标准中，视频目标由二值图象序列所限定，而该二值图象序列如何获得并不为国际标准所涉及，即视频目标的提取是开放的。视频目标提取是图象分析和理解研究领域至今未解决的问题，它和图象摄取、表达和处理技术有关，也和人的视觉特性及不同人对不同目标的兴趣有关。在图象通信通信***中，现有的视频目标提取方法有如下几类：

(1)基于纹理的视频目标提取方法，采用纹理的不连续性分割图象。代表文献为M.Kunt，A.Ikonomopoulos，and M.Kocher，″Second generation image coding techniques″(第二代图象编码技术)，Proceedings of the IEEE(电气工程师学会学报)，Vol.73(4)(第73卷第4期)，pp.549-575(页)，1985。

(2)基于运动的视频目标提取方法，采用运动模型匹配分割视频目标。代表文献为HansGeorge Musmann，Michael Hotter and Jorn Ostermann，″Object-oriented analysis-synthesis coding for moving images″(基于目标的活动图象分析—合成编码)，ImageCommunication(图象通信)Vol.1，pp.117-138(第一卷117-138页)，1989。

(3)基于颜色的视频部标提取方法，采用颜色的不连续性分割视频目标。代表文献LiHB，Forchheimer R。″Location of Face Using Color Cue″(基于颜色的人脸定位)，PictureCoding Symposium，P.2.4(图象编码会议，第2部分第4篇)，1993。

(4)多特征视频目标提取方法，文献较多，例如用运动特征和边缘特征分割视频目标，Reinders，M.van Beek，P.，Sankur，B.，and van der Lubbe，J.″Facial featurelocalisation and adaptation of a generic face model for model-based coding″，(模型基编码中的人脸特征定位以及与一般人脸模型的匹配)Signal Processing：ImageComm.，Vol.7，No.1，pp.57-74(信号处理学报，图象通信分刊，第7卷第1期，57-74页)，1995；用运动特征和颜色特征分割人脸目标，T.Xie，Y.He，and C.Weng，″Alayeredvideo coding scheme for very low bit rate videophone″(甚低数码率可视电话的分层视频编码方法)，Picture Coding Symposium，pp.343-347(图象编码会议，第343-347页)，Berlin(柏林)，1997。

基于上述方法的视频通信***均采用单摄像头获取视频图象，称为单摄像头基于信息内容的视频通信***。单摄像头视频通信***利用运动、纹理、颜色等特征和某些先验知识提取视频对象，然后以视频对象为单元进行编码发送至通信信道。接收端收到信号后，对码字进行译码重建视频目标，通过视频显示器显示视频目标。其通信***的结构如图1所示。图1中单摄像头基于信息内容的视频通信***在发射端由两个单元组成。第一个单元是“基于单视的视频对象提取单元”，第二个单元是“视频对象编码单元”。在接收端也由两个单元组成。第一个单元是“视频对象解码单元”，第二个是“视频对象显示单元”。

另一类视频通信***为多视视频通信***(Multi-view video communicationsystem)，以下简称为多视***。现有多视***包括“多视—多视类型”和“多视—单视类型”：

多视—多视，包括自动监控***，多机位现场直播***、和摄像机阵列***，其结构如图2所示，主要包括：在发射端有两个以上(1，。。。，n)“单视信号编码单元”，每一个单视信号编码单元连接一个摄像头。n个单视码流输入“多路视频码流复接单元”进行信号混合，然后发送至通信信道。在接收端，复合码流在“多路视频码流分接”分离成n个独立的码流，n个“单视信号解码单元”将n个视频码流还原成n个视频图象，分别由n个视频显示器显示。这类***的特点是多视之间并无必然联系，仅仅是在***级将多个单视通信***合并起来构成一个具有一定功能的整体。其中多机位现场直播***特点是关于同一场景的多路视频，对于具体图象获取参数没有特别规定；而摄像机阵列***的特点是不但针对同一场景，而且对摄像机之间的相互位置关系和单机的摄像参数都有比较严格的规定。具体应用包括立体视频通信等。

多视—单视，包括基于视选取***和场景重建***。

其中基于视选取***结构如图3所示，其主要包括：位置判决模块、多个图象获取模块、一个多路选择器、一个单路视频编码模块以及一个单路视频解码模块。其一般的工作流程是：首先由位置判决模块判定观察者当前所处的位置，并将位置信息传回至多路选择器控制部件；多路选择器根据传回的位置信息进行视的适当选取(或通过简单插值进行中间视的图象生成)，并将结果图象送视频编码器模块；视频编码器对输入图象进行编码，码流通过信道传输到解码端；解码器对码流进行解码，产生解码图象，并送达最终用户。

场景重建***结构如图4所示，其主要包括：多个图象获取模块、一个场景重建模块、一个虚拟场景投影模块、一个位置判决模块、以及相应的编码解码模块。一般的工作流程为：首先多路视频输入模块将获取的多路视频送场景重建模块；继而由场景重建模块根据输入的多视信息重建出虚拟的2D或3D场景；由位置判决模块判断观察者在虚拟场景中的位置，并将位置信息送虚拟场景投影模块；由虚拟场景投影模块根据观察者在虚拟场景中的位置和生成的虚拟场景进行虚拟视的生成，并将生成的虚拟视送视频编码器；编码器进行编码，码流通过信道传输到解码器；解码器完成码流解码，产生解码图象并送达最终用户。此类***并不对图象的内容进行分析。与图3所示的***不同点是，投影图并不是简单选取多幅图中的一个，而是要用相应的图来拼成。

上述方法及***存在以下不足之处：单摄像头视频通信***在视频图象摄取的过程中丢去了物理目标的三维信息，将投影后的二维图象作为视频图象分析和编码的源，其结果有很大的不确定性。因为视频目标的分割的目的是划分视频图象中的前景和背景，仅从二维信息来划分是这种不确定性的主要原因。而由于多视数码流之间的信息匹配运算量很大，多视图像深度匹配算法尚未发展至通信***的应用中。能否运用在基于信息内容的通信的关键问题在于提取深度信息的实时运算上。

本发明的目的是为克服已有技术的不足之处，提出一种多摄像头视频目标提取的视频图象通信***，采用多摄像头输入视频图象，从而可以获得物理目标的三维空间信息，即深度信息对前景和背景的分割将提供重要的依据；同时提出的实现方法解决了从多视频流中实时提取物理目标的深度信息算法的关键技术，使得深度信息提取能够快速执行。

本发明提出一种多摄像头视频目标提取的视频图象通信***，包括由视频对象提取单元和视频对象编码单元组成的发射端，由视频对象解码单元和视频对象显示单元组成的接收端，所说的发射端与接收端通过通信信道相连；其特征在于，所说的视频对象提取单元为与多个摄像头相连同时对多个视频流进行匹配运算，提取视频对象的深度信息，在深度信息的基础上，结合视频对象的运动特征，颜色特征，形状特征对视频目标分割的基于多视的视频对象提取单元。

本发明的上述***为双向的通信***，在每个通信端同时有发射单元和接收单元，并且同时工作。

本发明提出一种实现上述***的方法，包括以下步骤：

(1)在发射端，由多个摄像头输入视频图象，其中一个视频流为目标图象，其余视频流为辅助图象；

(2)在辅助图象的帮助下，对目标图象进行所说深度信息的分析和提取，及进行基于深度信息的运动特征，颜色特征，形状特征视频目标提取综合判断，再进行基于分析多个视频流之间像素的位置对应关系，从而计算被拍摄物体的深度信息的匹配结果的3D物体分割，从而提取出视频目标，其结果表示为视频目标的二值图象序列；

(3)视频对象编码单元根据视频目标的二值图象序列，对源目标图象进行基于视频对象的编码，从而形成基于视频对象的码流，发送至通信信道；

(4)在接收端，视频对象解码单元将基于视频对象的码流还原成基于视频对象的图象；

(5)视频对象显示单元对各个视频对象进行独立的显示。

本发明方法中的相关定义如下：

目标图像：是待分割的视频中的某一帧。

参考图像：是参考视频中的相应帧。

目标线段：是某一个核面与目标图像的交线，如果两光学***的光心连线与行扫描方向水平，则为某一扫描行的一部分(或全部)。

参考线段：参考图像与同一个核面的交线。实际上由于前文所述的理由，参考图像与目标图像中的像素匹配问题在特定的假设之下可以转化为参考线段与目标线段上点的匹配问题。

线段匹配：我们将线段A与线段B匹配定义为，目标线段A与参考线段B的起点与终点一致。

子线段：将线段分割为不重叠的子区间，每一子区间为一个子线段。

匹配程度：由匹配度量函数函数取值大小决定。

线段的直方图函数：在线段上的象素点进行亮度统计，得到的取某个亮度的象素点的个数与相应亮度的对应关系。

直方图操作：实际上是将图像中的具有某个亮度的象素点变成具有另一个或另几个亮度的象素点的图像变换过程。

子线段：是目标线段或参考线段上点的一个连续子集。

本发明对多摄像头获取的多个视频流之间深度信息的快速分析和提取方法，采用多重迭代，逐层细化的算法，每一层包括以下步骤：

(1)分别输入目标线段和参考线段；

(2)对所说的目标线段和参考线段分别进行直方图调整；

(3)对调整后的线段确立特征门限；

(4)用上述门限对线段进行粗分割得到子线段，然后根据直方图对子线段提取特征；

(5)将目标子线段和参考子线段进行特征匹配；

(6)对匹配结果进行是否要再分割的判断；

(7)如果不满足条件则进入下一层，重复步骤(1)至步骤(7)；

最后各层匹配结果统一输入分割模块，从而完成规定精度的分割与匹配。

上述的直方图调整对来自两个视场的目标线段和参考线段分别进行，具体方法为：

(1)统计整条目标线段的最高亮度值Max与最低亮度值Min。

(2)如果Max与Min的差值小于某一个域值Th1，则将此线段上的所有点的亮度置为其亮度均值，否则对线段上每一点作如下亮度变换：

g (x) = \frac{f (x) - Min}{Max - Min} \times VMax

其中f(x)为变换目标值，g(x)为变换结果，Vmax是***的亮度的变化范围。

上述确立特征门限方法具体步骤如下：直方图调整之后，将整条线段根据域值分成不同的区域，从而为线段的匹配寻找各个子线段的对应关系；(1)设定一个域值Th2为一个略小于50％的数值；(2)如果Th2＜30％，则对直方图调整过的线段进行直方图均衡化；(3)找到亮度值DU使亮度大于DU的像素点数在两条线段中所占的总比例刚刚大于Th2；(4)找到亮度值DD使亮度小于DD的像素点数在两条线段中所占的总比例刚刚大于Th2；(5)统计亮度DU与DD之间的像素，寻找其数目的局部谷值；(6)如果没有出现局部谷值，则减小Th2，重复(2)-(5)；(7)如果出现多个谷值，则增大Th2，重复(2)-(5)；(8)以谷值作为域值的门限。

上述子线段特征提取方法可采用如下具体步骤：(1)用上述门限对目标线段和参考线段进行分割；(2)将相连的同种属性的点连缀成段；(3)提取各子线段的特征值为，子线段中最大值Mmax，子线段中的最小值Mmin，子线段的长度Mlength，子线段像素的亮度平均值Maverage。

上述子特征线段匹配的方法可采用如下具体步骤：(1)假设目标线段被分割为m条不重叠的子线段，记为C[1]…C[m]；而参考线段则被分割为n条互不重叠的子线段，记为R[1]…R[m]。其特征值为对应子线段的象素点平均值；(2)设每条子线段相应的权重分别为KC[i]、KR[j]，分别等于对应子线段的长度；(3)取m×n的空间的一部分(i…i+4，j…j+4)；(4)确定其匹配度：对一一对应的子线段匹配对：假定目标线段的子线段C[i]在参考线段中与子线段R[j]对应，则该子线段对应所产生的匹配度为：

FV [i, j] = \frac{KC [i] + KR [j]}{2} \times (C [i] - R [j])

对一对多匹配子线段：假定目标线段的子线段C[i+1]与C[i]在参考线段中与子线段R[j]对应，则这部分的匹配度为：

FV [i, j] + FV [i + 1, j] = \frac{KC [i] + KC [i + 1] + KR [j]}{2} \times (\frac{C [i] \times KC [i] + C [i + 1] \times KC [i + 1]}{KC [i] + KC [i + 1]} + R [j])

对无匹配子线段：C[i]或R[j]，分别规定其匹配度为：

FV[i，0]＝KC[i]×OcP

FV[0，j]＝KR[j]×OcP其中OcP为遮挡惩罚因子(5)对每一条候选匹配路径，分别计算其各个子段上的FV[，]，则整条匹配路径的最终匹配度量因子SFV为路径上所有FV[，]之和；(6)计算最小匹配度量因子的候选路径。

上述匹配子线段的继续分割判断的方法可采用如下具体步骤：(1)鉴于整个算法的目的是进行3D物体分割，对于整个线段已经被归入物体或背景范围的子线段，不必进行进一步的匹配；(2)亮度无起伏的子线段，即Mmax-Mmin＜某一域值Th3的那些子线段；(3)长度过短的子线段，即Mlength＜某一域值Th4的那些子线段；(4)对应的全部子线段符合上述3条的子线段；(5)将匹配的子线段通过插值使长度相等，再求整个线段SAD值，该值小于某一域值Th5的那些子线段对；(6)对无匹配段的处理，对于无匹配的子线段，认为是遮挡区，不进行进一步的匹配。

本发明在深度信息的基础上，采用多特征对视频目标进行提取的方法，包括以下步骤：(1)用颜色信息对深度信息分析的结果进行补充判决；(2)用运动信息对深度信息补充判决：(3)也可以采用其他信息的进一步扩展；(4)采用划分—合并方法对视频目标进行分割。

上述用颜色信息对深度信息分析的结果进行补充判决方法可采用如下具体步骤：(1)采用方向性临域最小差值图的门限划分对目标图象进行基于颜色的空间子区域划分；(2)采用区域漫水算法对颜色的空间子区域合并；(3)与深度信息的结合，根据颜色子区域的最大似然平均深度进行子区域深度域值分割。

上述运动信息对深度信息补充判决方法可采用如下具体步骤；(1)以不同的运动模式作为子区域区域划分的判据；(2)以不同子区域相同的运动模式作为合并的依据；(3)根据运动矢量作物体分割的帧间继承。

上述基于其他信息的进一步扩展的方法可包括采用边缘信息，更高级处理信息等。

上述采用划分—合并方法对视频目标进行分割的方法可包括：

首先进行划分，其具体步骤如下：(1)定义一个划分判决函数F_seg(A|I)其中I为待分割目标图象，A为其上一个连通的子区域；(2)当划分判决函数在子区域A的取值大于某个设定的划分门限，即F_seg(A|I)＞Th_seg时，将子区域A进一步划分为m个子区域；(3)划分的依据是某个度量函数在A上之和取极小值，即：

(m, A_{1} . . . . A_{m}) = Para (\min (Σ_{i = 1}^{m} D (A_{i})))

其中D(.)为所采用的子区域划分度量函数；

然后进行合并的具体步骤如下：(1)定义一个合并判决函数F_merge(A₁，A₂，...，A_n|I)其中A_i(i＝1，2，...，n)是I中任意n个连通子区域；(2)当合并判决函数小于某个设定的域值时，将这n个子区域合并为一个子区域A：上述划分方法和合并方法交替迭代进行。

将上述划分—合并方法用于多种信息特征的视频目标分割的方法可采用如下具体步骤：(1)采用N个特征(F₁，F₂，…，F_N)^T，首先将它们分成不互斥的两组：

U_seg＝(F_i1，F_i2，…，F_iK)^T

U_merge＝(F_i1，F_i2，…，F_iK)^T(2)其中U_seg为将用于划分的特征集而U_merge为将用于合并的特征集；(3)分别根据U_seg和U_merge设计F_seg(A|I)和F_merge(A₁，A₂，...，A_n|I)，以及划分度量函数D(.)；(4)将获得的F_seg(A|I)、F_merge(A₁，A₂，...，A_n|I)和D(.)代入上述划分—合并方法算式中，即

(m, A_{1} . . . . A_{m}) = Para (\min (Σ_{i = 1}^{m} D (A_{i})))

F_merge(A₁，A₂，...，A_n|I)就得到一个多种特征结合的划分合并算法；(5)以子区域最大似然深度作为合并判决的多种特征相结合的划分合并算法。

上述最大似然深度判决方法可采用如下具体步骤：(1)定义使后验概率

P(d(z)＝x|z∈ A，I，Dd(I))最大的x为子区域A的最大似然深度。其中d(z)为z象素的深度，A为待判决子区域，I为待分割目标图象，Dd(I)为视差场；(2)将子区域最大似然深度简化为二值判据：

F_dts＝P(d(z)＜Th_d|z∈A，I，Dd(I))即子区域中点深度小于某特定门限的比例；(3)将深度信息纳入划分—合并算法的步骤之中；

上述基于匹配结果的3D物体分割的方法可采用如下步骤：(1)根据子线段的匹配结果，将匹配起点与匹配终点视差都超过某一域值Th6的子线段分割为物体；(2)将匹配起点与匹配终点视差都不超过某一域值Th6的子线段分割为背景；(3)对于其他区域进行继续分割匹配迭代；(4)直到整个分割结果能够满足精度要求为止。

本发明的特点及效果：

本发明提出的多摄像头视频目标提取的视频图象通信***，由多摄像头作为图象输入从而构成的基于视频信息内容编码和视频图象通信***概念和***实现。视频对象提取单元将对多个视频流进行匹配运算，从而根据深度，颜色，运动等多种和物理视频目标有关的信息对视频目标信息分割。视频对象编码单元对分割后的视频目标进行编码，然后发送至传输信道。在接收端，视频解码单元对码流解码，分出视频单元，最后视频显示器对不同的视频目标独立显示。

由于本发明采用对多摄像头获取的多个视频流之间深度信息提取的快速算法，使得深度信息提取能够快速执行，从而使多摄像头视频目标提取的视频图象通信***可以实现。

由于本发明的基于深度信息的多特征视频目标提取算法，使得目标提取得到更好的效果，为基于视频信息内容的通信提供了更好的目标源。采用多种特征进行视频目标的分割具有高的效率和准确性。

附图的简单说明：图1为已有的单摄像头基于信息内容的视频通信***结构框图。图2为已有的多视—多视视频通信***结构框图。图3为已有的基于视选取的多视—单视视频通信***结构框图。图4为已有的场景重建的多视—单视视频通信***结构框图。图5为本发明的多摄像头视频目标提取的视频图象通信***结构框图。图6为本发明的平行光轴条件与搜索1维化示意图。图7为本发明的共轴平面上的几何投影示意图。图8为本发明的深度信息提取的快速方法流程框图。图9为本发明的分割子段的最优匹配示意图。图10为本发明的最小匹配度量因子的候选路径示意图。图11为本发明的深度信息快速提取实验模拟结果。其中：图11(a)是ball letter左帧视频输入图(500×500)；

图11(b)是ball letter右帧视频输入图(500×500)；

图11(c)是ball_letter

图11(d)是man序列左帧视频输入图象(384×384)；

图11(e)是man序列右帧视频输入图象(384×384)；

图11(f)是man序列分割结果。

结合各附图对本发明的工作原理及实施例详细说明如下：

本发明的多摄像头视频目标提取的视频图象通信***结构如图5所示，包括由基于多视和多种特征结合的视频对象提取单元和视频对象编码单元组成的发射端，由视频对象解码单元和视频对象显示单元组成的接收端，发射端与接收端通过通信信道相连；视频对象提取单元与多个摄像头相连同时对目标图象和多个辅助图象构成的视频流之间的深度信息进行匹配运算，对视频目标信息分割，其结果表示为视频目标的二值图象序列；视频对象编码单元根据视频目标的二值图象序列，对源目标图象进行基于视频对象的编码，从而形成基于视频对象的码流，发送至通信信道；在接收端，视频对象解码单元将基于视频对象的码流还原成基于视频对象的图象；视频对象显示单元对视频对象进行独立的显示。

本发明的对多摄像头获取的多个视频流之间深度信息的快速提取方法原理分析：

以两个摄像头为例，设两个摄像头的几何位置满足平行光轴条件，从而使二个视频图象之间的匹配问题简化为一维搜索匹配问题，如图6所示：假设立体投影***满足平行光轴条件(epipolar condition)，即投影***O1与O2的光轴相互平行(不妨假设为Z方向)，的则某一空间点P在两视场中的投影必然处于P以及两个视场各自的投影中心所确定的平面上，此平面为核面(epipolar plane)，P1于P2都处于核面PO1O2上。空间处于某核面X上的点在两个投影***中的投影也必然处于核面与对应的投影平面的交线上，也就是说如果F1为X与O1***的象平面S1的交线，而F2为X与O2***的象平面S2的交线，则F1上任意点的空间对应点在O2***中的投影必然落在F2上，反之亦然。因此在搜索空间对应点的过程中，可以简化为两条直线上对应点的匹配问题，这样显然大大降低了问题的复杂度。如果O1O2与行扫描线平行，则在每一个核面都会与行扫描线平行，因此两个视场当中所获取的最终图像的每一条扫描线上的数据必然来自同一个核面，即，可以将在两个视场中搜索匹配点对的问题简化为在对应扫描行上搜索匹配点对的问题。

空间点在立体投影***中的位置与空间深度的关系，如图7所示：假设两个摄像头的像平面与透镜中点的距离均为l(在大多数情况下不失一般性地认为l近似等于透镜焦距f)，且两个摄像机的透镜光心间距为2d。

根据空间物点P在两个象平面上投影P1与P2的相对位置py1与py2，可以求出P点的空间坐标。P点在直线O1P1上，所以xp、yp满足：

yp = \frac{py 1}{l} \times xp - d

同时P也在直线O2P2上，所以xp、yp又满足：

yp = \frac{py 2}{l} \times xp + d

联立以上两个方程解得：

因此，空间物点的深度xp只与其在两个象平面上投影的相对位置之差py1-py2有关，而与py1、py2的具体数值无关，只需要求出该物点在立体图像对中的视差即可。

本发明对多摄像头获取的多个视频流之间深度信息的快速分析和提取方法，可采用多重迭代，逐层细化的算法，如图8所示，每一层包括以下步骤：(1)分别输入目标线段和参考线段；(2)对所说的目标线段和参考线段分别进行直方图调整；(3)对调整后的线段确立特征门限；(4)用上述门限对线段进行粗分割得到子线段，然后根据直方图对子线段提取特征；(5)将目标子线段和参考子线段进行特征匹配；(6)对匹配结果进行是否要再分割的判断；(7)如果不满足条件则进入下一层，重复步骤(1)至步骤(7)；最后各层匹配结果统一输入分割模块，从而完成规定精度的分割与匹配。

上述的直方图调整方法是对来自两个视场的目标线段和参考线段分别进行，具体可包括以下步骤：(1)统计整条目标线段的最高亮度值Max与最低亮度值Min。(2)如果Max与Min的差值小于某一个域值Th1，则将此线段上的所有点的亮度置为其亮度均值，否则对线段上每一点作如下亮度变换：

g (x) = \frac{f (x) - Min}{Max - Min} \times VMax

上述确立特征门限方法可采用如下具体步骤：直方图调整之后，将整条线段根据域值分成不同的区域，从而为线段的匹配寻找各个子线段的对应关系：(1)设定一个域值Th2为一个略小于50％的数值；(2)如果Th2＜30％，则对直方图调整过的线段进行直方图均衡化；(3)找到亮度值DU使亮度大于DU的像素点数在两条线段中所占的总比例刚刚大于Th2；(4)找到亮度值DD使亮度小于DD的像素点数在两条线段中所占的总比例刚刚大于Th2；(5)统计亮度DU与DD之间的像素，寻找其数目的局部谷值；(6)如果没有出现局部谷值，则减小Th2，重复(2)-(5)；(7)如果出现多个谷值，则增大Th2，重复(2)-(5)；(8)以谷值作为域值的门限。

上述子特征线段匹配的原理如下：以子线段的均值作为对应点的权重，可以得到目标子线段和参考子线段之间的匹配对应关系。一个子线段有以下几种对应，即一一对应、一对多、无对应。如果一对多情况出现，则作子线段合并，使其转化为一一对应。子线段的匹配可以用一个m×n的空间中搜索使得匹配度量因子FV最小的最优路径的问题，如图9所示：如何将匹配的准确性量化为匹配度量因子FV是此算法的难点。整条线段的匹配是每个子线段的匹配的和效果，因此每一条备选匹配路径的总的匹配度量因子FV是该匹配路径上各个子线段匹配度量因子的和。每条子线段的匹配度量因子应该具有如下性质：(1)与子线段的长度基本成正比关系(2)对应子线段越近似，该值越小

FV [i, j] = \frac{KC [i] + KR [j]}{2} \times (C [i] - R [j])

FV [i, j] + FV [i + 1, j] = \frac{KC [i] + KC [i + 1] + KR [j]}{2} \times (\frac{C [i] \times KC [i] + C [i + 1] \times KC [i + 1]}{KC [i] + KC [i + 1]} + R [j])

对无匹配子线段：C[i]或R[j]，分别规定其匹配度为：

FV[i，0]＝KC[i]×OcP

FV[0，j]＝KR[j]×OcP其中OcP为遮挡惩罚因子(1)对每一条候选匹配路径，分别计算其各个子段上的FV[，]，则整条匹配路径的最终匹配度量因子SFV为路径上所有FV[，]之和：(2)计算最小匹配度量因子的候选路径。

上述最小匹配度量因子的候选路径方法具体步骤如下，如图10所示：

按照j从1到n逐行顺序，并且在每一行中间按照i从1到m的顺序逐点计算从(0，0)到当前点的所有匹配路径中最小的FV。规定对当前点只存在三个搜索方向，在图中点(i，j)为当前点，对于当前点，本次匹配路径只可能从1、2、3三种方向进入。在计算到(i，j)的所有匹配路径中最小的总匹配度量因子SFV的时候，1、2、3(粗虚线)分别为三条候选路径；同时注意到由于在过程中允许一对多的匹配，所以必须根据以前的匹配结果，增加一些几条候选路径。例如对于沿方向3进入(i，j)的路径，如果在(i，j-1)点的判决中选定的最优匹配路径是1(粗实线)，则综合考虑，该路径为(i-1，j-2)-(i，j)，所以4(细虚线)也应该为一条候选路径；同样对于沿方向1进入(i，j)的路径，如果在(i-1，j)点的判决中选定的最优匹配路径是1(粗实线)，则综合考虑，该路径为(i-2，j-1)-(i，j)，所以5(细虚线)也应该为一条候选路径。因此总的候选路径数目不会超过6条。规定如果某一个方向与其所对应的出发点的最优路径进入方向一致的话则不增加候选搜索路径。与对每条候选匹配路径，前进到(i，j)的总的匹配度量因子等于该次匹配的出发点的总的匹配度量因子加上该匹配子线段所对应的匹配度量因子。例如对于候选路径3，其进(i，j)的匹配度量因子为：

SFV(i，j)＝SFV(i，j-1)+FV(i，j-1)从所有进入(i，j)的候选路径中选出SFV最小者作为进入(i，j)的最优路径。然后继续对下一点进行。直到(m，n)为止。此时只需从(m，n)延每一个点进入方向逐点倒退回去，直到(0，0)就可以找到整条最优匹配路径。按照前文提到的方法对最优匹配路径的每一个子段进行分析，就可以得出子线段之间的对应关系。最后一步是将对应同一子线段的多条线段加以合并，这样就得到，本次匹配的最终结果。

本发明在深度信息的基础上，采用多特征对视频目标进行提取的方法，包括以下步骤：(1)用颜色信息对深度信息分析的结果进行补充判决；(2)用运动信息对深度信息补充判决；(3)也可以采用其他信息的进一步扩展；(4)采用划分—合并方法对视频目标进行分割。

上述运动信息对深度信息补充判决方法可采用如下具体步骤：(1)以不同的运动模式作为子区域区域划分的判据；(2)以不同子区域相同的运动模式作为合并的依据；(3)根据运动矢量作物体分割的帧间继承。

上述基于其他信息的进一步扩展的方法包括采用边缘信息，更高级处理信息等。

上述采用划分—合并方法对视频目标进行分割的方法可采用如下具体步骤：首先进行划分，其具体步骤可包括：(1)定义一个划分判决函数F_seg(A|I)其中I为待分割目标图象，A为其上一个连通的子区域；(2)当划分判决函数在子区域A的取值大于某个设定的划分门限，即F_seg(A|I)＞Th_seg时，将子区域A进一步划分为m个子区域；(3)划分的依据是某个度量函数在A上之和取极小值，即：

(m, A_{1} . . . . A_{m}) = Para (\min (Σ_{i = 1}^{m} D (A_{i})))

其中D(.)为所采用的子区域划分度量函数。

然后进行合并，其具体步骤可包括：(1)定义一个合并判决函数F_merge(A₁，A₂，...，A_n|I)其中A_i(i＝1，2，...，n)是I中任意n个连通子区域；(2)当合并判决函数小于某个设定的域值时，将这n个子区域合并为一个子区域A；上述划分方法和合并方法将交替迭代进行。

本发明将上述划分—合并方法用于多种信息特征的视频目标分割可采用如下具体步骤：(1)采用N个特征(F₁，F₂，…，F_N)^T，首先将它们分成不互斥的两组：

U_seg＝(F_i1，F_i2，…，F_iK)^T

(m, A_{1} . . . . A_{m}) = Para (\min (Σ_{i = 1}^{m} D (A_{i})))

F_merge(A₁，A₂，...，A_n|I)就得到一个多种特征结合的划分合并算法；(5)以子区域最大似然深度作为合并判决的多种特征相结合的划分合并算法上述最大似然深度判决方法可采用如下具体步骤：(1)定义使后验概率

P(d(z)＝x|z∈A，I，Dd(I))最大的x为子区域A的最大似然深度。其中d(z)为z象素的深度，A为待判决子区域，I为待分割目标图象，Dd(I)为视差场。(2)将子区域最大似然深度简化为二值判据：

F_dis＝P(d(z)＜Th_d|z∈A，I，Dd(I))即子区域中点深度小于某特定门限的比例。(3)将深度信息纳入划分—合并算法的步骤之中。

上述基于匹配结果的3D物体分割的方法可包括如下步骤：(1)根据子线段的匹配结果，将匹配起点与匹配终点视差都超过某一域值Th6的子线段分割为物体；(2)将匹配起点与匹配终点视差都不超过某一域值Th6的子线段分割为背景；(3)对于其他区域进行继续分割匹配迭代；(4)直到整个分割结果能够满足精度要求为止。本发明的深度信息快速提取实验模拟结果如图11所示：其中：ball letter序列实验结果，图11(a)是ball letter左帧视频输入图(500×500)，图11(b)是ball letter右帧视频输入图(500×500)，图(c)是ball_letter左帧分割结果迭代层数1。运算时间31ms。运算采用PII-400 PC机，C语言。

man序列实验结果，图11(d)是man序列左帧视频输入图象(384×384)，图11(e)是man序列右帧视频输入图象(384×384)，图11(f)是man序列分割结果迭代次数3运算时间：50帧8.74s。运算采用PII-400 PC机，C语言。

本发明多摄像头视频目标提取的视频图象通信***的实施例说明如下：

实施例之一：

采用P-II 400 PC机，配以两个以上USB CMOS OV6620摄像头，采用多USB插卡将视频信号输入至PC机，在符合共轴条件下，采用本发明对多摄像头获取的多个视频流之间深度信息的快速提取方法和本发明对基于深度信息的多特征视频目标提取的快速算法对多视视频流进行分析。利用深度将场景分为不同前景和背景，得到不同视频目标二值时间序列。从而可以采用基于视频目标的编码方法(如MPEG-4)对视频目标编码。网络传输可以采用基于IP协议的硬件插卡

实施例之二：

采用PC机插卡的硬件加速辅助方案，将多视频流输入以及对多摄像头获取的多个视频流之间深度信息的快速提取方法和本发明对基于深度信息的多特征视频目标提取的运算由硬件插卡完成，和PC机并行完成基于多特征的视频对象提取。其余计算同实施方案1)。插卡主要有多视频流输入单元和视频可编程运算单元组成。比如可以采用可编程芯片Trimedia作为硬件核心器件。

实施方案之三：

完全脱离计算机的硬件实施方案。硬件***由多视频流输入单元，视频可编程运算单元，和网络传输接口单元组成。比如可以采用可编程芯片Trimedia作为硬件核心器件。

Claims

1.一种多摄像头视频目标提取的视频图象通信***，包括由视频对象提取单元和视频对象编码单元组成的发射端，由视频对象解码单元和视频对象显示单元组成的接收端，所说的发射端与接收端通过通信信道相连；其特征在于，所说的视频对象提取单元为与多个摄像头相连同时对多个视频流进行匹配运算，提取视频对象的深度信息，在深度信息的基础上，结合视频对象的运动特征，颜色特征，形状特征对视频目标分割的基于多视的视频对象提取单元。

2.一种实现如权利要求1所述***的方法，包括以下步骤：

(5)视频对象显示单元对各个视频对象进行独立的显示。

3、如权利要求2所述的实现方法，其特征在于，所说的多摄像头获取的多个视频流之间深度信息的快速分析和提取方法，采用多重迭代，逐层细化的算法，每一层包括以下步骤：

(1)分别输入目标线段和参考线段；

(2)对所说的目标线段和参考线段分别进行直方图调整；

(3)对调整后的线段确立特征门限；

(5)将目标子线段和参考子线段进行特征匹配；

(6)对匹配结果进行是否要再分割的判断；

(7)如果不满足条件则进入下一层，重复步骤(1)至步骤(7)；

4、如权利要求3所述的实现方法，其特征在于，所述的直方图调整按两个视场的目标线段和参考线段分别进行，具体包括以下步骤：

(1)统计整条目标线段的最高亮度值Max与最低亮度值Min；

g (x) = \frac{f (x) - Min}{Max - Min} \times VMax

5、如权利要求3所述的实现方法，其特征在于，所说的确立特征门限方法具体步骤如下：

(1)设定一个域值Th2为一个略小于50％的数值；

(2)如果Th2＜30％，则对直方图调整过的线段进行直方图均衡化；

(3)找到亮度值DU使亮度大于DU的像素点数在两条线段中所占的总比例刚刚大于Th2；

(4)找到亮度值DD使亮度小于DD的像素点数在两条线段中所占的总比例刚刚大于Th2；

(5)统计亮度DU与DD之间的像素，寻找其数目的局部谷值；

(6)如果没有出现局部谷值，则减小Th2，重复(2)-(5)；

(7)如果出现多个谷值，则增大Th2，重复(2)-(5)；

(8)以谷值作为域值的门限。

6、如权利要求3所述的实现方法，其特征在于，所述子线段特征提取具体步骤如下：

(1)用上述门限对目标线段和参考线段进行分割；

(2)将相连的同种属性的点连缀成段；

(3)提取各子线段的特征值为，子线段中最大值Mmax，子线段中的最小值Mmin，子线段的长度Mlength，子线段像素的亮度平均值Maverage。

7、如权利要求3所述的实现方法，其特征在于，所述的子线段特征匹配的具体步骤如下：

(1)假设目标线段被分割为m条不重叠的子线段，记为C[1]…C[m]；而参考线段则被分割为n条互不重叠的子线段，记为R[1]…R[m]；其特征值为对应子线段的象素点平均值；

(2)设每条子线段相应的权重分别为KC[i]、KR[j]，分别等于对应子线段的长度；

(3)取m×n的空间的一部分(i…i+4，j…j+4)；

(4)确定其匹配度：

(5)对一一对应的子线段匹配对：假定目标线段的子线段C[i]在参考线段中与子线段R[j]对应，则该子线段对应所产生的匹配度为：

FV [i, j] = \frac{KC [i] + KR [j]}{2} \times (C [i] - R [j])

FV [i, j] + FV [i + 1, j] = \frac{KC [i] + KC [i + 1] + KR [j]}{2} \times (\frac{C [i] \times KC [i] + C [i + 1] \times KC [i + 1]}{KC [i] + KC [i + 1]} + R [j])

对无匹配子线段：C[i]或R[j]，分别规定其匹配度为：

FV[i，0]＝KC[i]×OcP

FV[0，j]＝KR[j]×OcP

其中OcP为遮挡惩罚因子

(6)对每一条候选匹配路径，分别计算其各个子段上的FV[，]，则整条匹配路径的最终匹配度量因子SFV为路径上所有FV[，]之和；

(7)计算最小匹配度量因子的候选路径。

8、如权利要求3所述的实现方法，其特征在于，所述的匹配子线段的继续分割判断的方法具体步骤如下：

(1)鉴于整个算法的目的是进行3D物体分割，对于整个线段已经被归入物体或背景范围的子线段，不必进行进一步的匹配；

(2)亮度无起伏的子线段，即Mmax-Mmin＜某一域值Th3的那些子线段；

(3)长度过短的子线段，即Mlength＜某一域值Th4的那些子线段；

(4)对应的全部子线段符合上述3条的子线段；

(5)将匹配的子线段通过插值使长度相等，再求整个线段SAD值，该值小于某一域值Th5的那些子线段对；

(6)对无匹配段的处理，对于无匹配的子线段，认为是遮挡区，不进行进一步的匹配。

9、如权利要求2所述的实现方法，其特征在于，所述的多特征对视频目标进行提取的方法，包括以下步骤：

(1)用颜色信息对深度信息分析的结果进行补充判决；

(2)用运动信息对深度信息补充判决；

(3)也可以采用其他信息的进一步扩展；

(4)采用划分—合并方法对视频目标进行分割；

(5)上述用颜色信息对深度信息分析的结果进行补充判决方法具体步骤如下：

(6)采用方向性临域最小差值图的门限划分对目标图象进行基于颜色的空间子区域划分；

(7)采用区域漫水算法对颜色的空间子区域合并；

(8)与深度信息的结合，根据颜色子区域的最大似然平均深度进行子区域深度域值分割。

10、如权利要求9所述的实现方法，其特征在于，所上述运动信息对深度信息补充判决方法具体步骤如下：

(1)以不同的运动模式作为子区域区域划分的判据；

(2)以不同子区域相同的运动模式作为合并的依据；

(3)根据运动矢量作物体分割的帧间继承。

11、如权利要求9所述的实现方法，其特征在于，所上述采用划分—合并方法对视频目标进行分割的方法具体步骤如下：

首先进行划分，具体包括：

(1)定义一个划分判决函数

(2)F_seg(A|I)

(3)其中I为待分割目标图象，A为其上一个连通的子区域；

(4)当划分判决函数在子区域A的取值大于某个设定的划分门限，即F_seg(A|I)＞Th_seg时，将子区域A进一步划分为m个子区域；

(5)划分的依据是某个度量函数在A上之和取极小值，即：

(m, A_{1} . . . . A_{m}) = Para (\min (Σ_{i = 1}^{m} D (A_{i})))

其中D(.)为所采用的子区域划分度量函数；

然后进行合并，具体包括：

(1)定义一个合并判决函数

F_merge(A₁，A₂，...，A_n|I)

其中A_i(i＝1，2，...，n)是I中任意n个连通子区域；

(2)当合并判决函数小于某个设定的域值时，将这n个子区域合并为一个子区域A；

上述划分方法和合并方法将交替迭代进行

12、如权利要求9或11所述的实现方法，其特征在于，所述的划分—合并方法用于多种信息特征的视频目标分割的具体步骤如下：

(1)采用N个特征(F₁，F₂，…，F_N)^T，首先将它们分成不互斥的两组：

U_seg＝(F_i1，F_i2，…，F_iK)^T

(2)

U_merge＝(F_i1，F_i2，…，F_iK)^T

(3)其中U_seg为将用于划分的特征集而U_merge为将用于合并的特征集；

(4)分别根据U_seg和U_merge设计F_seg(A|I)和F_merge(A₁，A₂，...，A_n|I)，以及划分度量函数D(.)；

(5)将获得的F_seg(A|I)、F_merge(A₁，A₂，...，A_n|I)和D(.)代入上述划分—合并方法算式中，即

(m, A_{1} . . . . A_{m}) = Para (\min (Σ_{i = 1}^{m} D (A_{i})))

F_merge(A₁，A₂，...，A_n|I)

就得到一个多种特征结合的划分合并算法；

(6)以子区域最大似然深度作为合并判决的多种特征相结合的划分-合并算法。

13、如权利要求12所述的实现方法，其特征在于，所述最大似然深度判决方法具体步骤如下：

(1)定义使后验概率

P(d(z)＝x|z∈A，I，Dd(I))

最大的x为子区域A的最大似然深度；其中d(z)为z象素的深度，A为待判决子区域，I为待分割目标图象，Dd(I)为视差场；

(2)将子区域最大似然深度简化为二值判据：

F_dis＝P(d(z)＜Th_d|z∈A，I，Dd(I))

即子区域中点深度小于某特定门限的比例；

(3)将深度信息纳入划分—合并算法的步骤之中。

14、如权利要求2所述的实现方法，其特征在于，所述的基于匹配结果的3D物体分割的方法步骤如下：

(4)根据子线段的匹配结果，将匹配起点与匹配终点视差都超过某一域值Th6的子线段分割为物体；

(5)将匹配起点与匹配终点视差都不超过某一域值Th6的子线段分割为背景；

(6)对于其他区域进行继续分割匹配迭代；

(7)直到整个分割结果能够满足精度要求为止