CN102592117B

CN102592117B - 三维物体识别方法及***

Info

Publication number: CN102592117B
Application number: CN201110456158.6A
Authority: CN
Inventors: 陈剑军
Original assignee: Hangzhou Silan Microelectronics Co Ltd
Current assignee: Hangzhou Silan Microelectronics Co Ltd
Priority date: 2011-12-30
Filing date: 2011-12-30
Publication date: 2014-04-16
Anticipated expiration: 2031-12-30
Also published as: CN102592117A

Abstract

本发明涉及一种三维物体识别方法及***，所述方法包括：运用两个平行安装的摄像头同时采集物体的两路像素数据并存储；根据两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息；对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息；根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类；将曲面聚类后的像素点进行分割和拓扑分析；根据所述拓扑分析的结果对物体进行特征描述并存储；将物体的特征描述与数据库中的特征数据进行比较得到识别结果。本发明可以保证精确地识别任何物体。

Description

三维物体识别方法及***

技术领域

本发明涉及一种三维物体识别方法及***。

背景技术

多年来，人们一直在寻求一种类似于人眼和大脑过程的智能识别***，从而使机器可以通过最自然最友好的方式与人或其他机器进行交流，为此，在机器和人的交流上产生了专门用于人脸识别的技术，这种人脸识别的技术分为主动技术和被动技术两个方向：主动技术类似于自然界中的眼镜蛇、蝙蝠等动物，这种技术是通过***主动发射出人眼不可见的红外光，红外光通过人脸或其他物体反射后进入一个被红外滤光片遮挡的CMOS摄像头中成像，然后对成像的图片进行计算，主动技术有不受环境光影响的特点，具有较广泛的应用前景，但是其也存在对人不够友好，且受红外光发射距离的影响等缺点；被动技术模拟自然界中绝大多数动物都具备的双目识别方法，两双眼睛可以形成一幅立体的图像，动物的大脑就是通过对这幅立体图像进行复杂的计算从而识别出物体和场景的。

上述人脸识别方法无论是主动还是被动方式，一般都只能进行人脸的识别，而在其他物体的识别上却无能为力，这将大大限制该识别技术的发展，随着计算机和芯片计算能力的越来越强，人们迫切希望能有一种最类似于动物的识别方法出现，不仅能识别人脸还能自动识别其它物体，比如识别障碍物等，识别特殊的标示标志等等，这样就可以将这种识别方法用于自动驾驶、三维物体自动成型、三维动画等很多应用场合。

发明内容

本发明的目的在于提供一种三维物体识别方法及***，该方法及***非常接近于人和动物的双目视觉过程，并且是属于被动式的，具有广泛的可接受性以及隐蔽性，可以训练和学习、识别任何物体，包括复杂的人脸，可以广泛应用于智能玩具、智能门禁、监控等场合。

为解决上述问题，本发明提供一种三维物体识别方法，包括：

运用两个平行安装的摄像头同时采集物体的两路像素数据并存储；

根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息；

对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息；

根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类；

将曲面聚类后的像素点进行分割和拓扑分析；

根据所述拓扑分析的结果对物体进行特征描述并存储；

将物体的特征描述与数据库中的特征数据进行比较得到识别结果。

进一步的，在上述方法中，所述根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息的步骤包括：

通过Census算法计算每个像素点在另一路摄像头数据中对应位置周边最匹配的像素点位置；

通过两个摄像头之间的距离和摄像头的焦距和所述视差信息计算被摄物体对应点离摄像头的距离即深度信息。

进一步的，在上述方法中，所述根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类的步骤包括：

根据三维二次曲面的表示公式和每个像素点的深度信息、像素数据计算得到每个像素点的函数参数值；

根据最小二乘法则，计算误差最小的函数参数值作为每个曲面体的最终的函数参数值，根据每个曲面体的最终的函数参数值对所有相邻像素点进行不停的叠代计算以拟合最多的相邻像素点。

进一步的，在上述方法中，所述将曲面聚类后的像素点进行分割的步骤，包括查找具有两个以上函数参数值的像素点作为两个以上曲面的边界点，将具有相同函数参数值的曲面归为同一个曲面体。

进一步的，在上述方法中，所述将曲面聚类后的像素点进行拓扑分析的步骤，包括对同一个曲面体里的所有像素点的值进行累加和平均处理得到不同曲面体的质心，并通过判断不同曲面体的质心之间的空间关系确定不同曲面体之间的位置关系，并将不同曲面体之间的位置关系用拓扑关系矩阵来表示。

进一步的，在上述方法中，所述根据所述拓扑分析的结果对物体进行特征描述并存储的步骤，包括将各个曲面体的函数参数值和拓扑关系矩阵用关系链表加以组织，并利用各个曲面体在图像中成像的面积作为权重，对各个曲面体进行排序。

进一步的，在上述方法中，所述摄像头包括CMOS或CCD摄像头中的任一种。

进一步的，在上述方法中，所述两个摄像头的光轴基本平行且基线长度在55mm至65mm之间。

进一步的，在上述方法中，所述两个摄像头采用同一个曝光控制信号。

进一步的，在上述方法中，所述摄像头同时采集的物体的两路视频图像存储入包括SDRAM、DDR-SDRAM或SRAM的任一种动态数据存储区。

进一步的，在上述方法中，所述特征描述存入非易失性存储器中。

进一步的，在上述方法中，所述特征描述采用链表的形式进行描述。

根据本发明的另一面，提供一种三维物体识别***，包括：

立体视觉模块，包括两个平行安装摄像头，用于同时采集物体的两路像素数据；

图像存储模块，用于存储所述两路像素数据；

深度计算模块，用于根据物体上的每个点分别在所述两路像素数据中的像素点的坐标确定所述像素点之间的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息；

边缘检测模块，用于对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息；

曲面聚类模块，用于根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类；

分割拓扑模块，将曲面聚类后的像素点进行分割和拓扑分析；

特征描述模块，用于根据所述拓扑分析的结果对物体进行特征描述；

描述存储模块，用于存储所述特征描述；

数据库，用于存储物体的特征数据；

比较模块，用于将物体的特征描述与数据库中的特征数据进行比较得到识别结果。

进一步的，在上述***中，所述深度计算模块通过Census算法计算每个像素点在另一路摄像头数据中对应位置周边最匹配的像素点位置；通过两个摄像头之间的距离和摄像头的焦距和所述视差信息计算被摄物体对应点离摄像头的距离即深度信息。

进一步的，在上述***中，所述曲面聚类模块根据三维二次曲面的表示公式和每个像素点的深度信息、像素数据计算得到每个像素点的函数参数值；根据最小二乘法则，计算误差最小的函数参数值作为每个曲面体的最终的函数参数值，根据每个曲面体的最终的函数参数值对所有相邻像素点进行不停的叠代计算以拟合最多的相邻像素点。

进一步的，在上述***中，所述分割拓扑模块查找具有两个以上函数参数值的像素点作为两个以上曲面的边界点，将具有相同函数参数值的曲面归为同一个曲面体。

进一步的，在上述***中，所述分割拓扑模块对同一个曲面体里的所有像素点的值进行累加和平均处理得到不同曲面体的质心，并通过判断不同曲面体的质心之间的空间关系确定不同曲面体之间的位置关系，并将不同曲面体之间的位置关系用拓扑关系矩阵来表示。

进一步的，在上述***中，所述特征描述模块将各个曲面体的函数参数值和拓扑关系矩阵用关系链表加以组织，并利用各个曲面体在图像中成像的面积作为权重，对各个曲面体进行排序。

进一步的，在上述***中，所述摄像头包括CMOS或CCD摄像头中的任一种。

进一步的，在上述***中，所述两个摄像头的光轴基本平行且基线长度在55mm至65mm之间。

进一步的，在上述***中，所述两个摄像头采用同一个曝光控制信号。

进一步的，在上述***中，所述图像存储模块包括SDRAM、DDR-SDRAM或SRAM的任一种。

进一步的，在上述***中，所述描述存储模块为非易失性存储器。

与现有技术相比，本发明通过运用两个平行安装的摄像头同时采集物体的两路像素数据并存储；根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息；对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息；根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类；将曲面聚类后的像素点进行分割和拓扑分析；根据所述拓扑分析的结果对物体进行特征描述并存储；将物体的特征描述与数据库中的特征数据进行比较得到识别结果，从而保证可以识别任何物体。

此外，对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息来弥补深度信息计算中可能会存在误差和歧义点，从而保证获得更加精确的深度信息，以免造成后续的误分析。

另外，通过将聚类后的像素点进行分割和拓扑分析，从而保证分析的结果最接近人的思维。

附图说明

图1是本发明一实施例的三维物体识别方法的流程图；

图2是本发明一实施例的三维物体识别的数据处理示意图；

图3是发明的双目立体成像原理图；

图4是本发明的双目立体视觉***原理图；

图5是本发明一实施例的深度信息测量精度与各个参数之间的关系；

图6是本发明一实施例的三维物体识别***的功能模块示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的三维物体识别方法及***进一步详细说明。

本发明提出了一种利用最类似于自然界中绝大多数动物都拥有的两只眼睛来识别任意物体的方法，通过两只“眼睛”之间的视差来获得空间的距离信息，并利用最符合人的思维方式的方法对物体进行特征描述即拓扑关系描述，训练的结果就是拓扑关系描述，识别的过程就是对拓扑关系进行匹配的过程。

如图1和图2所示，本发明提供一种三维物体识别方法，包括：

步骤S1，运用两个平行安装的摄像头同时采集物体的两路像素数据并存储，具体的，所述摄像头包括CMOS或CCD摄像头中的任一种，所述两个摄像头的光轴基本平行且基线长度在55mm至65mm之间，两个摄像头平行安装，其光轴基本平行且基线长度尽可能的短，一般可在60mm左右，基本接近与于普通人眼的尺寸，另外所述两个摄像头采用同一个曝光控制信号，CMOS或CCD摄像头由同一个时钟控制，触发曝光的控制信号可以保持一致，从而确保两个摄像头成像的一致性，特别是在被摄物体运动的时候能够保证两个摄像头成像一致，所述摄像头同时采集的物体的两路视频图像存储入包括SDRAM、DDR-SDRAM或SRAM的任一种动态数据存储区，如图2所示，A摄像头和B摄像头分别采集两路Y通道、U通道、V通道的像素数据，其中，Y通道输出的是亮度数据，V、U通道输出的是色度数据；

步骤S2，根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息(z)，具体的，所述视差采用Census算法来确定，其中所述深度信息是指图像中每个像素点离镜头的距离，先通过Census算法计算每个像素点在另一路摄像头数据中对应位置周边最匹配的像素点位置，然后通过两个摄像头之间的距离和摄像头的焦距(基线标定)和视差等信息算出被摄物体对应点离摄像头的距离即深度信息，计算完深度信息后，将两路Y通道、U通道、V通道像素数据中的一路Y通道、U通道、V通道像素数据丢弃，此时得到的数据流为一路Y通道、U通道、V通道像素数据和深度信息；

步骤S3，对于不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息，具体的，在被摄物体或背景完全一致，或者景深非常远，或者是被摄物体非常光滑或者被摄物体是透明等情况下，成像出来的数据中最匹配的地方不只一个点的时候，视差计算是失效的，这个时候就需要引入一些边界信息或者是颜色信息等进行计算，其中所述边缘检测是检测画面中相连相素点之间变化剧烈的地方，并标识出来，通过计算亮度数据中的边界信息或颜色信息来推导和补偿视差计算失效的位置，从而更新该位置的深度信息，利用边缘检测获得的轮廓信息可以弥补深度信息计算中可能会存在误差和歧义点，这样做的好处是获得更加精确的深度信息，以免造成后续的误分析，本步骤中只是对物体上个别点的深度信息进行了更新；

步骤S4，根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类，具体的，可以根据每个像素点的像素数据确认该点的x和y坐标值，曲面聚类是将多个深度符合一定的曲面特点的像素点进行归类，比如说n个像素点同属于某一个球面，就将其归成一类，并用类标志来区别开来，因为从理论上分析，眼睛看到的景物就是由一个个曲面通过一定的关系空间组合起来的，而平面只是一个特殊的曲面，利用所述深度信息判断出来几个像素点处于同一个平面或同一个曲面时，认为他们是一类的，或者从纹理或颜色上判断几个像素点是否是一类的，也就是说判断几个像素点之间的相似或相关程度，相似或相关的聚合成一类，然后从曲面(平面是一个特殊的曲面)推导到曲面体，以便分析各个曲面体之间相互关系，利用图像中的三维信息(二维位置再加一维深度)进行曲面聚类，将符合同一曲面特征的各个像素点归成一类，为后面的拓扑分析和特征提取做好准备，采用三维信息的优点就是可以识别任何物体，每个像素点的位置变成了深度信(z)和曲面的切向量(x)和法向量(y)的值，以及拟合后函数参数值，如三维二次曲面的表示方法用如下公式表示：

F(x，y，z)＝a*x2+b*y2+c*z2+d*x*y+e*x*z+f*z*y+g*x+h*y+i*z+j

根据上述公式，拟合得到的数据中还包括这些a、b、c、d、e、f、g、h、i、j等函数参数值，由于计算误差的存在，任何相邻像素点的参数值都不太可能是完全相同的，根据最小二乘法则，计算误差最小的函数参数值作为每个曲面体的最终的函数参数值，同时根据每个曲面体的最终的函数参数值对所有相邻像素点进行不停的叠代计算以拟合最多的相邻像素点，能够拟合越多的像素点越好，最终得到的是不同曲面体的函数参数值，根据不同曲面体的函数参数不同就可以对曲面体进行分割；

步骤S5，将曲面聚类后的像素点进行分割和拓扑分析，具体的，分割是将不同的曲面的类进行区分，查找具有两个以上函数参数值的像素点作为两个以上曲面的边界点，将具有相同函数参数值的曲面归为同一个曲面体，一般的边界点将同时满足两个以上的函数参数值，说明他的解不是唯一的，因此同时满足两个以上的函数参数值的点可以确定边界(即该点的x、y、z值)，将函数参数值一致的所有像素点提取出来归为同一个曲面体，即完成了曲面分割；拓扑分析是将各类曲面体之间进行位置关系分析，包括相切、相离、对称、相包含等，比如一个球体上放置了一个锥体等，这里先利用曲面的边界信息进行曲面分割，以方便进行拓扑分析，然后利用拓扑分析来组合各个曲面之间的空间关系，这样做的优点是最接近人的思维，通常描述景物的时候就跟画画一样从大到小，按照一定的空间关系对景物进行描述，拓扑分析要先对同一个曲面体里的所有像素点的x、y、z值进行累加和平均处理得到不同曲面体的质心，并通过判断不同曲面体的质心之间的空间关系确定不同曲面体之间的位置关系，比如A点的x值小于B点的x值，但是两点的y值相同，即表示A在B的左边，不同曲面体之间的位置关系用拓扑关系矩阵来表示，拓扑关系矩阵中向量的个数即为曲面体的个数，向量和向量的关系用上下、左右、包含等来表示，比如上用值1表示，下用值2表示，以此类推。

步骤S6，根据所述拓扑分析的结果对物体进行特征描述并存储，具体的，该步骤中数据计算中得到的就是将各个曲面体的函数参数值和拓扑关系矩阵用一定的关系链表加以组织，所述特征描述存入非易失性存储器中如Flash存储器等，以方便识别时进行比对，所述特征描述是将各个曲面之间的关系用链表的形式用数据结构描述出来，把拓扑分析以后的结果用链表连接起来，并以方便存储和比对，利用各个曲面体在图像中成像的面积作为权重，对各个曲面体进行排序，以方便特征比对，这样做的优点是可以识别和描述任意物体，而人脸只是其中一类特别的物体，而且因为有权重关系，比对是按照权重由大到小进行的，只要前面几项不匹配，识别就被中断，所以可以快速的进行识别，另外产品在使用的过程中其能识别的物体可以越来越多，就跟小孩的成长一样，***可以不断学习和升级，训练时需要用户的参与，比如说需要告诉其刚才看到的是一个杯子，或者刚才看到的人叫什么名字等等，随着被训练和存储的数据越来越多，***的能识别的物体也越来越多，***本身就具有了一定的学习和升级能力；

步骤S7，将物体的特征描述与数据库中的特征数据进行比较得到识别结果，具体的，识别时将物体的特征描述和数据库中保存的特征数据进行搜索比对，从而得到最佳匹配的结果，并通过特定的数据格式告知用户。

步骤S7就是对步骤S6中得到的函数参数、拓扑关系矩阵、关系链表和数据库中预存物体的函数参数、拓扑关系、关系链表分别进行加权的最小二乘计算，得到的最小结果即为匹配度最高的结果，当然这个结果可能不是唯一的，所以用一个百分比函数进行表示，到此为止得到的是一个相似度的百分比结果以及这个结果所代表的物体，例如一支水笔和一直铅笔的相似度有80％，因为都是直杆状的物体，而一支水笔和另一支水笔的相似度可能有90％，可能因为颜色不同等原因，而两只同一型号的水平相似程度可能为100％。

由上可知，本方法非常接近于人和动物的双目视觉过程，并且是属于被动式的，具有广泛的可接受性以及隐蔽性，***可以训练和学习、识别任何物体，其中包括复杂的人脸，可以广泛应用于智能玩具、智能门禁、监控等场合。

下面结合图1和图2对本发明进行更详细的描述。

如图2所示，本实施例的三维物体识别方法是一种通过双目被动立体视觉***快速计算深度等第三维信息，并通过深度、颜色等信息进行分割、聚类等处理，然后进行拓扑分析和特征描述，训练时将该特征描述按特定的格式存入非易失性存储区内，识别时将当前特征描述和数据库中的特征进行比对，以找到最佳匹配的物体的方法。

具体来说，如图2所示，A摄像头和B摄像头分别采集两路Y通道、U通道、V通道的像素数据，其中，Y通道输出的是亮度数据，V、U通道输出的是色度数据；接着进行深度计算，即根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息(z)，将两路Y通道、U通道、V通道像素数据中的一路Y通道、U通道、V通道像素数据丢弃，此时得到的数据流为一路Y通道、U通道、V通道像素数据和深度信息；接着进行边缘检测，即对于不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息；接着进行曲面聚类，即根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类；接着进行分割和拓扑分析，即将曲面聚类后的像素点进行分割和拓扑分析；接着时行特征描述，即根据所述拓扑分析的结果对物体进行特征描述并存储；最后进行特征对比，即将物体的特征描述与特征数据库中的特征数据进行比较得到识别结果。

在步骤S1中，采用2台高清CMOS摄像头(即A摄像头和B摄像头)构建立体视觉***，具体的，由于深度信息是后续一切工作的基础，为保证计算的精准程度，CMOS摄像头的分辨率一定要得到保证，这就如同人的眼睛一样，近视度数不能太高，最好校正视力在1.0以上，这也符合仿生学原理，本***中CMOS摄像头的分辨率在30万像素(640*480)以上，并且设计最大分辨率为100万像素(1024*1024)，由于采用FPGA或嵌入式SOC作为处理单元，其处理能力有限，过高的分辨率将导致处理的时间过长，无法达到实时处理的要求，本***中由于直接采用CMOS摄像头芯片，在制作印刷电路板(PCB)的时候，芯片位置可以基本保证平行，但是由于存在焊接时的精度问题，两个CMOS摄像头的光轴无法做到100％的平行，因此，在计算深度信息的时候要加以注意，本实施例中两个CMOS摄像头直接的间距为60mm，焊接后误差控制在1mm之内，这也符合正常人眼的距离，符合仿生学原理，为保证运动时能识别运动物体的动作和轨迹，两个摄像头的暴光时间要基本保持一致，因此两个摄像头最好采用同一个暴光控制信号控制，还有，CMOS摄像头的CLK时钟信号也最好一致，最好采用外部控制的VS、HS行场同步信号，以确保在相同的时间暴光，避免高速运动的物体在两个CMOS摄像头中的成像时间不一致造成的成像偏差。

在步骤S2中，采用FPGA(现场可编程门阵列Field Programmable Gatearray)或SOC(System on chip)片上***芯片作为主要计算平台，将CMOS采集到的数据通过SDRAM控制器存入SDRAM，具体的，由于最终的目的是采用芯片的形式来实现该***，所以验证的平台就采用了大容量的FPGA，经过CMOS摄像头成像的数据需要先经过FPGA存入SDRAM，这里需要通过FPGA内部的AMB总线和SDRAM控制器模块，因为数据存入后还要读出来进行边缘检测、深度计算等工作，所以SDRAM既要读又要写，还要保证数据不丢失，还要保证来的及计算，所以还需要一个调度器根据一定的规则对各个向SDRAM读写数据的模块进行合理的调度。

在步骤S3、4、5中，在FPGA内用专用的计算模块实现边缘检测、深度计算、分割聚类等计算：

1、边缘检测和曲线拟合

用于图像边缘检测的算法很多，诸如Rorberts算子、Sobel算子、Prewitt算子、Laplaceian算子等，由于Sobel算法只涉及到加法操作，并且可以取得很好的效果，所以是最常用的边缘检测算法，由于图像在边缘附近会出现灰度上的突变，所以Sobel边缘检测方法以原始图像灰度为基础，并通过考察图像每个像素在某个领域内灰度的变化，然后利用边缘邻近的一阶导数最大值来检测边缘，再设置权重来检测水平、垂直、左对角、右对角等各个不同方向上密度幅度的不同来实现边沿检测。图1所示是一个3×3像素的举例，其水平、垂直、左对角和右对角图像上密度幅度的改动能够示意为：

H＝(Q0+Q3+Q3+Q6)-(Q2+Q5+Q5+Q8)

V＝(Q0+Q1+Q1+Q2)-(Q6+Q7+Q7+Q8)

DR＝(Q1+Q0+Q0+Q3)-(Q5+Q8+Q8+Q7)

DL＝(Q1+Q2+Q2+Q5)-(Q3+Q6+Q6+Q7)

Q0	Q3	Q6
			Q1	[ij]	Q7
Q2	Q5	Q8

其中，H、V、DL、DR用于计算梯度的大小和方向，而梯度的大小可由正式给出一个普遍的估计值：

Magnitude＝Max(H，V，DR，DL)

这样，只要对图像灰度作直方图剖析，便能够给出区分度阀值，假如Magnitude大于这个阀值，则该像素为边界像素，否则为通常像素。

为提高精度，同时保证计算速度，可以采用5*5的像素进行计算。

检测出的边界通过二值化处理以后，将其在图象中的位置(X，Y)值进行曲线拟合，其假设前提曲线一般符合二元二次方程，即(X+A)2+(Y+B)2＝C2

计算时采用7到11个像素点进行拟合，用最小二乘法得到误差最小的情况。

2、视差和深度计算

1)双目立体视觉原理

双目立体视觉三维测量是基于视差原理，如图3所示为简单的平视双目立体成像原理图，两摄像机的投影中心的连线的距离，即基线距为b。摄像机坐标系的原点在摄像机镜头的光心处，坐标系如图2所示。事实上摄像机的成像平面在镜头的光心后，图2中将左右成像平面绘制在镜头的光心前f处，这个虚拟的图像平面坐标系O1uv的u轴和v轴与和摄像机坐标系的x轴和y轴方向一致，这样可以简化计算过程。左右图像坐标系的原点在摄像机光轴与平面的交点O1和O2。空间中某点P在左图像和右图像中相应的坐标分别为P1(u1，v1)和P2(u2，v2)。假定两摄像机的图像在同一个平面上，则点P图像坐标的Y坐标相同，即v1＝v2。由三角几何关系得到：

u_{1} = f \cdot \frac{x^{c}}{z^{c}}

u_{2} = f \cdot \frac{(x^{c} - b)}{z^{c}}

v_{1} = v_{2} = f \cdot \frac{y^{c}}{z^{c}}

上式中(xc，yc，zc)为点P在左摄像机坐标系中的坐标，b为基线距，f为两个摄像机的焦距，(u1，v1)和(u2，v2)分别为点P在左图像和右图像中的坐标。

视差定义为某一点在两幅图像中相应点的位置差：

d = (u_{1} - u_{2}) = \frac{f \cdot b}{z^{c}}

由此可计算出空间中某点P在左摄像机坐标系中的坐标为：

\{\begin{matrix} x^{c} = \frac{b \cdot u_{1}}{d} \\ y^{c} = \frac{b \cdot v}{d} \\ z^{c} = \frac{b \cdot f}{d} \end{matrix}

因此，只要能够找到空间中某点在左右两个摄像机像面上的相应点，并且通过摄像机标定获得摄像机的内外参数，就可以确定这个点的三维坐标。

2)双目立体视觉的***结构以及精度分析

由上述双目视觉***的基本原理可知，为了获得三维空间中某点的三维坐标，需要在左右两个摄像机像面上都存在该点的相应点，立体视觉***的一般结构为交叉摆放的两个摄像机从不同角度观测同一被测物体，如图4所示为双目立体视觉***原理图，通过求得两个图像中相应点的图像坐标，便可以由双目立体视觉测量原理求取三维空间坐标。事实上，获取两幅图像也可以由一个摄像机实现，如一个摄像机通过给定方式的运动，在不同位置观测同一个静止的物体，或通过光学成像方式将两幅图像投影到一个摄像机，都可满足要求。

各种双目视觉***结构各有优缺点，这些结构适用于不同的应用场合。对要求大测量范围和较高测量精度的场合，采用基于双摄像机的双目立体视觉***比较合适；对测量范围要求比较小，对视觉***体积和质量要求严格，需要高速度实时测量对象，基于光学成像的单摄像机双目立体视觉***便成为最佳选择。

基于双摄像机的双目立体视觉***必须安装在一个稳定的平台上，在进行双目视觉***标定以及应用该***进行测量时，要确保摄像机的内参(比如焦距)和两个摄像机相对位置关系不能够发生变化，如果任何一项发生变化，则需要重新对双目立体视觉***进行标定。

视觉***的安装方法影响测量结果的精度。测量的精度可由下式得出：

ΔZ = \frac{z^{2}}{f \cdot b} \cdot Δd

上式中Δz表示测量得出的被测点与立体视觉***之间距离的精度，z指被测点与立体视觉***的绝对距离，f指摄像机的焦距，b表示双目立体视觉***的基线距，Δd表示被测点视差精度。

为了得到更高的精度，应该使摄像机的焦距以及基线长度增大，同时应该使被测物体尽可能的靠近立体视觉***。另外这个精度和视差的精度有直接的关系。

如果b和z之间的比值过大，立体图像对之间的交迭区域将非常小，这样就不能够得到足够的物体表面信息。b/z可以取的最大值取决于物体的表面特征。一般情况下，如果物体高度变化不明显，b/z可以取的大一些；如果物体表面高度变化明显，则b/z的值要小一些。无论在任何情况下，要确保立体图像对之间的交迭区域足够大并且两个摄像机应该大约对齐，也就是说每个摄像机绕光轴旋转的角度不能太大。在***中一般情况下视差结果可以精确到1/5～1/10个像素，如果一个像素代表7.4μm那么视差的精度可以达到1μm，如图5所示为深度信息测量的精度和各个参数之间的关系(假设视差精度为1μm)。

3)双目立体视觉***标定

摄像机内参数的标定和单目视觉***标定一致，双目立体视觉***的标定主要是指摄像机的内部参数标定后确定视觉***的结构参数R和T(即两个摄像机之间的位置关系，R和T分别为旋转矩阵和平移向量)。一般方法是采用标准的2D或3D精密靶标，通过摄像机图像坐标与三维世界坐标的对应关系求得这些参数。具体的标定过程如下：

a.将标定板放置在一个适当的位置，使它能够在两个摄像机中均可以完全成像。通过标定确定两个摄像机的内部参数以及他们的外部参数(R1、T1与R2、T2)，则R1、T1表示左摄像机与世界坐标系的相对位置，R2、T2表示右摄像机与世界坐标系的相对位置。

b.假定空间中任意一点在世界坐标系、左摄像机坐标系和右摄像机坐标系下的非齐次坐标分别为xw、x1、x2，则：

x₁＝R₁x_w+T₁，x₂＝R₂x_w+T₂

消去xw，得到：x₂＝R₂R₁ ^-1x₁+T₂-R₂R₁ ^-1T′₁₂

两个摄像机之间的位置关系R、T可以用以下关系式表示：

R = R_{2} R_{1}^{- 1}, T = T_{2} - R_{2} R_{1}^{- 1} T_{12}^{'}

4)双目立体视觉中的对应点匹配

由双目立体视觉***原理可以看出双目立体视觉是建立在对应点的视差基础之上，因此左右图像中各点的匹配关系成为双目立体视觉技术的一个极其重要的问题。然而，对于实际的立体图像对，求解对应问题极富挑战性，可以说是双目立体视觉中最困难的一步。为了能够增加匹配结果的准确性以及匹配算法的速度，在匹配过程中通常会加入下列几种约束：

a.极线约束，在此约束下，匹配点已经位于两副图像中相应的极线上。

b.唯一性约束，两副图像中的对应的匹配点应该有且仅有一个。

c.视差连续性约束，除了遮挡区域和视差不连续区域外，视差的变化都是平滑的。

d.顺序一致性约束，位于一副图像极线上的系列点，在另一幅图像中极线上有相同的顺序，图像匹配的方法有基于图像灰度(区域)的匹配、基于图像特征的匹配和基于解释的匹配或者多种方法结合的匹配。

正是因为以上的约束有的时候不一定能达到，所以在计算的时候要引入一些边缘信息，拿边缘信息来补偿一些深度信息，以避免分割或聚类时因为信息缺失而产生错误。

3、聚类和分割

和传统的基于画面的分割不同，因为视觉只能看到物体表面，所以本实施例最重要的理论基础和假设前提就是在双目视觉中看到的物体是由一个一个曲面拼接而成的，各个曲面上有一些不同的纹理，而平面就是特殊的曲面，因此，这里所需要得到的曲面必须用到每个像素点的位置信息，包括水平和垂直方向信息，还有深度信息，用P(X，Y，Z)表示，所以聚类的方法也会不同，最简单的方法是通过相邻3个像素点的位置P1，P2，P3，计算这个垂直于这个平面的法向量，比如当曲面是个球体的时候，所有的法向量都会指向同一个圆心位置。

所以本实施例中用到的最主要的方法就是计算相邻三角形的法向量，还有就是利用上文提到的边缘检测的结果，然后根据一定的约束条件，进行分解聚类和分割，在不连续处的领域，曲面形状在不连续的方向比其正交的方向改变更快，相应地，在本实施例的后续部分，我们假设不连续的方向就是主方向之一，相应的主曲率在该方向上急剧变化，而另外一个仍然接近于零。

在步骤S6中，在FPGA内的CPU模块中用软件实现灵活的拓扑分析和特征描述，并将描述的结果和用户的指令按一个文件格式保存到外部的非易失性存储器(Nand Flash或SD卡、硬盘等介质)中，具体的，拓扑分析和特征描述在算法中都采用链表的形式，组成数据结构，并根据所占比重(面积)的大小进行排列，以最基本的球面、锥面等曲面进行组合，拓扑分析为上下、前后、左右、包含、等等形式进行组合。

在步骤S7中，读取保存在外部存储器中的特征数据，将特征描述和特征数据进行比较，比较后的结果根据用户要求驱动语音模块或PWM模块驱动电机或IO驱动LED闪亮等形式输出，以便和用户进行沟通和交流，达到识别最终的目的，也就是交流，具体的，本步骤中用户的接口和作用非常重要，***中采用简单的USB或其它接口和PC机等设备进行交流，通过PC机中的软件，用户需要告诉识别***刚才识别到的东西是一个什么物体，以便识别***进行记忆。比如说告诉它刚才看到的这个球+一个圆锥形的东西是一个小丑，识别***就会把小丑这两个字和他识别到的球+圆锥结合起来，下次再看到这样的东西，识别***首先会先判断这是个小丑；对于复杂的人脸识别，识别***也首先会识别这是一个圆柱体上面加上一个三角锥一样的凸起物(鼻子)，在三角锥的上面左右两侧有2个椭圆形的东西(眼睛)，下面有一个椭圆形的东西(嘴巴)，如果不符合这样的特征，它首先判断就不是一个真实的人；依此类推，其描述将会越来越复杂，也越来越仔细，当然匹配程度也越来越高，最终达到识别人脸的目的。

如图6所示，根据本发明的另一面，还提供一种三维物体识别***，所述三维物体识别***包括立体视觉模块1，图像存储模块2，深度计算模块3，边缘检测模块4，曲面聚类模块5，分割拓扑模块6，特征描述模块7，描述存储模块8，数据库9，比较模块10。

立体视觉模块1包括包括两个平行安装摄像头，用于同时采集物体的两路像素数据，所述摄像头包括CMOS或CCD摄像头中的任一种，所述两个CMOS或CCD摄像头的光轴基本平行且基线长度在55mm至65mm之间，所述两个CMOS或CCD摄像头采用同一个曝光控制信号。

图像存储模块2用于存储所述两路像素数据，所述图像存储模块包括SDRAM、DDR-SDRAM或SRAM的任一种。

深度计算模块3用于根据物体上的每个点分别在所述两路像素数据中的像素点的坐标确定所述像素点之间的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息，具体的，所述深度计算模块3通过Census算法计算每个像素点在另一路摄像头数据中对应位置周边最匹配的像素点位置；通过两个摄像头之间的距离和摄像头的焦距和所述视差信息计算被摄物体对应点离摄像头的距离即深度信息。

边缘检测模块4用于用于对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息。

曲面聚类模块5用于根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类，具体的，所述曲面聚类模块5根据三维二次曲面的表示公式和每个像素点的深度信息、像素数据计算得到每个像素点的函数参数值；根据最小二乘法则，计算误差最小的函数参数值作为每个曲面体的最终的函数参数值，根据每个曲面体的最终的函数参数值对所有相邻像素点进行不停的叠代计算以拟合最多的相邻像素点。

分割拓扑模块6用于曲面聚类后的像素点进行分割和拓扑分析，具体的，所述分割拓扑模块6查找具有两个以上函数参数值的像素点作为两个以上曲面的边界点，将具有相同函数参数值的曲面归为同一个曲面体，所述分割拓扑模块6对同一个曲面体里的所有像素点的值进行累加和平均处理得到不同曲面体的质心，并通过判断不同曲面体的质心之间的空间关系确定不同曲面体之间的位置关系，并将不同曲面体之间的位置关系用拓扑关系矩阵来表示。

特征描述模块7用于根据所述拓扑分析的结果对物体进行特征描述，具体的，所述特征描述模块将各个曲面体的函数参数值和拓扑关系矩阵用关系链表加以组织，并利用各个曲面体在图像中成像的面积作为权重，对各个曲面体进行排序。

描述存储模块8用于存储所述特征描述，所述描述存储模块为非易失性存储器。

数据库9用于存储物体的特征数据。

比较模块10用于将物体的特征描述与数据库中的特征数据进行比较得到识别结果。

综上所述，本发明通过运用两个平行安装的摄像头同时采集物体的两路像素数据并存储；根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息；对于物体上不能确定视差的点，通过边缘检测确定该点的轮廓信息，并根据所述轮廓信息更新该点的深度信息；根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类；将曲面聚类后的像素点进行分割和拓扑分析；根据所述拓扑分析的结果对物体进行特征描述并存储；将物体的特征描述与数据库中的特征数据进行比较得到识别结果，从而保证可以识别任何物体。

另外，通过将聚类后的像素点进行分割和拓扑分析，从而保证分析的结果最接近人的思维。本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的***而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

1.一种三维物体识别方法，其特征在于，包括：

将曲面聚类后的像素点进行分割和拓扑分析，包括对同一个曲面体里的所有像素点的值进行累加和平均处理得到不同曲面体的质心，并通过判断不同曲面体的质心之间的空间关系确定不同曲面体之间的位置关系，并将不同曲面体之间的位置关系用拓扑关系矩阵来表示；

根据所述拓扑分析的结果对物体进行特征描述并存储，包括将各个曲面体的函数参数值和拓扑关系矩阵用关系链表加以组织，并利用各个曲面体在图像中成像的面积作为权重，对各个曲面体进行排序；

2.如权利要求1所述的三维物体识别方法，其特征在于，所述根据所述两路像素数据计算物体上的每个点分别在两路像素数据中对应的像素点的视差，并根据所述两个摄像头之间的距离、摄像头的焦距和所述视差得到每个点的深度信息的步骤包括：

3.如权利要求1所述的三维物体识别方法，其特征在于，所述根据每个像素点的深度信息和像素数据对每个像素点进行曲面聚类的步骤包括：

4.如权利要求1所述的三维物体识别方法，其特征在于，所述将曲面聚类后的像素点进行分割的步骤，包括查找具有两个以上函数参数值的像素点作为两个以上曲面的边界点，将具有相同函数参数值的曲面归为同一个曲面体。

5.如权利要求1所述的三维物体识别方法，其特征在于，所述摄像头包括CMOS或CCD摄像头中的任一种。

6.如权利要求1所述的三维物体识别方法，其特征在于，所述两个摄像头的光轴基本平行且基线长度在55mm至65mm之间。

7.如权利要求1所述的三维物体识别方法，其特征在于，所述两个摄像头采用同一个曝光控制信号。

8.如权利要求1所述的三维物体识别方法，其特征在于，所述摄像头同时采集的物体的两路视频图像存储入包括SDRAM、DDR-SDRAM或SRAM的任一种动态数据存储区。

9.如权利要求1所述的三维物体识别方法，其特征在于，所述特征描述存入非易失性存储器中。

10.一种三维物体识别***，其特征在于，包括：

图像存储模块，用于存储所述两路像素数据；

分割拓扑模块，将曲面聚类后的像素点进行分割和拓扑分析，其中，所述分割拓扑模块对同一个曲面体里的所有像素点的值进行累加和平均处理得到不同曲面体的质心，并通过判断不同曲面体的质心之间的空间关系确定不同曲面体之间的位置关系，并将不同曲面体之间的位置关系用拓扑关系矩阵来表示；

特征描述模块，用于根据所述拓扑分析的结果对物体进行特征描述，包括将各个曲面体的函数参数值和拓扑关系矩阵用关系链表加以组织，并利用各个曲面体在图像中成像的面积作为权重，对各个曲面体进行排序；

描述存储模块，用于存储所述特征描述；

数据库，用于存储物体的特征数据；

11.如权利要求10所述的三维物体识别***，其特征在于，所述深度计算模块通过Census算法计算每个像素点在另一路摄像头数据中对应位置周边最匹配的像素点位置；通过两个摄像头之间的距离和摄像头的焦距和所述视差信息计算被摄物体对应点离摄像头的距离即深度信息。

12.如权利要求10所述的三维物体识别***，其特征在于，所述曲面聚类模块根据三维二次曲面的表示公式和每个像素点的深度信息、像素数据计算得到每个像素点的函数参数值；根据最小二乘法则，计算误差最小的函数参数值作为每个曲面体的最终的函数参数值，根据每个曲面体的最终的函数参数值对所有相邻像素点进行不停的叠代计算以拟合最多的相邻像素点。

13.如权利要求10所述的三维物体识别***，其特征在于，所述分割拓扑模块查找具有两个以上函数参数值的像素点作为两个以上曲面的边界点，将具有相同函数参数值的曲面归为同一个曲面体。

14.如权利要求10所述的三维物体识别***，其特征在于，所述摄像头包括CMOS或CCD摄像头中的任一种。

15.如权利要求10所述的三维物体识别***，其特征在于，所述两个摄像头的光轴基本平行且基线长度在55mm至65mm之间。

16.如权利要求10所述的三维物体识别***，其特征在于，所述两个摄像头采用同一个曝光控制信号。

17.如权利要求10所述的三维物体识别***，其特征在于，所述图像存储模块包括SDRAM、DDR-SDRAM或SRAM的任一种。

18.如权利要求10所述的三维物体识别***，其特征在于，所述描述存储模块为非易失性存储器。