CN108245385A

CN108245385A - 一种帮助视障人士出行的装置

Info

Publication number: CN108245385A
Application number: CN201810037687.4A
Authority: CN
Inventors: 曹醒龙
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-01-16
Filing date: 2018-01-16
Publication date: 2018-07-06
Anticipated expiration: 2038-01-16
Also published as: CN108245385B

Abstract

本发明提供一种帮助视障人士出行的装置，包括：深度图像计算单元，点云构建单元，地面检测单元，对象分割单元，用于去除地面及以下的点云，并基于聚类的方法进行点云分割，得到各个对象；对象跟踪单元，用于对各个对象进行跟踪，计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度；对象识别单元，用于对于各个对象，投影得到图像区域，提取RGB图像，基于RGB图像进行对象识别；语音合成及输出单元，用于将对象的类型、位置、运动方向和速度合成语音，输出合成语音来通知视障人士。其为视障人士的自主决策提供了全面的信息，有效的帮助视障人士避开障碍物，提高视障人士的出行安全。

Description

一种帮助视障人士出行的装置

技术领域

本发明总体上涉及使用视觉和语音技术来进行障碍物检测和跟踪的装置，更具体地涉及使用双目相机或者立体相机的彩色图和深度图来检测障碍物并进行语音提醒的装置。

背景技术

人类70％的感知信息来自视觉；视障人士比正常人更需要和更渴望弥补和增强。视障人士渴望能够自由的出行。户外出行，静止和移动的障碍物随时可能遇到，它们离的多远、方位如何、速度如何？如何实时发现他们并通知是帮助视障人士出行的关键所在。

目前，学术界和工业界在尝试多种方法来试图解决这一问题。

2014年牛津大学的史蒂芬希克斯研究使用深度传感器加OLED视觉增强的方法，将深度图像转化为音场。2014年的BrainPort项目研究将图像信息转为电极阵列的点阵，由舌头感触来尝试使大脑形成视知觉。这两种方法均需要视障人士使用设备进行相当长一段时间的训练，来尝试使视障人士自己形成一种新的对空间的感知方法。目前看，实施难度大，效果也尚需要验证。

2015年9月百度的Dulight依托“百度大脑”的图像识别、人脸识别、语音识别以及深度学习等相关核心技术，打造盲人的日常生活私人助理。其结合百度大数据分析能力和自然人机交互技术，帮助盲人“洞见”真实世界，其可以把相机看到的物体等告知盲人，但无法知道物体相对于盲人的状态(距离、运动状态、尺寸等)，对室外出行帮助有限。

2017年微软的Seeing AI应用发布，其采用单目眼镜+深度学习技术(手机应用)的方式，主要帮助盲人来对场景进行理解、以语音方式和盲人交互。其通过摄像头对准身边的人或物就能为盲人用语言解说，充当盲人的眼睛，可进行人脸识别，并可通过语音说出此人的性别、大概年龄以及现在的情绪状况，外出买东西时也通过“Seeing AI”可以对门牌，食品信息甚至是货币进行识别再由语音报出。“Seeing AI”的诞生可以让更多的弱视群体尽可能的“独立”，与正常生活缩小差距。其存在的主要问题也是无法知道物体相对于盲人的状态(距离、运动状态、尺寸等)，对室外出行帮助有限。

2015年IBM和卡内基梅隆的合作项目NavCog研究使用蓝牙灯塔结合手机APP的方式来为盲人提高语音导航。这款App可以通过语音与震动两种方式为盲人导航，同时还能把盲人所处的周围环境处理为3D空间模型，通过超声波传到他们耳中，通过耳机语音或是通过创造细微的智能手机震动，提供更加精准的定位和导航。为了让盲人知道身边都有谁，它还贴心地提供了人脸扫描功能，并能告诉盲人身边的人的情绪。它的主要问题是，需要依赖于蓝牙灯塔提供信号，是一种比较方便的信号传递载体。但蓝牙灯塔在中国不多见，极大限制了其应用的可行性。

此外，为帮助室外出行，导盲眼镜产品也有研发，其由电子盒和眼镜两部分组成。眼镜上装有两只超声换能器和一只耳塞机，换能器能够向前方发射和接收反射回来的超声脉冲波，盲人通过耳机发出的声音变化而感知前方的障碍物。具体的，导盲眼镜是将集成电路装置安装在眼镜架和眼镜片上,超声装置不断向前发射超声波,当遇到障碍物时即反射回来,经眼镜上的超声波接收装置接收后,通过电子线路的处理,变成可听见的声音,该声音的音调及重复频率是随着障碍物的距离改变而变化,盲人可以根据声音、音调及重复频率来判断前方有无障碍物及障碍物距离,从而避免了碰撞,使盲人行走方便,减少碰撞的痛苦,是盲人导盲引路的先进工具。导盲眼镜对小障碍物的探测范围是正前方，左右各10度、上方5度、下方35度，在离眼镜2米远的地方，可以探测到左右各0.4米、上方0.2米、下方1.4米的空间范围内的障碍物；对于大的障碍物，探测范围还要大些。探测距离分1.5米和4米两档，由电子盒上的拨动开关选择。当在一定距离内遇到障碍物时，耳机便发出声响，障碍物越近，声音重复得越急促，音调也越来越高。电源采用一节9伏6F22叠层电池，一节电池可使用60小时。使用时，先戴好眼镜，选择好距离档：在人多的地方应选1.5米的距离档，在人少的地方可选4米的距离档。该产品最大的问题是工作的视场范围小、工作距离近、无法知晓障碍物的类型、尺寸运动状态。

发明内容

鉴于上述情况，本发明提供了一种帮助视障人士出行的装置，用于克服现有技术存在的各种问题。

本发明解决上述技术问题所采取的技术方案如下：

深度图像计算单元，用于连接双目相机，并基于双目相机获取左右彩色图像，计算得到深度图像，同步输出彩色图像和深度图像；

点云构建单元，基于彩色图像和深度图像，构建点云(x,y,z,r,g,b)信息，即每个点包含3维空间坐标信息和3维彩色信息；

地面检测单元，基于点云的3维空间坐标信息(x,y,z)进行平面检测，输出位置最低且包含点数最多的平面作为参考地面；

对象分割单元，去除地面及以下的点云，基于聚类的方法进行点云分割，得到各个对象；

对象跟踪单元，对各个对象进行跟踪，计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度；

对象识别单元，对于各个对象，投影得到图像区域，提取RGB图像，基于RGB图像来进行对象识别；

语音合成及输出单元，将对象的类型、位置、运动方向和速度合成语音，输出合成语音来通知视障人士。

本发明同相关的帮忙盲人出行的方法相比，差异的分析如下：

本发明，采用双目设备具有视场角大、可视范围宽的优点，通过计算得到深度图像转换为6D点云可准确描述户外空间场景。采用嵌入式计算设备，基于3D坐标和彩色信息实时计算得到地面，实时分割得到地面上的各类对象，并进行对象的实时跟踪、对象识别，然后合成语音以一种自然方式告知视障人士。该装置采用了类似于人类进行3D视觉感知的思路来理解户外环境，对光照变化有一定鲁棒性，同时其感知对象的尺寸、轨迹、运动状态和类别信息，为视障人士的自主决策提供了全面的信息。

附图说明

图1示出根据本发明的一种帮助视障人士出行装置的***图；

图2示出根据本发明实施例的一种帮助视障人士出行装置的功能模块图；

图3示出根据本发明实施例的说明人类对3D空间和方向感知示意图；

图4示出根据本发明实施例的深度图像计算单元输出RGB图和深度图示意图；

图5示出根据本发明实施例的点云分割为不同的对象3D点云示意图；

图6示出根据本发明实施例的对象识别的结果示意图。

具体实施方式

为了使本领域技术人员更好地理解本发明，下面结合附图和具体实施方式对本发明作进一步详细说明。

首先，我们分析了人类进行户外出行的具体行为方式。户外出行面对的是一个真实的3维空间。人类感知3维空间采用的方式是双眼。通过双眼产生距离感和空间感。如图3所示意，人类有了空间感可确定空间的3维坐标，有了方向感。然后，感知地面的存在，地面通常是可行走的区域。看地面上是否有阻挡行走的物体。如果有，判断物体的尺寸、物体的运动方向、轨迹和速度以及物体的类型。根据地面上的这些信息大脑做出判断，我们是前进、留在原地、后退还是闪避。

其次，我们分析了视障人士所处的状态，即他们的能力和缺失所在。茫然缺的是视觉感知部分，即其对其不熟悉的户外环境，其不知道3维空间中可行走区域如何、有那些对象存在影响其行走。其听觉能力通常强大，可以快速接收大量语音信息。同时，其具备完整的快速决策和相关行动能力。归纳，视障人士唯一缺乏的是室外的3D感知能力，即缺乏感知对象在何处、对象基本运动状态、对象类型的能力。

基于上述分析，本发明的核心思路是采用类似于人类双眼的设备来获取对3D空间距离的感知，通过地面感知单元、对象分割单元、跟踪和识别单元进行对象分割和对象状态感知，通过语音合成单元将获得的对象状态信息生成语音。语音快速通知视障人士，由视障人士自主完成决策，支持其户外出行。

其中，图1示出了使用本发明的***示意图，主要给出了本发明的主要设备及其输入和输出。

其中，采集设备为一微小型的双目相机，其支持USB供电，可同步采集两路的彩色图像，如该双目相机通过摄像头采集两侧左右的彩色图像。

另一处理设备为嵌入式处理设备，其输入是以上同步的两路彩色图像，经过设备中的深度图像计算单元、点云构建单元、地面检测单元、对象分割单元、对象跟踪单元及语音合成单元的处理后，输出语音通知信息给视障人士。告知前方空间中路面上有何种类型对象、及对象运动状态信息(尺寸、运动方向、轨迹和速度)。其中，嵌入式处理设备可以是处理能力强的手机设备，也可以是其他含有嵌入式处理器并且具备深度学习处理能力的设备，该装置可以用市面上的通用装置。

图2示出了根据本发明一个实施例的一种帮助视障人士出行装置的功能模块图。装置的功能模块主要包括：深度图像计算单元11，用于连接上述双目相机，基于双目相机获取左右彩色图像，从而进行计算得到深度图像，并同步输出彩色图像和深度图像；

其中，深度图像(depth image)也被称为距离影像(range image)，是指将从图像采集器到场景中各点的距离(深度)作为像素值的图像，它直接反映了景物可见表面的几何形状。深度图像经过坐标转换可以计算为点云数据，有规则及必要信息的点云数据也可以反算为深度图像数据。

深度数据流所提供的图像帧中，每一个像素点代表的是在深度感应器的视野中，该特定的(x,y)坐标处物体到离摄像头平面最近的物体到该平面的距离(以毫米为单位)。

本专利中，还包括：点云构建单元12，其主要基于彩色图像和深度图像，构建点云(x,y,z,r,g,b)信息，即每个点包含3维空间坐标信息和3维彩色信息；

地面检测单元13，基于点云的3维空间坐标信息(x,y,z)进行平面检测，输出位置最低且包含点数最多的平面作为参考地面；

对象分割单元14，去除地面及以下的点云，基于聚类的方法进行点云分割，得到各个对象；

对象跟踪单元15，对各个对象进行跟踪，计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度；

对象识别单元16，对于各个对象，投影得到图像区域，提取RGB图像，基于RGB图像来进行对象识别；

语音合成及输出单元17，将对象的类型、位置、运动方向和速度合成语音，输出合成语音来通知视障人士。

其中，以下对各个单元的具体工作原理进行详细说明。

深度图像计算单元11，从双目相机获取同步的左右彩色图像，计算深度图像。

双目相机，可以采取目前市面上常见的双目立体相机，其功能主要用于快速构建立体视频及立体重建。其可以利用双目立体匹配计算，可实时得到场景深度信息和三维模型。

本实施例中，双目相机主要用于拍摄人体周围的空间图像信息(如左右图像)。其在使用前，首先需要通过采集到的左右图像进行标定。标定文件的生成，可以采用基于棋盘格的方法来得到左右相机的畸变矩阵、相机内参和外参，具体实现可参考OpenCV立体视觉部分，在此不详细说明。

为此，所述深度图像计算单元11，用于输入左右相机标定的标定文件，基于得到的各路相机自身的畸变系数和内参和外参，完成对两路相机采集到的图像帧的矫正和行对齐。

其中，具体步骤包括：

采用校正后的左右图，基于匹配技术计算深度图像。

其中，具体的匹配技术可以采用传统的块匹配、动态规划法、图割法、半全局匹配。也可以采用一种改进的深度的优化计算方法。

该方法的主要步骤，具体包括：首先，于传统视差计算方法得到初始视差；然后，对图像中所有像素构建一个图模型，图的结点是像素的视差值，图的边为像素之间的相似度量；像素的视差值通过图模型中的多次迭代传播来达到全局的最优。根据相机的外参和内参将视差信息转换为深度信息。

图4给出了深度图像计算单元输出RGB图和深度图的示意，左图为输出的彩色图像，右图是计算得到的深度图像其中不同颜色代表不同该像素点到相机中心的距离值。

所述点云构建单元12，首先得到彩色图像和深度图像，基于相机的投影逆变换公式得到3维空间的3D点云(x,y,z)；3D点云中每个点分别对应彩色图像中中的一个像素(p_x,p_y)，该像素在彩色图像中含有三通道的rgb数据(r,g,b)。每个点云(x,y,z)带上其彩色信息(r,g,b)，即可得到6D点云信息(x,y,z,r,g,b)。

所述地面检测单元13，用于获取并得到上述3D点云(x,y,z)；在3D点云中进行平面拟合获得多个平面；统计每个平面的如下参数信息：3D点的个数point_number、3D点的高度值的平均值height_average、最大最小的x坐标：x_max和x_min，z坐标：最大最小的z_max和z_min；基于如下规则来确定最大平面：height_average值小，(x_max-x_min)*(z_max_z_min)大，point_number大；输出最大平面的参数即为地面的参数。

对象分割单元14，连接以上地面检测单元13，首先根据得到的地面，去除地面包含的点，去除地面以下的点，具体的根据点云的y坐标同地面的y坐标进行遍历对比即可去除地面以下的点。

对于剩余的点云(x,y,z,r,g,b)，采用聚类的方法将其分割为不同的点云对象，可采用KNN方法直接对点云(x,y,z,r,g,b)进行对象分割；也可采用密度估计方法K均值和LBP核密度估计进行分割。KNN，K均值和LBP核密度估计方法是公开的分割方法，此处实现细节不在赘述。

图5给出了进行点云分割后，得到的不同对象的3D点云(x,y,z)示意。

所述对象跟踪单元15，对各个对象进行跟踪包括：

得到各个对象的点云信息(x,y,z,r,g,b)；

对每个对象基于核相关滤波KCF进行跟踪，也可以采用算法更为简单的卡尔曼滤波或者粒子滤波进行，KCF，卡尔曼滤波及粒子滤波均为公知技术，此处实现细节不在赘述；

对于每个跟踪到的对象，首先通过每个对象包含的点云来确定其尺寸，具体计算每个对象的各个维度的坐标最大和最小值x_max，x_min，y_max，y_min，z_max，z_min即可确定每个对象的尺寸；

根据每个对象包含的点云，计算其重心坐标(xc,yc,zc)；

其中，不同时刻的重心坐标连接起来即可以得到该对象的运动轨迹；轨迹的切线方向为对象的运动方向；通过不同时刻的重心坐标和时间差计算得到运动速度。

对象识别单元16，用于对于各个点云对象，通过相机的投影变换矩阵，确定对应的图像点，计算这些图像点的外接矩形区域；

提取区域的RGB图像；

基于学习方法对对象进行识别，给出分割对象的类别，例如汽车、行人、自行车、垃圾桶、树木、栅栏等。

其中，基于学习方法对对象进行识别，给出分割对象的类别的主要算法和实现步骤包括：离线步骤和在线步骤。离线步骤包括：采用公开的对象识别数据集合作为训练样本几何，例如imageNet数据集合；模型训练采用CNN的深度学习，具体的使用ResNet50进行模型训练；训练后得到模型的输出参数文件。在线步骤：加载ResNet50模型和参数文件，对输入的分割对象的RGB图像进行尺寸变换，基于ResNet50模型进行推论完成对象识别，输出对象的类别。

图6给出了对象识别的结果示意。

语音合成及输出单元17，通过从文字到语音的合成技术，将对象的类型、位置、运动方向和速度合成语音；输出合成语音来通知视障人士。

其中，本发明，采用双目设备具有视场角大、可视范围宽的优点，通过计算得到深度图像转换为6D点云可准确描述户外空间场景。

采用嵌入式计算设备，基于3D坐标和彩色信息实时计算得到地面，实时分割得到地面上的各类对象，并进行对象的实时跟踪、对象识别，然后合成语音以一种自然方式告知视障人士。

该装置采用了类似于人类进行3D视觉感知的思路来理解户外环境，对光照变化有一定鲁棒性，同时其感知对象的尺寸、轨迹、运动状态和类别信息，为视障人士的自主决策提供了全面的信息。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，对本领域的普通技术人员而言，能够理解本发明的方法和装置的全部或者任何步骤或者部件，可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中，以硬件、固件、软件或者它们的组合加以实现，这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。

因此，本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此，本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说，这样的程序产品也构成本发明，并且存储有这样的程序产品的存储介质也构成本发明。显然，所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。

还需要指出的是，在本发明的装置和方法中，显然，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且，执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行，但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种帮助视障人士出行的装置，包括：

深度图像计算单元，用于连接双目相机，并基于双目相机采集到的左右彩色图像，计算得到深度图像，同步输出彩色图像和深度图像；

点云构建单元，用于基于彩色图像和深度图像，构建点云(x,y,z,r,g,b)信息，即每个点包含3维空间坐标信息和3维彩色信息；

对象分割单元，用于去除地面及以下的点云，并基于聚类的方法进行点云分割，得到各个对象；

对象跟踪单元，用于对各个对象进行跟踪，计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度；

对象识别单元，用于对于各个对象，投影得到图像区域，提取RGB图像，基于RGB图像来进行对象识别；

语音合成及输出单元，用于将对象的类型、位置、运动方向和速度合成语音，输出合成语音来通知视障人士。

2.根据权利要求1的帮助视障人士出行的装置，其特征在于，所述深度计算单元，基于双目相机采集到的左右彩色图像，计算得到深度图像包括：

输入左右相机标定的标定文件，其包括了两个相机各自的内参和畸变参数，以及相机的空间位置关系；

基于标定文件进行左右相机图像的畸变矫正和对齐；

采用校正后的左右图，基于匹配技术计算深度图像。

3.根据权利要求1的帮助视障人士出行的装置，其特征在于，所述点云构建单元，用于基于彩色图像和深度图像，构建点云(x,y,z,r,g,b)信息，包括：

获取彩色图像和深度图像，基于相机的投影逆变换得到3维空间的3D点云(x,y,z)；

获取每个点云在彩色图像中对应像素的(r,g,b)信息，得到6D点云信息(x,y,z,r,g,b)。

4.根据权利要求1的帮助视障人士出行的装置，其特征在于，所述地面检测单元，基于点云的3维空间坐标信息(x,y,z)进行平面检测，输出位置最低且包含点数最多的平面作为参考地面，包括：

得到3D点云(x,y,z)，在3D点云中进行平面检测获得多个平面；

统计每个平面包含的3D点的个数point_number，3D点的高度值的平均值height_average，最大最小的x坐标：x_max和x_min、最大最小的z坐标:z_max和z_min；基于规则：point_number大,height_average小，(x_max-x_min)*(z_max_z_min)大，height_average小，得到面积最大且位置最低的平面，以该平面作为参考地面。

5.根据权利要求1的帮助视障人士出行的装置，其特征在于，所述对象分割单元，用于去除地面及以下的点云，并基于聚类的方法进行点云分割，得到各个对象，包括：

去除地面及其以下的点云；

对于剩余的点云(x,y,z,r,g,b)，采用聚类的方法将其分割为不同的点云对象，可采用KNN方法直接对点云(x,y,z,r,g,b)进行对象分割；也可采用密度估计方法K均值和LBP核密度估计进行分割。

6.根据权利要求1的帮助视障人士出行的装置，其特征在于，所述对象跟踪单元，用于对各个对象进行跟踪，计算其在三位空间的尺寸、运动方向、运动轨迹和运动速度，包括：

跟踪各个对象，并得到各个对象的点云信息(x,y,z,r,g,b)；

对每个对象基于核相关滤波KCF进行跟踪，也可基于算法更简单的卡尔曼滤波或者粒子滤波进行以提升跟踪速度；

计算每个对象的尺寸、运动方向、运动轨迹和运动速度。

7.根据权利要求1的帮助视障人士出行的装置，其特征在于，所述对象识别单元，用于对于各个对象，投影得到图像区域，提取RGB图像，基于RGB图像来进行对象识别，包括：

对于各个对象，通过投影变换到图像上的区域；

计算外接矩形区域；

提取区域的RGB图像；

加载离线训练好的ResNet50模型和参数文件，对提取区域RGB图像进行尺寸变换，基于ResNet50模型进行推理，输出对象的类别。

8.根据权利要求7所述的帮助视障人士出行的装置，其特征在于，所述分割对象的类别包括汽车、行人、自行车、垃圾桶、树木或者栅栏。