CN110070865A

CN110070865A - 一种具有语音和图像识别功能的向导机器人

Info

Publication number: CN110070865A
Application number: CN201910264736.2A
Authority: CN
Inventors: 孙昌勋; 许志强
Original assignee: Beijing Ronglian Ets Information Technology Co Ltd
Current assignee: Beijing Ronglian Ets Information Technology Co Ltd
Priority date: 2019-04-03
Filing date: 2019-04-03
Publication date: 2019-07-30
Anticipated expiration: 2039-04-03
Also published as: CN110070865B

Abstract

本发明涉及一种具有语音和图像识别功能的向导机器人，具体包括：语音输入单元，图像采集单元，触摸输入单元，语音处理单元，图像处理单元，文本处理单元，决策单元，运动控制单元，存储单元和输出单元。所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息，综合上述信息确定机器人的运动轨迹和需要输出的信息，并分别发送至运动控制单元和输出单元。该向导机器人，能够通过采集用户的语音信息、图像信息以及用户输入的辅助信息，自主判断用户类型，并基于用户的类型选择合适的信息输出形式，能够实现针对不同的用户群体提供特定的向导服务。同时向导机器人能够针对用户的提问实现与用户的简单交流。

Description

一种具有语音和图像识别功能的向导机器人

技术领域

本发明涉及机器人领域，特别涉及一种具有语音和图像识别功能的向导机器人。

背景技术

导游职业在我国旅游事业的高速发展过程中起到了非常重要的作用，然而多数旅游景点的导游工作都具有重复性高、创造性低的特点。一方面高度重复性的劳动浪费了大量的人力资源；另一方面长期从事某项导游工作也难免使人产生滞怠情绪，降低服务质量。此外，随着各种新兴的旅游方式的兴起，游客通常会希望及时地得到不同的信息，同时也希望导游方式也更加吸引人；现有的讲解器可以实现针对具有不同母语的人群提供不同语言类型的讲解，但讲解内容和形式单一，固定，且不具备人机交互功能。然而传统的导游服务和讲解器逐渐地不能满足这些需求，这为面向旅游业的导引机器人的诞生及发展提出了市场需求。

机器人在一些特殊的场合，比如广场、展览馆、博物馆、科技馆、商店和旅游场所等地方，人员并不密集，工作环境固定，机器人可以承担部分向导的工作，进行简单固定的引导和解说工作。这样不仅可以减少服务人员的数量，而且可以增加科技元素和趣味性，吸引儿童和青少年的参与。

但是现有的向导机器人工作模式也较为单一，只能以固定模式向用户传输预定的信息，无法自主针对用户群体的不同，提供具有针对性的信息，从而满足不同人群的需求。

发明内容

针对上述技术问题，本发明公开了一种具有语音和图像识别功能的向导机器人，能够实现自动识别用户类型，针对不同的用户群体提供特定的向导服务，且能够实现与用户的简单交流。

为实现上述目的，本发明提供如下技术方案：

一种具有语音和图像识别功能的向导机器人，具体包括：语音输入单元，图像采集单元，触摸输入单元，语音处理单元，图像处理单元，文本处理单元，决策单元，运动控制单元，存储单元和输出单元；

所述语音输入单元用于采集语音信息；

所述图像采集单元用于采集图像信息，所述图像采集单元采集的图像信息包括环境图像和人物图像；

所述触摸输入单元用于辅助用户输入；

所述语音处理单元用于接收语音输入单元采集的语音信息，对接收的语音信息进行处理，并将处理结果发送至决策单元；

所述图像处理单元用于接收图像采集单元采集的图像信息，对接收的图像信息进行处理，并将处理结果发送至决策单元；

所述文本处理单元用于接收触摸输入单元的输入，对接收的信息进行处理，并将处理结果发送至决策单元；

所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息，综合上述信息确定机器人的运动轨迹和需要输出的信息，并分别发送至运动控制单元和输出单元；

所述存储单元用于存储各种语言对应的景点相关信息，各种语种及对应幼儿、中小学生、成年人和老年人四种不同人群的声音及图像模板，所述景点相关信息进一步包括景点地图，针对该景点的简单问题及对应的答案，对各种语种及对应幼儿，中小学生，成年人和老年人四种不同人群的景点的向导信息，所述向导信息进一步包括语音和图像信息；

所述输出单元包括语音播放器及显示屏，用于输出景点信息。

所述语音处理单元用于接收语音输入单元采集的语音信息，对接收的语音信息进行处理的具体步骤如下：

针对采集到的语音信息进行预处理，所述预处理包括确定声源主体，滤除噪声和语音增强；

针对预处理后的语音数据进行语音分析和识别，确定语种和用户年龄段，所述年龄段包括幼儿，中小学生，成年人和老年人。

所述预处理后的语音数据进行语音分析和识别的具体步骤如下：针对预处理后的语音信息进行分帧处理，每帧长为25ms，对分帧数据进行加汉明窗处理，针对处理后的语音数据进行特征提取，确定基频和MFCC系数，将提取的基频和MFCC系数与存储单元中存储的各类型声音模板的基频和MFCC系数进行比对，选择匹配概率最高的语种和用户年龄段作为最终匹配结果。

所述图像处理单元基于图像采集单元采集的环境图像生成地图信息，并将该地图信息发送至决策单元。

所述图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段的具体方法如下：基于采集到的人物图像确定用户身高信息，同时提取人脸区域，针对提取的人脸区域图像进行预处理，所述预处理过程包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正和滤波处理；针对预处理后的人脸图像进行特征提取，提取的特征包括眼睛、鼻子、耳朵、嘴巴、发际线特征，将用户身高信息以及根据人脸图像提取的眼睛、鼻子、耳朵、嘴巴、发际线特征与存储单元中预先存储的图像模型进行比对，选择匹配概率最高的用户年龄段作为最终匹配结果。

所述文本处理单元用于接收触摸输入单元的输入，输入信息包括语种和/或年龄段，还可输入与景区相关的问题，文本处理单元将用户输入的问题进行文本处理后发送至决策单元。

所述决策单元接收图像处理单元发送的地图信息，将该地图信息与存储单元中预先存储的地图信息进行匹配，基于预设的路径规划算法进行路径规划，并将规划后的路径发送至运动控制单元。

所述决策单元接收语音处理单元发送的用户年龄段最终匹配结果M1和图像处理单元发送的用户年龄段最终匹配结果M2，根据语音处理单元的匹配概率k1和图像处理单元的匹配概率k2，确定匹配结果M1和M2的可信度r1和r2，其中基于匹配结果和可信度确定最终用户所属年龄段，其公式如下：Age＝r1*M1+r2*M2。

所述决策单元基于语音处理单元发送的语种和最终确定的用户所属年龄段，在存储单元预先存储的语音数据中选择合适该用户类型的语音信息，并通过输出单元进行输出。

所述语音输入单元为麦克风，所述图像采集单元为摄像头，所述触摸输入单元为可触摸式显示屏。

与现有技术相比，本发明的有益效果是：

该具有语音和图像识别功能的向导机器人，能够通过采集用户的语音信息、图像信息以及用户输入的辅助信息，自主判断用户类型，并基于用户的类型选择合适的信息输出形式，能够实现针对不同的用户群体提供特定的向导服务。同时向导机器人能够针对用户的提问实现与用户的简单交流。

附图说明

图1本发明实施例的一种具有语音识别和图像识别功能的向导机器人的结构框图；

图2本发明实施例的一种通过语音确定用户年龄段的方法流程图；

图3本发明实施例的一种通过图像确定用户年龄段的方法流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种具有语音识别和图像识别功能的向导机器人，包括语音输入单元，图像采集单元，触摸输入单元，语音处理单元，图像处理单元，文本处理单元，决策单元，运动控制单元，存储单元和输出单元；

所述语音输入单元用于采集语音信息；

所述图像采集单元用于采集图像信息；

所述图像采集单元采集的图像信息包括环境图像和人物图像；

所述触摸输入单元用于辅助用户输入；

由于景区环境比较嘈杂，因此针对采集到的语音信息需要进行预处理，所述预处理包括确定声源主体，滤除噪声和语音增强；

针对预处理后的语音数据进行语音分析和识别，确定语种和用户年龄段，所述语种包括中文，英文，法文等常用语种，所述年龄段包括幼儿，中小学生，成年人和老年人；

具体语音分析和识别过程包括，针对预处理后的语音信息进行分帧处理，每帧长为25ms，对分帧数据进行加汉明窗处理。针对处理后的语音数据进行特征提取，确定基频和MFCC系数，将提取的基频和MFCC系数与存储单元中存储的各类型声音模板的基频和MFCC系数进行比对，选择匹配概率最高的语种和用户年龄段作为最终匹配结果。

基频是指声带随气流周期性振动的频率，基频也是自然语言中频率最低的分量，不同的性别、年龄之间，基频有较大的差异，如幼儿的基频高于成年人，梅尔频率倒谱系数MFCC可以体现语音信号的能量在不同频域范围的分布，是基于人耳的听觉特征提取的参数，通常根据主观经验也可判断出说话人的大致年龄，而且，MFCC包含了一些听觉以外的信息，因此，根据MFCC可以对说话人的年龄进行估计。

所述MFCC参数的具体获取流程如下：

对采集的语音信息进行归一化处理，得到矩阵形式的数据；

对矩阵形式的数据进行FFT变换，得到短时能量谱X_n(k)；

构建滤波器对所述短时能量谱进行滤波处理，得到系数m(i)，其中p为滤波器个数，H_i(k)为第i个滤波器，

其中，f[i]是第i个滤波器的中心频率，满足每个滤波器的起始频率与邻近滤波器的中心频率相同；

对滤波器的输出求对数能量，最后进行DCT变换，得到MFCC参数：

图像处理单元基于图像采集单元采集的环境图像生成地图信息，并将该地图信息发送至决策单元；

图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段；

图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段的具体方法如下：

基于采集到的人物图像确定用户身高信息，同时提取人脸区域，针对提取的人脸区域图像进行预处理，所述预处理过程包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正和滤波处理。

针对预处理后的人脸图像进行特征提取，提取的特征包括眼睛、鼻子、耳朵、嘴巴、发际线特征，将用户身高信息以及根据人脸图像提取的眼睛、鼻子、耳朵、嘴巴、发际线特征与存储单元中预先存储的图像模型进行比对，选择匹配概率最高的用户年龄段作为最终匹配结果。

用户可通过触摸输入单元输入语种和年龄段，还可输入与景区相关的问题，文本处理单元将用户输入的问题进行文本处理后发送至决策单元；

所述决策单元用于接收语音处理单元、图像处理单元和文本处理单元发送的信息，综合上述单元的信息确定机器人的运动轨迹和需要输出的信息，并分别发送至运动控制单元和输出单元；

决策单元接收图像处理单元发送的地图信息，将该地图信息与存储单元中预先存储的地图信息进行匹配，基于预设的路径规划算法进行路径规划，并将规划后的路径发送至运动控制单元；

决策单元接收语音处理单元发送的用户年龄段最终匹配结果M1和图像处理单元发送的用户年龄段最终匹配结果M2，根据语音处理单元的匹配概率k1和图像处理单元的匹配概率k2，确定匹配结果M1和M2的可信度r1和r2，其中基于匹配结果和可信度确定最终用户所属年龄段，其公式如下：Age＝r1*M1+r2*M2。

决策单元基于语音处理单元发送的语种和最终确定的用户所属年龄段，在存储单元预先存储的语音数据中选择合适该用户类型的语音信息，并通过输出单元进行输出。

所述运动控制单元用于接收决策单元发送的路径信息，并基于该信息控制向导机器人的运动轨迹；

所述决策单元可将文本处理单元或语音处理单元发送的用户问题与存储单元预先存储的针对该景点的简单问题进行匹配，将对应答案发送至输出单元进行输出。

所述语音输入单元为麦克风。

所述图像采集单元为摄像头。

所述触摸输入单元为可触摸式显示屏。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的范围之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种具有语音和图像识别功能的向导机器人，具体包括：语音输入单元，图像采集单元，触摸输入单元，语音处理单元，图像处理单元，文本处理单元，决策单元，运动控制单元，存储单元和输出单元；

所述语音输入单元用于采集语音信息；

所述触摸输入单元用于辅助用户输入；

所述存储单元用于存储各种语言对应的景点相关信息，各种语种及对应幼儿、中小学生、成年人和老年人四种不同人群的声音及图像模板，所述景点相关信息具体包括景点地图，针对该景点的简单问题及对应的答案，对各种语种及对应幼儿，中小学生，成年人和老年人四种不同人群的景点的向导信息，所述向导信息具体包括语音和图像信息；

2.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述语音处理单元用于接收语音输入单元采集的语音信息，对接收的语音信息进行处理的具体步骤如下：

3.根据权利要求2所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述预处理后的语音数据进行语音分析和识别的具体步骤如下：针对预处理后的语音信息进行分帧处理，每帧长为25ms，对分帧数据进行加汉明窗处理，针对处理后的语音数据进行特征提取，确定基频和MFCC系数，将提取的基频和MFCC系数与存储单元中存储的各类型声音模板的基频和MFCC系数进行比对，选择匹配概率最高的语种和用户年龄段作为最终匹配结果。

4.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述图像处理单元基于图像采集单元采集的环境图像生成地图信息，并将该地图信息发送至决策单元。

5.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述图像处理单元基于图像采集单元采集的人物图像确定用户所属年龄段的具体方法如下：基于采集到的人物图像确定用户身高信息，同时提取人脸区域，针对提取的人脸区域图像进行预处理，所述预处理过程包括人脸图像的光线补偿、灰度变换、直方图均衡化、归一化、几何校正和滤波处理；针对预处理后的人脸图像进行特征提取，提取的特征包括眼睛、鼻子、耳朵、嘴巴、发际线特征，将用户身高信息以及根据人脸图像提取的眼睛、鼻子、耳朵、嘴巴、发际线特征与存储单元中预先存储的图像模型进行比对，选择匹配概率最高的用户年龄段作为最终匹配结果。

6.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述文本处理单元用于接收触摸输入单元的输入，输入信息包括语种和/或年龄段，还可输入与景区相关的问题，文本处理单元将用户输入的问题进行文本处理后发送至决策单元。

7.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述决策单元接收图像处理单元发送的地图信息，将该地图信息与存储单元中预先存储的地图信息进行匹配，基于预设的路径规划算法进行路径规划，并将规划后的路径发送至运动控制单元。

8.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述决策单元接收语音处理单元发送的用户年龄段最终匹配结果M1和图像处理单元发送的用户年龄段最终匹配结果M2，根据语音处理单元的匹配概率k1和图像处理单元的匹配概率k2，确定匹配结果M1和M2的可信度r1和r2，其中基于匹配结果和可信度确定最终用户所属年龄段，其公式如下：Age＝r1*M1+r2*M2。

9.根据权利要求8所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述决策单元基于语音处理单元发送的语种和最终确定的用户所属年龄段，在存储单元预先存储的语音数据中选择合适该用户类型的语音信息，并通过输出单元进行输出。

10.根据权利要求1所述的一种具有语音和图像识别功能的向导机器人，其特征在于，所述语音输入单元为麦克风，所述图像采集单元为摄像头，所述触摸输入单元为可触摸式显示屏。