CN111230891B

CN111230891B - 一种机器人及其语音交互***

Info

Publication number: CN111230891B
Application number: CN201811441703.2A
Authority: CN
Inventors: 熊友军; 胡佳文; 张木森; 黄高波
Original assignee: Ubtech Robotics Corp
Current assignee: Ubtech Robotics Corp
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2021-07-27
Anticipated expiration: 2038-11-29
Also published as: CN111230891A

Abstract

本发明适用于机器人技术领域，提供了一种机器人及其语音交互***，包括依次连接的人脸检测模块、唇动检测模块和语音拾音提取模块；所述人脸检测模块用于检测人脸，并在检测到人脸时，向所述唇动检测模块发送检测到人脸的通知；所述唇动检测模块用于在接收到所述检测到人脸的通知时，检测唇动，并在检测到唇动时，向所述语音拾音提取模块发送检测到唇动的通知；所述语音拾音提取模块用于在接收到所述检测到唇动的通知时，进入工作状态，对当前环境进行拾音，以提取当前环境中的语音信号。可以确保在有人说话时才开始提取当前环境中的语音信号，避免误识别，提高用户体验，并且可以有效降低功耗。

Description

一种机器人及其语音交互***

技术领域

本发明属于机器人技术领域，尤其涉及一种机器人及其语音交互***。

背景技术

随着机器人技术的不断发展，各种智能机器人层出不穷，在金融、家居、制造、建筑、医疗等多种领域都有广泛应用，为人们的日常生产和生活带来了极大便利。目前，具备智能语音交互功能的机器人因其实用性和趣味性而广受欢迎。

然而，为了让机器人的语音交流更加自然、流畅和智能，现在的很多机器人都采用持续聆听的工作模式，这种工作模式使得机器人在环境噪音比较大的时候容易误识别语音，从而导致在无人与机器人对话时，机器人也会自己说话，用户体验较差。

发明内容

有鉴于此，本发明实施例提供了一种机器人及其语音交互***，以解决现在的很多机器人都采用持续聆听的工作模式，这种工作模式使得机器人在环境噪音比较大的时候容易误识别语音，从而导致在无人与机器人对话时，机器人也会自己说话，用户体验较差的问题。

本发明实施例的第一方面提供了一种机器人的语音交互***，其包括依次连接的人脸检测模块、唇动检测模块和语音拾音提取模块；

所述人脸检测模块用于检测人脸，并在检测到人脸时，向所述唇动检测模块发送检测到人脸的通知；

所述唇动检测模块用于在接收到所述检测到人脸的通知时，检测唇动，并在检测到唇动时，向所述语音拾音提取模块发送检测到唇动的通知；

所述语音拾音提取模块用于在接收到所述检测到唇动的通知时，进入工作状态，对当前环境进行拾音，以提取当前环境中的语音信号。

在一个实施例中，所述人脸检测模块还用于在未检测到人脸时，向所述语音拾音提取模块发送未检测到人脸的通知，并继续检测人脸；

所述语音拾音提取模块还用于在接收到所述未检测到人脸的通知时或未接收到所述检测到人脸的通知时，进入休眠状态。

在一个实施例中，所述人脸检测模块还用于在检测到人脸时，向所述语音拾音提取模块发送检测到人脸的通知，并继续检测人脸；

所述语音拾音提取模块还用于在接收到所述检测到人脸的通知时，进入准备状态。

在一个实施例中，所述唇动检测模块还用于：

在未检测到唇动时，累计未检测到唇动的持续时间；

在未检测到唇动的持续时间大于预设时长时，进入休眠状态。

在一个实施例中，所述唇动检测模块还用于在检测到唇动时，将所累计的未检测到唇动的持续时间清零。

在一个实施例中，所述唇动检测模块还用于在未检测到唇动的持续时间大于预设时长时，向所述语音拾音提取模块发送未检测到唇动的通知；

所述语音拾音提取模块还用于在接收到所述未检测到唇动的通知时或未接收到所述检测到唇动的通知时，进入休眠状态。

在一个实施例中，所述的机器人的语音交互***，还包括：

与所述语音拾音提取模块连接的自然语义解析模块，用于对所述语音信号进行自然语义解析，识别所述语音信号的含义；以及

与所述自然语音解析模块连接的语音播放模块，用于根据所述语音信号的含义查找对应的语音数据并播放。

在一个实施例中，所述的机器人的语音交互***，还包括与所述语音播放模块连接的音箱。

在一个实施例中，所述的机器人的语音交互***还包括：

与所述人脸检测模块连接的摄像头，用于拍摄当前环境中的预设区域的图像；以及

与所述语音拾音提取模块连接的麦克风；

所述人脸检测模块具体用于根据所述图像检测所述当前环境中的预设区域是否有人脸。

本发明实施例的第二方面提供了一种机器人，其包括上述的机器人的语音交互***。

本发明实施例提供一种包括依次连接的人脸检测模块、唇动检测模块和语音拾音提取模块的机器人的语音交互***，通过人脸检测模块检测人脸，并在检测到人脸时，向唇动检测模块发送检测到人脸的通知；通过人脸检测模块在接收到检测到人脸的通知时，检测到唇动，并在检测到唇动时，向语音拾音提取模块发送检测到唇动的通知；通过语音拾音提取模块在接收到检测到唇动的通知时，进入工作状态，对当前环境进行拾音，以提取当前环境中的语音信号，可以确保在有人说话时才开始提取当前环境中的语音信号，避免误识别，提高用户体验，并且可以有效降低功耗。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的机器人的语音交互***的结构示意图；

图2是本发明实施例二提供的人脸检测模块的工作流程示意图；

图3是本发明实施例二提供的唇动检测模块的工作流程示意图；

图4是本发明实施例二提供的语音拾音提取模块的工作流程示意图；

图5是本发明实施例三提供的机器人的语音交互***的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“包括”以及它们任何变形，意图在于覆盖不排他的包含。例如包含一系列步骤或单元的过程、方法或***、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。此外，术语“第一”、“第二”和“第三”等是用于区别不同对象，而非用于描述特定顺序。

实施例一

如图1所示，本实施例提供一种机器人的语音交互***10，其包括依次连接的人脸检测模块1、唇动检测模块2和语音拾音提取模块3。

在具体应用中，机器人可以是任意类型的包括所述语音交互***，具备语音交互功能的机器人，例如，服务机器人、水下机器人、娱乐机器人、军用机器人、农业机器人、机器人化机器等。

应当理解的是，在实际应用中，根据机器人的具体用途和应用场所的不同，机器人还可以包括供电装置、机械运动机构、无线网络通信模块等部件，本发明各实施例及对应的附图中仅示例性的示出了与本发明密切相关的部分，并不构成对机器人具体结构和功能的限定。

在具体应用中，人脸检测模块、唇动检测模块和语音拾音提取模块可以通过串行数据总线、电缆线、光纤等实体连接线实现有线连接，也可以通过蓝牙模块、WiFi模块、ZigBee模块等无线通信模块实现无线连接，人脸检测模块、唇动检测模块和语音拾音提取模块可以是机器人的处理器中实体的子功能分区模块，也可以是由机器人的处理器来运行的软件程序模块。人脸检测模块、唇动检测模块和语音拾音提取模块还可以各自通过单独的处理器来实现。所称处理器可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本实施例中，人脸检测模块1用于检测人脸，并在检测到人脸时，向唇动检测模块2发送检测到人脸的通知；

唇动检测模块2用于在接收到检测到人脸的通知时，检测唇动，并在检测到唇动时，向语音拾音提取模块3发送检测到唇动的通知；

语音拾音提取模块3用于在接收到检测到唇动的通知时，进入工作状态，对当前环境进行拾音，以提取当前环境中的语音信号。

在具体应用中，人脸检测模块具体用于获取机器人的摄像头或与机器人连接的摄像头所拍摄的当前环境的图像或视频数据，然后通过人脸识别技术检测获取到的图像或视频数据中是否包括人脸；唇动检测模块用于在人脸检测模块检测到人脸之后，进一步的通过图像识别技术或五官识别技术检测图像或视频数据中的人脸的唇部是否运动，当前环境中的人讲话时，唇部会运动，而使得唇部检测模块检测到唇动。

在具体应用中，检测到人脸的通知和检测到唇动的通知可以以心跳报文或脉冲信号的形式发送。

本实施例通过人脸检测模块检测人脸，并在检测到人脸时，向唇动检测模块发送检测到人脸的通知；通过人脸检测模块在接收到检测到人脸的通知时，检测到唇动，并在检测到唇动时，向语音拾音提取模块发送检测到唇动的通知；通过语音拾音提取模块在接收到检测到唇动的通知时，进入工作状态，对当前环境进行拾音，以提取当前环境中的语音信号，可以确保在有人说话时才开始提取当前环境中的语音信号，避免误识别，提高用户体验，并且可以有效降低功耗。

实施例二

如图2所示，在本实施例中，人脸检测模块1还用于在未检测到人脸时，向语音拾音提取模块3发送未检测到人脸的通知，并继续检测人脸；

语音拾音提取模块3还用于在接收到未检测到人脸的通知时或未接收到检测到人脸的通知时，进入休眠状态。

在具体应用中，通过在未检测到人脸时向语音拾音提取模块发送未检测到人脸的通知，使语音拾音提取模块在接收到未检测到人脸的通知时或未接收到检测到人脸的通知时，进入休眠状态，可以避免语音拾音提取模块长时间处于聆听当前环境中的声音的状态(工作状态)，以降低功耗，提高语音拾音提取模块的使用寿命。

如图2所示，在本实施例中，人脸检测模块1还用于在检测到人脸时，向语音拾音提取模块3发送检测到人脸的通知，并继续检测人脸；

语音拾音提取模块3还用于在接收到检测到人脸的通知时，进入准备状态。

在具体应用中，通过在检测到人脸时，使语音拾音提取模块进入准备状态，可以使语音拾音提取模块提前做好拾音提取的准备工作，以便于在唇动检测模块检测到唇动时，语音拾音提取模块可以及时响应，提高整个***的灵敏度。

如图3所示，在本实施例中，唇动检测模块2还用于：

在未检测到唇动时，累计未检测到唇动的持续时间；

在具体应用中，预设时长可以根据实际需要设置为任意合理的时长，例如，5～30分钟内的任意值。通过在未检测到唇动的持续时间大于预设时长时，使唇动检测模块进入休眠状态，避免唇动检测模块长期处于工作状态，可以有效降低唇动检测模块的功耗，提高唇动检测模块的使用寿命。

在本实施例中，唇动检测模块2还用于在检测到唇动时，将所累计的未检测到唇动的持续时间清零。

如图3或图4所示，在本实施例中，唇动检测模块2还用于在未检测到唇动的持续时间大于预设时长时，向语音拾音提取模块3发送未检测到唇动的通知；

语音拾音提取模块3还用于在接收到未检测到唇动的通知时或未接收到检测到唇动的通知时，进入休眠状态。

在具体应用中，通过在未检测到唇动的持续时间大于预设时长或未接收到检测到唇动的通知时，使语音拾音提取模块进入休眠状态，避免语音拾音提取模块长期处于工作状态，可以有效降低语音拾音提取模块的功耗，提高语音拾音提取模块的使用寿命。

如图2所示，示例性的示出了人脸检测模块1的工作流程示意图，包括：

步骤S201、启动；进入步骤S202；

步骤S202、判断是否检测到人脸；若是，进入步骤S203；若否，进入步骤S204；

步骤S203、分别向唇动检测模块1和语音拾音提取模块3发送检测到人脸的通知；进入步骤S202；

步骤S204、向语音拾音提取模块3发送未检测到人脸的通知；进入步骤S202。

如图3所示，示例性的示出了唇动检测模块2的工作流程示意图，包括：

步骤S301、启动；进入步骤S302；

步骤S302、进入休眠状态；进入步骤S303；

步骤S303、判断是否接收到检测到人脸的通知；若是，进入步骤S304；若否，进入步骤S302；

步骤S304、判断是否检测到唇动；若是，进入步骤S305；若否，进入步骤S306；

步骤S305、向语音拾音提取模块3发送检测到唇动的通知；进入步骤S303；

步骤S306、累计未检测到唇动的持续时间；进入步骤S307；

步骤S307、判断未检测到唇动的持续时间是否大于预设时长；若是，进入步骤S308；若否，进入步骤S306；

步骤S308、向语音拾音提取模块3发送未检测到唇动的通知；进入步骤S302。

如图4所示，示例性的示出了语音拾音提取模块3的工作流程示意图，包括：

步骤S401、启动；进入步骤S402；

步骤S402、进入休眠状态；进入步骤S403；

步骤S403、判断是否接收到检测到人脸的通知；若是，进入步骤S405；若否，进入步骤S402；

步骤S404、判断是否接收到未检测到人脸的通知；若是，进入步骤S402；

步骤S405、进入准备状态；进入步骤S406；

步骤S406、判断是否接收到检测到唇动的通知；若是，进入步骤S407；若否，进入步骤S402；

步骤S407、进入工作状态；

步骤S408、判断是否接收到检测到唇动的通知；若否，进入步骤S402。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

实施例三

如图5所示，在本实施例中，实施例一或实施例二中的语音交互***10，还包括：

与语音拾音提取模块3连接的自然语义解析模块4，用于对语音信号进行自然语义解析，识别语音信号的含义；以及

与自然语音解析模块4连接的语音播放模块5，用于根据语音信号的含义查找对应的语音数据并播放。

在具体应用中，语音拾音提取模块、自然语音解析模块和语音播放模块可以通过串行数据总线、电缆线、光纤等实体连接线实现有线连接，也可以通过蓝牙模块、WiFi模块、ZigBee模块等无线通信模块实现无线连接，自然语音解析模块和语音播放模块可以是机器人的处理器中实体的子功能分区模块，也可以是由机器人的处理器来运行的软件程序模块。自然语音解析模块和语音播放模块还可以各自通过单独的处理器来实现。

在具体应用中，自然语言解析模块具体可以通过自然语言处理(NaturalLanguage Processing，NLP)技术来实现，语音播放模块具体可以通过从文本到语音(TextToSpeech，TTS)技术来实现。

如图5所示，在本实施例中，语音交互***10还包括：

与语音播放模块5连接的音箱6；

与人脸检测模块1连接的摄像头7，用于拍摄当前环境中的预设区域的图像；以及

与语音拾音提取模块3连接的麦克风8；

人脸检测模块1具体用于根据图像检测当前环境中的预设区域是否有人脸。

在具体应用中，音箱可以根据实际需要设置为喇叭或任意的可对语音信号进行放大处理后播放的器件。摄像头可以根据实际需要选择任意类型的摄像头，例如，带有可移动或可旋转的云台的摄像头，红外摄像头、广角摄像头等。麦克风可以根据实际需要选择任意类型的麦克风，例如，麦克风阵列。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述***中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的装置/终端设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/终端设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个***，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种机器人的语音交互***，其特征在于，包括依次连接的人脸检测模块、唇动检测模块和语音拾音提取模块；

所述语音拾音提取模块用于在接收到所述检测到唇动的通知时，进入工作状态，对当前环境进行拾音，以提取当前环境中的语音信号；

所述语音拾音提取模块还用于在接收到未检测到人脸的通知时或未接收到所述检测到人脸的通知时，进入休眠状态；

其中，检测到人脸的通知和检测到唇动的通知通过心跳报文或脉冲信号的形式发送。

2.如权利要求1所述的机器人的语音交互***，其特征在于，所述人脸检测模块还用于在未检测到人脸时，向所述语音拾音提取模块发送未检测到人脸的通知，并继续检测人脸。

3.如权利要求1或2所述的机器人的语音交互***，其特征在于，所述人脸检测模块还用于在检测到人脸时，向所述语音拾音提取模块发送检测到人脸的通知，并继续检测人脸；

4.如权利要求1所述的机器人的语音交互***，其特征在于，所述唇动检测模块还用于：

在未检测到唇动时，累计未检测到唇动的持续时间；

5.如权利要求4所述的机器人的语音交互***，其特征在于，所述唇动检测模块还用于在检测到唇动时，将所累计的未检测到唇动的持续时间清零。

6.如权利要求4或5所述的机器人的语音交互***，其特征在于，所述唇动检测模块还用于在未检测到唇动的持续时间大于预设时长时，向所述语音拾音提取模块发送未检测到唇动的通知；

7.如权利要求1所述的机器人的语音交互***，其特征在于，还包括：

与所述自然语义解析模块连接的语音播放模块，用于根据所述语音信号的含义查找对应的语音数据并播放。

8.如权利要求7所述的机器人的语音交互***，其特征在于，还包括与所述语音播放模块连接的音箱。

9.如权利要求1所述的机器人的语音交互***，其特征在于，还包括：

与所述语音拾音提取模块连接的麦克风；

10.一种机器人，其特征在于，包括权利要求1至9任一项所述的机器人的语音交互***。