CN108074581A

CN108074581A - 用于人机交互智能终端的控制***

Info

Publication number: CN108074581A
Application number: CN201611030598.4A
Authority: CN
Inventors: 刘洁
Original assignee: Shenzhen Bo Nuoou Intelligent Technology Co Ltd
Current assignee: Shenzhen Rubu Technology Co.,Ltd.
Priority date: 2016-11-16
Filing date: 2016-11-16
Publication date: 2018-05-25
Anticipated expiration: 2036-11-16
Also published as: CN108074581B

Abstract

本发明公开了一种用于人机交互智能终端的控制***，所述***包括：语音信号采集模块用于采集用户输入的语音信号，去噪模块用于去除语音信号中的人机交互智能终端的***噪声，第一信号处理模块用于对语音信号放大、调频和去除环境噪声，第一唤醒引擎用于响应第一信号处理模块处理后的语音信号生成第一唤醒信号，第二信号处理模块用于对去噪模块处理后的语音信号放大、调频和去除环境噪声，第二唤醒引擎用于响应第二信号处理模块处理后的语音信号生成第二唤醒信号，识别引擎用于根据第一唤醒信号和/或第二唤醒信号识别第一信号处理模块处理后的语音信号。解决了存在***噪声时人机交互智能终端唤醒的问题。

Description

用于人机交互智能终端的控制***

技术领域

本发明实施例涉及人机交互领域，尤其涉及一种用于人机交互智能终端的控制***。

背景技术

在传统的人机交互中，机器人的语音交互***应用广泛。通常是***对语音信号进行放大处理，然后将接收到的信号送到唤醒引擎，当***检测到唤醒词时，***被唤醒，唤醒后收到的语音信号送到唤醒引擎进行重复唤醒和识别引擎做语音识别。然而，机器人运动时存在的***噪声会对有用的唤醒语音信号造成干扰，影响唤醒功能。

目前对前端信号处理时硬件和软件都是封闭的***，多路信号的输入是打包处理的，不能拆解成单一的信号做特定的噪声消除处理，也不能在信号处理的进程中增加噪声消除的软件算法。

发明内容

有鉴于此，本发明实施例提出一种用于人机交互智能终端的控制***，解决了存在***噪声时人机交互智能终端唤醒的问题。

本发明实施例提供了一种用于人机交互智能终端的控制***，所述***包括语音信号采集模块、第一信号处理模块、第一唤醒引擎、去噪模块、第二信号处理模块、第二唤醒引擎和识别引擎，其中，所述语音信号采集模块分别与所述第一信号处理模块和去噪模块相连，所述第一信号处理模块分别与所述第一唤醒引擎和所述识别引擎相连，所述第二信号处理模块分别与所述去噪模块和所述第二唤醒引擎相连，所述识别引擎分别与所述第一唤醒引擎和第二唤醒引擎相连；其中，所述语音信号采集模块用于采集用户输入的语音信号，所述第一信号处理模块用于对所述语音信号放大、调频和去除环境噪声，所述第一唤醒引擎用于响应所述第一信号处理模块处理后的语音信号生成第一唤醒信号；所述去噪模块用于去除所述语音信号采集模块采集的语音信号中的人机交互智能终端的***噪声，所述第二信号处理模块用于对所述去噪模块处理后的语音信号放大、调频和去除环境噪声，所述第二唤醒引擎用于响应所述第二信号处理模块处理后的语音信号生成第二唤醒信号；所述识别引擎用于被所述第一唤醒信号和/或第二唤醒信号唤醒后识别所述第一信号处理模块处理后的语音信号。

进一步的，所述语音信号采集模块包括两路或两路以上的麦克风模组，每路麦克风模组用于采集一路用户的语音信号。

进一步的，所述语音信号采集模块还包括第一模数转换器、现场可编程门阵列和第二模数转换器，所述第一模数转换器分别与所述两路或两路以上的麦克风模组和所述现场可编程门阵列相连，所述现场可编程门阵列与所述第一信号处理模块相连，所述第二模数转换器分别与所述两路或两路以上的麦克风模组中的一组麦克风模组和所述去噪模块相连。

进一步的，所述去噪模块用于去除所述人机交互智能终端的电机噪声。

进一步的，所述电机噪声的分贝值大于等于60DB。

进一步的，所述第一信号处理模块包括相连的第一音频放大器、第一去噪单元和第一调频单元，所述第一去噪单元用于去除来自所述语音信号采集模块的语音信号中的环境噪声。

进一步的，所述第二信号处理模块包括相连的第二音频放大器、第二去噪单元和第二调频单元，所述第二去噪单元用于去除来自所述去噪模块的语音信号中的环境噪声。

进一步的，所述第一唤醒引擎包括第一比较器，所述第一比较器中设置第一阈值，当所述第一比较器输入的第一电压大于所述第一阈值时，所述第一比较器输出第一唤醒信号。

进一步的，所述第二唤醒引擎包括第二比较器，所述第二比较器中设置第二阈值，当所述第二比较器输入的第二电压大于所述第二阈值时，所述第二比较器输出第二唤醒信号。

进一步的，所述识别引擎包括相连的控制器和声纹识别器，所述控制器与所述第一唤醒引擎和第二唤醒引擎相连，所述声纹识别器与所述第一信号处理模块相连，所述控制器根据所述第一唤醒引擎输出的第一唤醒信号和/或所述第二唤醒引擎输出的第二唤醒信号发出识别控制信号，所述声纹识别器根据所述识别控制信号提取所述第一信号处理模块输出的语音信号中的声纹特征。

本发明实施例中，通过去除语音信号中的***噪声，对语音信号进行放大、调频和去除环境噪声等处理，根据处理后的信号获得唤醒信号，识别引擎根据唤醒信号识别经过处理后的语音信号，实现了存在***噪声的情况下对人机交互智能终端的唤醒功能。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图1是本发明实施例一提供的一种用于人机交互智能终端的控制***的结构图；

图2是本发明实施例二提供的一种用于人机交互智能终端的控制***的结构图；

图3a是本发明实施例三提供的一种用于人机交互智能终端的控制***的结构图；

图3b是本发明实施例三提供的一种用于人机交互智能终端的控制***的结构图；

图4是本发明实施例四提供的一种用于人机交互智能终端的控制***的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。另外还需要说明的是，为了便于说明，以下实施例中示出了与本发明相关的示例，这些示例仅作为说明本发明实施例的原理所用，并不作为对本发明实施例的限定，同时，这些示例的具体数值会根据不同的应用环境和装置或者组件的参数不同而不同。

本发明实施例的用于人机交互智能终端的控制***可以运行于安装有Windows(微软公司开发的操作***平台)、Android(谷歌公司开发的用于便携式可移动智能设备的操作***平台)、iOS(苹果公司开发的用于便携式可移动智能设备的操作***平台)、Windows Phone(微软公司开发的用于便携式可移动智能设备的操作***平台)等操作***的终端中，该终端可以是台式机、笔记本电脑、移动电话、掌上电脑、平板电脑、数码相机、数码摄像机等等中的任意一种。

实施例一

图1是本发明实施例一提供的一种用户人机交互智能终端的控制***的结构图，所述控制***可以集成在任意具有人机交互功能的设备中。本实施例中的控制***包括：语音信号采集模块110、去噪模块120、第一信号处理模块130、第一唤醒引擎140、第二信号处理模块150、第二唤醒引擎160和识别引擎170。

其中，语音信号采集模块110分别与第一信号处理模块130和去噪模块120相连，第一信号处理模块130分别与第一唤醒引擎140和识别引擎170相连，第二信号处理模块150分别与去噪模块120和第二唤醒引擎160相连，识别引擎170分别与第一唤醒引擎140和第二唤醒引擎160相连。语音信号采集模块110用于采集用户输入的语音信号，所述语音信号采集模块110用于采集用户输入的语音信号，所述第一信号处理模块130用于对所述语音信号放大、调频和去除环境噪声，所述第一唤醒引擎140用于响应所述第一信号处理模块130处理后的语音信号生成第一唤醒信号；所述去噪模块120用于去除所述语音信号采集模块110采集的语音信号中的人机交互智能终端的***噪声，所述第二信号处理模块150用于对所述去噪模块120处理后的语音信号放大、调频和去除环境噪声，所述第二唤醒引擎160用于响应所述第二信号处理模块150处理后的语音信号生成第二唤醒信号；所述识别引擎170用于被所述第一唤醒信号和/或第二唤醒信号唤醒后识别所述第一信号处理模块130处理后的语音信号。

具体的，用户根据自己的需要输入语音信号，所述语音信号可以是一个请求或命令，去除语音信号中的人机交互智能终端的***噪声，***噪声可以是电机转动时部件摩擦等产生的噪声。对所述语音信号进行放大、调频和去除环境噪声，环境噪声可以包括但不限于人机交互智能终端所处外界环境中的干扰噪声。通过响应该处理后的语音信号生成第一唤醒信号；对去除***噪声以后的语音信号进行放大、调频和去除环境噪声，通过响应该处理后的信号生成第二唤醒信号。调频是一种使受调波瞬时频率随调制信号而变的调制方法，其中，载波的瞬时频率按照所需传递信号的变化规律而变化。识别引擎170根据第一唤醒信号和/或第二唤醒信号识别第一信号处理模块130处理后的语音信号，只要第一唤醒信号和第二唤醒信号中的至少一个不为零，则识别引擎170被启动，识别引擎170对第一信号处理模块130处理后的语音信号转化成文字并反馈到***。

可选的，去噪模块120用于去除所述人机交互智能终端的电机噪声。

具体的，在人机交互智能终端的控制***的运行中，电机工作时会产生电机噪声，电机噪声主要分为电磁噪声、机械噪声和空气动力噪声。电机噪声具有特定的频谱特征，去噪模块120对电机噪声进行消除。

其中，电机噪声针对不同的人机交互智能终端其具体的分贝值不同，可以通过声音测量设备对不同的人机交互智能终端测量后统计得到不同的人机交互智能终端的电机噪声的参考值。可选地，电机噪声的分贝值大于等于60DB，该电机噪声的分贝值是根据部分人机交互智能终端测量后得到的平均值，仅供参考，而非对电机噪声具体分贝值的限定。

实施例二

图2是本发明实施例二提供的一种用于人机交互智能终端的控制***的结构图。本实施例是对实施例一中的语音信号采集模块110的结构和工作原理进行了详细的阐述。语音采集模块110包括：两路或两路以上的麦克风模组111，第一模数转换器112、现场可编程门阵列113和第二模数转换器114。

其中，两路或两路以上的麦克风模组111，每路麦克风模组用于采集一路用户的语音信号。第一模数转换器112分别与两路或两路以上的麦克风模组111和现场可编程门阵列113相连，现场可编程门阵列113与第一信号处理模块130相连，第二模数转换器114分别与两路或两路以上的麦克风模组111中的一组麦克风模组和去噪模块120相连。

具体的，***中包括两路或两路以上的麦克风模组111，每路麦克风模组用于采集一路的用户的语音信号，第一数模转换器112对两路或两路以上的麦克风模组111采集到的语音信号进行模拟信号到数字信号的转换。模数转换器，是把经过与标准量(或参考量)比较处理后的模拟量转换成以二进制数值表示的离散信号的转换器，是把模拟量转换成数字量的过程。现场可编程门阵列113，是作为专用集成电路领域中的一种半定制电路而出现的，既解决了定制电路的不足，又克服了原有可编程器件门电路数有限的缺点。现成可编程门阵列113对数字信号进行门阵列的编程处理，然后输入到第一信号处理模块130进行处理。第二模数转换器114只连接两路或两路以上的麦克风模组111中的一组，对该一组麦克风模组的语音信号进行模拟信号到数字信号的转换，并将转换后的信号输入至去噪模块120进行处理。

本发明实施例中，通过对采集到的语音信号进行模数转换和可编程逻辑门阵列的处理，将两路或两路以上的麦克风模组111输出的信号输入到第一信号处理模块，将其中的一路麦克风模组的语音信号经过模数转换后输入到去噪模块进行处理。实现了对语音信号采集中的预处理，以便实现对环境噪声信号的消除。

实施例三

图3是本发明实施例三提供的一种用于人机交互智能终端的控制下***的结构图。本实施例是对实施例一中的第一信号处理模块130和第二信号处理模块150的结构和工作原理进行了详细的阐述。第一信号处理模块130包括：第一音频放大器131、第一去噪单元132和第一调频单元133；第二信号处理150模块包括第二音频放大器151、第二去噪单元152和第二调频单元153。

其中，第一信号处理模块130包括相连的第一音频放大器131、第一去噪单元132和第一调频单元133，第一去噪单元132用于去除来自语音信号采集模块110的语音信号中的环境噪声；第二信号处理模块150包括相连的第二音频放大器151、第二去噪单元152和第二调频单元153，第二去噪单元152用于去除来自去噪模块120的语音信号中的环境噪声。

具体的，通过语音采集模块110获取语音信号，由于获取的语音信号比较微弱，将该信号输入至第一音频放大器131，对输入的语音信号进行增益放大，增益是指对语音信号的放大倍数。将放大后的信号输入至第一去噪单元132，去除语音信号中的环境噪声，可选的，环境噪声可以是混响，混响是指声音遇到障碍会反射的一种声学特性，第一调频单元133对第一去噪单元132输出的信号进行调整频率响应等处理。去噪模块120输出的语音信号输入至第二音频放大器151，对去噪模块120输出的语音信号进行增益放大，将放大后的信号输入至第二去噪单元152，用于去除来自去噪模块120的语音信号中的环境噪声，可选的，环境噪声可以是混响。第二调频单元153对第二去噪单元152输出的信号进行调整频率响应等处理。

本发明实施例中，通过对语音信号采集模块110和去噪模块120输出的语音信号分别进行放大、去噪和调频处理，使处理后的信号更容易被唤醒引擎和识别引擎监测到并作出回应。

实施例四

图4是本发明实施例中的一种用于人机交互智能终端的控制***的结构图。本实施例是在实施例一的基础上对第一唤醒引擎140、第二唤醒引擎160和识别引擎170的结构和工作原理进行了详细阐述。第一唤醒引擎140包括第一比较器141、第二唤醒引擎160包括第二比较器161、识别引擎170包括控制器171和声纹识别器172。

其中，第一唤醒引擎140包括第一比较器141，第一比较器141中设置第一阈值，当第一比较器141输入的第一电压大于所述第一阈值时，第一比较器141输出第一唤醒信号。第二唤醒引擎160包括第二比较器161，第二比较器161中设置第二阈值，当第二比较器161输入的第二电压大于所述第二阈值时，所述第二比较器输出第二唤醒信号。识别引擎170包括相连的控制器171和声纹识别器172，控制器171还与第一唤醒引擎140和第二唤醒引擎160相连，声纹识别器172还与所述第一信号处理模块130相连，控制器171根据第一唤醒引擎140输出的第一唤醒信号和/或第二唤醒引擎160输出的第二唤醒信号发出识别控制信号，声纹识别器172根据所述识别控制信号提取第一信号处理模块130输出的语音信号中的声纹特征。

具体的，第一唤醒引擎140和第二唤醒引擎160均能将语音信号转化成文字并做出响应。可选的，第一唤醒引擎140和第二唤醒引擎160分别包括，语音输入、语音唤醒算法和唤醒执行。语音唤醒算法存储在第一唤醒引擎140和第二唤醒引擎160中，用于执行唤醒功能。对于第一唤醒引擎140，***预设第一阈值Y1，当第一比较器141输入的第一电压大于第一阈值Y1时，输出第一唤醒信号，第一电压即为第一信号处理模块130输出的语音信号对应的电压信号。对于第二唤醒引擎160，***预设第二阈值Y2，当第二比较器1161输入的第二电压大于第二阈值Y2时，输出第二唤醒信号，第二电压即为去噪模块120输出的语音信号对应的电压信号。

控制器171根据第一唤醒信号和/或第二唤醒信号发出识别控制信号，声纹识别器172根据识别控制信号提取第一信号处理模块130输出的语音信号中的声纹特征，可选的，声纹特征可以包括但不限于声音信号的基频、时长和共振峰的参数的数据，通过对声纹特征进行分析，得到分析结果。声纹是用电声学仪器显示的携带言语信息的声波频谱。声纹识别，生物识别技术的一种，也称为说话人识别，分别说话人辨认和说话人确认两类，不同的任务和应用会使用不同的声纹识别技术，如缩小刑侦范围时可能需要辨认技术，而银行交易时则需要确认技术。

本发明实施例中，识别引擎根据获取的第一唤醒信号和/或第二唤醒信号发出识别信号，根据识别信号提取第一信号模块130处理后的语音信号中的声纹特征，对语音信号进行识别。

显然，本领域技术人员应该明白，上述产品可执行本发明任意实施例所提供的方法，具备执行方法相应的功能模块和有益效果。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种用于人机交互智能终端的控制***，其特征在于，包括：语音信号采集模块、第一信号处理模块、第一唤醒引擎、去噪模块、第二信号处理模块、第二唤醒引擎和识别引擎，其中，

所述语音信号采集模块分别与所述第一信号处理模块和去噪模块相连，所述第一信号处理模块分别与所述第一唤醒引擎和所述识别引擎相连，所述第二信号处理模块分别与所述去噪模块和所述第二唤醒引擎相连，所述识别引擎分别与所述第一唤醒引擎和第二唤醒引擎相连；其中，

所述语音信号采集模块用于采集用户输入的语音信号，所述第一信号处理模块用于对所述语音信号放大、调频和去除环境噪声，所述第一唤醒引擎用于响应所述第一信号处理模块处理后的语音信号生成第一唤醒信号；

所述去噪模块用于去除所述语音信号采集模块采集的语音信号中的人机交互智能终端的***噪声，所述第二信号处理模块用于对所述去噪模块处理后的语音信号放大、调频和去除环境噪声，所述第二唤醒引擎用于响应所述第二信号处理模块处理后的语音信号生成第二唤醒信号；

所述识别引擎用于被所述第一唤醒信号和/或第二唤醒信号唤醒后识别所述第一信号处理模块处理后的语音信号。

2.根据权利要求1所述的用于人机交互智能终端的控制***，其特征在于，所述语音信号采集模块包括两路或两路以上的麦克风模组，每路麦克风模组用于采集一路用户的语音信号。

3.根据权利要求2所述的用于人机交互智能终端的控制***，其特征在于，所述语音信号采集模块还包括第一模数转换器、现场可编程门阵列和第二模数转换器，所述第一模数转换器分别与所述两路或两路以上的麦克风模组和所述现场可编程门阵列相连，所述现场可编程门阵列与所述第一信号处理模块相连，所述第二模数转换器分别与所述两路或两路以上的麦克风模组中的一组麦克风模组和所述去噪模块相连。

4.根据权利要求1所述的用于人机交互智能终端的控制***，其特征在于，所述去噪模块用于去除所述人机交互智能终端的电机噪声。

5.根据权利要求4所述的用于人机交互智能终端的控制***，其特征在于，所述电机噪声的分贝值大于等于60DB。

6.根据权利要求1所述的用于人机交互智能终端的控制***，其特征在于，所述第一信号处理模块包括相连的第一音频放大器、第一去噪单元和第一调频单元，所述第一去噪单元用于去除来自所述语音信号采集模块的语音信号中的环境噪声。

7.根据权利要求6所述的用于人机交互智能终端的控制***，其特征在于，所述第二信号处理模块包括相连的第二音频放大器、第二去噪单元和第二调频单元，所述第二去噪单元用于去除来自所述去噪模块的语音信号中的环境噪声。

8.根据权利要求1至7任一项所述的用于人机交互智能终端的控制***，其特征在于，所述第一唤醒引擎包括第一比较器，所述第一比较器中设置第一阈值，当所述第一比较器输入的第一电压大于所述第一阈值时，所述第一比较器输出第一唤醒信号。

9.根据权利要求1至7任一项所述的用于人机交互智能终端的控制***，其特征在于，所述第二唤醒引擎包括第二比较器，所述第二比较器中设置第二阈值，当所述第二比较器输入的第二电压大于所述第二阈值时，所述第二比较器输出第二唤醒信号。

10.根据权利要求1至7任一项所述的用于人机交互智能终端的控制***，其特征在于，所述识别引擎包括相连的控制器和声纹识别器，所述控制器与所述第一唤醒引擎和第二唤醒引擎相连，所述声纹识别器与所述第一信号处理模块相连，所述控制器根据所述第一唤醒引擎输出的第一唤醒信号和/或所述第二唤醒引擎输出的第二唤醒信号发出识别控制信号，所述声纹识别器根据所述识别控制信号提取所述第一信号处理模块输出的语音信号中的声纹特征。