CN111028832B

CN111028832B - 麦克风静音模式控制方法、装置及存储介质和电子设备

Info

Publication number: CN111028832B
Application number: CN201911364656.0A
Authority: CN
Inventors: 张峰; 周浩良
Original assignee: Jiangsu Zimi Electronic Technology Co Ltd
Current assignee: Jiangsu Zimi Electronic Technology Co Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2023-07-25
Anticipated expiration: 2039-12-26
Also published as: CN111028832A

Abstract

本发明实施例公开了一种麦克风静音模式控制方法、装置及存储介质和电子设备。在所述麦克风静音模式下，不进行语音识别操作，其中麦克风静音模式控制方法包括：在麦克风静音模式下，采集麦克风端的语音数据；确定语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式。本发明实施例实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

Description

麦克风静音模式控制方法、装置及存储介质和电子设备

技术领域

本发明实施例涉及智能语音领域，尤其涉及一种麦克风静音模式控制方法、装置及存储介质和电子设备。

背景技术

随着智能语音技术的发展，越来越多的智能家居产品用自然语言进行语音操控。通常的做法是用户先说一个唤醒词(比如“小爱同学”)，然后跟语音服务器进行语音交互，语音服务器会经过自动语音识别(Automatic Speech Recognition，ASR)，自然语言处理(Neuro-Linguistic Programming，NLP)等过程响应用户的语音请求，最后通过语音合成技术(Text To Speech，TTS)输出处理结果告知用户。

出于个人隐私方面的考虑，智能语音产品都会带一个Mute键(麦克风静音)，打开Mute键，智能语音产品不再响应唤醒词的唤醒，也不会再把任何语音数据上传到云端，关闭Mute键，恢复正常语音交互响应。另外，智能语音产品的手机APP一般也会有Mute开关的功能。但是通过按键或APP开启和取消麦克风静音，操作不方便。

发明内容

本发明实施例提供了一种麦克风静音模式控制方法、装置及存储介质和电子设备，实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

第一方面，本发明实施例提供了一种语音设备的麦克风静音模式控制方法，所述方法包括：

在麦克风静音模式下，采集麦克风端的语音数据；

确定所述语音数据对应的语音是否与第一设定唤醒词匹配；

若二者匹配，则由静音模式切换为语音交互模式。

可选的，在所述麦克风静音模式下，停止语音识别操作，控制音频数据采集模块和唤醒识别模块继续工作。

可选的，麦克风静音模式控制方法还包括：

在语音交互模式下，若采集到语音数据对应的语音与第一设定指令词匹配，则将唤醒识别模块中的唤醒词替换为所述第一设定唤醒词，并由语音交互模式切换为静音模式。

可选的，确定所述语音数据是否与第一设定唤醒词匹配之前还包括：

接收用于通过终端训练得到的对应所述第一设定唤醒词的唤醒词模型；

确定所述语音数据是否与第一设定唤醒词匹配，包括：

使用所述唤醒词模型确定所述语音数据对应的语音是否与所述第一设定唤醒词匹配。

在所述语音设备内置储存对应所述第一设定唤醒词的唤醒词模型。

第二方面，本发明实施例提供了一种麦克风静音模式控制装置，所述控制装置包括：

音频数据采集模块，所述音频数据采集模块用于在麦克风静音模式下，采集麦克风端的语音数据；

唤醒识别模块，所述唤醒识别模块用于确定所述语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式。

可选的，所述控制装置还包括：

唤醒词替换模块，用于在语音交互模式下，若采集到语音数据对应的语音与第一设定指令词匹配，则将唤醒识别模块中的唤醒词替换为所述第一设定唤醒词。

唤醒词获取模块，用于在确定所述语音数据是否与第一设定唤醒词匹配之前，接收用于通过终端训练得到的对应所述第一设定唤醒词的唤醒词模型；

所述唤醒识别模块具体用于使用所述唤醒词模型确定所述语音数据对应的语音是否与所述第一设定唤醒词匹配。

第三方面，本发明实施例提供了一种计算机储存介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所提供的麦克风静音模式控制方法。

第四方面，本发明实施例提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所提供的麦克风静音模式控制方法。

本发明实施例提供了一种麦克风静音模式控制方法、装置及存储介质和电子设备。在所述麦克风静音模式下，不进行语音识别操作，其中麦克风静音模式控制方法包括：在麦克风静音模式下，采集麦克风端的语音数据；确定所述语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式。本发明实施例实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

附图说明

图1是本发明实施例一提供的一种麦克风静音模式控制方法流程图；

图2是本发明实施例二提供的一种麦克风静音模式控制方法流程图；

图3是本发明实施例三提供的一种麦克风静音模式控制方法流程图；

图4是本发明实施例四提供的一种麦克风静音模式控制方法流程图；

图5是本发明实施例五提供的一种麦克风静音模式控制装置结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

本发明实施例提供了一种麦克风静音模式控制方法，图1是本发明实施例一提供的一种麦克风静音模式控制方法流程图，参考图1，方法包括：

S10、在麦克风静音模式下，采集麦克风端的语音数据。

具体的，在麦克风静音模式下，当用户发出语音时，音频数据采集模块采集麦克风端的语音数据，它将原始语音信号转换成语音脉冲序列形成语音数据，因此该模块主要包括声/电转换、信号调理和采样等信号处理过程。

S20、确定语音数据对应的语音是否与第一设定唤醒词匹配。

具体的，采集到麦克风端的语音数据后，确定语音数据对应的语音是否与第一设定唤醒词匹配；采集到麦克风端的语音数据后，通过唤醒识别模块滤除干扰信号，只保留正常人的300～3400Hz的语音信号；提取语音特征矢量，并将提取的语音特征矢量量化成标准语音特征矢量；再将量化成标准语音特征矢量与第一设定唤醒词的特征值矢量进行匹配，进而确定语音数据对应的语音是否与第一设定唤醒词匹配。示例性地，第一设定唤醒词可以为“请打开麦克风”，若用户发出的语音为“请打开麦克风”，则确定语音数据对应的语音与第一设定唤醒词匹配，若用户发出的语音为“请打开网易云音乐”，则语音数据对应的语音与第一设定唤醒词不匹配。

S30、若二者匹配，则由静音模式切换为语音交互模式。

具体的，若采集到麦克风端的语音数据与第一设定唤醒词匹配，语音设备则由静音模式切换为语音交互模式，进行正常的语音交互功能，响应语音交互动作，继续把语音数据发给语音服务器进而响应用户的语音请求。

本发明实施例提供的一种麦克风静音模式控制方法，控制方法包括：在麦克风静音模式下，采集麦克风端的语音数据；确定语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式。本发明实施例实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

实施例二

本发明实施例提供了一种麦克风静音模式控制方法，该方法以实施例一为基础，增加了在麦克风静音模式下，采集麦克风端的语音数据时，停止语音识别操作，控制音频数据采集模块和唤醒识别模块继续工作这一步骤。

相应的，图2是本发明实施例二提供的一种麦克风静音模式控制方法流程图，参考图2，本发明实施例的方法包括：

S210、在麦克风静音模式下，采集麦克风端的语音数据。

S220、在麦克风静音模式下，停止语音识别操作，控制音频数据采集模块和唤醒识别模块继续工作。

S230、确定语音数据对应的语音是否与第一设定唤醒词匹配。

S240、若二者匹配，则由静音模式切换为语音交互模式。

具体的，语音设备的麦克风处于静音模式状态时，语音设备只是不再响应语音交互动作和不再把语音数据发给语音服务器，但是语音设备的音频数据采集模块和唤醒识别模块依然处于工作状态，当用户发出语音时，音频数据采集模块依然可以采集麦克风端的语音数据，唤醒识别模块依然可以识别音频数据采集模块采集到的麦克风端的语音数据，并确定语音数据为第一设定唤醒词时，将语音设备由静音模式切换为语音交互模式。

可选的，麦克风静音模式控制方法还包括：

在语音交互模式下，若采集到语音数据对应的语音与第一设定指令词匹配，则将唤醒识别模块中的唤醒词替换为第一设定唤醒词，并由语音交互模式切换为静音模式。

具体的，在语音交互模式下，若音频数据采集模块采集到语音数据对应的语音与第一设定指令词匹配，则将唤醒识别模块中的唤醒词替换为所述第一设定唤醒词，并由语音交互模式切换为静音模式，不再响应语音交互动作和不再把语音数据发给语音服务器。示例性地，若第一设定指令词设定为“小爱同学，关闭麦克风”，在语音交互模式下，当用户发出的语音为“小爱同学，关闭麦克风”，采集并识别语音数据后，将唤醒识别模块中的唤醒词替换为第一设定唤醒词“打开麦克风”，并由语音交互模式切换为静音模式，不再响应语音交互动作并且不再把语音数据发给语音服务器，直到用户发出“打开麦克风”语音，再将语音设备唤醒，由静音模式切换为语音交互模式，恢复到正常语音交互模式后，唤醒识别模块中的唤醒词恢复到初始唤醒词，例如初始唤醒词为“小爱同学”，语音设备继续以识别到初始唤醒词“小爱同学”后进行正常的语音交互动作。

本发明实施例提供的一种麦克风静音模式控制方法，增加了在麦克风静音模式下，采集麦克风端的语音数据时，停止语音识别操作，控制音频数据采集模块和唤醒识别模块继续工作这一步骤。本发明实施例通过停止语音识别操作，控制音频数据采集模块和唤醒识别模块继续工作，实现了语音设备在静音模式下，停止语音识别操作，不再相应唤醒词，达到静音的效果，控制音频数据采集模块和唤醒识别模块继续工作，实现了采集到第一唤醒词时唤醒语音设备，继续语音交互，实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

实施例三

本发明实施例提供了一种麦克风静音模式控制方法，该方法以第一实施例为基础，确定语音数据是否与第一设定唤醒词匹配之前还包括：接收用于通过终端训练得到的对应第一设定唤醒词的唤醒词模型；确定语音数据是否与第一设定唤醒词匹配，包括：使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。

相应的，图3是本发明实施例三提供的一种麦克风静音模式控制方法流程图，参考图3，本发明实施例的方法包括：

S310、在麦克风静音模式下，采集麦克风端的语音数据。

S320、接收用于通过终端训练得到的对应第一设定唤醒词的唤醒词模型。

S330、使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。

S340、若二者匹配，则由静音模式切换为语音交互模式。

具体的，接收用于通过终端训练得到的对应第一设定唤醒词的唤醒词模型，可以通过手机APP训练一个特殊的唤醒词模型，训练完毕后把它下载到智能语音设备里面作为第一设定唤醒词的唤醒词模型。将多次采集、提取的语音特征标准矢量进行概率统计，提取说话人的最佳语音特征标准矢量，防止因说话人心情、环境等因数引起提取特征参数不准确而影响训练得到第一唤醒词模型的效果。使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。用户自己训练的特殊唤醒词模型可以比较小，只针对家庭少数几个人和特定场景训练唤醒词，还可以加入声纹识别减少误操作。

本发明实施例提供的一种麦克风静音模式控制方法，通过在确定语音数据是否与第一设定唤醒词匹配之前增加：接收用于通过终端训练得到的对应第一设定唤醒词的唤醒词模型这一步骤，并且将确定语音数据是否与第一设定唤醒词匹配细化为：使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。本发明实施例通过训练一个特殊的唤醒词模型作为第一设定唤醒词的模型，模型比较小，节省了语音设备的存储空间，还可以加入声纹识别以减少误操作，实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

实施例四

本发明实施例提供了一种麦克风静音模式控制方法，该方法以第一实施例为基础，确定语音数据是否与第一设定唤醒词匹配之前还包括：在语音设备内置储存对应第一设定唤醒词的唤醒词模型；确定语音数据是否与第一设定唤醒词匹配，包括：使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。

相应的，图4是本发明实施例四提供的一种麦克风静音模式控制方法流程图，参考图4，本发明实施例的方法包括：

S410、在麦克风静音模式下，采集麦克风端的语音数据。

S420、在语音设备内置储存对应第一设定唤醒词的唤醒词模型。

S430、使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。

S440、若二者匹配，则由静音模式切换为语音交互模式。

具体的，用户可以直接在语音设备集成在主板上的储存介质上内置储存对应第一设定唤醒词的唤醒词模型，再使用内置储存的唤醒词模型去确定语音数据对应的语音是否与第一设定唤醒词匹配。

本发明实施例提供的一种麦克风静音模式控制方法，通过在确定语音数据是否与第一设定唤醒词匹配之前增加：在语音设备内置储存对应第一设定唤醒词的唤醒词模型这一步骤，并且将确定语音数据是否与第一设定唤醒词匹配细化为：使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。本发明实施例通过在语音设备内置储存对应第一设定唤醒词的唤醒词模型，用户可以直接使用第一设定唤醒词，并实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

实施例五

本发明实施例提供了一种麦克风静音模式控制装置，图5是本发明实施例五提供的一种麦克风静音模式控制装置结构示意图，参考图5，控制装置包括：

音频数据采集模块10，音频数据采集模块10用于在麦克风静音模式下，采集麦克风端的语音数据；

唤醒识别模块20，唤醒识别模块20用于确定语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式。

可选的，控制装置还包括：

唤醒词替换模块，用于在语音交互模式下，若采集到语音数据对应的语音与第一设定指令词匹配，则将唤醒识别模块中的唤醒词替换为第一设定唤醒词。

可选的，确定语音数据是否与第一设定唤醒词匹配之前还包括：

唤醒词获取模块，用于在确定语音数据是否与第一设定唤醒词匹配之前，接收用于通过终端训练得到的对应第一设定唤醒词的唤醒词模型；

唤醒识别模块具体用于使用唤醒词模型确定语音数据对应的语音是否与第一设定唤醒词匹配。

本发明实施例提供了一种麦克风静音模式控制装置，控制装置包括：音频数据采集模块，音频数据采集模块用于在麦克风静音模式下，采集麦克风端的语音数据；唤醒识别模块，唤醒识别模块用于确定语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式。本发明实施例实现了麦克风静音模式控制的操作便捷性，体现了自然的人机交互特性。

实施例六

本发明实施例提供了一种计算机储存介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所提供的麦克风静音模式控制方法，该方法包括：

在麦克风静音模式下，采集麦克风端的语音数据；

确定语音数据对应的语音是否与第一设定唤醒词匹配；

若二者匹配，则由静音模式切换为语音交互模式。

本发明实施例的计算机存储介质，可以采用一个或多个计算机存储介质的任意组合。计算机存储介质可以是计算机信号介质或者计算机存储介质。计算机存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。计算机存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行***、装置或者器件使用或者与其结合使用。

计算机信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机信号介质还可以是计算机存储介质以外的任何计算机存储介质，该计算机存储介质可以发送、传播或者传输用于由指令执行***、装置或者器件使用或者与其结合使用的程序。

计算机存储介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本发明实施例还提供了一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如前述任一实施例所提供的语音设备的麦克风静音模式控制方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种语音设备的麦克风静音模式控制方法，其特征在于，所述方法包括：

在麦克风静音模式下，采集麦克风端的语音数据；

确定所述语音数据对应的语音是否与第一设定唤醒词匹配；

若二者匹配，则由静音模式切换为语音交互模式；

在所述麦克风静音模式下，停止语音识别操作，控制音频数据采集模块和唤醒识别模块继续工作；

2.根据权利要求1所述的麦克风静音模式控制方法，其特征在于，确定所述语音数据是否与第一设定唤醒词匹配之前还包括：

确定所述语音数据是否与第一设定唤醒词匹配，包括：

3.根据权利要求1所述的麦克风静音模式控制方法，其特征在于，确定所述语音数据是否与第一设定唤醒词匹配之前还包括：

4.一种麦克风静音模式控制装置，其特征在于，所述控制装置包括：

唤醒识别模块，所述唤醒识别模块用于确定所述语音数据对应的语音是否与第一设定唤醒词匹配；若二者匹配，则由静音模式切换为语音交互模式；

5.根据权利要求4所述的麦克风静音模式控制装置，其特征在于，确定所述语音数据是否与第一设定唤醒词匹配之前还包括：

6.一种计算机储存介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-3中任一所述的麦克风静音模式控制方法。

7.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-3中任一所述的麦克风静音模式控制方法。