CN113096651A

CN113096651A - 语音信号处理方法、装置、可读存储介质及电子设备

Info

Publication number: CN113096651A
Application number: CN202010014959.6A
Authority: CN
Inventors: 程光伟
Original assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Current assignee: Beijing Horizon Robotics Technology Research and Development Co Ltd
Priority date: 2020-01-07
Filing date: 2020-01-07
Publication date: 2021-07-09

Abstract

本公开实施例公开了一种语音信号处理方法和装置，其中，该方法包括：接收用户语音信号；确定目标设备当前的工作状态；如果目标设备当前的工作状态处于连续唤醒状态，确定用户语音信号中包括的有效的第一预设类型唤醒词；基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。本公开实施例可以实现在人机交互时，在人与机器的多轮对话过程中增加第一预设类型唤醒词，通过第一预设类型唤醒词辅助提取待识别语音信号，提高提取待识别语音信号的准确性，有助于提高语音识别的性能。

Description

语音信号处理方法、装置、可读存储介质及电子设备

技术领域

本公开涉及计算机技术领域，尤其是一种语音信号处理方法、装置、计算机可读存储介质及电子设备。

背景技术

随着技术的发展，深度学习在语音上的应用使得关键词唤醒等取得了更好的效果。唤醒词的选择对唤醒率也有着较大的影响，包括唤醒词的声音特性以及音节数(汉语等同字数)。唤醒词中字的个数一般会选择四个，避免过少的词容易和日常用语发音相似或者一致，导致容易误唤醒。

目前，人机交互中机器无法区分说话者的意图，机器很难确定周围的语音是否是交互指令，唤醒词+query的模式能很好的解决这个问题。但是，在用户有频繁的交互需求时，每次都必须重复的喊四个字的唤醒词来获取机器的响应变的繁琐和枯燥。

发明内容

本公开的实施例提供了一种语音信号处理方法、装置、计算机可读存储介质及电子设备。

本公开的实施例提供了一种语音信号处理方法，该方法包括：接收用户语音信号；确定目标设备当前的工作状态；如果目标设备当前的工作状态处于连续唤醒状态，确定用户语音信号中包括的有效的第一预设类型唤醒词；基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。

根据本公开实施例的另一个方面，提供了一种语音信号处理装置，该装置包括：接收模块，用于接收用户语音信号；第一确定模块，用于确定目标设备当前的工作状态；第二确定模块，用于如果目标设备当前的工作状态处于连续唤醒状态，确定用户语音信号中包括的有效的第一预设类型唤醒词；提取模块，用于基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。

根据本公开实施例的另一个方面，提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序用于执行上述语音信号处理方法。

根据本公开实施例的另一个方面，提供了一种电子设备，电子设备包括：处理器；用于存储处理器可执行指令的存储器；处理器，用于从存储器中读取可执行指令，并执行指令以实现上述语音信号处理方法。

基于本公开上述实施例提供的语音信号处理方法、装置、计算机可读存储介质及电子设备，通过当目标设备当前的工作状态是否处于连续唤醒状态时，从用户语音信号中确定有效的第一预设类型唤醒词，然后基于第一预设类型唤醒词，从所述用户语音信号中提取待识别语音信号，从而实现了在人机交互时，在人与机器的多轮对话过程中增加第一预设类型唤醒词，通过第一预设类型唤醒词辅助提取待识别语音信号，提高了提取待识别语音信号的准确性，有助于提高语音识别的性能。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开所适用的***图。

图2是本公开一示例性实施例提供的语音信号处理方法的流程示意图。

图3是本公开的实施例的语音信号处理方法的一个应用场景的示意图。

图4是本公开另一示例性实施例提供的语音信号处理方法的流程示意图。

图5是本公开一示例性实施例提供的语音信号处理装置的结构示意图。

图6是本公开另一示例性实施例提供的语音信号处理装置的结构示意图。

图7是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机***、服务器等电子设备，其可与众多其它通用或专用计算***环境或配置一起操作。适于与终端设备、计算机***、服务器等电子设备一起使用的众所周知的终端设备、计算***、环境和/或配置的例子包括但不限于：个人计算机***、服务器计算机***、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的***、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机***、大型计算机***和包括上述任何***的分布式云计算技术环境，等等。

终端设备、计算机***、服务器等电子设备可以在由计算机***执行的计算机***可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机***/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算***存储介质上。

申请概述

目前，为了解决频繁使用四个词的唤醒词造成的繁琐枯燥的体验，可以采用人与机器多轮对话的方法，但是，多轮对话至少存在如下缺点：

1、连续对话时，ASR(Automatic Speech Recognition，自动语音识别)误识别较高。即容易在唤醒人发音间歇期，将其他人声音录入识别，目前机器很难将语音中不同人在不同时间段的声音分割开来。

2、要做到多轮对话，需要在基于唤醒词唤醒后持续上传数据，这个对网络连接有很高的要求。

3、多麦克风降噪的时候，送入云端做ASR识别往往需要做声道选择，否则持续送云端的数据很可能信号质量不高，或者是噪声；而声道选择需要根据唤醒词信息做修正，这个需要前端声学来实现的，云端ASR无法做，或者说可做的情况下需要同时将多路信号同时送到运算，这样云端负载加大，同时如何从多路识别出的多个结果中选择出准确的结果也是新的问题。

示例性***

图1示出了可以应用本公开的实施例的语音信号处理方法或语音信号处理装置的示例性***架构100。

如图1所示，***架构100可以包括终端设备101、网络102、服务器103。网络102用于在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与服务器103交互，以接收或发送消息等。终端设备101上可以安装有各种通讯客户端应用，例如语音识别应用、搜索类应用、即时通信工具等。

终端设备101可以是各种电子设备，包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机、智能家电等等的固定终端。

服务器103可以是提供各种服务的服务器，例如对终端设备101上传的用户语音信号进行处理的后台语音信号处理服务器。后台语音信号处理服务器可以对接收到的用户语音信号进行处理，得到处理结果(例如待识别语音信号)。

需要说明的是，本公开的实施例所提供的语音信号处理方法可以由终端设备101执行，也可以由服务器103执行，相应地，语音信号处理装置可以设置于终端设备101中，也可以设置于服务器103中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

示例性方法

图2是本公开一示例性实施例提供的语音信号处理方法的流程示意图。本实施例可应用在电子设备(如图1所示的终端设备101或服务器103)上，如图2所示，该方法包括如下步骤：

步骤201，接收用户语音信号。

在本实施例中，电子设备可以接收用户语音信号。其中，用户语音信号可以是用户发出语音时由麦克风采集的音频信号。

步骤202，确定目标设备当前的工作状态。

在本实施例中，电子设备可以确定目标设备当前的工作状态。其中，目标设备为待对其进行语音控制的设备。例如智能家电、手机、工业仪表等。需要说明的是，目标设备可以为上述电子设备本身，或者与上述电子设备通信连接的其他电子设备。当目标设备不是上述电子设备本身时，电子设备可以通过通信连接，实时确定目标设备当前的工作状态。上述工作状态可以包括连续唤醒状态和非连续唤醒状态。其中，连续唤醒状态为电子设备识别到用户连续发出语音时的状态(即用户发出的语音之间的时间间隔小于预设阈值)，非连续唤醒状态为电子设备识别到用户(即用户发出的语音之间的时间间隔大于预设阈值)。

步骤203，如果目标设备当前的工作状态处于连续唤醒状态，确定用户语音信号中包括的有效的第一预设类型唤醒词。

在本实施例中，如果确定目标设备当前的工作状态处于连续唤醒状态，电子设备可以确定用户语音信号中包括的有效的第一预设类型唤醒词。其中，第一预设类型唤醒词可以是在目标设备处于连续唤醒状态时，对目标设备进行唤醒的词。可选的，第一预设类型唤醒词可以是预设的唤醒词集合中的词语。

通常，第一预设类型唤醒词可以被称为副唤醒词，相应地，在设备处于非连续唤醒状态时对目标设备进行唤醒的词被称为主唤醒词。作为示例，副唤醒词可以包含于主唤醒词，例如，主唤醒词为“小明同学”，副唤醒词为“小明”。

电子设备可以利用现有的语音识别方法，对用户语音信号进行识别，从而从用户语音信号中确定第一预设类型唤醒词。

步骤204，基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。

在本实施例中，电子设备可以基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。

作为示例，电子设备可以将用户语音信号中处于第一预设类型唤醒词之后的语音信号确定为待识别语音信号。

在一些可选的实现方式中，步骤203可以如下执行：

首先，确定用户语音信号是否包括第一预设类型唤醒词。具体地，电子设备可以利用现有的语音识别方法对用户语音信号进行识别，从而确定用户语音信号是否包括第一预设类型唤醒词。

然后，如果确定包括第一预设类型唤醒词，确定第一预设类型唤醒词的开始时间点之前的第一预设时长内是否接收到语音信号。作为示例，第一预设时间为0.5秒，在第一预设类型唤醒词的开始时间点之前的0.5秒内，对采集的音频信号进行检测(例如使用现有的VAD(Voice Activity Detection，语音活动检测)方法)，确定是否包括语音信号。

最后，如果确定没有接收到语音信号，确定第一预设类型唤醒词为有效的唤醒词。作为示例，假设第一预设类型唤醒词为“小爱”，语音信号包括语句“小爱今天天气怎么样？”，由于“小爱”之前的第一预设时长内不包括语音信号，因此，该唤醒词为有效的唤醒词。对于语句“小明从小爱睡懒觉”，由于“小爱”之前的第一预设时长内包括语音信号，因此，该唤醒词不是有效的唤醒词，只是某个语句中间包含了该词语，此时，不对目标设备进行唤醒，即不识别该词语之后的语句。

本实现方式通过识别在第一预设类型唤醒词之前的一端时间内的音频，可以有效地将语句之内与第一预设类型唤醒词相同的词语确定为无效的唤醒词，从而避免在对目标设备唤醒时产生误识别。

在一些可选的实现方式中，在步骤202之前电子设备还可以执行如下步骤：

响应于连续确定出预设数量个第二预设类型唤醒词，且确定出预设数量个第二预设类型唤醒词中的任意相邻两个唤醒词的间隔时间小于或等于第三预设时长，确定目标设备进入连续唤醒状态。其中，间隔时间不包括相邻两个主唤醒词之间的语句占用的时间。

第二预设类型唤醒词可以是在非连续唤醒状态下，用于对目标设备进行唤醒的词语，第二预设类型唤醒词可以是预设的唤醒词集合中的词语。通常，第二预设类型唤醒词可以被称为主唤醒词，关于主唤醒词的描述，可以参考上述步骤203的描述，这里不再赘述。

作为示例，假设主唤醒词为“小明同学”，上述预设数量为3，预设时长为10秒，在非连续唤醒状态下，如果连续检测出三次“小明同学”，则对目标设备进行三次唤醒，如果每相邻的两个主唤醒词之间的时间间隔小于10秒，则最后一次唤醒后，进入连续唤醒状态，在连续唤醒状态，可以利用副唤醒词“小明”，对目标设备进行唤醒。

本实现方式实现了在非连续状态下，对第二预设类型唤醒词的识别次数和间隔时间进行判断，提高确定目标设备的状态的准确性，有利于灵活地对目标设备进行唤醒。

在一些可选的实现方式中，方法还包括：在连续唤醒状态，响应于确定两次唤醒之间的间隔时间大于或等于第四预设时长，确定目标设备退出连续唤醒状态。其中，上述两次唤醒之间可以是两次基于第一预设类型唤醒词进行唤醒之间，或者是两次唤醒之间可以是两次基于第二预设类型唤醒词进行唤醒之间，也可以是一次基于第一预设类型唤醒词进行唤醒和一次基于第二预设类型唤醒词进行唤醒之间。

作为示例，第四预设时长可以为20秒，当用户20秒内没有说出任何唤醒词时，目标设备退出连续唤醒状态。

本实现方式实现了基于对间隔时间的判断，确定目标设备是否退出连续唤醒状态，可以在长时间没有唤醒的情况下退出连续唤醒状态，提高唤醒的灵活性。

在一些可选的实现方式中，在步骤204中，电子设备可以按照如下步骤输出待识别语音信号：

将待识别语音信号发送至用于识别语音信号的设备。或者将待识别语音信号进行噪声过滤处理后发送至用于识别语音信号的设备。其中，上述用于识别语音信号的设备可以是如图1所示的服务器104，也可以是其他终端设备。作为示例，用于识别语音信号的设备可以是云端服务器，电子设备可以将待识别语音信号直接发送到云端服务器，或按照现有的音频滤波方法，对待识别语音信号进行噪声滤除后发送到云端服务器，云端服务器可以对待识别语音信号进行识别，而后可以将识别结果发送到上述电子设备或上述目标设备，以使用户与目标设备进行交互。

本实现方式通过将待识别语音信号发送到其他设备进行语音识别，可以节约本地的处理器等硬件资源，提高语音识别的性能。

在一些可选的实现方式中，步骤203可以如下执行：

基于预设的唤醒词识别模型，以及预设的在连续唤醒状态所用的第一概率阈值，确定用户语音信号包括的有效的第一预设类型唤醒词，其中，第一概率阈值小于在非连续唤醒状态所用的第二概率阈值。其中，唤醒词识别模型可以为现有的声学模型，该模型可以接收输入的用户语音信号，输出第一预设类型唤醒词或第二预设类型唤醒词以及对应的概率。如果模型输出的第一预设类型唤醒词或第二预设类型唤醒词对应的概率大于或等于第一概率阈值，确定该第一预设类型唤醒词或第二预设类型唤醒词为有效的唤醒词。在连续唤醒状态降低概率阈值，可以使得唤醒词更容易被检测出，提高在非连续唤醒阶段被唤醒的灵敏度，改善用户的体验。

参见图3，图3是根据本实施例的语音信号处理方法的应用场景的一个示意图。在图3的应用场景中，用户301对着电子设备302(例如智能音箱)发出语音“小明，请播放XXX歌曲”，电子设备302接收到用户语音信号303。然后，电子设备302(即目标设备)确定本身处于连续唤醒状态(即当前用户发出的语音之间的间隔时间较小)，确定用户语音信号303中包括的有效的第一预设类型唤醒词304，即“小明”。例如使用预设的声学模型，从用户语音信号中提取第一预设类型唤醒词304。最后，将用户语音信号303中位于第一预设类型唤醒词304之后的语句“请播放XXX歌曲”确定为待识别语音信号305，并将待识别语音信号305发送到服务器306，由服务器306识别待识别语音信号305后，将XXX歌曲文件307发送到电子设备302，电子设备302播放该歌曲。

本公开的上述实施例提供的方法，通过当目标设备当前的工作状态是否处于连续唤醒状态时，从用户语音信号中确定有效的第一预设类型唤醒词，然后基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，从而实现了在人机交互时，在人与机器的多轮对话过程中增加第一预设类型唤醒词，通过第一预设类型唤醒词辅助提取待识别语音信号，提高了提取待识别语音信号的准确性，有助于提高语音识别的性能。

进一步参考图4，示出了语音信号处理方法的又一个实施例的流程示意图。如图4所示，在上述图2所示实施例的基础上，步骤204可包括如下步骤：

步骤2041，响应于从用户语音信号中确定出有效的第一预设类型唤醒词，等待第二预设时长后，确定用户语音信号中是否包括第二预设类型唤醒词。

在本实施例中，由于第一预设类型唤醒词(副唤醒词)通常由第二预设类型唤醒词(主唤醒词)的前若干个字组成，在识别出第一预设类型唤醒词后，此时用户可能发出的是第二预设类型唤醒词，为了避免将第二预设类型唤醒词被误识别为第一预设类型唤醒词，此时等待第二预设时长，以确定用户是否发出第二预设类型唤醒词。

步骤2042，如果包括第二预设类型唤醒词，将用户语音信号中的处于第二预设类型唤醒词之后的语音信号确定为待识别语音信号。

在本实施例中，如果等待第二预设时长后，确定用户发出的为第二预设类型唤醒词，则将本次唤醒确定为第二预设类型的唤醒，然后将第二预设类型唤醒词之后的语音信号确定为待识别语音信号。

步骤2043，如果不包括第二预设类型唤醒词，将用户语音信号中的处于有效的唤醒词之后的语音信号确定为待识别语音信号。

在本实施例中，如果等待第二预设时长后，确定用户没有发出第二预设类型唤醒词，则将本次唤醒确定为第一预设类型的唤醒，然后将第一预设类型唤醒词之后的语音信号确定为待识别语音信号。

上述图4对应实施例提供的方法，通过在识别出第一预设类型唤醒词后，等待一段时间再进行唤醒词识别，可以准确地确定对目标设备进行唤醒时采用何种唤醒词，有助于提高对用户进行语音识别的准确性。

示例性装置

图5是本公开一示例性实施例提供的语音信号处理装置的结构示意图。本实施例可应用在电子设备上，如图5所示，语音信号处理装置包括：接收模块501，用于接收用户语音信号；第一确定模块502，用于确定目标设备当前的工作状态；第二确定模块503，用于如果目标设备当前的工作状态处于连续唤醒状态，确定用户语音信号中包括的有效的第一预设类型唤醒词；提取模块504，用于基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。

在本实施例中，接收模块501可以接收用户语音信号。其中，用户语音信号可以是用户发出语音时由麦克风采集的音频信号。

在本实施例中，第一确定模块502可以确定目标设备当前的工作状态。其中，目标设备为待对其进行语音控制的设备。例如智能家电、手机、工业仪表等。需要说明的是，目标设备可以为上述装置所在的设备，或者与上述装置所在的设备通信连接的其他电子设备。当目标设备不是上述装置所在的设备时，上述装置可以通过通信连接，实时确定目标设备当前的工作状态。上述工作状态可以包括连续唤醒状态和非连续唤醒状态。其中，连续唤醒状态为上述装置所在的设备识别到用户连续发出语音时的状态(即用户发出的语音之间的时间间隔小于预设阈值)，非连续唤醒状态为上述装置所在的设备识别到用户(即用户发出的语音之间的时间间隔大于预设阈值)。

在本实施例中，如果确定目标设备当前的工作状态处于连续唤醒状态，第二确定模块503可以确定用户语音信号中包括的有效的第一预设类型唤醒词。其中，第一预设类型唤醒词可以是在目标设备处于连续唤醒状态时，对目标设备进行唤醒的词。可选的，第一预设类型唤醒词可以是预设的唤醒词集合中的词语。

第二确定模块503可以利用现有的语音识别方法，对用户语音信号进行识别，从而从用户语音信号中确定第一预设类型唤醒词。

在本实施例中，提取模块504可以基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，并输出待识别语音信号。

作为示例，提取模块504可以将用户语音信号中，处于第一预设类型唤醒词之后的语音信号确定为待识别语音信号。

参照图6，图6是本公开另一示例性实施例提供的语音信号处理装置的结构示意图。

在一些可选的实现方式中，第二确定模块503可以包括：第一确定单元5031，用于确定用户语音信号是否包括第一预设类型唤醒词；第二确定单元5032，用于如果包括，确定第一预设类型唤醒词的开始时间点之前的第一预设时长内是否接收到语音信号；第三确定单元5033，用于如果没有接收到语音信号，确定第一预设类型唤醒词为有效的唤醒词。

在一些可选的实现方式中，提取模块504可以包括：第四确定单元5041，用于响应于从用户语音信号中确定出有效的第一预设类型唤醒词，等待第二预设时长后，确定用户语音信号中是否包括第二预设类型唤醒词；第五确定单元5042，用于如果包括第二预设类型唤醒词，将用户语音信号中的处于第二预设类型唤醒词之后的语音信号确定为待识别语音信号；第六确定单元5043，用于如果不包括第二预设类型唤醒词，将用户语音信号中的处于有效的唤醒词之后的语音信号确定为待识别语音信号。

在一些可选的实现方式中，上述语音信号处理装置还可以包括：第三确定模块505，用于响应于连续确定出预设数量个第二预设类型唤醒词，且确定出预设数量个第二预设类型唤醒词中的任意相邻两个唤醒词的间隔时间小于或等于第三预设时长，确定目标设备进入连续唤醒状态，其中，间隔时间不包括相邻两个主唤醒词之间的语句占用的时间。

在一些可选的实现方式中，上述语音信号处理装置还可以包括：第四确定模块506，用于在连续唤醒状态，响应于确定两次唤醒之间的间隔时间大于或等于第四预设时长，确定目标设备退出连续唤醒状态。

在一些可选的实现方式中，提取模块504可以进一步用于：将待识别语音信号发送至用于识别语音信号的设备；或者将待识别语音信号进行噪声过滤处理后发送至用于识别语音信号的设备。

在一些可选的实现方式中，第二确定模块503进一步用于：基于预设的唤醒词识别模型，以及预设的在连续唤醒状态所用的第一概率阈值，确定用户语音信号包括的有效的第一预设类型唤醒词，其中，第一概率阈值小于在非连续唤醒状态所用的第二概率阈值。

本公开上述实施例提供的语音信号处理装置，通过当目标设备当前的工作状态是否处于连续唤醒状态时，从用户语音信号中确定有效的第一预设类型唤醒词，然后基于第一预设类型唤醒词，从用户语音信号中提取待识别语音信号，从而实现了在人机交互时，在人与机器的多轮对话过程中增加第一预设类型唤醒词，通过第一预设类型唤醒词辅助提取待识别语音信号，提高了提取待识别语音信号的准确性，有助于提高语音识别的性能。

示例性电子设备

下面，参考图7来描述根据本公开实施例的电子设备。该电子设备可以是如图1所示的终端设备101和服务器103中的任一个或两者、或与它们独立的单机设备，该单机设备可以与终端设备101和服务器103进行通信，以从它们接收所采集到的输入信号。

图7图示了根据本公开实施例的电子设备的框图。

如图7所示，电子设备700包括一个或多个处理器701和存储器702。

处理器701可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备700中的其他组件以执行期望的功能。

存储器702可以包括一个或多个计算机程序产品，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器701可以运行程序指令，以实现上文的本公开的各个实施例的语音信号处理方法以及/或者其他期望的功能。在计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备700还可以包括：输入装置703和输出装置704，这些组件通过总线***和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是终端设备101或服务器103时，该输入装置703可以是麦克风等设备，用于输入用户语音信号。在该电子设备是单机设备时，该输入装置703可以是通信网络连接器，用于从终端设备101和服务器103接收用户语音信号。

该输出装置704可以向外部输出各种信息，包括待识别语音信号。该输出设备704可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图7中仅示出了该电子设备700中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备700还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的语音信号处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的***、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于***实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、***的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、***。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种语音信号处理方法，包括：

接收用户语音信号；

确定目标设备当前的工作状态；

如果所述目标设备当前的工作状态处于连续唤醒状态，确定所述用户语音信号中包括的有效的第一预设类型唤醒词；

基于所述第一预设类型唤醒词，从所述用户语音信号中提取待识别语音信号，并输出所述待识别语音信号。

2.根据权利要求1所述的方法，其中，所述确定所述用户语音信号中包括的有效的第一预设类型唤醒词，包括：

确定所述用户语音信号是否包括第一预设类型唤醒词；

如果包括，确定所述第一预设类型唤醒词的开始时间点之前的第一预设时长内是否接收到语音信号；

如果没有接收到语音信号，确定所述第一预设类型唤醒词为有效的唤醒词。

3.根据权利要求1所述的方法，其中，所述基于所述第一预设类型唤醒词，从所述用户语音信号中提取待识别语音信号，包括：

响应于从所述用户语音信号中确定出所述有效的第一预设类型唤醒词，等待第二预设时长后，确定所述用户语音信号中是否包括第二预设类型唤醒词；

如果包括第二预设类型唤醒词，将所述用户语音信号中的处于所述第二预设类型唤醒词之后的语音信号确定为待识别语音信号；

如果不包括第二预设类型唤醒词，将所述用户语音信号中的处于所述有效的唤醒词之后的语音信号确定为待识别语音信号。

4.根据权利要求1所述的方法，其中，在所述确定目标设备当前的工作状态之前，所述方法还包括：

响应于连续确定出预设数量个第二预设类型唤醒词，且确定出所述预设数量个第二预设类型唤醒词中的任意相邻两个唤醒词的间隔时间小于或等于第三预设时长，确定所述目标设备进入连续唤醒状态，其中，所述间隔时间不包括相邻两个主唤醒词之间的语句占用的时间。

5.根据权利要求4所述的方法，其中，所述方法还包括：

在所述连续唤醒状态，响应于确定两次唤醒之间的间隔时间大于或等于第四预设时长，确定所述目标设备退出所述连续唤醒状态。

6.根据权利要求1-5之一所述的方法，其中，所述输出所述待识别语音信号，包括：

将所述待识别语音信号发送至用于识别语音信号的设备；或者

将所述待识别语音信号进行噪声过滤处理后发送至用于识别语音信号的设备。

7.根据权利要求1-5之一所述的方法，其中，所述确定所述用户语音信号中包括的有效的第一预设类型唤醒词，包括：

基于预设的唤醒词识别模型，以及预设的在所述连续唤醒状态所用的第一概率阈值，确定所述用户语音信号包括的有效的第一预设类型唤醒词，其中，所述第一概率阈值小于在非连续唤醒状态所用的第二概率阈值。

8.一种语音信号处理装置，包括：

接收模块，用于接收用户语音信号；

第一确定模块，用于确定目标设备当前的工作状态；

第二确定模块，用于如果所述目标设备当前的工作状态处于连续唤醒状态，确定所述用户语音信号中包括的有效的第一预设类型唤醒词；

提取模块，用于基于所述第一预设类型唤醒词，从所述用户语音信号中提取待识别语音信号，并输出所述待识别语音信号。

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-7任一所述的方法。

10.一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-7任一所述的方法。