CN112185425A

CN112185425A - 音频信号处理方法、装置、设备及存储介质

Info

Publication number: CN112185425A
Application number: CN201910604779.0A
Authority: CN
Inventors: 徐涛; 曹元斌
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2019-07-05
Filing date: 2019-07-05
Publication date: 2021-01-05
Anticipated expiration: 2039-07-05

Abstract

本发明实施例提供一种音频信号处理方法、装置、设备及存储介质，该方法包括：首先，在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；其次，识别已播放的语音合成音频是否包括语音特征；然后，在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。由此，解决了设备端“自己跟自己对话”的问题，提高智能语音交流的准确率。

Description

音频信号处理方法、装置、设备及存储介质

技术领域

本发明是涉及语音处理技术领域，尤其涉及一种音频信号处理方法、装置、设备及存储介质。

背景技术

随着人工智能技术和计算机的飞速发展，智能语音对话被广泛的开发和利用，人与设备的智能语音交流受到广泛关注。

为了实现设备端实时响应人类声音语言，设备端(例如：智能音箱)通过语音端点检测(Voice Activity Detection，VAD)确定是否对接收到的音频进行响应。目前，现行的语音端点检测在应用中，可能会出现设备端在播放音频的同时，接收设备端自身播放的音频，并将接收到的正在播放的音频发送至服务端，服务端将会向设备端重复反馈，由此，设备端和服务端将陷入循环。例如：设备端的播放元件正在播放“您好，很高兴认识你”，设备端的接收元件接收到了正在播放的“您好，很高兴认识你”，并将该音频发送至服务端，服务端会对其循环应答，从而出现设备端“自己跟自己对话”的可能性，影响人与设备端的智能语音交流。

发明内容

有鉴于此，本发明一个或多个实施例描述了一种音频信号处理的方法、装置、设备及存储介质，解决了设备端“自己跟自己对话”的问题，提高智能语音交流的准确率。

根据第一方面，提供了一种音频信号处理方法，该方法可以包括：

在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；

识别已播放的语音合成音频是否包括语音特征；

在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。

根据第二方面，提供了一种音频信号处理装置，该装置可以包括：

接收模块，用于在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；

识别模块，用于识别已播放的语音合成音频是否包括语音特征；

处理模块，用于在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。

根据第三方面，提供了一种音箱设备，其中，包括至少一个处理器和存储器，存储器用于存储有计算机程序指令，处理器用于执行存储器的程序，以控制音箱设备实现如第一方面所示的音频信号处理方法。

根据第四方面，提供了一种计算设备，设备包括至少一个处理器和存储器，存储器用于存储有计算机程序指令，处理器用于执行存储器的程序，以控制服务器实现如第一方面所示的音频信号处理方法。

根据第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，若计算机程序在计算机中执行，则令计算机执行如第一方面所示的音频信号处理方法。

利用本发明实施例的方案，通过识别已播放的语音合成音频是否包括接收到的音频信息中语音特征，在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。然后，将错误唤醒VAD的语音特征作为训练VAD模型的负样本，从而更新VAD模型，利用更新VAD模型拦截错误唤醒VAD的音频信息。由此，解决了设备端“自己跟自己对话”的问题，降低了语音交互过程中的语音误识别，

提升识别准确率。这里，在降低语音交互***整体功耗的同时，提升用户体验。

另外，在接收到干扰信息时，设备端无需将干扰信息向服务端发送，在节省服务端处理资源的同时，减少了设备端和服务端之间通信资源的浪费。对于设备端来说，该方法可以随着设备端使用时间的不断增强，不断优化性能，提高智能语音交流的准确率。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明，其中，相同或相似的附图标记表示相同或相似的特征。

图1示出根据一个实施例的音频信号交互***的结构示意图；

图2示出根据一个实施例的音频信号处理方法的流程图；

图3示出根据一个实施例的基于服务端更新VAD模型方法的流程图；

图4示出根据一个实施例的基于VAD技术的语音交互***中音频处理方法的流程图；

图5示出根据一个实施例的音频信号处理装置的结构框图；

图6示出根据一个实施例的计算设备的结构示意图。

具体实施方式

下面将详细描述本发明的各个方面的特征和示例性实施例，为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细描述。应理解，此处所描述的具体实施例仅被配置为解释本发明，并不被配置为限定本发明。对于本领域技术人员来说，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本发明实施例提供了一种音频处理方法、装置、设备、服务器和存储介质。

图1示出根据一个实施例的音频信号交互***的结构示意图。

如图1所示，语音交互***的实际应用场景可以包括带有收音元件A和播音元件B的音频设备10，以及服务端20。

其中，收音元件A接收到声源1，音频设备10需要将声源1的音频信息上报到服务端20，交由服务端20确定针对音频信息的应答音频信息2，再由服务端将应答音频信息2发送至音频设备10，由播音元件B播放应答音频信息2。

由于语音交互***的收音元件A和播音元件B在同一个场景下，收音元件A可能会接收到播音元件B正在播放的应答音频信息3(由于是重新接收的音频，所以标记为3)，音频设备10将接收到的应答音频信息3发送至服务端20。此时，为了避免音频设备10在与用户进行智能语音交互时，出现音频设备10本身播放出去的内容触发VAD，导致识别错误率增加的情况。服务端20将应答音频信息3与应答音频信息2(即上一次服务端20发送至音频设备10的音频信息)匹配，若有匹配结果，则根据应答音频信息3对音频处理模型进行训练，得到目标音频处理模型。服务端20将目标音频处理模型同步至音频设备10，以便音频设备10再次接收到新的音频信息时，根据目标音频处理模型确定新的音频信息是否为干扰音频，在确定为干扰音频的情况下，不向服务端发送新的音频信息。进一步地，干扰音频可以包括：音频设备10接收到音频设备10本身播放的音频、和/或音频设备10播放音频的回声。

在本发明实施例中，通过上述提供的音频处理方法，解决了设备端“自己跟自己对话”的问题，降低了语音交互过程中的语音误识别，提升识别准确率。这里，在降低语音交互***整体功耗的同时，提升用户体验。另外，当接收到干扰信息的时候，设备端无需将干扰信息向服务端发送，在节省服务端处理资源的同时，减少了设备端和服务端之间通信资源的浪费。对于设备端来说，该方法可以随着设备端使用时长，不断优化性能，提高智能语音交流的准确率。

以上语音交互***可以应用于不同的应用场景，例如：智能家居、智能车载、智能可穿戴领域、医疗领域、教育领域、智能音频输入输出和智能购物等；也能嵌入各式带有收音元件和播音元件类的产品，例如智能音箱、儿童类或成人类智能设备、购物软件、音频播放软件和智能家电等。

由此，基于上述语音交互***的场景，下面结合图2对音频处理方法进行详细说明。

图2示出根据一个实施例的音频信号处理方法的流程图。

如图2所示，该方法流程包括步骤210-步骤230，首先，步骤210，在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征；其次，步骤220，识别已播放的语音合成音频是否包括语音特征；然后，步骤230，在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。

下面分别对上述步骤进行详细说明：

涉及步骤210：语音特征包括下述中的至少一种：已播放音频的回音特征、噪音特征、杂音特征、静音特征。

具体地，根据音频能量将语音特征划分为已播放音频的回音特征、噪音特征、杂音特征和静音特征。

或者，可以根据音频的响度、音高和频谱分布将语音特征划分为已播放音频的回音特征、噪音特征、杂音特征和静音特征。涉及步骤220：识别已播放的语音合成音频是否包括语音特征。

具体地，根据训练之后的VAD模型识别已播放的语音合成音频是否包括语音特征。

在语音合成音频未包括语音特征的情况下，确定正确唤醒VAD。其中，可以将接收到的音频信息发送至服务端，由服务端匹配到与该音频信息的反馈信息，接着，再由服务端将反馈信息发送至设备端，由设备端播放与反馈信息对应的反馈音频。

在语音合成音频包括语音特征的情况下，执行步骤230。

涉及步骤230：在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。

在一个实例中，在确定语音特征为错误唤醒VAD之前，还可以包括：

对音频信息进行标记，得到标记后的音频信息；将标记后的音频信息作为VAD模型的训练负样本，对VAD模型进行训练，以确定训练之后的VAD模型。

进一步地，分别对步骤210中划分之后的已播放音频的回音特征、噪音特征、杂音特征和静音特征进行标记；将标记后的已播放音频的回音特征、噪音特征、杂音特征和静音特征作为VAD模型的训练负样本。

例如：根据噪音特征和静音特征的音频能量，分别在音频信息中选择与噪音特征和静音特征对应的音频段；对音频段进行标记，将标记后的音频段作为VAD模型的训练负样本。

这里，还可以理解为，音频信息中包括了至少一种特征，每一个特征都有与之对应的音频处理模型，即一个特征对应一个音频处理模型，VAD模型包括多个音频处理模型。由此，这样在对模型进行训练的时候，得到更为精准的VAD模型。

另外，在该情况下，也会出现设备端播放的声音错误唤醒了VAD，为了防止这种情况出现，在已播放的语音合成音频的声纹特征和音频信息的声纹特征相似度高于预设阈值的情况下，将语音特征确定为已播放音频的回音特征。还可能出现与唤醒VAD的关键词发音相似的词误唤醒VAD的关键词的情况，为了防止这种情况出现，在识别到误唤醒VAD的关键词的情况下，将关键词作为VAD模型的训练负样本。

通过识别已播放的语音合成音频是否包括接收到的音频信息中的语音特征，在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。然后，将错误唤醒VAD的语音特征作为训练VAD模型的负样本，从而更新VAD模型，利用更新后的VAD模型拦截错误唤醒VAD的音频信息。由此，解决了设备端“自己跟自己对话”的问题，降低了语音交互过程中的语音误识别，提升识别准确率。这里，在降低语音交互***整体功耗的同时，提升用户体验。另外，当接收到干扰信息的时候，设备端无需将干扰信息向服务端发送，在节省服务端处理资源的同时，减少了设备端和服务端之间通信资源的浪费。

需要说明的是，在一种可能的实例中，可以如图2中涉及的在设备端中进行VAD模型的更新和使用；在另一种可能的实例中，VAD模型可以是在服务端进行更新，设备端使用更新后的VAD模型拦截错误唤醒VAD的音频信息。由此，本发明实施例结合图3对服务端更新VAD模型的方法进行详细说明。图3示出根据一个实施例的基于服务端更新VAD模型方法的流程图。

如图3所示，该方法流程包括步骤310-步骤350。具体如下所示：

步骤310：接收设备端发送的音频信息，并识别音频信息中的语音特征。

步骤320：识别已发送至设备端的已播放的语音合成音频是否包括语音特征。

步骤330：在语音合成音频包括语音特征的情况下，将与语音特征对应的音频信息作为VAD模型的训练负样本。

在语音合成音频未包括语音特征的情况下，根据音频信息确定与音频信息对应的反馈信息，接着，再将反馈信息发送至设备端，由设备端播放与反馈信息对应的反馈音频。

步骤340：基于训练负样本对VAD模型进行训练，以确定训练之后的VAD模型。

步骤350：将训练之后的VAD模型发送至设备端，以便设备端根据训练之后的VAD模型拦截干扰信息。

由此，通过更新设备端上的VAD模型，以使设备端在接收到干扰信息时，无需将干扰信息向服务端发送，在节省服务端处理资源的同时，减少了设备端和服务端之间通信资源的浪费。对于设备端来说，该方法可以随着设备端使用时间的不断增强，不断优化性能，提高智能语音交流的准确率。

为了便于理解，下面以语音交互***结合VAD技术应用在智能音箱的情况下，对本发明实施例提供的音频处理方法进行举例说明。

这里，该方法会通过语音识别技术，确定接收到的静音、噪声、以及语音合成的音频信息，根据音频信息对原始VAD模型进行训练，然后，更新设备端的VAD模块，更新之后的VAD模块用于在设备端接收到新的音频信息时，确定新的音频信息是否为干扰信息，若为干扰信息，则设备端主动拦截，不向服务端发送新的音频信息。

图4示出根据一个实施例的基于VAD技术的语音交互***中音频处理方法的流程图。

在描述具体方法之前，介绍一下该***包括智能音箱(即设备端)和与该智能音箱对应的服务端。其中，智能音箱可以包括：特征抽取模块和VAD模块；服务端可以包括：语音识别模块、对话模块、合成模块、训练数据整合模块。

如图4所示，该方法包括步骤410-步骤490，具体如下所示：

步骤410：接收音频信息1，确定音频信息1中的音频特征A。

智能音箱接收音频信息1，特征抽取模块对该音频信息1进行特征抽取，确定音频特征A。

例如：将音频信息1对应的时域转化为频域，利用梅尔频谱倒谱系数对其进行特征抽取。

步骤420：判断是否将音频信息发送至服务端。

智能音箱中的VAD模块对音频特征A进行识别，通过对音频特征A的识别，确定是否需要将音频信息1发送至服务端，由服务端进行处理。

在确定需要发送至服务端的情况下，智能音箱中的其他处理模块(例如：算法模块)对其音频信息1进行预处理，例如：降噪、增益、去混响、去回声等。在确定不需要发送至服务端的情况下，VAD模块可以执行关闭接收音频的操作。

步骤430：对音频信息1识别，确定针对音频信息1的文字信息。

其中，服务端接收智能音箱发送的音频信息1，并通过语音识别模块，将音频信息转换成文字信息。

步骤440：对话模块对其文字信息进行语义分析，生成音频信息2，其中，音频信息2包括针对音频信息1的应答信息。

进一步地，提取关键信息，判定文字信息所表达的意义；根据关键信息生成针对文字信息的应答信息。例如：关键信息是“播放***歌曲”，接着，根据“***”搜索歌曲，并基于“***”歌曲的音频信息作为应答信息。

合成模块将应答信息转换为音频信息2，向智能音箱发送音频信息2，以使智能音箱播放音频信息2。由此，完成一轮语音交互。

此时，合成模块除了会将音频信息2发送到智能音箱之外，还需将音频信息2发送至训练数据整合模块，以便之后在接收到与音频信息2有相同语音特征的音频时，根据具有相同语音特征的音频对训练数据整合模块中的VAD模型进行训练。

以下为了更好的说明本申请提供的方法，将继续描述基于上述第一轮语音交互的第二轮语音交互。

接着，步骤450：智能音箱在播放音频信息2的同时，接收到了音频信息3，并将音频信息3发送至服务端。

其中，该步骤中涉及智能音箱将音频信息3发送的服务端的方式，参照步骤410-420。

步骤460：服务端接收智能音箱发送的音频信息3，确定音频信息3中包括语音特征B。

步骤470：服务端判断音频信息2中是否包括语音特征B。

进一步地，在一个实施中，在音频信息2包括语音特征B的情况下，根据音频信息3对VAD模型进行训练，得到训练后的VAD模型。其中，对音频信息3进行标记，将标记后的音频信息3作为VAD模型的训练负样本。

或者，另一个实例中，在音频信息3为噪音特征和/或静音特征的情况下，将音频信息3直接作为VAD模型的训练负样本。其中，根据噪音特征和/或静音特征的音频能量，分别在音频信息3中选择与噪音特征和/或静音特征对应的音频段；对音频段进行标记，作为VAD模型的训练负样本。

或者，在又一个实例中，在音频信息3既包括语音特征，也包括噪音特征和/或静音特征的情况下，可以通过语音识别模块的声学模型语音识别，对语音特征进行音频和文本对齐(forced alignment)处理，接着，对其余部分进行静音特征和噪声特征的标记，这里，可以将静音特征和噪声特征的标记作为VAD模型的训练负样本。在音频信息2包括语音特征的情况下，根据音频信息3对VAD模型进行训练，得到训练之后的VAD模型。其中，对音频信息3进行标记，将标记后的音频信息3作为VAD模型的训练负样本。

步骤480：服务端向智能音箱发送训练后的VAD模型，训练后的VAD模型用于在智能音箱接收到其他的音频信息的情况下，确定其他的音频信息是否为干扰信息。

步骤490：智能音箱接收VAD模型，在智能音箱接收到音频信息4的情况下，将音频信息4输入到VAD模型中，得到输出结果。

在输出结果表示音频信息4为干扰信息的情况下，不向服务端发送音频信息4。反之，在输出结果表示音频信息4为非干扰信息的情况下，向服务端发送音频信息4。

这里，需要说明的是，由于在实际应用时，是需要根据大量样本对VAD模型进行不断优化的，由此，上述输出结果表示音频信息4为非干扰信息的情况也有可能是干扰信息，只是，设备端中的VAD模型还没有这种样本，所以，需要通过服务端再进行步骤470-步骤490的计算，从而优化VAD模型。

这样就完成了一个更新VAD模型的迭代周期，随着用户的日常使用，VAD模块中VAD模型的会越来越适应智能音箱的摆放环境，同时也会更加准确的捕捉到用户声音，于是，这样就解决了设备端“自己跟自己对话”的问题，降低了语音交互过程中的语音误识别，提升识别准确率。

本发明实施例中，通过识别已播放的语音合成音频是否包括接收到的音频信息中的语音特征，在所述语音合成音频包括所述语音特征的情况下，确定所述语音特征为错误唤醒所述VAD。然后，将错误唤醒VAD的语音特征作为训练VAD模型的负样本，从而更新VAD模型，利用更新VAD模型拦截错误唤醒VAD的音频信息。由此，解决了设备端“自己跟自己对话”的问题，降低了语音交互过程中的语音误识别，提升识别准确率。这里，在降低语音交互***整体功耗的同时，提升用户体验。另外，当接收到干扰信息的时候，设备端无需将干扰信息向服务端发送，在节省服务端处理资源的同时，减少了设备端和服务端之间通信资源的浪费。

图5示出根据一个实施例的音频处理装置的结构框图。

如图5所示，该装置50可以包括：

收发模块501，在已唤醒语音端点检测VAD的情况下，确定接收到的音频信息中的语音特征。

识别模块502，用于识别已播放的语音合成音频是否包括语音特征。

处理模块503，用于在语音合成音频包括语音特征的情况下，确定语音特征为错误唤醒VAD。

该装置50还可以包括：训练模块504，用于对音频信息进行标记，得到标记后的音频信息；将标记后的音频信息作为VAD模型的训练负样本，对VAD模型进行训练，以确定训练之后的VAD模型。

其中，训练模块504具体可以用于，根据音频能量将语音特征划分为已播放音频的回音特征、噪音特征、杂音特征和静音特征。进一步地，分别对划分之后的已播放音频的回音特征、噪音特征、杂音特征和静音特征进行标记；将标记后的已播放音频的回音特征、噪音特征、杂音特征和静音特征作为VAD模型的训练负样本。

在一种可能的实例中，在已播放的语音合成音频的声纹特征和音频信息的声纹特征相似度高于预设阈值的情况下，将语音特征确定为已播放音频的回音特征。

在另一种可能的实例中，在识别到误唤醒VAD的关键词的情况下，将关键词作为VAD模型的训练负样本。本发明实施例中识别模块502具体可以用于，根据训练之后的VAD模型识别已播放的语音合成音频是否包括语音特征。

本发明实施例中处理模块503，具体可以用于，在语音合成音频未包括语音特征的情况下，确定正确唤醒VAD。

图6示出根据一个实施例的计算设备的结构示意图。

如图6所示，能够实现根据本发明实施例音频信号处理方法和装置的计算设备的示例性硬件架构的结构图。

该设备可以包括处理器601以及存储有计算机程序指令的存储器602。

具体地，上述处理器601可以包括中央处理器(CPU)，或者特定集成电路(application specific integrated circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器602可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器602可包括硬盘驱动器(hard disk drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，USB)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(ROM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存，或者两个或及其以上这些的组合。

处理器601通过读取并执行存储器602中存储的计算机程序指令，以实现上述实施例中的任意一种音频信号处理方法。

收发器603，主要用于实现本发明实施例中各装置或者与其他设备中的通信。

在一个示例中，该设备还可包括总线604。其中，如图6所示，处理器601、存储器602和收发器603通过总线604连接并完成相互间的通信。

总线604包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、***组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线703可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，当计算机程序在计算机中执行时，令计算机执行本发明实施例的音频信号处理方法的步骤。

需要明确的是，本发明并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的***、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本领域的技术人员可以清楚地了解到，本发明的方法过程并不限于所描述和示出的具体步骤，任何熟悉本技术领域的技术人员在领会本发明的精神后，在本发明揭露的技术范围内作出各种改变、修改和添加，或者等效替换以及改变步骤之间的顺序，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种音频信号处理方法，其中，包括：

识别已播放的语音合成音频是否包括所述语音特征；

在所述语音合成音频包括所述语音特征的情况下，确定所述语音特征为错误唤醒所述VAD。

2.根据权利要求1所述的方法，其中，还包括：

对所述音频信息进行标记，得到标记后的音频信息；

将所述标记后的音频信息作为VAD模型的训练负样本，对所述VAD模型进行训练，以确定训练之后的VAD模型。

3.根据权利要求2所述的方法，其中，所述确定接收到的音频信息中的语音特征，包括：

根据音频能量将所述语音特征划分为已播放音频的回音特征、噪音特征、杂音特征和静音特征。

4.根据权利要求3所述的方法，其中，将所述标记后的音频信息作为VAD模型的训练负样本，包括：

分别对划分之后的已播放音频的回音特征、噪音特征、杂音特征和静音特征进行标记；

将标记后的已播放音频的回音特征、噪音特征、杂音特征和静音特征作为所述VAD模型的训练负样本。

5.根据权利要求3所述的方法，其中，还包括：

在所述已播放的语音合成音频的声纹特征和所述音频信息的声纹特征相似度高于预设阈值的情况下，将所述语音特征确定为已播放音频的回音特征。

6.根据权利要求3所述的方法，其中，还包括：

在识别到误唤醒所述VAD的关键词的情况下，将所述关键词作为所述VAD模型的训练负样本。

7.根据权利要求2所述的方法，其中，所述识别已播放的语音合成音频是否包括所述语音特征，包括：

根据所述训练之后的VAD模型识别所述已播放的语音合成音频是否包括所述语音特征。

8.根据权利要求1所述的方法，其中，还包括：

在所述语音合成音频未包括所述语音特征的情况下，确定正确唤醒所述VAD。

9.一种音频信号处理装置，其中，包括：

识别模块，用于识别已播放的语音合成音频是否包括所述语音特征；

处理模块，用于在所述语音合成音频包括所述语音特征的情况下，确定所述语音特征为错误唤醒所述VAD。

10.一种音箱设备，其中，包括至少一个处理器和存储器，所述存储器用于存储有计算机程序指令，所述处理器用于执行所述存储器的所述程序，以控制所述音箱设备实现如权利要求1-8任意一项所述的方法。

11.一种计算机可读存储介质，其上存储有计算机程序，其中，若所述计算机程序在计算机中执行，则令计算机执行权利要求1-8中任一项的所述的方法。