CN113380248A

CN113380248A - 语音控制方法、装置、设备及存储介质

Info

Publication number: CN113380248A
Application number: CN202110653278.9A
Authority: CN
Inventors: 王建业; 常乐; 陈孝良
Original assignee: Beijing SoundAI Technology Co Ltd
Current assignee: Beijing SoundAI Technology Co Ltd
Priority date: 2021-06-11
Filing date: 2021-06-11
Publication date: 2021-09-10
Anticipated expiration: 2041-06-11
Also published as: CN113380248B

Abstract

本申请提供了一种语音控制方法、装置、设备及存储介质，属于计算机技术领域。所述方法包括：通过目标应用，在播放第一音频的同时采集第二音频；对所述第二音频进行回声消除；对回声消除后的所述第二音频进行语音识别，得到语音控制指令；根据所述语音控制指令，对所述目标应用进行控制。上述方案提供了一种新的目标应用，该目标应用在播放音频的同时，还能够支持语音控制功能，语音控制更加灵活。并且，考虑到在播放第一音频时采集的第二音频中可能包括第一音频的回声，因此对第二音频进行回声消除，如此能够避免第一音频的回声的干扰，保证对第二音频进行语音识别的准确性，从而保证语音控制的准确性。

Description

语音控制方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种语音控制方法、装置、设备及存储介质。

背景技术

日常生活中，用户常常需要控制目标应用执行一些操作。一般情况下，用户会通过手动触发的方式来控制目标应用，但随着自然语言处理技术的发展，如今用户无需手动触发，只需要通过语音就可控制目标应用执行一些操作。然而，目标应用能够实现的语音控制功能较为局限。

发明内容

本申请实施例提供了一种语音控制方法、装置、设备及存储介质，能够增强目标应用的语音控制功能，使得目标应用在播放音频的情况下，支持语音控制功能。所述技术方案如下：

一方面，提供了一种语音控制方法，所述方法包括：

通过目标应用，在播放第一音频的同时采集第二音频；

对所述第二音频进行回声消除；

对回声消除后的所述第二音频进行语音识别，得到语音控制指令；

根据所述语音控制指令，对所述目标应用进行控制。

在一种可能的实现方式中，所述对回声消除后的所述第二音频进行语音识别，得到语音控制指令，包括：

将回声消除后的所述第二音频的音量调整至目标音量范围内；

对音量调整后的所述第二音频进行语音识别，得到所述语音控制指令。

提取回声消除后的所述第二音频的声纹信息；

将所述声纹信息与声纹库中的声纹信息进行比对，所述声纹库用于存储具有所述目标应用的语音控制权限的声纹信息；

在所述声纹库包括所述第二音频的声纹信息的前提下，对回声消除后的所述第二音频进行语音识别，得到所述语音控制指令。

对回声消除后的所述第二音频进行语音识别，得到所述第二音频对应的文本；

从所述文本中提取所述语音控制指令。

在一种可能的实现方式中，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

响应于所述语音控制指令为弹幕发布指令，从所述文本中提取位于所述弹幕发布指令之后的目标文本；

在所述第一音频对应的音频播放界面中发布弹幕，所述弹幕包括所述目标文本。

在一种可能的实现方式中，所述在所述第一音频对应的音频播放界面中发布弹幕之后，所述方法还包括：

显示包括所述弹幕的所述音频播放界面。

响应于所述语音控制指令为音频切换指令，控制所述目标应用切换所述第一音频。

响应于所述语音控制指令为停止播放指令，控制所述目标应用停止播放所述第一音频。

响应于所述语音控制指令为音频分享指令，控制所述目标应用生成所述第一音频的分享链接，将所述分享链接发布到所述音频分享指令指示的目标页面。

响应于所述语音控制指令为合唱指令，控制所述目标应用从头开始播放所述第一音频，并采集第三音频；

响应于所述第三音频采集完成，将所述第一音频与所述第三音频进行合成，得到合唱音频。

在一种可能的实现方式中，所述将所述第一音频与所述第三音频进行合成，得到合唱音频，包括：

在所述第一音频包括人声和背景音频的情况下，去除所述第一音频中的人声；

将得到的所述第一音频中的背景音频与所述第三音频进行合成，得到所述合唱音频。

响应于所述语音控制指令为音频收藏指令，控制所述目标应用将所述第一音频添加到所述音频收藏指令指示的音频集合中。

响应于所述语音控制指令为音频下载指令，控制所述目标应用下载所述第一音频。

在一种可能的实现方式中，所述通过目标应用，在播放第一音频的同时采集第二音频，包括：

通过所述目标应用，基于第一协议将所述第一音频传输至所连接的耳机，所述耳机用于播放所述第一音频；

接收所述耳机基于第二协议传输的所述第二音频，所述第二音频是所述耳机在播放所述第一音频的同时采集的。

另一方面，提供了一种语音控制装置，所述装置包括：

音频采集模块，被配置为通过目标应用，在播放第一音频的同时采集第二音频；

回声消除模块，被配置为对所述第二音频进行回声消除；

语音识别模块，被配置为对回声消除后的所述第二音频进行语音识别，得到语音控制指令；

应用控制模块，被配置为根据所述语音控制指令，对所述目标应用进行控制。

在一种可能的实现方式中，所述语音识别模块，被配置为将回声消除后的所述第二音频的音量调整至目标音量范围内；对音量调整后的所述第二音频进行语音识别，得到所述语音控制指令。

在一种可能的实现方式中，所述语音识别模块，被配置为提取回声消除后的所述第二音频的声纹信息；

将所述声纹信息与声纹库中的声纹信息进行比对，所述声纹库用于存储具有所述目标应用的语音控制权限的声纹信息；在所述声纹库包括所述第二音频的声纹信息的前提下，对回声消除后的所述第二音频进行语音识别，得到所述语音控制指令。

在一种可能的实现方式中，所述语音识别模块，被配置为对回声消除后的所述第二音频进行语音识别，得到所述第二音频对应的文本；从所述文本中提取所述语音控制指令。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为弹幕发布指令，从所述文本中提取位于所述弹幕发布指令之后的目标文本；在所述第一音频对应的音频播放界面中发布弹幕，所述弹幕包括所述目标文本。

在一种可能的实现方式中，所述装置还包括：

界面显示模块，被配置为显示包括所述弹幕的所述音频播放界面。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为音频切换指令，控制所述目标应用切换所述第一音频。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为停止播放指令，控制所述目标应用停止播放所述第一音频。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为音频分享指令，控制所述目标应用生成所述第一音频的分享链接，将所述分享链接发布到所述音频分享指令指示的目标页面。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为合唱指令，控制所述目标应用从头开始播放所述第一音频，并采集第三音频；响应于所述第三音频采集完成，将所述第一音频与所述第三音频进行合成，得到合唱音频。

在一种可能的实现方式中，所述应用控制模块，被配置为在所述第一音频包括人声和背景音频的情况下，去除所述第一音频中的人声；将得到的所述第一音频中的背景音频与所述第三音频进行合成，得到所述合唱音频。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为音频收藏指令，控制所述目标应用将所述第一音频添加到所述音频收藏指令指示的音频集合中。

在一种可能的实现方式中，所述应用控制模块，被配置为响应于所述语音控制指令为音频下载指令，控制所述目标应用下载所述第一音频。

在一种可能的实现方式中，所述音频采集模块，被配置为通过所述目标应用，基于第一协议将所述第一音频传输至所连接的耳机，所述耳机用于播放所述第一音频；接收所述耳机基于第二协议传输的所述第二音频，所述第二音频是所述耳机在播放所述第一音频的同时采集的。

另一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中执行的操作。

另一方面，提供了一种计算机程序产品，所述计算机程序产品中包括至少一条程序代码，所述程序代码由处理器加载并执行以实现上述任一种可能实现方式中的语音控制方法中执行的操作。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供了一种新的目标应用，该目标应用在播放音频的同时，还能够支持语音控制功能，语音控制更加灵活。并且，考虑到在播放第一音频时采集的第二音频中可能包括第一音频的回声，因此对第二音频进行回声消除，如此能够避免第一音频的回声的干扰，保证对第二音频进行语音识别的准确性，从而保证语音控制的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种实施环境的示意图；

图2是本申请实施例提供的一种语音控制方法的流程图；

图3是本申请实施例提供的一种语音控制方法的流程图；

图4是本申请实施例提供的一种语音控制装置的框图；

图5是本申请实施例提供的一种终端的结构示意图；

图6是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请所使用的术语“第一”、“第二”、“第三”、“第四”等可在本文中用于描述各种概念，但除非特别说明，这些概念不受这些术语限制。这些术语仅用于将一个概念与另一个概念区分。举例来说，在不脱离本申请的范围的情况下，可以将第一音频称为音频，且类似地，可将第二音频称为第一音频。

本申请所使用的术语“至少一个”、“多个”、“每个”、“任一”，至少一个包括一个、两个或两个以上，多个包括两个或两个以上，而每个是指对应的多个中的每一个，任一是指多个中的任意一个。举例来说，多个声纹信息包括3个声纹信息，而每个是指这3个声纹信息中的每一个声纹信息，任一是指这3个声纹信息中的任意一个，可以是第一个，可以是第二个、也可以是第三个。

图1是本申请实施例提供的一种实施环境的示意图。参见图1，该实施环境包括终端101和服务器102。终端101和服务器102之间通过无线或者有线网络连接。可选地，终端101为电脑、手机、平板电脑、智能手表、智能音箱、智能家居或者其他终端。可选地，服务器102为后台服务器或者为提供云计算以及云存储等服务的云服务器。

可选地，终端101上安装有由服务器102提供服务的目标应用，终端101能够通过该目标应用实现例如数据传输、消息交互等功能。可选地，目标应用为终端101操作***中的目标应用，或者为第三方提供的目标应用。该目标应用具有音频播放功能和语音控制功能，可选地，当然，该目标应用还能够具有其他功能，例如，视频播放功能、游戏功能、直播功能、聊天功能等，本申请实施例对此不做限制。可选地，该目标应用为音乐应用、视频应用、直播应用、聊天应用等，本申请实施例对此也不做限制。

在本申请实施例中，终端101用于通过目标应用，在播放第一音频的同时采集第二音频，将该第二音频上传至服务器102。服务器102用于对第二音频进行回声消除，并对回声消除后的第二音频进行语音识别，得到语音控制指令，向终端101发送该语音控制指令，终端101用于根据该语音控制指令，对该目标应用进行控制。

需要说明的是，本申请实施例仅以实施环境中包括终端101和服务器102为例进行说明，在其他实施例中，实施环境中仅包括终端101。由终端101来实现对目标应用的语音控制。

本申请提供的语音控制方法能够应用在对目标应用进行语音控制的场景下，例如，当终端通过目标应用来播放音乐时，用户如果想要播放下一首音乐，在不手动触发音频切换控件的情况下，只需要说出“播放下一首”，则能够控制目标应用播放下一首音乐。又如，当终端通过目标应用来播放视频(该视频包括音频和视频画面)时，用户如果想要暂停该视频的播放，在不手动触发停止播放控件的情况下，只需要说出“暂停视频播放”，则能够控制目标应用停止播放该视频。

图2是本申请实施例提供的一种语音控制方法的流程图。参见图2，执行主体为电子设备，该方法包括：

201、通过目标应用，在播放第一音频的同时采集第二音频。

202、对第二音频进行回声消除。

203、对回声消除后的第二音频进行语音识别，得到语音控制指令。

204、根据语音控制指令，对目标应用进行控制。

在一种可能的实现方式中，对回声消除后的第二音频进行语音识别，得到语音控制指令，包括：

将回声消除后的第二音频的音量调整至目标音量范围内；

对音量调整后的第二音频进行语音识别，得到语音控制指令。

提取回声消除后的第二音频的声纹信息；

将声纹信息与声纹库中的声纹信息进行比对，声纹库用于存储具有目标应用的语音控制权限的声纹信息；

在声纹库包括第二音频的声纹信息的前提下，对回声消除后的第二音频进行语音识别，得到语音控制指令。

对回声消除后的第二音频进行语音识别，得到第二音频对应的文本；

从文本中提取语音控制指令。

在一种可能的实现方式中，根据语音控制指令，对目标应用进行控制，包括：

响应于语音控制指令为弹幕发布指令，从文本中提取位于弹幕发布指令之后的目标文本；

在第一音频对应的音频播放界面中发布弹幕，弹幕包括目标文本。

在一种可能的实现方式中，在第一音频对应的音频播放界面中发布弹幕之后，方法还包括：

显示包括弹幕的音频播放界面。

响应于语音控制指令为音频切换指令，控制目标应用切换第一音频。

响应于语音控制指令为停止播放指令，控制目标应用停止播放第一音频。

响应于语音控制指令为音频分享指令，控制目标应用生成第一音频的分享链接，将分享链接发布到音频分享指令指示的目标页面。

响应于语音控制指令为合唱指令，控制目标应用从头开始播放第一音频，并采集第三音频；

响应于第三音频采集完成，将第一音频与第三音频进行合成，得到合唱音频。

在一种可能的实现方式中，将第一音频与第三音频进行合成，得到合唱音频，包括：

在第一音频包括人声和背景音频的情况下，去除第一音频中的人声；

将得到的第一音频中的背景音频与第三音频进行合成，得到合唱音频。

响应于语音控制指令为音频收藏指令，控制目标应用将第一音频添加到音频收藏指令指示的音频集合中。

响应于语音控制指令为音频下载指令，控制目标应用下载第一音频。

在一种可能的实现方式中，通过目标应用，在播放第一音频的同时采集第二音频，包括：

通过目标应用，基于第一协议将第一音频传输至所连接的耳机，耳机用于播放第一音频；

接收耳机基于第二协议传输的第二音频，第二音频是耳机在播放第一音频的同时采集的。

图3是本申请实施例提供的一种语音控制方法的流程图。参见图3，该方法包括：

301、终端通过目标应用，在播放第一音频的同时采集第二音频。

其中，第一音频为任意音频，例如，第一音频为本地音频库中的音频，其中，本地音频库中的音频包括用户录制的音频以及从线上下载的音频。或者，第一音频是无需下载，即可在线播放的音频。另外，第一音频还包括视频中的音频。

第二音频为用户当前输入的音频。可选地，终端上具有语音输入模块，例如，麦克风，终端通过该麦克风来采集第二音频。

可选地，终端在播放第一音频的同时还显示第一音频对应的音频播放界面。该音频播放界面中包括多种控件，用户能够通过各种控件控制目标应用执行各种操作。例如，音频切换控件，用于将当前播放的第一音频切换为该歌单中的另一首歌曲。暂停控件，用于暂停播放当前播放的第一音频。下载控件，用于下载当前播放的第一音频。点赞控件，用于对当前播放的第一音频进行点赞。评论控件，用于对第一音频进行评论等。可选地，该音频播放界面还包括至少一条弹幕，该弹幕为播放该第一音频的终端所发布的。可选地，该音频播放界面还包括第一音频对应的文本。例如，第一音频为歌曲，则该文本为歌词，又如第一音频为录音，则该文本为录音内容，又如，第一音频为视频的背景音频，则文本为视频的字幕等。当然，音频播放界面还能够包括其他控件或者信息，本申请实施例对此不做限制。

在一种可能的实现方式中，终端上配置有扬声器，相应的，终端通过目标应用，在播放第一音频的同时采集第二音频，包括：终端通过目标应用来调用扬声器播放第一音频，在播放第一音频的同时采集第二音频。这样能够增强语音控制的功能，使得终端在外放第一音频的情况下，也能够实现对目标应用的语音控制。

在一种可能的实现方式中，终端通过目标应用，在播放第一音频的同时采集第二音频，包括：终端通过目标应用，基于第一协议将第一音频传输至所连接的耳机，耳机用于播放第一音频；终端接收耳机基于第二协议传输的第二音频，第二音频是耳机在播放第一音频的同时采集的。

可选地，耳机为蓝牙耳机，例如TWS(True Wireless Stereo，真正无线立体声)耳机，红外线耳机或者其他耳机。

可选地，第一协议为A2DP(Advanced Audio Distribution Profile，单向高保真音频协议)。A2DP协议是一种蓝牙音频传输协议。A2DP协议能够实现48kHz高保真立体声音频传输，保证音频质量，但只支持单向音频传输。

可选地，第二协议为SPP(Serial Port Profile，串口协议)，SPP定义了如何设置虚拟串行端口及如何连接两个蓝牙设备。SPP使用RFCOMM(串口仿真协议)提供串行通信仿真，提供了以无线方式替代RS-232串口通信的方法，能够实现16KHz的音频数据传输，保证音频质量。

在一种可能的实现方式中，终端通过目标应用，基于第一协议将第一音频传输至所连接的耳机，包括：终端基于第一协议建立终端与耳机间的第一通信链路；通过目标应用，基于第一协议对第一音频进行处理，得到第一音频对应的数据包，并基于第一通信链路，将该数据包传输至耳机。

可选地，终端基于第一协议对第一音频进行处理，得到第一音频对应的数据包，包括：终端基于第一协议对第一音频进行编码，得到第一音频对应的数据包。相应的，耳机在基于第一通信链路，接收到该数据包后，基于第一协议对该数据包进行解码，得到第一音频，然后播放该第一音频。

在一种可能的实现方式中，终端接收耳机基于第二协议传输的第二音频，包括：终端基于第二协议，建立终端与耳机间的第二通信链路；接收耳机基于第二通信链路传输的数据包，并传输至目标应用。

耳机在采集第二音频后，基于第二协议对第二音频进行处理，得到第二音频对应的数据包。然后，基于第二通信链路将该数据包传输至终端，终端将该数据包发送给目标应用。可选地，耳机基于第二协议对第二音频进行处理，得到第二音频对应的数据包，包括：耳机基于第二协议对第二音频进行编码，得到第二音频对应的数据包。相应的，终端基于第二通信链路，接收到该数据包后，基于第二协议对该数据包进行解码，得到第二音频。可选地，终端通过目标应用，基于第二协议对该数据包进行解码，得到第二音频。

需要说明的一点是，蓝牙音频传输协议还有HSP(Head Set Profile，一种蓝牙音频传输协议)和HFP(Hands-Free Profile，一种蓝牙音频传输协议)，虽然HSP和HFP能够传输双向音频，但音频采样率只有8KHz，且仅支持单通道语音传输，音质较差。而本申请实施例中，终端基于A2DP协议向耳机传输第一音频，并且基于SPP协议接收耳机传输的第二音频，由于A2DP协议和SPP协议均支持高采样率的音频传输，因此终端和耳机之间双向传输的音频均能够保持高音质。一方面保证了播放的第一音频的质量，另一方面还能够提高语音识别的准确性，进而实现对目标应用的准确的语音控制。

需要说明的另一点是，终端接收耳机基于第二协议传输的第二音频的同时，仍然基于第一协议向耳机传输第一音频。也即是，在同一时刻下，既支持A2DP协议播放第一音频，也支持SPP协议采集第二音频。

302、终端通过目标应用对第二音频进行回声消除。

回声是指终端播放出来的声音又被终端采集，使得采集到的声音中包括该当前终端所播放的声音。在本申请实施例中，由于终端是在播放第一音频的同时采集的第二音频，因此，第二音频中可能包括第一音频的回声。回声消除是指：将采集的第二音频中所包括的第一音频的回声消除掉，使得采集的第二音频中只包括用户的语音。

可选地，终端基于任意回声消除算法对第二音频进行回声消除，可选地，回声消除算法为基于自适应滤波的回声消除算法，例如，归一化最小均方(Normalized Least MeanSquare，NLMS)算法、最小均方(Least Mean Square，NLMS)算法等，本申请实施例对此不做限制。

在本申请实施例中，通过对第二音频进行回声消除，能够避免第二音频中的第一音频的回声干扰，提升第二音频的质量，使得第二音频中的用户语音更加清晰，在对第二音频进行语音识别时，能够提高语音识别的准确性，即保证得到的语音控制指令的准确性，增强了语音控制的鲁棒性。

303、终端通过目标应用对回声消除后的第二音频进行语音识别，得到第二音频对应的文本。

语音识别是一种将语音转换为文本的技术。对第二音频进行语音识别得到的文本中包括第二音频的内容，也即是，第二音频与该文本所表达的语义是相同的。终端先将第二音频转换成文本，方便后续基于文本进行进一步的处理。

在一种可能的实现方式中，终端在对第二音频进行回声消除后，还要调整第二音频的音量，相应的，终端通过目标应用，对回声消除后的第二音频进行语音识别，得到语音控制指令，包括：终端通过目标应用，将回声消除后的第二音频的音量调整至目标音量范围内；对音量调整后的第二音频进行语音识别，得到语音控制指令。可选地，目标音量范围根据实际情况设置。可选地，终端采用语音自动增益控制(Automatic Gain Control，AGC)技术，对第二音频的音量进行调整。

其中，对音量调整后的第二音频进行语音识别，得到语音控制指令，包括：对音量调整后的第二音频进行语音识别，得到第二音频对应的文本，通过目标应用，从文本中提取语音控制指令。

在本申请实施例中，在对第二音频进行语音识别前，先调整第二音频的音量，既能保证在用户输入的语音较小的情况下，能够清晰识别到用户的语音，又能避免在用户输入的语音较大的情况下，出现声音截幅现象，导致识别不准确，因此，上述方法能够提高语音识别的准确性，进而提高语音控制的准确性。

其中声音截幅现象是指：由于音频信号的幅度过大，超过了音频采集设备的范围，使得音频信号在峰值点处的幅度被截取，导致音频信号失真。

在一种可能的实现方式中，终端在对第二音频进行回声消除后，还要对回声消除后的第二音频进行噪声抑制，然后对噪声抑制后的第二音频进行语音识别，得到语音控制指令。可选地，终端采用任意噪声抑制算法对第二音频进行噪声抑制，以去除或降低第二音频中的噪声，如此能够使第二音频中的用户语音更加清晰，提高语音识别的准确性。

在一种可能的实现方式中，终端通过目标应用，对回声消除后的第二音频进行语音识别，得到语音控制指令，包括：终端通过目标应用，提取回声消除后的第二音频的声纹信息；终端将声纹信息与声纹库中的声纹信息进行比对，声纹库用于存储具有目标应用的语音控制权限的声纹信息；终端在声纹库包括第二音频的声纹信息的前提下，对回声消除后的第二音频进行语音识别，得到语音控制指令。其中，对回声消除后的第二音频进行语音识别，得到语音控制指令，包括对回声消除后的第二音频进行语音识别，得到第二音频对应的文本，从该文本中提取语音控制指令。

声纹(Voice Print)如同指纹一样，人人都有，且各不相同，且声纹与口音无关，与语言无关，可以用于进行身份识别。第二音频的声纹信息能够反映用户的声纹特征，因此能够体现用户的身份。

可选地，声纹库是预先存储在终端中的，该声纹库中包括具有目标应用的语音控制权限的至少一个声纹信息。可选地，该声纹库中的声纹信息是用户事先录入的。例如，终端事先通过目标应用采集用户的声纹信息，将用户的声纹信息存储在终端的声纹库中，则后续当用户通过语音来控制目标应用时，终端会核对用户当前输入的音频的声纹信息是否是声纹库中的声纹信息，在该音频的声纹信息是声纹库中的声纹信息的情况下，确定该用户具有目标应用的控制权限，然后才会继续响应用户输入的音频，对目标应用进行控制。可选地，该用户还能够将其他人的声纹信息，例如该用户的父母的声纹信息录入到该声纹库中，以使其他人也能够语音控制该目标应用。

在本申请实施例中，通过声纹库存储具有目标应用的语音控制权限的声纹信息，在采集用户的音频后，利用声纹库来确定该用户是否具有目标应用的语音控制权限，在确定用户具有目标应用的语音控制权限的前提下，才会根据用户的音频进行语音控制，一方面能够避免误识别，即将其他人的声音当做用户的语音进行识别，造成对目标应用的误控，另一方面能够提高目标应用的安全性。

304、终端通过目标应用，从该文本中提取语音控制指令。

可选地，终端通过目标应用对该文本进行分词处理，得到该文本中包括的至少一个词语，确定每个词语与指令库中的每个语音控制指令的相似度，将指令库中与该文本中的词语的相似度最高的语音控制指令，确定为从该文本中提取的语音控制指令。例如，第二音频对应的文本为“播放下一首歌曲”，对该文本进行分词处理后，得到“播放”、“下一首”、“歌曲”，终端通过计算相似度，确定指令库中的语音控制指令“播放下一首”与该文本中的词语的相似度最高，则将“播放下一首”确定为从该文本中提取到的语音控制指令。

可选地，终端还能够不对该文本进行分词处理，直接确定指令库中的语音控制指令与该文本的相似度，将相似度最大的语音控制指令确定为从该文本中提取的语音控制指令。如此方法简单高效。当然，终端还能够通过其他方式提取该文本中的语音控制指令，本申请实施例对此不做限制。

可选地，终端将采集到的第二音频上传到服务器中，由服务器对该第二音频进行处理，得到语音控制指令，并下发给终端，由于服务器的处理能力更强，这样能够提高获取的语音控制指令的准确性，并且能够节省终端的计算资源。

305、终端根据语音控制指令，对目标应用进行控制。

语音控制指令具有多种类型，不同类型的语音控制指令用于控制目标应用执行不同的操作。

在一种可能的实现方式中，该步骤包括：终端响应于语音控制指令为弹幕发布指令，通过目标应用从文本中提取位于弹幕发布指令之后的目标文本；在第一音频对应的音频播放界面中发布弹幕，弹幕包括目标文本。可选地，终端在第一音频对应的音频播放界面中发布弹幕的实现方式为：终端向服务器发送该第一音频和该弹幕，服务器向当前播放第一音频的每个终端发送该第一音频和该弹幕，该每个终端将该弹幕显示在当前的音频播放界面中。

可选地，弹幕发布指令为“发布弹幕”，相应的，当用户需要发布一条夸赞当前播放的第一音频的弹幕时，只需要说出“发布弹幕：这首歌太棒啦”，终端则能够提取其中的语音控制指令“发布弹幕”，以及位于该语音控制指令之后的目标文本“这首歌太棒啦”，进而在第一音频对应的音频播放界面中发布一条包括“这首歌太棒啦”的弹幕。

在本申请实施例中，通过弹幕发布指令的设置，使得用户在无需手动操作的情况下，只需要通过语音，即可控制发表当前播放的第一音频的弹幕，提高了弹幕的发布效率，增强了语音控制功能，提高了用户体验。

在一种可能的实现方式中，终端在第一音频对应的音频播放界面中发布弹幕之后，方法还包括：终端显示包括弹幕的音频播放界面，这样用户能够即时在音频播放界面中查看自己当前发布的弹幕。

例如，终端在播放第一音频的同时显示第一音频的音频播放界面，此时，用户通过语音输入了一条弹幕发布指令，终端则会在当前的音频播放界面中发布一条弹幕。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于语音控制指令为音频分享指令，控制目标应用生成第一音频的分享链接，将该分享链接发布到该音频分享指令指示的目标页面。可选地，该目标页面为目标应用的音频分享页面，或者，该目标页面为其他应用的页面。例如，目标应用为音频播放应用，其他应用为聊天应用，则用户能够语音控制目标应用将第一音频的分享链接发布到另一聊天应用的页面。可选地，第一音频的分享链接包括第一音频的名称、作者等信息，可选地，第一音频的分享链接还包括第一音频对应的图像，该图像为第一音频对应的专辑封面、作者写真等，本申请实施例对此不做限制。

在本申请实施例中，通过音频分享指令的设置，使得用户在无需手动操作的情况下，只需要通过语音，即可控制目标应用分享音频，增强了目标应用的语音控制功能，提高了操作效率和用户体验。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于语音控制指令为合唱指令，控制目标应用从头开始播放第一音频，并采集第三音频，响应于第三音频采集完成，将第一音频与该第三音频进行合成，得到合唱音频。可选地，终端还能够将该合唱音频进行存储。可选地，终端还能够播放该合唱音频。可选地，在第一音频包括人声和背景音频的情况下，终端在合成第一音频与第三音频时，先去除第一音频中的人声，然后将第一音频中的背景音频和第三音频进行合成，得到合唱音频。可选地，终端响应于第一音频播放完毕，确定第三音频采集完成，或者，终端响应于用户的指令，确定第三音频采集完成，本申请实施例对此不做限制。需要说明的一点是，终端控制目标应用从头开始播放第一音频，并且控制目标应用持续采集第三音频，直至第三音频采集完成。

在本申请实施例中，通过合唱指令的设置，使得用户在无需手动操作的情况下，只需要通过语音，即可控制目标应用实现合唱功能，增强了目标应用的语音控制功能，提高了用户体验。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于该语音控制指令为直播间跳转指令，控制目标应用跳转到目标直播间对应的直播界面，并将当前播放的第一音频切换为目标直播间中的音频，其中，目标直播间为任意直播间，例如，目标直播间为直播内容与第一音频相关的直播间。在本申请实施例中，通过直播间跳转指令的设置，使得用户在无需手动操作的情况下，只需要通过语音，即可控制目标应用进入直播间，增强了目标应用的语音控制功能，提高了用户体验。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于语音控制指令为音频切换指令，控制目标应用切换该第一音频。可选地，第一音频为播放列表中的任一音频。即终端在目标应用中设置有播放列表，该播放列表中包括多个音频，终端按照该播放列表来依次播放各个音频，而第一音频即为当前播放的音频。

例如，当前播放的第一音频为播放列表中的一首歌曲，则终端响应于语音控制指令为音频切换指令，将当前播放的第一音频切换为该播放列表中的另一首歌曲。

可选地，该音频切换指令包括向前切换指令、向后切换指令、以及随机切换指令。终端响应于语音控制指令为向前切换指令，将当前播放的第一音频切换为播放列表中，该第一音频之前的一个音频。终端响应于语音控制指令为向后切换指令，将当前播放的第一音频切换为播放列表中，该第一音频之后的一个音频。终端响应于语音控制指令为随机切换指令，将当前播放的第一音频随机切换为播放列表中的另一个音频。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于语音控制指令为停止播放指令，控制目标应用停止播放第一音频。或者，终端响应于语音控制指令为循环播放指令，控制目标应用循环播放当前播放的第一音频。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于语音控制指令为音频下载指令，控制目标应用下载第一音频。之后，即使在没有网络的情况下，终端也能够从本地获取该第一音频，并进行播放。

在一种可能的实现方式中，终端根据语音控制指令，对目标应用进行控制，包括：终端响应于语音控制指令为音频收藏指令，控制目标应用将第一音频添加到该音频收藏指令指示的音频集合中。其中，音频集合中包括至少一个音频，该音频集合中的音频是用户添加进去的，这样用户能够利用音频集合来快速查询到收藏的音频。

在本申请实施例中，通过设置音频切换指令、停止播放指令、循环播放指令等多种类型的语音控制指令，使得用户在不进行任何手动操作的情况下，能够语音控制目标应用进行多种操作，增强了目标应用的语音控制功能。

实际上，在本申请实施例中，能够根据实际需要设置语音控制指令的类型，也即是，能够通过语音控制指令控制目标应用执行任意操作，例如，设置用于关闭目标应用的应用关闭指令，来语音控制目标应用关闭，本申请实施例对此不做限制。

上述所有可选技术方案，可以采用任意结合形成本申请的可选实施例，在此不再一一赘述。

图4是本申请实施例提供的一种语音控制装置的框图。参见图4，该装置包括：

音频采集模块401，被配置为通过目标应用，在播放第一音频的同时采集第二音频；

回声消除模块402，被配置为对第二音频进行回声消除；

语音识别模块403，被配置为对回声消除后的第二音频进行语音识别，得到语音控制指令；

应用控制模块404，被配置为根据语音控制指令，对目标应用进行控制。

在一种可能的实现方式中，语音识别模块403，被配置为将回声消除后的第二音频的音量调整至目标音量范围内；对音量调整后的第二音频进行语音识别，得到语音控制指令。

在一种可能的实现方式中，语音识别模块403，被配置为提取回声消除后的第二音频的声纹信息；

将声纹信息与声纹库中的声纹信息进行比对，声纹库用于存储具有目标应用的语音控制权限的声纹信息；在声纹库包括第二音频的声纹信息的前提下，对回声消除后的第二音频进行语音识别，得到语音控制指令。

在一种可能的实现方式中，语音识别模块403，被配置为对回声消除后的第二音频进行语音识别，得到第二音频对应的文本；从文本中提取语音控制指令。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为弹幕发布指令，从文本中提取位于弹幕发布指令之后的目标文本；在第一音频对应的音频播放界面中发布弹幕，弹幕包括目标文本。

在一种可能的实现方式中，装置还包括：

界面显示模块，被配置为显示包括弹幕的音频播放界面。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为音频切换指令，控制目标应用切换第一音频。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为停止播放指令，控制目标应用停止播放第一音频。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为音频分享指令，控制目标应用生成第一音频的分享链接，将分享链接发布到音频分享指令指示的目标页面。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为合唱指令，控制目标应用从头开始播放第一音频，并采集第三音频；响应于第三音频采集完成，将第一音频与第三音频进行合成，得到合唱音频。

在一种可能的实现方式中，应用控制模块404，被配置为在第一音频包括人声和背景音频的情况下，去除第一音频中的人声；将得到的第一音频中的背景音频与第三音频进行合成，得到合唱音频。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为音频收藏指令，控制目标应用将第一音频添加到音频收藏指令指示的音频集合中。

在一种可能的实现方式中，应用控制模块404，被配置为响应于语音控制指令为音频下载指令，控制目标应用下载第一音频。

在一种可能的实现方式中，音频采集模块401，被配置为通过目标应用，基于第一协议将第一音频传输至所连接的耳机，耳机用于播放第一音频；接收耳机基于第二协议传输的第二音频，第二音频是耳机在播放第一音频的同时采集的。

需要说明的是：上述实施例提供的语音控制装置在进行语音控制时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将电子设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音控制装置与语音控制方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本申请实施例还提供了一种电子设备，该电子设备包括处理器和存储器，存储器中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的语音控制方法中执行的操作。

可选地，该电子设备提供为终端。图5示出了本申请一个示例性实施例提供的终端500的结构框图。该终端500可以是：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端500还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

终端500包括有：处理器501和存储器502。

处理器501可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器501可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器501也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器501可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器501还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器502可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器502还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器502中的非暂态的计算机可读存储介质用于存储至少一个程序代码，该至少一个程序代码用于被处理器501所执行以实现本申请中方法实施例提供的语音控制方法。

在一些实施例中，终端500还可选包括有：***设备接口503和至少一个***设备。处理器501、存储器502和***设备接口503之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口503相连。具体地，***设备包括：射频电路504、显示屏505、摄像头组件506、音频电路507、定位组件508和电源509中的至少一种。

***设备接口503可被用于将I/O(Input/Output，输入/输出)相关的至少一个***设备连接到处理器501和存储器502。在一些实施例中，处理器501、存储器502和***设备接口503被集成在同一芯片或电路板上；在一些其他实施例中，处理器501、存储器502和***设备接口503中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路504用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路504通过电磁信号与通信网络以及其他通信设备进行通信。射频电路504将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路504包括：天线***、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路504可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路504还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏505用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏505是触摸显示屏时，显示屏505还具有采集在显示屏505的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器501进行处理。此时，显示屏505还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏505可以为一个，设置终端500的前面板；在另一些实施例中，显示屏505可以为至少两个，分别设置在终端500的不同表面或呈折叠设计；在另一些实施例中，显示屏505可以是柔性显示屏，设置在终端500的弯曲表面上或折叠面上。甚至，显示屏505还可以设置成非矩形的不规则图形，也即异形屏。显示屏505可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件506用于采集图像或视频。可选地，摄像头组件506包括前置摄像头和后置摄像头。前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件506还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路507可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器501进行处理，或者输入至射频电路504以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端500的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器501或射频电路504的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路507还可以包括耳机插孔。

定位组件508用于定位终端500的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件508可以是基于美国的GPS(GlobalPositioning System，全球定位***)、中国的北斗***、俄罗斯的格雷纳斯***或欧盟的伽利略***的定位组件。

电源509用于为终端500中的各个组件进行供电。电源509可以是交流电、直流电、一次性电池或可充电电池。当电源509包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端500还包括有一个或多个传感器510。该一个或多个传感器510包括但不限于：加速度传感器511、陀螺仪传感器512、压力传感器513、指纹传感器514、光学传感器515以及接近传感器516。

加速度传感器511可以检测以终端500建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器511可以用于检测重力加速度在三个坐标轴上的分量。处理器501可以根据加速度传感器511采集的重力加速度信号，控制显示屏505以横向视图或纵向视图进行用户界面的显示。加速度传感器511还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器512可以检测终端500的机体方向及转动角度，陀螺仪传感器512可以与加速度传感器511协同采集用户对终端500的3D动作。处理器501根据陀螺仪传感器512采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器513可以设置在终端500的侧边框和/或显示屏505的下层。当压力传感器513设置在终端500的侧边框时，可以检测用户对终端500的握持信号，由处理器501根据压力传感器513采集的握持信号进行左右手识别或快捷操作。当压力传感器513设置在显示屏505的下层时，由处理器501根据用户对显示屏505的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器514用于采集用户的指纹，由处理器501根据指纹传感器514采集到的指纹识别用户的身份，或者，由指纹传感器514根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器501授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器514可以被设置终端500的正面、背面或侧面。当终端500上设置有物理按键或厂商Logo时，指纹传感器514可以与物理按键或厂商Logo集成在一起。

光学传感器515用于采集环境光强度。在一个实施例中，处理器501可以根据光学传感器515采集的环境光强度，控制显示屏505的显示亮度。具体地，当环境光强度较高时，调高显示屏505的显示亮度；当环境光强度较低时，调低显示屏505的显示亮度。在另一个实施例中，处理器501还可以根据光学传感器515采集的环境光强度，动态调整摄像头组件506的拍摄参数。

接近传感器516，也称距离传感器，设置在终端500的前面板。接近传感器516用于采集用户与终端500的正面之间的距离。在一个实施例中，当接近传感器516检测到用户与终端500的正面之间的距离逐渐变小时，由处理器501控制显示屏505从亮屏状态切换为息屏状态；当接近传感器516检测到用户与终端500的正面之间的距离逐渐变大时，由处理器501控制显示屏505从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图5中示出的结构并不构成对终端500的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

可选地，该电子设备提供为服务器。图6是本申请实施例提供的一种服务器的结构示意图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)601和一个或一个以上的存储器602，其中，所述存储器602中存储有至少一条程序代码，所述至少一条程序代码由所述处理器601加载并执行以实现上述各个方法实施例提供的语音控制方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的语音控制方法中执行的操作。

本申请实施例还提供了一种计算机程序，该计算机程序中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述实施例的语音控制方法中执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种语音控制方法，其特征在于，所述方法包括：

通过目标应用，在播放第一音频的同时采集第二音频；

对所述第二音频进行回声消除；

根据所述语音控制指令，对所述目标应用进行控制。

2.根据权利要求1所述的方法，其特征在于，所述对回声消除后的所述第二音频进行语音识别，得到语音控制指令，包括：

3.根据权利要求1所述的方法，其特征在于，所述对回声消除后的所述第二音频进行语音识别，得到语音控制指令，包括：

提取回声消除后的所述第二音频的声纹信息；

4.根据权利要求1所述的方法，其特征在于，所述对回声消除后的所述第二音频进行语音识别，得到语音控制指令，包括：

从所述文本中提取所述语音控制指令。

5.根据权利要求4所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

6.根据权利要求5所述的方法，其特征在于，所述在所述第一音频对应的音频播放界面中发布弹幕之后，所述方法还包括：

显示包括所述弹幕的所述音频播放界面。

7.根据权利要求1所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

8.根据权利要求1所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

10.根据权利要求1所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

11.根据权利要求10所述的方法，其特征在于，所述将所述第一音频与所述第三音频进行合成，得到合唱音频，包括：

12.根据权利要求1所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

13.根据权利要求1所述的方法，其特征在于，所述根据所述语音控制指令，对所述目标应用进行控制，包括：

14.根据权利要求1所述的方法，其特征在于，所述通过目标应用，在播放第一音频的同时采集第二音频，包括：

15.一种语音控制装置，其特征在于，所述装置包括：

回声消除模块，被配置为对所述第二音频进行回声消除；

16.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述程序代码由所述处理器加载并执行以实现如权利要求1至权利要求14任一项所述的语音控制方法所执行的操作。

17.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条程序代码，所述程序代码由处理器加载并执行以实现如权利要求1至权利要求14任一项所述的语音控制方法所执行的操作。