CN110047497B

CN110047497B - 背景音频信号滤除方法、装置及存储介质

Info

Publication number: CN110047497B
Application number: CN201910399589.XA
Authority: CN
Inventors: 李东明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-05-14
Filing date: 2019-05-14
Publication date: 2021-06-11
Anticipated expiration: 2039-05-14
Also published as: CN110047497A; US20210304776A1; WO2020228528A1

Abstract

本发明实施例公开了一种背景音频信号滤除方法、装置及存储介质，属于音频处理技术领域。该方法包括：获取在播放背景音频信号的过程中采集的第一音频信号，背景音频信号为在原始音频信号中添加水印信息后得到的音频信号；对第一音频信号进行分离操作，得到水印信息和除水印信息以外的第二音频信号；根据水印信息查询预设对应关系，得到水印信息对应的原始音频信号；从第二音频信号中滤除原始音频信号，得到目标音频信号。本发明实施例提供了一种滤除背景音频信号的方案，无需另外再获取一份单独的背景音频信号，即可将背景音频信号从采集到的音频信号中滤除，避免了背景音频信号的影响，具有较强的通用性，扩大了应用范围。

Description

背景音频信号滤除方法、装置及存储介质

技术领域

本发明实施例涉及音频处理技术领域，特别涉及一种背景音频信号滤除方法、装置及存储介质。

背景技术

随着音频处理技术的发展和音频的广泛传播，在语音识别、语音控制等多种领域均会涉及音频信号的处理，但是通常情况下获取到的音频信号都会包含背景音频信号，背景音频信号的存在会影响音频信号的处理效果。因此，如何滤除音频信号中的背景音频信号成为关键。

相关技术中提供了一种滤除歌曲音频信号中伴奏音频信号的方法，获取包括歌声成分和伴奏成分的歌曲音频信号，以及该歌曲音频信号对应的伴奏音频信号，歌曲音频信号与伴奏音频信号存在时间同步对应关系，且伴奏音频信号与歌曲音频信号中的伴奏成分具有较大的相关性。通过将歌曲音频信号与伴奏音频信号进行对比，滤除该歌曲音频信号中的伴奏音频信号，得到歌声音频信号，从而有效地从歌曲音频信号中提取出人声。

上述方案需要预先获取歌曲音频信号，还需要单独获取该歌曲音频信号对应的伴奏音频信号。如果仅获取到歌曲音频信号，将无法滤除歌曲音频信号中的伴奏音频信号。因此受到了伴奏音频信号的限制，通用性较差，应用范围较为局限。

发明内容

本发明实施例提供了一种背景音频信号滤除方法、装置及存储介质，能够有效提升通用性，扩大应用范围。所述技术方案如下：

一方面，提供了一种背景音频信号滤除方法，所述方法包括：

获取在播放背景音频信号的过程中采集的第一音频信号，所述背景音频信号为在原始音频信号中添加水印信息后得到的音频信号；

对所述第一音频信号进行分离操作，得到所述水印信息和除所述水印信息以外的第二音频信号；

根据所述水印信息查询预设对应关系，得到所述水印信息对应的原始音频信号，所述预设对应关系包括所述原始音频信号与在所述原始音频信号中添加的水印信息之间的预设对应关系；

从所述第二音频信号中滤除所述原始音频信号，得到目标音频信号。

可选地，所述第一音频信号为第一音频时域信号，所述第二音频信号为第二音频时域信号，所述对所述第一音频信号进行分离操作，得到所述水印信息和除所述水印信息以外的第二音频信号，包括：

对所述第一音频时域信号进行变换，得到第一音频频域信号；

对所述第一音频频域信号进行分离操作，得到所述水印信息和除所述水印信息以外的第二音频频域信号；

对所述第二音频频域信号进行逆变换，得到所述第二音频时域信号。

可选地，所述根据所述水印信息查询预设对应关系，得到所述水印信息对应的原始音频信号，包括：

根据所述水印信息查询所述预设对应关系，得到所述水印信息对应的原始音频时域信号。

如果所述水印信息包括按照顺序排列的多个水印信息段，则根据所述多个水印信息段分别查询所述预设对应关系，得到与所述多个水印信息段对应的多个原始音频信号段；

按照所述多个水印信息段的排列顺序，将所述多个原始音频信号段进行组合，得到所述原始音频信号。

可选地，所述获取在播放背景音频信号的过程中采集的第一音频信号之前，所述方法还包括：

获取所述原始音频信号，为所述原始音频信号分配水印信息；

将所述水印信息添加至所述原始音频信号中，得到所述背景音频信号；

建立所述原始音频信号与所述水印信息之间的预设对应关系。

可选地，所述为所述原始音频信号分配水印信息，包括：

获取所述原始音频信号的标识信息，根据所述标识信息生成包含所述标识信息的所述水印信息。

可选地，所述原始音频信号为原始音频时域信号，所述背景音频信号为背景音频时域信号，所述将所述水印信息添加至所述原始音频信号中，得到所述背景音频信号，包括：

对所述原始音频时域信号进行变换，得到原始音频频域信号；

将所述水印信息添加至所述原始音频频域信号中，得到背景音频频域信号；

对所述背景音频频域信号进行逆变换，得到所述背景音频时域信号。

可选地，所述原始音频信号包括按照顺序排列的多个原始音频信号段；

所述将所述水印信息添加至所述原始音频信号中，得到所述背景音频信号，包括：

将为所述多个原始音频信号段分配的水印信息段分别添加至对应的原始音频信号段中，得到与所述多个原始音频信号段对应的多个背景音频信号段；

按照所述多个原始音频信号段的排列顺序，将所述多个背景音频信号段进行组合，得到所述背景音频信号。

另一方面，提供了一种背景音频信号滤除装置，所述装置包括：

第一音频获取模块，用于获取在播放背景音频信号的过程中采集的第一音频信号，所述背景音频信号为在原始音频信号中添加水印信息后得到的音频信号；

分离模块，用于对所述第一音频信号进行分离操作，得到所述水印信息和除所述水印信息以外的第二音频信号；

查询模块，用于根据所述水印信息查询预设对应关系，得到所述水印信息对应的原始音频信号，所述预设对应关系包括所述原始音频信号与在所述原始音频信号中添加的水印信息之间的预设对应关系；

滤除模块，用于从所述第二音频信号中滤除所述原始音频信号，得到目标音频信号。

可选地，所述第一音频信号为第一音频时域信号，所述第二音频信号为第二音频时域信号，所述分离模块，包括：

第一变换单元，用于对所述第一音频时域信号进行变换，得到第一音频频域信号；

分离单元，用于对所述第一音频频域信号进行分离操作，得到所述水印信息和除所述水印信息以外的第二音频频域信号；

第二变换单元，用于对所述第二音频频域信号进行逆变换，得到所述第二音频时域信号。

可选地，所述查询模块，包括：

第一查询单元，用于根据所述水印信息查询所述预设对应关系，得到所述水印信息对应的原始音频时域信号。

可选地，所述查询模块，包括：

第二查询单元，用于如果所述水印信息包括按照顺序排列的多个水印信息段，则根据所述多个水印信息段分别查询所述预设对应关系，得到与所述多个水印信息段对应的多个原始音频信号段；

组合单元，用于按照所述多个水印信息段的排列顺序，将所述多个原始音频信号段进行组合，得到所述原始音频信号。

可选地，所述装置还包括：

分配模块，用于获取所述原始音频信号，为所述原始音频信号分配水印信息；

添加模块，用于将所述水印信息添加至所述原始音频信号中，得到所述背景音频信号；

对应关系建立模块，用于建立所述原始音频信号与所述水印信息之间的预设对应关系。

可选地，所述分配模块，包括：

生成单元，用于获取所述原始音频信号的标识信息，根据所述标识信息生成包含所述标识信息的所述水印信息。

可选地，所述原始音频信号为原始音频时域信号，所述背景音频信号为背景音频时域信号，所述添加模块，包括：

第一变换单元，用于对所述原始音频时域信号进行变换，得到原始音频频域信号；

第一添加单元，用于将所述水印信息添加至所述原始音频频域信号中，得到背景音频频域信号；

第二变换单元，用于对所述背景音频频域信号进行逆变换，得到所述背景音频时域信号。

所述添加模块，包括：

第二添加单元，用于将为所述多个原始音频信号段分配的水印信息段分别添加至对应的原始音频信号段中，得到与所述多个原始音频信号段对应的多个背景音频信号段；

组合单元，用于按照所述多个原始音频信号段的排列顺序，将所述多个背景音频信号段进行组合，得到所述背景音频信号。

另一方面，提供了一种背景音频信号滤除装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述背景音频信号滤除方法中所执行的操作。

再一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并具有以实现如所述背景音频信号滤除方法中所执行的操作。

本发明实施例提供的方法、装置及存储介质，获取原始音频信号，为原始音频信号分配水印信息，将水印信息添加至对应的原始音频信号中，得到背景音频信号，建立原始音频信号与水印信息之间的预设对应关系，获取在播放背景音频信号的过程中采集的第一音频信号，对该第一音频信号进行分离操作，得到水印信息和除水印信息以外的第二音频信号，根据水印信息查询已建立的预设对应关系，得到水印信息对应的原始音频信号，从第二音频信号中滤除原始音频信号，得到目标音频信号。本发明实施例提供了一种滤除背景音频信号的方案，只需采集包括背景音频信号和目标音频信号的音频信号，无需另外再获取一份单独的背景音频信号，根据采集到的音频信号中的水印信息，即可将背景音频信号从采集到的音频信号中滤除，避免了背景音频信号的影响，具有较强的通用性，扩大了应用范围。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的示意图；

图2是本发明实施例提供的另一种实施环境的示意图；

图3是本发明实施例提供的一种预设对应关系建立方法的流程图；

图4是本发明实施例提供的一种水印信息的添加流程示意图；

图5是本发明实施例提供的一种背景音频信号滤除方法的交互流程图；

图6是本发明实施例提供的一种第一音频信号的分离流程示意图；

图7是本发明实施例提供的一种目标音频信号的获取流程示意图；

图8是本发明实施例提供的一种智能电视的语音控制方法的架构图；

图9是本发明实施例提供的一种智能电视的语音控制方法流程图；

图10是本发明实施例提供的一种智能电视的语音控制方法的交互流程图；

图11是本发明实施例提供的一种背景音频信号滤除装置的结构示意图；

图12是本发明实施例提供的另一种背景音频信号滤除装置的结构示意图；

图13是本发明实施例提供的一种终端的结构示意图；

图14是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供了一种滤除背景音频信号的方法，可以应用于多种实施环境中。

第一种情况下，实施环境包括智能设备，该智能设备具有播放音频信号、采集音频信号和处理音频信号的功能，可以为手机、计算机、平板电脑等终端、智能电视、智能音箱等多种类型的设备。

智能设备可以预先在原始音频信号中添加水印信息，得到背景音频信号，在播放背景音频信号的过程中采集音频信号，即可根据水印信息滤除背景音频信号，即可得到播放背景音频信号的过程中，所处空间内除背景音频信号以外的目标音频信号。其中，智能设备所处空间可以为智能设备所处的房间、楼层、建筑物或者其他场地。

第二种情况下，图1是本发明实施例提供的一种实施环境的示意图，该实施环境包括：智能设备101和服务器102，智能设备101和服务器102通过网络连接。

其中，该智能设备101具有播放音频信号和采集音频信号的功能，可以为手机、计算机、平板电脑等终端、智能电视、智能音箱等多种类型的设备。服务器102具有处理音频信号的功能，可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

服务器102可以预先在原始音频信号中添加水印信息，得到背景音频信号，将背景音频信号提供给智能设备101。智能设备101在播放背景音频信号的过程中采集音频信号，上传给服务器102，服务器102即可根据水印信息滤除背景音频信号，得到智能设备101播放背景音频信号的过程中，所处空间内除背景音频信号以外的目标音频信号。

第三种情况下，图2是本发明实施例提供的另一种实施环境的示意图，该实施环境包括：播放设备201、采集设备202和服务器203，播放设备201和采集设备202处于同一空间内，且均与服务器203通过网络连接。

其中，播放设备201和采集设备202处于同一空间内，是指播放设备201和采集设备202位于同一个房间内，或者位于同一个楼层，或者位于同一个建筑物内，或者位于同一个其他场地内，以使播放设备201与采集设备202之间的距离足够小，播放设备201位于采集设备202的音频采集范围内，采集设备202可以采集到播放设备201播放的音频信号。

其中，播放设备201具有播放音频信号的功能，可以为手机、计算机、平板电脑等终端、智能电视、智能音箱等多种类型的设备。采集设备202具有采集音频信号的功能，可以为手机、计算机、平板电脑等终端、智能遥控器、智能话筒、智能电视、智能音箱等多种类型的设备。服务器203具有处理音频信号的功能，可以是一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

服务器102可以预先在原始音频信号中添加水印信息，得到背景音频信号，将背景音频信号提供给播放设备201。在播放设备201播放背景音频信号的过程中采集设备202采集音频信号，上传给服务器102，服务器102即可根据水印信息滤除背景音频信号，得到播放设备201播放背景音频信号的过程中，所处空间内除背景音频信号以外的目标音频信号。

考虑到在采集目标音频信号时会采集到所处空间内存在的背景音频信号而造成干扰，本发明实施例提供了一种基于可控背景音频信号的音频处理方法，在原始音频信号中添加水印信息，得到可控的背景音频信号，在播放背景音频信号的过程中采集音频信号，该音频信号中即可包括目标音频信号和背景音频信号，此时可以将背景音频信号包含的水印信息作为一个标记，通过识别水印信息，可以从采集到的音频信号中滤除背景音频信号。该方法包括两个阶段：背景音频信号准备阶段及滤除背景音频信号阶段，以下将对这两个阶段的操作流程进行具体说明。

图3是本发明实施例提供的一种预设对应关系建立方法的流程图。本发明实施例对背景音频信号准备阶段的操作流程进行说明，该方法可以由服务器或智能设备来执行，本发明实施例以由服务器来执行为例进行说明。参见图3，该方法包括：

301、获取原始音频信号。

其中，原始音频信号可以为任一种音频信号，从原始音频信号的内容来说，该原始音频信号可以包括歌曲音频信号、电视剧音频信号、电影音频信号或其他音频信号；从原始音频信号的来源来说，该原始音频信号可以由操作人员存储至服务器中，或者由其他设备发送给服务器，或者该原始音频信号还可以为服务器自动收集每个设备播放的音频信号。

本发明实施例仅是以一个原始音频信号为例，对生成背景音频信号的过程进行说明。而服务器可以获取多个原始音频信号，从而生成每个原始音频信号对应的背景音频信号。并且，获取到原始音频信号的目的在于：通过在原始音频信号中添加水印信息，得到背景音频信号，从而在用户播放背景音频信号的过程中，从采集的音频信号中滤除背景音频信号。

则对于用户来说，当播放的音频信号为已添加水印信息的背景音频信号时，可以采用本发明实施例提供的方法滤除背景音频信号。因此为了提高全面性，实现背景音频信号的广泛播放，可以尽可能地获取较多的原始音频信号。例如，服务器可以收集互联网中发布的大量的原始音频信号，以便生成每个原始音频信号对应的背景音频信号。并且所获取的多个原始音频信号可以尽可能覆盖更多的类型，以供喜欢相应类型的音频信号的用户进行播放。

如果获取到的原始音频信号过多会导致处理量过大，而获取到的原始音频信号过少会导致生成的背景音频信号过少，适用范围较小。因此，综合考虑上述两种因素，在另一种可能实现方式中，可以获取热门程度大于预设阈值的多个原始音频信号，该热门程度用于表示原始音频信号受用户欢迎的程度，可以根据播放量、搜索量、发布者的关注用户数量等数据确定。热门程度越高，表示播放原始音频信号的概率越大，热门程度越低，表示播放原始音频信号的概率越小，通过获取热门程度较高的原始音频信号，可以在提高音频信号广泛性的基础上减小处理量。

例如，服务器收集多个电视剧的音频信号，将较为热门的电视剧的音频信号作为原始音频信号，以生成原始音频信号对应的背景音频信号，后续用户请求播放该电视剧时将播放背景音频信号，而不再播放原始音频信号。

302、获取原始音频信号的标识信息，根据标识信息生成包含该标识信息的水印信息。

服务器获取到原始音频信号时，可以为原始音频信号分配水印信息，从而能够在原始音频信号中添加水印信息。水印信息也称数字水印信息，是指以数字形式表示的信息，可用于嵌入音频信号中，生成包含水印信息的音频信号。

在一种可能实现方式中，服务器获取原始音频信号时，还会获取原始音频信号的详情信息，该详情信息用于对原始音频信号进行描述，可以包括作者、时长、类型、发布时间等多种信息。且该详情信息至少包括标识信息，该标识信息用于确定唯一对应的原始音频信号，可以包括原始音频信号的名称或编号等。例如，原始音频信号为电影时，该原始音频信号的标识信息为该电影的名称，或者，原始音频信号为电视剧时，该原始音频信号的标识信息为电视剧名称和该原始音频信号所属的集数的组合。则服务器可以根据标识信息，生成包含该标识信息的水印信息。该水印信息可以为任一种数据形式，例如，服务器对该标识信息进行编码，将该标识信息转换为二进制的编码，作为水印信息。

在另一种可能实现方式中，该服务器还可以为原始音频信号随机分配水印信息，或者还可以采用其他方式分配水印信息，只需保证为不同的原始音频信号分配不同的水印信息即可。

由于不同的原始音频信号分配的水印信息不同，因此利用水印信息可以区分不同的音频信号。并且，水印信息具有隐蔽性、稳定性和安全性等优点，不容易被篡改，且不会影响音频信号的播放效果。

303、将水印信息添加至原始音频信号中，得到背景音频信号。

为原始音频信号分配唯一对应的水印信息后，将水印信息添加至原始音频信号，将得到的音频信号作为背景音频信号。其中，将水印信息添加至原始音频信号时，可以采用水印嵌入算法，该水印嵌入算法可以为系数量化方法、空间域算法、变换域算法、最低有效位算法、回声隐藏算法、相位编码算法等。

在一种可能实现方式中，原始音频信号的采样数据以二进制数值的形式来表示，因此可以获取二进制编码形式的水印信息，添加至原始音频信号中，得到背景音频信号。

在一种可能实现方式中，原始音频信号包括按照顺序排列的多个原始音频信号段。则步骤302可以包括：为原始音频信号段中每个原始音频信号段分别分配一个水印信息段；步骤303可以包括：将分配的多个水印信息段分别添加至对应的原始音频信号段中，得到与该多个原始音频信号段对应的多个背景音频信号段，按照该多个原始音频信号段在原始音频信号中的排列顺序，将获取到的多个背景音频信号段进行组合，得到背景音频信号。

在另一种可能实现方式中，用于分析信号的不同角度称为域，时域和频域是信号的基本性质，从时域角度对信号进行描述时，即为时域信号，而从频域角度对信号进行描述时，即为频域信号。因此，音频信号具有对应的音频时域信号和音频频域信号，且音频时域信号和音频频域信号之间可以相互变换。

在原始音频信号中添加水印信息时，可以基于音频时域信号，也可以基于音频频域信号。

参见图4，原始音频信号为原始音频时域信号，背景音频信号为背景音频时域信号。则步骤303可以包括：对原始音频时域信号进行变换，得到原始音频时域信号对应的原始音频频域信号，将水印信息添加至原始音频频域信号中，得到背景音频频域信号，对背景音频频域信号进行逆变换，得到背景音频时域信号。

关于音频信号的变换方式，可以采用时域-频域变换算法，对音频时域信号进行变换，得到对应的音频频域信号。采用频域-时域变换算法，对音频频域信号进行变换，得到对应的音频时域信号。时域-频域变换算法和频域-时域变换算法互为逆变换。

其中，时域-频域变换算法可以包括离散余弦变换、离散小波变换、快速傅里叶变换等算法中的一个或多个的结合。例如，先采用离散小波变换算法进行离散小波变换，然后再采用离散余弦算法进行离散余弦变换。或者，还可以结合奇异值分解方法进行变换。

频域-时域变换算法可以包括离散余弦逆变换、离散小波逆变换、快速傅里叶逆变换等算法中的一个或多个的结合。例如，采用离散小波逆变换对音频频域信号进行逆变换，得到对应的音频时域信号。

304、建立原始音频信号与水印信息之间的预设对应关系。

为原始音频信号分配水印信息之后，还可以建立原始音频信号与水印信息之间的预设对应关系，从而将原始音频信号与水印信息进行关联，后续根据该预设对应关系可以查询水印信息对应的原始音频信号。

在一种可能实现方式中，如果原始音频信号包括按照顺序排列的多个原始音频信号段，且为每个原始音频信号段分配了水印信息段时，服务器可以建立每个原始音频信号段与所分配的水印信息段之间的预设对应关系。

在另一种可能实现方式中，服务器可以创建预设数据库，每当服务器为一个原始音频信号分配了水印信息时，即可在预设数据库中添加原始音频信号与水印信息之间的预设对应关系。

需要说明的第一点是，本发明实施例仅是以步骤304在步骤303之后执行为例进行说明，但两者没有必然的时序关系，步骤304可以与步骤303并行执行，或者在步骤303之前执行。

在生成背景音频信号并建立该预设对应关系之后，服务器即可发布背景音频信号，由多个设备播放背景音频信号，从而能够在播放背景音频信号的过程中采集音频信号，滤除该音频信号中的背景音频信号，具体过程详见下述实施例。

需要说明的第二点是，上述实施例仅是以建立一个原始音频信号与水印信息之间的预设对应关系为例，通过一次或多次执行上述步骤301-304，可以建立至少一个原始音频信号与对应的水印信息之间的预设对应关系。

需要说明的第三点是，上述实施例仅是以执行主体为服务器为例，对建立预设对应关系的过程进行说明。在另一实施例中，还可以由智能设备建立原始音频信号与水印信息之间的预设对应关系。

例如，一个或多个智能设备均可建立原始音频信号与在原始音频信号中添加的水印信息之间的预设对应关系，存储该预设对应关系。且该一个或多个智能设备还可以将建立好的预设对应关系发送至服务器，由服务器进行存储。

图5是本发明实施例提供的一种背景音频信号滤除方法的交互流程图。本发明实施例对滤除背景音频信号的操作流程进行说明，交互主体包括如图2所示的播放设备、采集设备和服务器。参见图5，该方法包括：

501、播放设备播放背景音频信号。

播放设备与服务器连接，可以播放服务器提供的音频信号。

在一种可能实现方式中，服务器向播放设备发送背景音频信号，播放设备接收到该背景音频信号，存储于播放设备中，之后当检测到用户选择该背景音频信号的操作时，播放该背景音频信号。

在另一种可能实现方式中，服务器为播放设备提供标识信息列表，该标识信息列表中包括多个背景音频信号的标识信息，播放设备显示该标识信息列表，供用户查看。当播放设备检测到用户对该标识信息列表中任一标识信息的选择操作时，向服务器发送携带所选择的标识信息的播放请求，则服务器获取该标识信息对应的背景音频信号，发送给播放设备，播放设备即可播放该背景音频信号。

502、在播放设备播放背景音频信号的过程中，与播放设备处于同一空间内的采集设备采集第一音频信号。

本发明实施例中，播放设备与采集设备处于同一空间内，播放设备用于播放音频信号，采集设备用于采集音频信号。

在播放设备播放该背景音频信号的过程中，所处空间内还存在着其他的目标音频信号，如用户、动物等发出的声音、外部空间内的车辆传来的声音等，采集设备采集得到的第一音频信号中至少包括背景音频信号，还可以包括目标音频信号。

采集设备可以根据接收到的采集指令进行音频信号的采集，或者也可以实时地对音频信号进行采集，或者也可以每间隔预设时长进行一次采集，或者还可以采集其他方式进行采集。

在一种可能实现方式中，用户在采集设备上触发开始采集指令，当采集设备接收到开始采集指令后，开始对所处空间内的音频信号进行采集，采集一段时间的音频信号后，用户在采集设备上触发停止采集指令，当采集设备接收到停止采集指令后，停止对所处空间内的音频信号的采集，得到从开始采集时刻至停止采集时刻之间的音频信号，作为第一音频信号。

可选地，采集设备上设置有采集按钮，该开始采集指令可以由用户在未采集音频信号的情况下按下采集按钮的操作触发，该停止采集指令可以由用户在正在采集音频信号的情况下再次按下采集按钮的操作触发。

例如，播放设备播放歌曲A，采集设备上设置有采集按钮，当歌曲A播放至第45秒时，用户按下采集按钮，此时，采集设备开始采集当前所处环境的音频信号，该音频信号中包括歌曲A，当歌曲A播放至56秒时，用户再次按下采集按钮，此时，采集设备停止采集音频信号，得到歌曲A在45秒-56秒之间播放时所处环境内的音频信号，该音频信号即为第一音频信号。

在播放设备播放背景音频信号的过程中，采集设备进行音频信号的采集，背景音频信号的播放可以持续一段时间，采集设备可以在采集时间段内进行采集，从而采集到在采集时间段内播放的背景音频信号，即第一音频信号包括采集时间段内播放的背景音频信号。由于采集时间段不同，所采集到的背景音频信号也不同，因此第一音频信号可以包括部分背景音频信号，或者包括全部背景音频信号。

另外，由于在播放设备播放背景音频信号的过程中，还存在着其他的目标音频信号，采集设备在采集时间段内进行采集时，不仅会采集到在采集时间段内播放的背景音频信号，还会采集到在采集时间段内的目标音频信号，即第一音频信号包括采集时间段内播放的背景音频信号和采集时间段内的目标音频信号。

503、采集设备向服务器发送第一音频信号。

504、服务器接收到第一音频信号时，对第一音频信号进行分离操作，得到水印信息和除水印信息以外的第二音频信号。

采集设备采集到的第一音频信号中包括目标音频信号和背景音频信号，该背景音频信号中包括水印信息。当服务器接收到采集设备发送的第一音频信号时，通过对第一音频信号中的水印信息进行提取，即可根据提取后的水印信息得到对应的原始音频信号。

因此，服务器对对第一音频信号进行分离操作，得到水印信息和除水印信息以外的第二音频信号。其中，水印提取算法可以为系数量化方法、空间域算法、变换域算法、最低有效位算法等，且执行分离操作时采用的水印提取算法与添加水印信息时采用的水印嵌入算法相匹配。

参见图6，获取到的音频信号为音频时域信号，而在对原始音频信号添加水印信息时，是基于音频频域信号进行的，因此，在一种可能实现方式中，第一音频信号为第一音频时域信号，第二音频信号为第二音频时域信号。

对第一音频信号进行分离操作，得到水印信息和第二音频信号的过程，包括：对第一音频时域信号进行变换，得到第一音频频域信号，对第一音频频域信号进行分离操作，得到水印信息和除水印信息以外的第二音频频域信号，对第二音频频域信号进行逆变换，得到第二音频时域信号。

505、服务器根据水印信息查询预设对应关系，得到水印信息对应的原始音频信号。

由于服务器已经建立了原始音频信号与水印信息之间的预设对应关系，因此，当服务器获取到水印信息时，即可根据水印信息查询已建立的预设对应关系，通过将水印信息与预设对应关系中的水印信息进行对比，得到水印信息对应的原始音频信号。

在一种可能实现的方式中，预设对应关系包括任一原始音频时域信号与在该任一原始音频时域信号中添加的水印信息之间的预设对应关系。当获取到水印信息时，根据水印信息查询预设对应关系，得到水印信息对应的原始音频时域信号。

在一种可能实现方式中，水印信息可以包括按照顺序排列的多个水印信息段，服务器根据多个水印信息段分别查询预设对应关系，得到与多个水印信息段对应的多个原始音频信号段，按照多个水印信息段在水印信息中的排列顺序，将多个原始音频信号段进行组合，得到原始音频信号。

506、服务器从第二音频信号中滤除原始音频信号，得到目标音频信号。

由于第二音频信号为已经滤除水印信息以后的音频信号，原始音频信号为该水印信息对应的音频信号，因此，通过在第二音频信号的基础上滤除原始音频信号，即可得到目标音频信号。

参见图7，在一种可能实现方式中，获取第二音频信号与原始音频信号的差值，将该差值确定为目标音频信号。

关于获取第二音频信号与原始音频信号的差值的方式，可以直接获取第二音频时域信号与原始音频时域信号之间的差值，将该差值确定为目标音频时域信号，也可以获取第二音频频域信号与原始音频频域信号之间的差值，将该差值确定为目标音频频域信号，对目标音频频域信号进行逆变换，即可得到能够直接播放的目标音频时域信号。

在一种可能实现方式中，服务器得到目标音频信号后，还可以对该目标音频信号进行语音识别，将识别后的文字进行自然语言处理，得到目标音频信号的关键词。后续，服务器可以执行以下两种操作中的任一操作：

(1)根据该关键词查询预先存储于服务器的预设指令库，得到该关键词对应的指令，将该关键词对应的指令发送给播放设备，播放设备接收到服务器发送的指令后，执行与该指令对应的操作。

(2)将关键词发送给采集设备，采集设备接收到该关键词后，根据该关键词查询预先存储于采集设备中的预设指令库，得到该关键词对应的指令，将该指令发送给播放设备，播放设备接收到采集设备发送的指令后，执行与该指令对应的操作。

或者服务器得到目标音频信号后，还可以根据目标音频信号，执行其他的操作。

本发明实施例提供的方法，获取原始音频信号，为原始音频信号分配水印信息，将水印信息添加至对应的原始音频信号中，得到背景音频信号，建立原始音频信号与水印信息之间的预设对应关系，获取在播放背景音频信号的过程中采集的第一音频信号，对该第一音频信号进行分离操作，得到水印信息和除水印信息以外的第二音频信号，根据水印信息查询已建立的预设对应关系，得到水印信息对应的原始音频信号，从第二音频信号中滤除原始音频信号，得到目标音频信号。本发明实施例提供了一种滤除背景音频信号的方案，只需采集包括背景音频信号和目标音频信号的音频信号，无需另外再获取一份单独的背景音频信号，根据采集到的音频信号中的水印信息，即可将背景音频信号从采集到的音频信号中滤除，避免了背景音频信号的影响，具有较强的通用性，扩大了应用范围。

并且，基于本发明实施例提供的方法获取到的目标音频信号具有较高的准确性，后续基于该目标音频信号进行智能语音识别或其他处理时，可以有效提升处理效果。

并且，本发明实施例提供的方法中，基于音频频域信号添加水印信息的方式，稳定性强，可以避免对添加水印信息后的音频信号的播放效果造成影响。

并且，相关技术中采用信号滤除模型滤除背景音频信号的方式，非常依赖于训练样本的质量和覆盖度，只有获取到较高质量和较大覆盖度的训练样本，才能训练出较为准确的信号滤除模型。而本发明实施例中通过水印信息滤除背景音频信号的方法，无需预先训练信号滤除模型，也不依赖于训练信号滤除模型时训练样本的质量和覆盖度，提升了滤除效果。

本发明实施例可以应用于滤除可控背景音频信号的场景下，如语音控制智能电视的场景、语音控制智能音箱的场景、语音控制智能车载终端的场景、唱歌打分场景等。通过本发明实施例提供的方法，可以得到滤除背景音频信号后较为准确的音频信号，后续基于该音频信号进行处理时，能够提升处理效果。例如，获取滤除背景音频信号后的人声音频信号，基于该人声音频信号进行智能语音识别时，准确率较高。

例如，本发明实施例提供的方法应用于语音控制智能电视的场景中，该应用场景的实施环境包括智能电视、智能遥控器和语音后台服务器，三者通过网络连接，且智能电视与智能遥控器处于同一空间。其中，智能电视用于播放电视剧，智能遥控器用于控制智能电视的播放、语音后台服务器用于对采集到的语音信号进行处理。

图8是本发明实施例提供的一种智能控制***的架构图，图9是本发明实施例提供的一种智能电视的语音控制方法流程图，图10是一种智能电视的语音控制方法的交互流程图，本发明实施例以用户通过语音对智能电视进行控制时智能电视、智能遥控器和语音后台服务器之间的交互过程为例进行说明，参见图8、图9和图10，该交互过程包括：

1、智能电视启动后，显示多个电视剧名称，该多个电视剧名称对应的电视剧存储于语音后台服务器的电视剧库中。

2、当检测到对电视剧A的选择操作时，智能电视向语音后台服务器发送获取指令，该获取指令携带有电视剧A的名称。

3、语音后台服务器接收到智能电视发送的获取指令时，根据该获取指令将电视剧A发送给智能电视。

4、智能电视接收到电视剧A时，播放该电视剧A。

5、在电视剧A播放至第5集第22分第30秒时，用户触发智能遥控器的语音指令输入按键，智能遥控器开始采集所处空间内的音频信号。此时用户发出语音信号“请播放下一集”。

6、在电视剧A播放至第5集第22分第35秒时，用户触发智能遥控器的停止按键，智能遥控器停止采集，得到时长为5秒的第一音频信号，将该第一音频信号发送至语音后台服务器。

其中，该第一音频信号包括用户发出的语音信号“请播放下一集”。

7、语音后台服务器接收到智能电视发送的第一音频信号后，对该第一音频信号进行分离操作，得到水印信息和不包含水印信息的第二音频信号。

8、语音后台服务器根据该水印信息查询预设对应关系，获取到对应的原始音频信号，即为电视剧A第5集第22分第30-35秒之间的原始音频信号。

其中，分离操作后得到的水印信息包括50个水印信息段，语音后台服务器根据每个水印信息段，查询预设对应关系，得到50个原始音频信号段，该50个原始音频信号段分别与50个水印信息段对应，语音后台服务器按照50个水印信息段在水印信息中的排列顺序，对该50个原始音频信号段进行拼接，得到原始音频信号。

9、语音后台服务器获取第二音频信号与原始音频信号之间的差值，将该差值确定为用户发出的语音信号。

10、语音后台服务器对该语音信号进行智能语音识别，得到“请播放下一集”的文字，通过对该文字进行自然语言处理，得到关键词“播放下一集”，将该关键词对应的指令“播放下一集”发送给智能电视。

11、智能电视接收到语音后台服务器发送的“播放下一集”的指令后，播放电视剧A的第6集。

图11是本发明实施例提供的一种背景音频信号滤除装置的结构示意图，参见图11，该装置包括：

第一音频获取模块1101，用于执行上述实施例中获取在播放背景音频信号的过程中采集的第一音频信号的步骤；

分离模块1102，用于执行上述实施例中对第一音频信号进行分离操作，得到水印信息和除水印信息以外的第二音频信号的步骤；

查询模块1103，用于执行上述实施例中根据水印信息查询预设对应关系，得到水印信息对应的原始音频信号的步骤；

滤除模块1104，用于执行上述实施例中从第二音频信号中滤除原始音频信号，得到目标音频信号的步骤。

可选地，参见图12，第一音频信号为第一音频时域信号，第二音频信号为第二音频时域信号，分离模块1102，包括：

第一变换单元11021，用于执行上述实施例中对第一音频时域信号进行变换，得到第一音频频域信号的步骤；

分离单元11022，用于执行上述实施例中对第一音频频域信号进行分离操作，得到水印信息和除水印信息以外的第二音频频域信号的步骤；

第二变换单元11023，用于执行上述实施例中对第二音频频域信号进行逆变换，得到第二音频时域信号的步骤。

可选地，查询模块1103，包括：

第一查询单元11031，用于执行上述实施例中根据水印信息查询预设对应关系，得到水印信息对应的原始音频时域信号的步骤。

可选地，查询模块1103，包括：

第二查询单元11032，用于执行上述实施例中如果水印信息包括按照顺序排列的多个水印信息段，则根据多个水印信息段分别查询预设对应关系，得到与多个水印信息段对应的多个原始音频信号段的步骤；

组合单元11033，用于执行上述实施例中按照多个水印信息段的排列顺序，将多个原始音频信号段进行组合，得到原始音频信号的步骤。

可选地，装置还包括：

分配模块1105，用于执行上述实施例中获取原始音频信号，为原始音频信号分配水印信息的步骤；

添加模块1106，用于执行上述实施例中将水印信息添加至原始音频信号中，得到背景音频信号的步骤；

对应关系建立模块1107，用于执行上述实施例中建立原始音频信号与水印信息之间的预设对应关系的步骤。

可选地，分配模块1105，包括：

生成单元11051，用于执行上述实施例中获取原始音频信号的标识信息，根据标识信息生成包含标识信息的水印信息的步骤。

可选地，原始音频信号为原始音频时域信号，背景音频信号为背景音频时域信号，添加模块1106，包括：

第一变换单元11061，用于执行上述实施例中对原始音频时域信号进行变换，得到原始音频频域信号的步骤；

第一添加单元11062，用于执行上述实施例中将水印信息添加至原始音频频域信号中，得到背景音频频域信号的步骤；

第二变换单元11063，用于执行上述实施例中对背景音频频域信号进行逆变换，得到背景音频时域信号的步骤。

可选地，原始音频信号包括按照顺序排列的多个原始音频信号段；

添加模块1106，包括：

第二添加单元11064，用于执行上述实施例中将为多个原始音频信号段分配的水印信息段分别添加至对应的原始音频信号段中，得到与多个原始音频信号段对应的多个背景音频信号段的步骤；

组合单元11065，用于执行上述实施例中按照多个原始音频信号段的排列顺序，将多个背景音频信号段进行组合，得到背景音频信号的步骤。

需要说明的是：上述实施例提供的背景音频信号滤除装置在滤除背景音频信号时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将处理设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的背景音频信号滤除装置与背景音频信号滤除方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图13示出了本发明一个示例性实施例提供的终端1300的结构框图。该终端1300可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备、智能电视、智能音箱、智能遥控器、智能话筒，或其他任意智能终端。终端1300还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端1300包括有：处理器1301和存储器1302。

处理器1301可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。存储器1302可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的，用于存储至少一个指令，该至少一个指令用于被处理器1301所具有以实现本申请中方法实施例提供的背景音频信号滤除方法。

在一些实施例中，终端1300还可选包括有：***设备接口1303和至少一个***设备。处理器1301、存储器1302和***设备接口1303之间可以通过总线或信号线相连。各个***设备可以通过总线、信号线或电路板与***设备接口1303相连。具体地，***设备包括：射频电路1304、显示屏1305和音频电路1306中的至少一种。

射频电路1304用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路1304通过电磁信号与通信网络以及其他通信设备进行通信。

显示屏1305用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。该显示屏1305可以是触摸显示屏，还可以用于提供虚拟按钮和/或虚拟键盘。

音频电路1306可以包括麦克风和扬声器。麦克风用于采集用户及环境的音频信号，并将音频信号转换为电信号输入至处理器1301进行处理，或者输入至射频电路1304以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端1300的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器1301或射频电路1304的电信号转换为音频信号。

本领域技术人员可以理解，图13中示出的结构并不构成对终端1300的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图14是本发明实施例提供的一种服务器的结构示意图，该服务器1400可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)1401和一个或一个以上的存储器1402，其中，所述存储器1402中存储有至少一条指令，所述至少一条指令由所述处理器1401加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器1400可以用于执行上述背景音频信号滤除方法中处理设备所执行的步骤。

本发明实施例还提供了一种背景音频信号滤除装置，该装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的背景音频信号滤除方法中所执行的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的背景音频信号滤除方法中所执行的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明实施例的较佳实施例，并不用以限制本发明实施例，凡在本发明实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种背景音频信号滤除方法，其特征在于，所述方法包括：

获取在播放背景音频信号的过程中采集的第一音频信号，所述背景音频信号为在原始音频信号中添加水印信息后得到的音频信号，所述水印信息包含所述原始音频信号的标识信息；

2.根据权利要求1所述的方法，其特征在于，所述第一音频信号为第一音频时域信号，所述第二音频信号为第二音频时域信号，所述对所述第一音频信号进行分离操作，得到所述水印信息和除所述水印信息以外的第二音频信号，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述水印信息查询预设对应关系，得到所述水印信息对应的原始音频信号，包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述水印信息查询预设对应关系，得到所述水印信息对应的原始音频信号，包括：

5.根据权利要求1所述的方法，其特征在于，所述获取在播放背景音频信号的过程中采集的第一音频信号之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述原始音频信号为原始音频时域信号，所述背景音频信号为背景音频时域信号，所述将所述水印信息添加至所述原始音频信号中，得到所述背景音频信号，包括：

7.根据权利要求5所述的方法，其特征在于，所述原始音频信号包括按照顺序排列的多个原始音频信号段；

8.一种背景音频信号滤除装置，其特征在于，所述装置包括：

第一音频获取模块，用于获取在播放背景音频信号的过程中采集的第一音频信号，所述背景音频信号为在原始音频信号中添加水印信息后得到的音频信号，所述水印信息包含所述原始音频信号的标识信息；

9.根据权利要求8所述的装置，其特征在于，所述第一音频信号为第一音频时域信号，所述第二音频信号为第二音频时域信号，所述分离模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述查询模块，包括：

11.根据权利要求8所述的装置，其特征在于，所述查询模块，包括：

12.根据权利要求8所述的装置，其特征在于，所述装置还包括：

13.一种背景音频信号滤除装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至7任一权利要求所述的背景音频信号滤除方法中所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至7任一权利要求所述的背景音频信号滤除方法中所执行的操作。