CN115985329A

CN115985329A - 音频隐水印的添加、提取方法和***

Info

Publication number: CN115985329A
Application number: CN202211690668.4A
Authority: CN
Inventors: 舒景辰; 请求不公布姓名
Original assignee: Shanghai Bilibili Technology Co Ltd
Current assignee: Shanghai Bilibili Technology Co Ltd
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-04-18

Abstract

本申请实施例提供了一种音频隐水印的添加、提取方法和***，包括：获取待合成音频对应的第一波形文件；生成与所述第一波形文件对应的用户数据；对所述第一波形文件进行频域转化，得到第一Mel频谱图；将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图；对所述第二Mel频谱图进行还原处理，得到包含隐水印的第二波形文件。通过在合成音频的Mel频谱图中注入隐水印的方式，经过水印提取即可得到原始的用户数据，便于根据用户数据进行溯源，了解数据生产方或使用方等信息，增强对传播的音频内容的监控管理能力较差，和对音频内容进行有效的版权保护，从而避免合成的音频内容不合法的应用，减少合成的音频内容对发音人造成的伤害。

Description

音频隐水印的添加、提取方法和***

技术领域

本申请实施例涉及音频合成技术领域，尤其涉及一种音频隐水印的添加、提取方法、***、计算机设备及计算机可读存储介质。

背景技术

随着语音合成技术的飞速发展，语音合成技术被大量应用，例如，语音交互(如智能助手或智能客户)，阅读听书(书籍朗读功能)，订单播报(如打车软件、餐饮叫号)等。然而，语音合成技术存在如下几个的缺点：

(1)语音合成技术由机器代替人来生成音频数据，可以自由合成包含敏感信息的音频内容并肆意传播，难以对这些音频进行监控管理；(2)语音合成技术的数据采集来源于真实的发音人，极具拟人效果，通常情况下将难以区分是否是发音人的音频，这可能会对发音人带来伤害；(3)声音和音乐著作是受版权保护的，但是互联网时代，制作音频的副本即可进行传播，对于音频的版权保护非常不利。

发明内容

本申请实施例的目的是提供一种音频隐水印的添加、提取方法、***、计算机设备及计算机可读存储介质，用于解决以下问题：现有方案对传播的音频内容的监控管理能力较差，无法对音频内容进行有效的版权保护，且合成的音频内容可能会对发音人造成伤害。

本申请实施例的一个方面提供了一种音频隐水印的添加方法，包括：

获取待合成音频对应的第一波形文件；

生成与所述第一波形文件对应的用户数据；

对所述第一波形文件进行频域转化，得到第一Mel频谱图；

将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图；

对所述第二Mel频谱图进行还原处理，得到包含隐水印的第二波形文件。

可选地，所述获取待合成音频对应的第一波形文件，包括：

响应于接收到的语音合成指令，获取待合成音频对应的第一波形文件。

可选地，所述将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图，包括：

基于预置的隐水印生成模型，将所述用户数据添加到所述第一Mel频谱图中，得到所述第二Mel频谱图。

可选地，在所述生成与所述第一波形文件对应的用户数据的步骤之后，还包括：

对所述用户数据进行加密处理。

可选地，所述用户数据包括：用户ID，数字签名和授权周期。

本申请实施例的一个方面又提供了一种音频隐水印的提取方法，包括：

获取待溯源音频对应的包含隐水印的第二波形文件；

对所述第二波形文件进行频域转化，得到包含隐水印的第二Mel频谱图；

对所述第二Mel频谱图进行水印提取，得到与所述第二波形文件对应的用户数据。

可选地，所述获取待溯源音频对应的第二波形文件，包括：

响应于接收到的音频溯源指令，获取待溯源音频对应的第二波形文件。

可选地，还包括：

对所述用户数据进行解密处理。

本申请实施例的一个方面又提供了一种音频隐水印的添加***，包括：

第一波形文件获取模块，用于获取待合成音频对应的第一波形文件；

用户数据生成模块，用于生成与所述第一波形文件对应的用户数据；

第一波形文件转化模块，用于对所述第一波形文件进行频域转化，得到第一Mel频谱图；

隐水印添加模块，用于将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图；

Mel频谱图转化模块，用于对所述第二Mel频谱图进行还原处理，得到包含隐水印的第二波形文件。

本申请实施例的一个方面又提供了一种音频隐水印的提取***，包括：

第二波形文件获取模块，用于获取待溯源音频对应的包含隐水印的第二波形文件；

第二波形文件转化模块，用于对所述第二波形文件进行频域转化，得到包含隐水印的第二Mel频谱图；

水印提取模块，用于对所述第二Mel频谱图进行水印提取，得到与所述第二波形文件对应的用户数据。

本申请实施例的一个方面又提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的音频隐水印的添加、提取方法的步骤。

本申请实施例的一个方面又提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行所述计算机程序时实现如上述的音频隐水印的添加、提取方法的步骤。

本申请实施例提供的音频隐水印的添加、提取方法、***、设备及计算机可读存储介质，通过在合成音频对应的Mel频谱图中注入隐水印的方式，由于添加过隐水印的音频，听感上与未添加隐水印的音频没有差别，且即便音频文件在经过攻击的情况下，如降采样(纵向裁剪)、白噪声、音频裁剪(横向裁剪)、遮挡等手段攻击，依旧能完整保留隐水印信息，经过水印提取即可得到原始的用户数据，便于根据用户数据进行溯源，了解数据生产方或使用方等信息，增强对传播的音频内容的监控管理能力较差，和对音频内容进行有效的版权保护，从而避免合成的音频内容不合法的应用，减少合成的音频内容对发音人造成的伤害。

附图说明

图1示意性示出了根据本申请实施例的音频隐水印的添加、提取方法的应用环境图；

图2示意性示出了根据本申请实施例一的音频隐水印的添加方法的流程图；

图3示意性示出了根据本申请实施例一的音频隐水印的添加方法的流程图；

图4示意性示出了根据本申请实施例二的音频隐水印的提取方法的流程图；

图5示意性示出了根据本申请实施例二的音频隐水印的提取方法的流程图；

图6示意性示出了根据本申请实施例三的音频隐水印的添加装置的框图；

图7示意性示出了根据本申请实施例四的音频隐水印的提取装置的框图；

图8示意性示出了根据本申请实施例五的适于实现音频隐水印的添加、提取方法的计算机设备的硬件架构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请实施例中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

现有技术中，语音合成技术由机器代替人来生成音频数据，可以自由合成包含敏感信息(如，涉政、涉黄、涉暴等)的音频内容，并肆意传播，很难监管。②语音合成技术的音频合成基础来源于真实发音人的音色，极具拟人效果，通常情况下将难以区分是否是发音人的音频，这可能会对发音人带来伤害，例如，如果不法分子用发音人的音色伪装成发音人，对其家人、朋友、同事等较为熟悉的人进行诈骗，将会带来意想不到的风险；如果发音人是公众人物，很有可能对社会带来负面影响，产生不可预知的后果。③声音和音乐著作是受版权保护的，但是互联网时代，制作音频的副本即可进行传播，对于音频的版权保护非常不利，对于音频进行确定著作权及来源，同时对于音频的散播者进行追踪显得尤为重要。

有鉴于此，本申请旨在提出一种音频隐水印的添加方法，通过获取待合成音频对应的第一波形文件；生成与所述第一波形文件对应的用户数据；对所述第一波形文件进行频域转化，得到第一Mel频谱图；将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图；对所述第二Mel频谱图进行转化，得到包含隐水印的第二波形文件。以及，相应的一种音频隐水印的提取方法，通过获取待溯源音频对应的包含隐水印的第二波形文件；对所述第二波形文件进行频域转化，得到包含隐水印的第二Mel频谱图；对所述第二Mel频谱图进行水印提取，得到与所述第二波形文件对应的用户数据。

通过在合成音频对应的Mel频谱图中注入隐水印的方式，由于添加过隐水印的音频，听感上与未添加隐水印的音频没有差别，且即便音频文件在经过攻击的情况下，如降采样(纵向裁剪)、白噪声、音频裁剪(横向裁剪)、遮挡等手段攻击，依旧能完整保留隐水印信息，经过水印提取即可得到原始的用户数据，便于根据用户数据进行溯源，了解数据生产方或使用方等信息，增强对传播的音频内容的监控管理能力较差，和对音频内容进行有效的版权保护，从而避免合成的音频内容不合法的应用，减少合成的音频内容对发音人造成的伤害。

本申请提供了多个实施例进一步介绍音频隐水印的添加、提取方案，具体参照下文。

在本申请的描述中，需要理解的是，步骤前的数字标号并不标识执行步骤的前后顺序，仅用于方便描述本申请及区别每一步骤，因此不能理解为对本申请的限制。

以下为本申请的术语解释：

水印(Watermark)：指在图片上加的防止他人盗图的半透明Logo、图标。

隐形水印(Blind-Watermark)：指不可见的水印，需要运用一定的技术手段才可见。

溯源：对已经公开发布的文件、商品等，进行定位追踪，找到创作者、生产者或传播者。

TTS：Text To Speech语音合成，输入文本经过机器转换生成相对应的音频朗读内容的技术，一般会输出pcm、wav、mp3、aac等格式的音频文件。

数字签名：又称公钥数字签名，是只有信息的发送者才能产生的，别人无法伪造的一段数字串，这段数字串同时也是对信息的发送者发送信息真实性的一个有效证明。

音乐版权：音乐作品的创作者对其创作的作品依法享有的权利，音乐版权主要包括：音乐作品的表演权、复制权、广播权、网络传输权等财产权利，以及署名权、保护作品完整权等精神权利。

图1示意性示出了根据本申请实施例的环境应用示意图。如图1所示：

计算机设备10000可以通过网络20000连接客户端30000。

计算机设备10000可以提供服务，如进行网络调试，或返回音频隐水印的添加、提取结果数据给客户端30000等。

计算机设备10000可以位于诸如单个场所之类的数据中心，或者分布在不同的地理位置(例如，在多个场所)中。计算机设备10000可以经由一个或多个网络20000提供服务。网络20000包括各种网络设备，例如路由器，交换机，多路复用器，集线器，调制解调器，网桥，中继器，防火墙，代理设备和/或类似。网络20000可以包括物理链路，例如同轴电缆链路，双绞线电缆链路，光纤链路，其组合等。网络20000可以包括无线链路，诸如蜂窝链路，卫星链路，Wi-Fi链路等。

计算机设备10000可以由一个或多个计算节点实现。一个或多个计算节点可以包括虚拟化的计算实例。虚拟化的计算实例可以包括虚拟机，例如计算机***，操作***，服务器等的仿真。计算节点可以基于虚拟映像和/或定义用于仿真的特定软件(例如，操作***，专用应用程序，服务器)的其他数据，由计算节点加载虚拟机。随着对不同类型的处理服务的需求改变，可以在一个或多个计算节点上加载和/或终止不同的虚拟机。可以实现管理程序来管理同一计算节点上不同虚拟机的使用。

客户端30000可以被配置为访问计算机设备10000的内容和服务。客户端30000可以包括任何类型的电子设备，诸如移动设备、平板设备、膝上型计算机、工作站、虚拟现实设备，游戏设备、机顶盒、数字流媒体设备、车辆终端、智能电视、机顶盒等。

客户端30000可以将音频隐水印的添加、提取结果数据等输出(例如，显示、渲染、呈现)给用户。

以下将通过多个实施例介绍网络调试方案。该方案可以通过计算机设备10000实施。

实施例一

图2示意性示出了根据本申请实施例一的音频隐水印的添加方法的流程图。包括步骤S200-S208，其中，

步骤S200，获取待合成音频对应的第一波形文件；

在本实施例中，待合成音频为当前需要合成的音频，第一波形文件为待合成音频对应的原始波形文件，可以为WAV，AU，VOC等格式。

具体的，待合成音频可以为音乐，语音素材(如故事朗读)，合成语音等音频素材。其中，合成语音可以为通过一些语音合成算法，基于基础音色合成的语音，例如，语音合成算法可以为Tacotron2、Wavenet、Fastspeech等，本申请实施例对此不作具体限制。

步骤S202，生成与所述第一波形文件对应的用户数据；

在本实施例中，用户数据可以包括：用户ID，数字签名和授权周期等信息。其中，用户ID(Identity)为用户的唯一身份标识，每一个用户合成的音频具有一一对应的ID；授权周期可以为配置的音频合法使用的周期时长，例如，1年或5年等；数字签名为待合成音频对应的签名信息，生成数字签名的算法可以为RSA，DSA，ECDSA，MD5，SHA-1等，本申请实施例对此不作具体限制。

在本申请的一种优选实施例中，在所述步骤S202之后，还可以包括如下步骤：对所述用户数据进行加密处理。

具体的，可以通过AES，DES，3DES，RSA，ECC等算法对用户数据进一步加密，本申请实施例对此不作具体限制。

步骤S204，对所述第一波形文件进行频域转化，得到第一Mel频谱图；

在本实施例中，在添加隐水印之前，可以对第一波形文件进行频域转化，得到第一Mel频谱图。Mel频谱图是一种将音频信息的频率转换为Mel尺度的频谱图，其中，Mel尺度是音高单位。

需要说明的是，步骤S202和步骤S204的执行顺序不分先后，本申请实施例对此不作具体限制。

步骤S206，将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图；

在本实施例中，可以将用户数据作为隐水印添加到第一Mel频谱图中，得到包含隐水印的第二Mel频谱图。

步骤S208，对所述第二Mel频谱图进行还原处理，得到包含隐水印的第二波形文件。

在本实施例中，在添加隐水印之后，可以将第二Mel频谱图进行还原处理得到包含隐水印的第二波形文件，以使得用户可以采用第二波形文件进行播放或传播等操作，由于第二波形文件中包含隐水印，便于后续可以对通过提取第二波形文件中得隐水印进行一些溯源操作，了解音频的生产方或使用方等信息。

具体的，可以利用相位重建算法模型对第二Mel频谱图进行还原处理得到第二波形文件，例如，相位重建算法模型可以为Waveglow、HifiGan、Wavenet等，这些神经网络声码器在语音合成领域有较为广泛的应用，波形还原效果更好、更逼真。此外，还可以为Griffin-lim算法，但是该算法基于FFT进行迭代式相位重建，生成时间较长。在具体实现中，可以按照实际情况选择所需要的相位重建算法模型对第二Mel频谱图进行还原处理得到第二波形文件，本申请实施例对此不作具体限制。

以下提供几个可选地实施例，以进行优化所述音频隐水印的添加方法，具体如下：

在本申请的一种优选实施例中，所述步骤S200可以包括如下步骤：

在本实施例中，可以通过终端设备为用户提供一合成音频的功能，例如，当用户上传一段故事朗读音频，或音乐，或通过算法合成一段音频之后，触发和语音合成控件，则会生成一个语音合成指令。客户端在接收到语音合成指令之后，通过对该语音合成指令进行响应，获取待合成音频对应的第一波形文件，以为第一波形文件添加隐水印。

在本申请的一种优选实施例中，所述步骤S206可以包括如下步骤：

在本实施例中，预置的隐水印生成模型可以为预先部署在客户端中的隐水印注入算法，通过基于预置的隐水印生成模型，将用户数据作为隐水印添加到第一Mel频谱图中，得到包含隐水印的第二Mel频谱图。作为一种示例，预置的隐水印生成模型可以为BlindWatermark算法。

为了进一步解释本申请实施例一的音频隐水印的添加方法，如图3示出了一种音频隐水印的添加方法的流程图；通过获取语音合成，音乐或故事朗读等音频素材的原始波形文件，对原始波形文件进行转化得到Mel频谱图(无水印)；同时配置该段音频素材的数字签名，授权周期和用户ID等用户信息，对这些用户信息进行加密得到加密的用户数据；将Mel频谱图(无水印)和加密的用户数据输入至隐水印生成算法模型中，通过隐水印生成算法模型进行处理之后输出Mel频谱图(加水印)，最后通过相位重建技术对Mel频谱图(加水印)进行还原处理，得到波形文件(加水印)。

实施例二

图4示意性示出了根据本申请实施例二的音频隐水印的提取方法的流程图。包括步骤S400-S404，其中，

步骤S400，获取待溯源音频对应的包含隐水印的第二波形文件；

在本实施例中，待溯源音频为需要进行追踪溯源的音频，第二波形文件为待合成音频对应的包含隐水印的波形文件，可以为WAV，AU，VOC等格式。

步骤S402，对所述第二波形文件进行频域转化，得到包含隐水印的第二Mel频谱图；

在本实施例中，可以对第二波形文件进行频域转化，得到包含隐水印的第二Mel频谱图。Mel频谱图是一种将音频信息的频率转换为Mel尺度的频谱图，其中，Mel尺度是音高单位。

步骤S404，对所述第二Mel频谱图进行水印提取，得到与所述第二波形文件对应的用户数据。

在本实施例中，可以对第二Mel频谱图进行水印提取，得到与第二波形文件对应的用户数据，该用户数据即为第二Mel频谱图中的隐水印。用户数据包含用户ID，数字签名和授权周期等信息。

在本申请的一种优选实施例中，所述步骤S400可以包括如下步骤：

在本实施例中，可以通过终端设备为用户提供一音频溯源的功能，例如，当用户上传一段需要溯源的音频之后，触发音频溯源控件，则会生成一个音频溯源指令。客户端在接收到音频溯源指令之后，通过对该语音音频溯源进行响应，获取待溯源音频对应的第二波形文件，以利用第二波形文件进行相应的溯源操作。

在本申请的一种优选实施例中，在所述步骤S404之后，还可以包括如下步骤：对所述用户数据进行解密处理。

具体的，在用户数据作为隐水印添加到第二Mel频谱图中时，进行了一些加密处理，在解析数据时，可以对用户数据进行解密处理，以便于利用解密后的用户数据进行溯源，了解数据生产方或使用方等信息。

为了进一步解释本申请实施例二的音频隐水印的提取方法，如图5示出了一种音频隐水印的提取方法的流程图；通过获取波形文件(加水印)，将波形文件(加水印)转化为Mel频谱图(加水印)，然后利用隐水印提取算法模型进行水印提取操作，然后对提取得到的用户数据进行解密处理，得到所需要的用户数据，以利用这些用户数据进行溯源，了解数据生产方或使用方等信息。

实施例三

图6示意性示出了根据本申请实施例三的音频隐水印的添加***的框图，该音频隐水印的添加***可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本申请实施例中各程序模块的功能。

如图6所示，该音频隐水印的添加***600可以包括如下模块：

第一波形文件获取模块610，用于获取待合成音频对应的第一波形文件；

用户数据生成模块620，用于生成与所述第一波形文件对应的用户数据；

第一波形文件转化模块630，用于对所述第一波形文件进行频域转化，得到第一Mel频谱图；

隐水印添加模块640，用于将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图；

Mel频谱图转化模块650，用于对所述第二Mel频谱图进行还原处理，得到包含隐水印的第二波形文件。

在本申请的一种优选实施例中，所述第一波形文件获取模块610，包括：

第一波形文件获取子模块，用于响应于接收到的语音合成指令，获取待合成音频对应的第一波形文件。

在本申请的一种优选实施例中，所述隐水印添加模块640，包括：

在本申请的一种优选实施例中，所述***还包括：

数据加密模块，用于对所述用户数据进行加密处理。

在本申请的一种优选实施例中，所述用户数据包括：用户ID，数字签名和授权周期。

实施例四

图7示意性示出了根据本申请实施例四的音频隐水印的提取***的框图，该音频隐水印的提取***可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本申请实施例中各程序模块的功能。

如图7所示，该音频隐水印的提取***700可以包括如下模块：

第二波形文件获取模块710，用于获取待溯源音频对应的包含隐水印的第二波形文件；

第二波形文件转化模块720，用于对所述第二波形文件进行频域转化，得到包含隐水印的第二Mel频谱图；

水印提取模块730，用于对所述第二Mel频谱图进行水印提取，得到与所述第二波形文件对应的用户数据。

在本申请的一种优选实施例中，所述第二波形文件获取模块710，包括：

第二波形文件获取子模块，用于响应于接收到的音频溯源指令，获取待溯源音频对应的第二波形文件。

在本申请的一种优选实施例中，所述装置还包括：

数据解密模块，用于对所述用户数据进行解密处理。

实施例五

图8示意性示出了根据本申请实施例五的适于实现音频隐水印的添加、提取方法的计算机设备10000的硬件架构示意图。本实施例中，计算机设备10000是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括FEN独立的服务器，或者多个服务器所组成的服务器集群)等。如图8所示，计算机设备10000至少包括但不限于：可通过***总线相互通信链接存储器10010、处理器10020、网络接口10030。其中：

存储器10010至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器10010可以是计算机设备10000的内部存储模块，例如该计算机设备10000的硬盘或内存。在另一些实施例中，存储器10010也可以是计算机设备10000的外部存储设备，例如该计算机设备10000上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器10010还可以既包括计算机设备10000的内部存储模块也包括其外部存储设备。本实施例中，存储器10010通常用于存储安装于计算机设备10000的操作***和各类应用软件，例如音频隐水印的添加、提取方法的程序代码等。此外，存储器10010还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器10020在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器10020通常用于控制计算机设备10000的总体操作，例如执行与计算机设备10000进行数据交互或者通信相关的控制和处理等。本实施例中，处理器10020用于运行存储器10010中存储的程序代码或者处理数据。

网络接口10030可包括无线网络接口或有线网络接口，该网络接口10030通常用于在计算机设备10000与其他计算机设备之间建立通信链接。例如，网络接口10030用于通过网络将计算机设备10000与外部终端相连，在计算机设备10000与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯***(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband Code Division Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件10010-10030的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器10010中的音频隐水印的添加、提取方法还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器10020)所执行，以完成本申请实施例。

实施例六

本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现实施例中的音频隐水印的添加、提取方法的步骤。

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作***和各类应用软件，例如实施例中音频隐水印的添加、提取方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种音频隐水印的添加方法，其特征在于，包括：

获取待合成音频对应的第一波形文件；

生成与所述第一波形文件对应的用户数据；

对所述第一波形文件进行频域转化，得到第一Mel频谱图；

2.根据权利要求1所述的音频隐水印的添加方法，其特征在于，所述获取待合成音频对应的第一波形文件，包括：

3.根据权利要求1所述的音频隐水印的添加方法，其特征在于，所述将所述用户数据添加到所述第一Mel频谱图中，得到包含隐水印的第二Mel频谱图，包括：

4.根据权利要求1所述的音频隐水印的添加方法，其特征在于，在所述生成与所述第一波形文件对应的用户数据的步骤之后，还包括：

对所述用户数据进行加密处理。

5.根据权利要求1所述的音频隐水印的添加方法，其特征在于，所述用户数据包括：用户ID，数字签名和授权周期。

6.一种音频隐水印的提取方法，其特征在于，包括：

获取待溯源音频对应的包含隐水印的第二波形文件；

7.根据权利要求6所述的音频隐水印的提取方法，其特征在于，所述获取待溯源音频对应的第二波形文件，包括：

8.根据权利要求6所述的音频隐水印的提取方法，其特征在于，还包括：

对所述用户数据进行解密处理。

9.一种音频隐水印的添加***，其特征在于，包括：

10.一种音频隐水印的提取***，其特征在于，包括：

11.一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时用于实现权利要求1至5中任意一项所述的音频隐水印的添加方法的步骤，或权利要求6至8中任意一项所述的音频隐水印的提取方法的步骤。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序可被至少一个处理器所执行，以使所述至少一个处理器执行权利要求1至5中任意一项所述的音频隐水印的添加方法的步骤，或权利要求6至8中任意一项所述的音频隐水印的提取方法的步骤。