CN113257259A

CN113257259A - 基于神经网络的安全音频水印加注

Info

Publication number: CN113257259A
Application number: CN202011412164.7A
Authority: CN
Inventors: 金泽宇; O·S·里泽-亚当斯
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2020-02-13
Filing date: 2020-12-03
Publication date: 2021-08-13
Also published as: US11170793B2; GB202020079D0; GB2592723A; AU2020289816B1; DE102020007344A1; GB2592723B; US20210256978A1

Abstract

基于神经网络的安全音频水印加注。提供了用于安全音频水印加注和音频真实性验证的***、方法和计算机存储介质。音频水印检测器可以包括被训练为检测具体音频水印和嵌入技术的神经网络，具体音频水印和嵌入技术可以指示在生成被测音频文件的工作流中所使用的源软件。例如水印可以指示音频文件使用声音操纵软件而被生成，因此，检测水印可以指示***纵的音频，诸如，深度伪造音频和其他被攻击的音频信号。在一些实施例中，音频水印检测器可以作为生成式对抗网络的一部分被训练以使基础音频水印对于基于神经网络的攻击更稳健。通常，音频水印检测器可以对来自被测音频片段的分块的时域样本进行评估以检测音频水印的存在并且生成针对音频片段的分类。

Description

基于神经网络的安全音频水印加注

技术领域

本发明涉及声音处理领域，特别地，涉及基于神经网络的安全音频水印加注。

背景技术

音频水印是被嵌入到音频波形中以指示有关音频的某些元信息(诸如，版权所有权)的某一信号、代码或者标识符。音频水印加注是嵌入和/或检测音频水印的过程。音频水印通常被设计为难以感知的(例如，不应该影响音频质量)、稳健的(例如，能够承受常见的信号处理和攻击)、可检测的以及安全的(仅由授权方可检测)。存在用于音频水印加注的若干类型的嵌入技术，诸如，振幅修改、抖动水印加注、相位编码、回波水印加注、扩频水印加注、和心理声学嵌入。通常，信号处理操作和攻击可能使水印降级，这可能指示篡改或者复制。因此，音频水印加注可以被用于认证和防伪。

最近，神经网络已经被用于合成被称为“深度伪造”的音频和视频伪造物。例如，恶意行为者已经创建了人们说着他们从未说过的事情的假视频、将别人的面孔调换到另一人的身体上的视频以及其他可能有害的应用。深度伪造已经因为其在传播假新闻以及其他应用中的使用而受到关注。虽然图形界已经开始探索预防方法，但是音频界非常缺乏深度伪造研究。

发明内容

本发明的实施例涉及安全音频水印加注和音频真实性验证。音频水印检测器可以包括被训练为检测具体音频水印和嵌入技术的神经网络，该具体音频水印和嵌入技术可以指示在生成被测音频文件的工作流中所使用的源软件。例如，音频生成软件(诸如，声音操纵软件)可以被用于将音频水印嵌入到所生成的音频信号中。如果有水印的音频信号被用于生成某种类型的伪造物(诸如，深度伪造)，则音频水印检测器可以针对存在音频水印对伪造物的音频(经降级的音频)进行评估。检测具体音频片段中的水印可以用作声音操纵软件被用于生成音频片段的指示，该音频片段被用于生成伪造物。隐式地，这可以用作对被测音频信号执行了某种类型的音频或者声音操纵的指示。因此，音频水印检测器可以被用于标识和标记***纵的音频，诸如，深度伪造音频和其他被攻击的音频信号。

通常，可以从所生成的音频片段的每个窗口(或者其某个子集)将音频水印嵌入到音频的分块中，以及从该分块检测音频水印。无论是通过标准的信号处理操作(例如，压缩和滤波)还是对经设计的音频的攻击以去除音频水印(例如，音高移位、增加的混响、时间拉伸、降噪、重新录制、重新合成)，音频片段都可能以各种方式***纵，这导致音频和音频水印降级。音频水印检测器可以对来自经降级的被测音频片段的分块的时域样本进行评估以检测音频水印的存在。例如，音频水印检测器可以包括卷积神经网络，该卷积神经网络从经降级的音频片段的滑动窗口对来自音频的分块的样本执行一维(1D)卷积，并且输出指示音频的具体分块是有水印的还是没有水印的分类标签。可以向检测器馈送经降级的音频的连续分块或者周期性分块，并且检测器可以输出针对每个分块的分类(有水印的或者没有水印的)。概率性度量可以被应用，以生成针对被测音频信号的总体分类(例如，基于分块被分类为具有水印的阈值量(诸如，50％或者90％)来检测水印的存在)。

通常，可以使用基于感兴趣的应用的任何适当的训练数据集来训练音频水印检测器。专用音频水印检测器可以被训练用于音频水印和嵌入技术的每个特定组合，因此，训练具体音频水印检测器可以涉及：使用相同的嵌入技术来向音频片段嵌入相同的水印。在一些实施例中，音频水印检测器可以作为生成式对抗网络的一部分被训练，以使基础音频水印对于基于神经网络的攻击更为稳健。

提供本发明内容的目的在于按照简化的形式介绍对构思的选择，下面在具体实施方式中对这些构思进行了进一步描述。本发明内容不旨在标识所要求保护的主题的关键特征或者本质特征，也不旨在用于帮助确定所要求保护的主题的范围。

附图说明

下面参照附图详细描述了本发明，其中：

图1是根据本发明的实施例的用于音频水印加注的示例计算***的框图；

图2是根据本发明的实施例的示例音频水印加注工作流的框图；

图3A和图3B描绘了图示了与现有技术(图3A)相比较，本技术(图3B)的某些实施例的示例实现的性能的曲线图；

图4是示出了根据本发明的实施例的用于音频水印检测的方法的流程图；

图5是示出了根据本发明的实施例的用于音频水印检测的另一方法的流程图；

图6是示出了根据本发明的实施例的用于音频水印检测的另一方法的流程图；以及

图7是适于实现本发明的实施例的示例计算环境的框图。

具体实施方式

概况

除了音频之外，还在其他领域中使用水印加注。例如，电影业通常按照在视觉上难以感知的方式来隐藏和检测电影的视频帧内的键或者其他水印。然而，音频水印加注从根本上不同于视频或者图像水印加注。在视频/图像水印加注中，观察者在像素域而不是频域中进行查看。因此，很容易在视频帧或者图像的频域中嵌入水印，因为频域在视觉上是难以感知的。相比之下，在音频的频域中隐藏水印困难得多，因为频域是我们实际听到的内容。因此，以听者难以感知但是仍然可检测的方式来在音频文件的频域中嵌入音频水印具有挑战性。由于类似的原因，通常在视觉域中比在音频域中更容易检测到攻击。例如，被用于从图像中去除水印的混响通常引入视觉伪影(artifacts)，这使得相对较容易看到图像已经被篡改。相比之下，检测引入音频伪影的攻击更具有挑战性，因为人们可能将伪影归因于背景噪声。由于这些原因中的许多原因，常规的音频水印加注技术失败。

更一般地，常规的音频水印加注技术遭受若干共同的限制。音频水印加注的主要设计目标之一是水印承受各种类型的音频降级的能力，这可能是由常见的音频信号处理操作和针对水印的力图去除水印的有意“攻击”而导致的。然而，常规的音频水印加注技术不能承受许多现代攻击。例如，常规的音频水印加注技术通常只被设计为承受音频波形的某些类型的降级，诸如，由常见的音频信号处理操作(诸如，增加的背景噪声或者音乐、滤波和压缩(例如，MP3压缩))导致的降级。结果，常规的音频水印的稳健性受限于由常见的音频信号处理(诸如，压缩和滤波)引入的伪影。因此，常规的音频水印容易受许多类型的攻击。

攻击器可能试图去除音频水印的一个场景是针对深度伪造的，该深度伪造再次使用某一原始音频但是出于某种恶意目的而编辑该原始视频。通常存在两种类型的音频深度伪造：可能改变一个或两个词以改变语音的含义的半合成攻击，以及完全改变说话者的身份(例如，攻击器录制消息并且使说话者变为别人的声音)的全合成攻击。通常，攻击器不希望在编辑过的音频中产生太多失真或者许多伪影，因为人们会质疑音频是否是假的。然而，在不引入实质性降级的情况下，攻击音频片段的方法并不多。此外，现代攻击者熟悉常规的音频水印的局限性，并且已经发现了规避它们的很简单的方法，而又没有实质性的降级。例如，现代攻击器可以通过使用音高移位、增加的混响、时间拉伸、降噪、空中回放以及重新录制、重新合成等来去除许多常规的音频水印。这些类型的现代攻击完全不同于标准的音频编辑技术，标准的音频编辑技术激励对大多数常规的音频水印加注的设计。因此，现代攻击器可以使用音频编辑工具来操纵通常有水印的音频，使得水印不再是可检测的。然而，即使应用了诸如这些的攻击和操纵方法，音频水印也应该幸存。因此，需要用于在经降级的音频波形中检测音频水印的存在的改进技术。

用于解决该问题的最接近的工作是关于可以幸免于混响的音频水印加注的最新发布。进行这项工作的动机是防止在商业广告使用唤醒词时唤醒数字助理。例如，可以向来自包括唤醒词的商业广告的音频嵌入指示数字助理不应该被唤醒的音频水印。在该场景中，其水印需要承受的降级的类型是由重新录制和空气传输导致的。因此，该技术涉及一种对于混响和去同步化是稳健的扩频水印加注。其检测器使用音频的连续分块的已调制的自相关来检测音频水印的存在。然而，该技术未被设计为对于其他类型的降级或者上面所描述的现代攻击技术是稳健的。因此，该技术也易受许多类型的现代攻击。下面针对图3A和图3B更详细地描述了该技术。

此外，深度伪造的出现使充足的预防性技术响应成为必需。然而，常规的音频水印加注技术不适合检测深度伪造音频伪造物。在该场景中，生成音频波形的人会寻求阻止(或者检测)其用途以驱动深度伪造。然而，某种深度伪造音频可能是使用深度学习技术被合成的，这些深度学习技术学习检测人类难以感知的模式。此外，深度学习技术可能能够使用音频水印波形来合成使水印的降级最小化的深度伪造。这使得更难检测音频伪造物，并且常规的音频水印简单地不被设计为检测这种降级。由于该附加原因，需要改进的技术来检测经降级的音频波形中的音频水印的存在。

随着现代水印加注技术变得更稳健以承受现代攻击，它们应该仍然保持难以感知但可检测。这建议使用深度学习，深度学习会是用于检测甚至最难以感知和损坏最严重的音频水印的最合适的技术。因此，本发明的实施例被导向基于神经网络的安全音频水印和音频真实性验证。可以使用各种神经网络架构来实施音频水印检测器，使得音频水印检测器可以学习检测使用具体嵌入技术被嵌入的具体音频水印的存在。更具体地，可以在具体音频水印和具体嵌入技术的特定组合上训练音频水印检测器。可以在任何这样的组合上训练音频水印检测器。即，水印如何被生成或者如何被嵌入没有关系。只要在操作中所使用的相同组合上训练了音频水印检测器，音频水印检测器就可以学习检测被测音频文件中的水印的存在。音频水印可以是充当一种真实性水印的单个音频水印，神经网络可以检测这种真实性水印—而无需输入原始水印—因为神经网络被训练为通过训练数据来识别水印和嵌入技术。因此，当嵌入和检测策略匹配时，音频水印检测器可以学习检测真实性水印的存在。

通过说明的方式，考虑涉及音频生成的示例工作流。可以使用任何算法来录制(例如，使用麦克风)、合成、编辑或者以其他方式操纵所生成的音频信号。例如，声音操纵软件可以被用于生成音频信号。声音操作软件的最新发展已经实现了各种益处，诸如，纠正音频播客、有声书录音、或者其他音轨而无需重新预约表现者或者旁白艺术家的能力。然而，声音操纵软件可能引起若干道德问题和安全问题，包括伪造的证据的风险、对认证***中的生物特征特性的操纵、以及假新闻。因此，可能需要在生成的音频信号上印上对真实性或者源的某种可检测指示。因此，声音操纵软件(或者某一其他音频生成或者编辑软件)可以被配置为使用具体的嵌入技术来将音频水印嵌入到所生成的音频信号(例如，音频片段)中。这样，可以检测到使用软件所生成的音频信号。通过非限制性示例的方式，音频水印检测器可以被包括在生物特征认证***中，或者简单地被用于执行音频真实性验证。从被测音频片段中检测到音频水印可以用作声音操纵软件被用于生成音频片段的指示，其转而可以指示对基础音频执行了某种类型的音频或者声音操纵。因此，音频水印检测器可以被用于标识和标记***纵的音频证据、生物特征音频特性、新闻业音频报告、深度伪造音频以及其他被攻击的音频信号。

更具体地，音频生成或者编辑软件可以被用于生成音频信号(例如，音频片段或者波形)，并且在所生成的音频信号中嵌入音频水印以生成有水印的音频信号。可以使用任何适当的音频水印和嵌入技术。例如，可以随机地生成音频水印，可以使用基于规则的方法或者以其他方式来生成音频水印。通常，音频水印可以采取任何适当数据结构的形式(诸如被指定长度(例如，4k)的矢量)，并且可以具有采取任何适当形式的值(例如，二进制、整数、实数、布尔值等)。进一步地，可以使用任何适当的嵌入技术，诸如振幅修改、抖动水印加注、相位编码、回波水印加注、扩频水印加注、心理声学嵌入等。无论是通过标准的信号处理操作(例如，压缩和滤波)还是对经设计的音频的攻击以去除音频水印(例如，音高移位、增加的混响、时间拉伸、降噪、重新录制、重新合成)，有水印的音频信号可能以各种方式***纵，这导致音频降级。例如，攻击器可能试图使用有水印的音频信号，以生成深度伪造音频、操纵音频证据、操纵生物特征音频特性、或者通常将使音频水印降级的其他类型的攻击。

与在工作流的前端处所使用的具体音频水印和嵌入技术对应的音频水印检测器可以被用于在工作流的后端处从经降级的音频信号检测经降级的水印的存在。以这种方式，音频水印检测器可以检测音频生成或者编辑软件是否被用于生成具体的被测音频信号。因此，音频水印检测器可以被用于检测和标记音频水印的存在(以及隐式地，对音频生成软件的使用)。依赖于对应的源软件(例如，当源软件是声音操纵软件时)，在音频信号中检测到音频水印可以被用于指示篡改或者伪造(例如，合成的深度伪造)。

通常，可以使用任何适当的架构来实施音频水印检测器。例如，音频水印检测器可以包括卷积神经网络，该卷积神经网络从经降级的音频信号的滑动窗口对音频的分块执行一维卷积，并且输出指示音频的具体分块是有水印的还是没有水印的分类标签。由于音频水印可以被嵌入在每个窗口(或者其某个子集)中以及从每个窗口(或者其某个子集)被检测，所以，针对检测器的窗口大小可以与音频水印的长度对应。更一般地，可以基于感兴趣的应用来选择检测器窗口的大小(和/或希望的音频水印的长度)。窗口越大，水印越不可听。然而，较短的窗口(和/或较短的水印)可以更好地适合于检测微观编辑，诸如，经合成词或者基于词的编辑。因此，可以基于待被检测的潜在编辑的持续时间(例如，按照词长度、句子长度等排序的持续时间)来选择音频水印的窗口大小和/或长度。因此，感兴趣的应用可以驱动针对窗口大小的设计选择。通过非限制性示例的方式，可以选择100ms或者200ms的窗口。在22k采样率下，例如，200ms与4k样本对应，因此，长度高达4k的音频水印(例如，具有多达4000个值的代码)可以被嵌入音频的每个200ms分块中以及从音频的具体窗口被检测。

可以向检测器馈送经降级的音频的多个分块(例如，连续分块或者非重叠分块)，并且检测器可以输出针对每个分块的分类(例如，有水印的或者没有水印的)。可以应用概率性度量，以生成针对被测音频信号的总体分类(例如，基于分块被分类为具有水印的某一阈值量(诸如，50％或者90％)来检测水印的存在)。每音频分块的总体分类值和/或基础分类值可以作为分类结果被输出，以提供是否已经在被测音频信号中检测到音频水印的指示。

在一些实施例中，音频水印检测器可以接受指定数目的与音频的具体窗口对应的时域采样作为输入。对时域样本进行操作可以引起各种益处。通常，开窗过程和窗口的相位可能影响音频信号的频率表示，因此，使用时域样本可以提供比频域更好的稳定性。此外，某些类型的现代攻击(如音高移位或者相位移位)可以破坏某些频域表示。例如，音高移位或者相位移位攻击可以使频域表示移位(例如，通过一个常数)。当使用某些嵌入频率的水印(例如，随机生成的被嵌入在频域中的水印)时，使频域表示移位可以损坏音频水印的频域表示，这可以有效地规避常规的基于卷积的检测器，常规的基于卷积的检测器通过分析频率样本来寻找水印。使用对时域样本进行评估的音频水印检测器可以加强对这些类型的攻击的抵御，因为水印的时域表示对于这些攻击更为稳健。

类似的破坏性频域效应可以在通常被忽略的其他场景发生。例如，另一类型的现代攻击涉及回放音频并且使用与最初被用于录制音频的设备不同的设备来重新录制音频。然而，如果原始录制设备(例如，智能电话)和被用于重新录制的设备(例如，膝上型计算机)具有不同的时钟周期或者未对准的设备时钟，则重新录制的音频信号可以经历时间移位(例如，每400个样本)。这将使频域表示移位明显的量，使得某一类型的嵌入频率的音频水印可能丢失。传统上，这已经不是问题，因为常规的感兴趣场景(诸如，交易MP3文件)涉及很少甚至没有失真。然而，现代音频水印检测器应该对于由不同时钟周期或者未对准的设备时钟导致的失真是稳健的。使用对时域样本进行评估的音频水印检测器可以使该检测器对于其中常规检测技术通常失败的这些类型的现代攻击是稳健的。

通常，可以使用基于感兴趣的应用所选择或者所生成的任何适当的训练数据集来训练音频水印检测器。例如，为了检测被篡改的单人语音，可以使用单人一次说出的音频片段的收集来形成训练数据集。通常，可以使用具体的嵌入技术来向音频片段嵌入具体的水印。专用音频水印检测器可以被训练用于音频水印和嵌入技术的每种特定组合，因此，训练具体音频水印检测器可以涉及：使用相同的嵌入技术来向音频片段嵌入相同的水印。例如，为了训练音频水印检测器，可以从收集随机选择音频片段，并且可以基于第一度量(例如，时间的50％)来向所选择的片段嵌入水印。然后，可以基于第二度量(例如，时间的50％)使用所选择的降级方法来使所产生的音频降级。可以基于第三度量(例如，随机选择的、轮询等)来从一组方法(例如，标准的信号处理操作(诸如，噪声和压缩)、攻击(诸如，降噪和混响)等)选择降级方法。可以通过音频水印检测器来传递所产生的音频片段，以输出可以与对应的地面实况标签相比较的分类标签(例如，是否添加了水印)，并且损失函数可以被用于更新检测器(例如，使用反向传播)。随时间重复该过程，音频水印检测器可以被训练为从被测音频信号检测音频水印和嵌入技术的存在。

在一些实施例中，音频水印检测器可以作为对抗网络的一部分被训练，以使基础音频水印对于基于神经网络的攻击更为稳健。更具体地，基于神经网络的攻击器可以与音频水印检测器一起被联合地训练。例如，可以使用生成式神经网络来实施神经网络攻击器，该生成式神经网络试图通过合成模拟经降级的水印的音频片段来在不引起可听伪影的情况下去除音频水印。可以使用对由神经网络攻击器生成的经降级的音频信号进行评估的鉴别网络来实施音频水印检测器。共同地，攻击器和检测器可以形成可以被联合地训练的生成式对抗网络(GAN)。通常，训练攻击器可以寻求最小化：(1)被攻击的音频(即，由攻击器生成的经降级的音频信号)与未被攻击的音频(例如，被输入到攻击器中的有水印的波形)之间的差异；以及(2)检测器的检测精度。例如，在每个时间步(例如，对于具体音频块每次通过GAN)，可以首先更新检测器，然后更新攻击器。随着检测器变得更精确，攻击器将变得更凶猛，因为其试图使检测器的检测精度最小化。在GAN的另一侧，随着攻击器变得更凶猛，检测器会变得更稳健，因为其在攻击器变得更具有挑战性时努力提高其精度。因此，将音频水印检测器作为对抗网络的一部分与神经网络攻击器一起联合地训练可以提高检测精度，并且使检测器对于基于神经网络的攻击更为稳健。

因此，使用本文所描述的实现，基于神经网络的音频水印检测器可以被用于安全音频水印加注和音频真实性验证。通常，音频水印检测器可以包括被训练为检测具体音频水印和嵌入技术的神经网络，其可以指示在生成被测音频文件的工作流中所使用的源软件。例如，水印可以指示音频文件是使用声音操纵软件而被生成的，因此，检测水印可以指示***纵的音频，诸如，深度伪造音频和其他被攻击的音频信号。在一些实施例中，音频水印检测器可以作为生成式对抗网络的一部分被训练，以使基础音频水印对于基于神经网络的攻击更为稳健。通常，音频水印检测器可以对来自被测音频片段的分块的时域样本进行评估，以检测音频水印的存在并且生成针对音频片段的分类。使用本文所描述的各种技术，本检测器可以将检测精度显著提高到超过现有技术，对于处理常规技术无法处理的各种攻击具有稳健性。

已经简要描述了本发明的各个方面的概况，提供了贯穿本说明书所使用的各种术语。虽然贯穿本说明书提供了有关各种术语的更多细节，但是对一些术语的一般描述在下面被包括进来以提供对本文所公开的想法的更清楚的理解：

如本文所使用的，神经网络通常是指通过分析处于不同抽象级别的示例(例如，训练)数据来学习近似未知功能的机器学习模型。通常，神经网络可以通过沿输入的序列生成隐藏的矢量输出来对复杂的非线性关系进行建模。特别地，神经网络可以包括相互连接的数字神经元的模型，这些相互连接的数字神经元进行通信并且学习近似复杂的功能，并且基于被提供给模型的多个输入来生成输出。神经网络可以包括各种深度学习模型，包括：卷积神经网络、递归神经网络、深度神经网络和深度堆叠网络，仅举几例。神经网络可以包括或者以其他方式利用一种或多种机器学习算法来从训练数据进行学习。换句话说，神经网络可以包括实现深度学习技术(诸如，机器学习)以尝试对数据中的高级抽象进行建模的算法。

如本文所使用的，音频水印是被嵌入到音频波形中以指示有关音频的某些元信息(诸如，版权所有权)的某一信号、代码或者标识符。通常，音频水印可以采取任何适当数据结构的形式，诸如，具有指定长度的矢量，并且可以具有采取任何适当形式的值(例如，二进制、整数、实数、字符、布尔值等)。音频水印加注是嵌入和/或检测音频水印的过程。音频水印通常被设计为难以感知的(例如，不应该影响音频质量)、稳健的(例如，能够承受常见的信号处理和攻击)、可检测的以及安全的(仅由授权方可检测)。存在用于音频水印加注的若干类型的嵌入技术，诸如，振幅修改、抖动水印加注、相位编码、回波水印加注、扩频水印加注和心理声学嵌入。

示例音频水印加注环境

现在参照图1，示出了适于实现本发明的实施例的示例环境100的框图。通常，环境100适于音频水印加注，并且除了别的之外，还促进基于神经网络的安全音频水印加注和音频真实性验证。环境100包括客户端设备105、攻击设备120和服务器135。这些设备中的任何或者所有设备可以是能够促进音频水印加注的任何种类的计算设备。例如，在一个实施例中，客户端设备105、攻击设备120和/或服务器135是诸如下面参照图7所描述的计算设备700。在一些实施例中，客户端设备105、攻击设备120和/或服务器135可以是个人计算机(PC)、膝上型计算机、工作站、移动计算设备、PDA、蜂窝电话等。环境100中的这些组件可以经由网络130彼此通信，网络130可以包括但不限于：一个或多个局域网(LAN)和/或广域网(WAN)。这样的联网环境在办公室、企业范围的计算机网络、内联网和互联网中是常见的。

为了通过图1中所图示的配置以高级别概述示例工作流，客户端可以使用音频应用107(例如，经由音频生成器用户界面110)来生成某种类型的音频波形。通常，音频应用107可以是能够促进音频生成或者编辑的任何应用，诸如，由Adobe公司提供的

在另一示例中，音频应用107可以是能够促进声音操作或者编辑的任何应用，诸如，Adobe VoCo。音频应用107可以至少部分地被托管在服务器侧，使得其与服务器135的安全音频水印加注组件140协调，以生成音频波形和/或在所生成的波形中嵌入音频水印。可以跨各种设备实施对功能性的任何分配。例如，录制和/或编辑可以在客户端设备105上发生，并且客户端设备105可以向服务器135发送所录制的和/或经编辑的波形，该服务器135可以嵌入音频水印并且返回有水印的音频波形。在另一示例中，客户端设备105可以接收输入命令并且将其传输至服务器135，该服务器135可以执行音频编辑和/或合成，以生成音频波形、嵌入音频水印、并且返回有水印的音频波形。这些仅是示例，并且在这些或者其他设备之中的对功能性的任何适当分配可以被实施。

对于有水印的音频波形，客户端可以使用音频应用107或者某一其他应用来执行一个或多个信号处理操作。音频信号处理操作的一些常见示例包括：增加的背景噪声或者音乐、滤波、和压缩(例如，MP3压缩)，但是附加地或者备选地，可以发生其他操作。有水印的音频波形(该有水印的音频波形可能通过信号处理操作被降级)可以但不必被包括在视频文件的音轨中。有水印的音频波形可以被分发或者以其他方式对其他人可用，例如，通过发帖到或者串流到社交媒体、网站、或者其他共享方式。

然而，有水印的音频波形可能落入潜在攻击器手中。攻击器可以使用攻击设备120来访问(例如，下载、录制等)有水印的音频波形并且执行某种类型的攻击。通常，攻击器可能试图使用有水印的音频波形来生成深度伪造音频、操纵音频证据、操纵生物特征音频特性、或者通常将使音频水印降级的其他类型的攻击。在图1中所图示的示例中，攻击器可以通过使用有水印的音频波形作为输入来使用深度伪造生成器125生成深度伪造音频。生成深度伪造音频的过程会使音频水印降级，从而产生经降级的音频波形。这仅表示示例，并且通常，可能发生对有水印的音频波形的任何类型的攻击，诸如，音高移位、增加的混响、时间拉伸、降噪、重新录制、重新合成等。被攻击(降级)的音频波形可以但不必被包括在视频文件的音轨中(例如，被用于深度伪造视频的深度伪造音频)。经降级的音频波形(例如，深度伪造)可以被分发或者以其他方式对其他人可用，例如，通过发帖到或者串流到社交媒体、网站，或者其他共享方式。

可能产生具体音频波形(例如，音频片段、来自视频文件的音轨等)是否是真实的疑问。例如，当实际上，深度伪造音频是基于最初使用音频应用107所生成的合成音频而生成的时，其可以被认为是真实的。因此，在一些实施例中，音频波形可以针对由服务器135嵌入的音频水印的存在而被测试。例如，音频水印可以用作指示软件源是音频应用107的真实性水印，使得对被测音频波形(例如，经降级的音频波形，诸如，深度伪造音频)中的水印的检测指示音频波形是利用包括音频应用107的工作流被生成的。因此，肯定的检测可以用作被测音频波形已经以某种方式***纵的指示(例如，在音频应用107是声音操纵软件的实施例中)。

继续深度伪造音频的示例场景，客户端可以访问深度伪造音频(以下称为经降级的音频波形)，并且使用音频真实性验证软件来在经降级的音频波形中检查音频水印的存在。在图1所示的示例中，音频应用107可以提供音频真实性验证门户115，该音频真实性验证门户115为客户端提供接口，以访问经降级的音频波形并且将经降级的音频波形转发至服务器135以供水印检测。音频应用107可以至少部分地被托管在服务器侧，使得其与服务器135的安全音频水印组件140协调以执行音频水印检测。可以跨各种设备实施对功能性的任何分配。例如，客户端设备105可以接收输入命令并且将其与经降级的音频波形一起传输至服务器135，该服务器135可以执行音频水印检测并且返回分类结果。仅作为示例描述该配置，可以使用某一其他软件(例如，专用应用、被并入到某一其他软件(诸如，生物特征认证软件、移动应用、web应用)中、被并入到操作***中、至少部分地被托管在服务器侧等)来实施音频真实性验证功能性，并且音频真实性验证功能性可以通过使用除了图1的客户端设备105之外的某一其他设备来驻留或者以其他方式而可访问。换句话说，真实性验证不需要由被用于生成原始音频波形的同一设备触发。在本公开内完成了这些以及其他变型。

在图1中所图示的实施例中，服务器135包括安全音频水印组件140。在高级别处，安全音频水印组件140执行支持基于神经网络的安全音频水印加注和音频真实性验证的各种功能。在该示例配置中，安全音频水印加注组件140包括安全音频生成器145、音频真实性验证组件165和音频攻击模拟器175。通常，安全音频生成器145可以生成音频波形，生成或者访问音频水印，并且将水印嵌入在所生成的音频波形中以创建有水印的音频波形。音频真实性验证组件165可以从被测音频波形(诸如，经降级的音频波形，该经降级的音频波形具有由信号处理操作和被设计为去除水印的攻击而导致的经降级的水印)检测水印的存在或者不存在。音频攻击模拟器175(下面将更详细地讨论)可以被用于协助训练音频真实性验证组件165的音频水印检测器170。

通常，安全音频生成器145、音频真实性验证组件165、和/或音频攻击模拟器175可以被并入或者被集成到一个或多个应用或者应用的附件或者插件中。(多个)应用可以是单机应用、移动应用、web应用等。在一些实现中，(多个)应用包括可以在web浏览器中运行并且可以至少部分地被托管在客户端侧的web应用。附加地，或者替代地，(多个)应用可以包括专用应用。在一些情况下，(多个)应用可以被集成到操作***中(例如，作为服务)。附加地或者备选地，安全音频生成器145、音频真实性验证组件165、和/或音频攻击模拟器175、或者其某部分可以被集成到操作***中(例如，作为服务)和/或跨一个或多个其他设备(例如，远程客户端或者服务器)而分布。在图1所示的配置仅表示示例，并且在设备的任何配置之中的对功能性的任何适当分配可以被实施。

在图1所示的示例中，安全音频生成器145包括音频波形生成器150、音频水印生成器155和音频水印嵌入器160。通常，音频波形生成器150可以使用任何算法来生成音频波形。例如，音频波形生成器150可以接收初始音频波形(例如，所录制的音频波形)和指示各种编辑或者目标音频参数的输入命令(例如，经由音频生成器用户界面110而被录入并且经由网络130而被接收)，并且音频波形生成器150可以生成实施编辑的音频波形。在另一示例中，音频波形生成器150可以支持声音操纵或者编辑，并且可以合成或者编辑音频波形中的人声以生成音频波形。这些仅是示例，并且任何类型的算法都可以被用于生成音频波形。

音频水印生成器155可以生成或者以其他方式访问音频水印，并且音频水印嵌入器160可以将音频水印嵌入到所生成的音频波形中以创建有水印的音频波形。可以使用任何适当的音频水印和嵌入技术。例如，可以随机地生成音频水印，可以使用基于规则的方法或者以其他方式来生成音频水印。通常，音频水印可以采取任何适当数据结构的形式，诸如，被指定长度(例如，4k)的矢量，并且可以具有采取任何适当形式的值(例如，二进制、整数、实数、字符、布尔值等)。进一步地，可以使用任何适当的嵌入技术，诸如，振幅修改、抖动水印加注、相位编码、回波水印加注、扩频水印加注、心理声学嵌入等。所产生的有水印的音频波形可以被提供给客户端设备105(例如，通过安全音频水印加注组件140和/或音频水印嵌入器160)。

如上所述，可能需要测试具体音频波形用于了解音频波形的存在或者不存在。因此，可以向音频真实性验证组件165提供将要测试的音频波形，并且音频真实性验证组件165的音频水印检测器170可以从音频波形检测水印的存在或者不存在，假设在最初使用对应的嵌入技术向被测音频波形嵌入了音频水印(例如，通过音频水印嵌入器160)。然而，如下面更详细地解释的，水印可能已经以各种方式被降级。

图2图示了其中可能发生降级的示例音频水印加注工作流200。首先，在框205中，音频生成发生(例如，通过图1所示音频波形生成器150)以生成音频波形210。在框220中，将音频水印215(其可以由图1的音频水印生成器155生成或者访问)嵌入在音频波形210中(例如，通过图1的音频水印嵌入器160)以创建有水印的波形225。通常，可能以可能引起(例如，所嵌入的水印的)降级的各种方式操纵有水印的波形225。例如，降级230可能由于音频信号处理操作(诸如，增加的背景噪声或者音乐、滤波、重新采样、压缩、或者其他操作)而发生。附加地或者备选地，降级230可能由于对有水印的波形225的攻击240而发生。例如，攻击器(例如，使用图1的攻击设备120)可以执行一个或多个攻击240，诸如，音高移位、增加的混响、时间拉伸、降噪、重新录制、重新合成等。这些信号处理操作和/或攻击的结果是经降级的有水印的波形250。

通常，检测器260(其可以与图1的音频水印检测器170对应)对经降级的有水印的波形250进行评估以检测音频水印215的存在或者不存在。可以使用任何适当的架构来实施检测器260。例如，检测器260可以包括卷积神经网络，该卷积神经网络从经降级的有水印的波形250的滑动窗口对音频的分块执行一次或多次一维卷积，并且输出指示音频的具体分块是有水印的还是没有水印的分类标签。通常，神经网络可以被定义为从来自经降级的有水印的波形250的音频的分块获取音频样本(例如，指定数目的与经降级的有水印的波形250的窗口对应的时域样本)，并且输出二元分类结果(例如，有水印的或者没有水印的)。可以在下面的表1中找到用于检测器260的非限制性示例架构。从上到下，表的各个行描述了用于检测器260的示例架构的不同层的特性。例如，该架构的第一层执行内核大小为64并且步幅为2的一维卷积，然后是最大池化层，依此类推。通常，感兴趣的应用可以驱动针对窗口大小、要输入到检测器中的样本的数目、以及用于不同层的参数的设计选择。该架构仅表示示例，以任何适当顺序来执行这些或者其他功能的任何数目的层可以被实施。

表1

在操作中，可以向检测器260馈送经降级的有水印的波形250的分块(例如，连续分块或者周期性分块、重叠分块或者非重叠分块等)，并且检测器260可以输出针对每个分块的分类(例如，有水印的或者没有水印的)。可以基于对分块的分类应用概率性度量，以生成针对经降级的有水印的波形250的总体分类(例如，基于分块被分类为具有水印的某一阈值量(诸如，50％或者90％)来检测水印的存在)。可以输出对所评估的音频分块的总体分类和/或基础分类(例如，经由图1的音频真实性验证门户115)以提供是否已经在经降级的有水印的波形250中检测到音频水印215的指示。例如，如果用户上传了经降级的有水印的波形250(例如，经由图1的音频真实性验证门户115)，则可以返回二元分类(例如，有水印的或者没有水印的、利用具体源软件生成的或者不是利用具体源软件生成的、伪造物或者不是伪造物)。附加地或者备选地，可以以任何适当的形式(诸如，列表、表、时间依赖图(time-dependent graph)、或以其他方式)来输出对所评估的音频分块的分类。

通常，可以使用基于感兴趣的应用而选择或者生成的任何适当的训练数据集来训练检测器260。例如，为了检测被篡改的单人语音(其涵盖大多数深度伪造音频场景)，可以使用单人的一次说出的语音录音的收集来形成训练数据集。示例收集是DAPS(设备和产生的语音)数据集，该DAPS数据集是在各种阅读环境中的语音录音的收集。另一示例是语音技术中心声音克隆工具包(VCTK)，该工具包是带各种口音的语音录音的收集。通常，可以使用具体的嵌入技术来向语音录音嵌入具体的水印。检测器260可以被训练为用于音频水印和嵌入技术的具体组合的专用音频水印检测器，因此，训练检测器260可以涉及：使用相同的嵌入技术来向语音录音嵌入相同的水印。例如，为了训练检测器260，可以从收集随机选择语音录音，并且可以基于第一度量(例如，时间的50％)来向所选择的录音嵌入音频水印。然后，可以基于第二度量(例如，时间的50％)使用所选择的降级方法来使所产生的音频降级。可以基于第三度量(例如，随机选择的、轮询等)来从一组方法(例如，标准的信号处理操作(诸如，噪声和压缩)、攻击(诸如，降噪和混响)等)选择降级方法。可以通过检测器260来传递所产生的音频录音(其可以是有水印的和/或经降级的)以输出可以与对应的地面实况标签相比较的分类标签(例如，是否添加了水印)，并且损失函数可以被用于更新检测器260(例如，使用反向传播)。随时间重复该过程，检测器260可以被训练为从被测音频信号(例如，经降级的有水印的音频波形250)检测音频水印和嵌入技术的存在。

图3A和图3B描绘了图示了与现有技术(图3A)相比较，本技术(图3B)的某些实施例的示例实现的性能的曲线图。如上所述，在关于可以幸免于混响感的上述音频水印加注的最新出版物中描述了现有技术。更具体地，现有技术使用本征水印加注，其中选择水印作为满秩对称矩阵的本征向量，并且将水印嵌入在音频块的所选择的适中范围DCT系数中。作为示范，表1的示例架构被配置为获取音频的本征有水印的分块并且输出分类标签(有水印的或者没水印的)，并且使用四种类型的降级和攻击类型(低通滤波、高通滤波、房间混响、和加性高斯噪声)来被训练，这些降级和攻击类型发生变化以模拟不同级别的攻击强度。图3A图示了现有技术的基线检测器的性能，而图3B图示了使用本技术被实施的检测器。在每张图中，x轴是攻击强度，从左到右绘制了从最弱到最强的攻击强度。y轴是跨每个音频块平均的检测精度。如所示，本技术跨不同攻击强度的范围产生更精确并且更一致的结果。

此外，现有技术包括改变水印的强度的可调参数η。在示范中，利用较可感知的水印对基线模型进行了测试(η＝80，这产生了与风类似的可辨别的声音)，而利用较难以感知的水印对使用本技术而被实施的检测器进行了测试(η＝8，这几乎不明显)。如图所示，本技术在检测更难以感知的水印时比现有技术表现出更好的精度。

现在参照图1，在一些实施例中，音频水印检测器170可以作为对抗网络的一部分被训练，以使基础音频水印对于基于神经网络的攻击更为稳健。更具体地，可以与音频水印检测器170一起联合地训练基于神经网络的攻击器(例如，音频攻击模拟器175)。例如，可以使用生成式神经网络来实施音频攻击模拟器175，该生成式神经网络试图通过合成模拟经降级的水印的音频波形来在不引起可听伪影的情况下去除音频水印。可以被用于基于神经网络的攻击器的一个示例架构是FFTNet神经声码器结构(neural vocoder structure)的3路拆分变体，在Berthy Feng、Zeyu Jin、Jiaqi Su和Adam Finkelstein于2019年5月在ICASSP发布的“Learning Bandwidth Expansion Using Perceptually-Motivated Loss”中描述了该FFTNet神经声码器结构。另一示例架构是由谷歌提供的WaveNet。这些仅表示示例，并且在本公开的范围内，可以实施其他生成式架构。

在一些实施例中，可以使用对由神经网络攻击器生成的经降级的音频信号进行评估的鉴别网络来实施音频水印检测器170。共同地，攻击器(例如，音频攻击模拟器175)和检测器(音频水印检测器170)可以形成可以被联合地训练的生成式对抗网络(GAN)。通常，训练攻击器可以寻求最小化：(1)被攻击的音频(即，由攻击器生成的经降级的音频信号)与未被攻击的音频(例如，被输入到攻击器中的有水印的波形)之间的差异；以及(2)检测器的检测精度。例如，在每个时间步(例如，对于具体音频块每次通过GAN)，可以首先更新检测器，然后更新攻击器。随着检测器变得更精确，攻击器将变得更凶猛，因为其试图使检测器的检测精度最小化。在GAN的另一侧，随着攻击器变得更凶猛，检测器会变得更稳健，因为其在攻击器变得更具有挑战性时努力提高其精度。因此，将音频水印检测器170作为对抗网络的一部分与神经网络攻击器一起联合地训练可以提高检测精度，并且使检测器对于基于神经网络的攻击更为稳健。

示例流程图

现在参照图4至图6，提供了图示了用于音频水印加注的方法的流程图。方法400、500和600的每个框以及本文所描述的任何其他方法包括使用硬件、固件、和/或软件的任何组合而执行的计算过程。例如，各种功能可以由执行被存储在存储器中的指令的处理器实施。这些方法还可以被实施为被存储在计算机存储介质上的计算机可使用指令。这些方法可以由单机应用、服务或者被托管服务(单机的或者与另一被托管服务组合)、或者另一产品的插件(仅举几例)提供。

首先转向图4，图4图示了根据本文所描述的实施例的用于音频水印检测的方法400。首先，在框410中，经降级的音频信号被访问。例如，经降级的音频信号可以被上传至远程服务器以确定经降级的音频信号是否包括具体音频水印。在框420中，通过将经降级的音频信号的至少一部分的时域样本馈送到音频水印检测器中来对经降级的音频信号的至少该部分分类，以生成指示具体音频水印的存在或者不存在的分类标签。例如，音频水印检测器可以迭代地对经降级的音频信号的连续分块分类，从而生成针对每个分块的分类标签。在框430中，基于分类标签返回分类结果。例如，分类结果可以是经降级的音频信号的总体分类，总体分类基于分块被分类为具有音频水印的阈值量。

现在转向图5，图5图示了根据本文所描述的实施例的用于音频水印检测的方法500。首先，在框510中，将要测试的音频波形被接收。在框520中，使用音频水印检测器来生成音频波形的二元分类。音频水印检测器包括被配置为检测使用具体水印嵌入技术而被嵌入的具体音频水印的神经网络。因此，音频波形的由音频水印检测器生成的二元分类指示音频波形是否包括具体音频水印。在框530中，基于二元分类返回分类结果。

现在转向图6，图6图示了根据本文所描述的实施例的用于音频水印检测的方法600。首先，在框610中，经由音频真实性验证门户来接收经降级的音频片段。例如，操作客户端设备的客户端可以访问经降级的音频片段，并且通过门户来标识该经降级的音频片段。在框620中，将经降级的音频片段上传至远程服务器，该远程服务器被配置为使用音频水印检测器来基于神经网络执行对经降级的音频片段的真实性的评估。该神经网络被配置为从经降级的音频片段检测音频水印的存在，其指示源软件在生成经降级的音频片段的工作流中是否被使用。在框630中，从远程服务器接收分类结果。该分类结果基于对真实性的评估。例如，分类结果可以包括对经降级的音频信号的总体分类，该总体分类基于经降级的音频信号的分块被音频水印检测器分类为具有音频水印的阈值量而被生成。附加地或者备选地，分类结果可以是时间依赖图，其指示经降级的音频片段的分块随时间的分类，随时间的分类指示经降级的音频片段的分块是否包括具体音频水印。在框640中，经由音频真实性验证门户来提供分类结果。

示例操作环境

已经描述了本发明的实施例的概况，下面描述在其中可以实现本发明的实施例的示例操作环境以为本发明的各个方面提供一般上下文。现在具体参照图7，将用于实施本发明的实施例的示例操作环境一般地示出和指定为计算设备700。计算设备700只是适当的计算环境的一个示例，并且不旨在暗示关于本发明的使用范围或者功能性范围的任何限制。计算设备700也不应该被解释为具有与所图示的组件中的任何一个组件或者这些组件的组合相关的任何依赖性或者要求。

可以在由计算机或者其他机器(诸如，蜂窝电话、个人数字助理或者其他手持式设备)执行的计算机代码或者机器可用指令(包括计算机可执行指令，诸如，程序模块)的一般上下文中描述本发明。通常，程序模块包括执行具体任务或者实施具体抽象数据类型的例程、程序、对象、组件、数据结构等。可以在各种***配置中实践本发明，包括：手持式设备、消费电子器件、通用计算机、更专业的计算设备等。还可以在通过远程处理设备来执行任务的分布式计算环境中实践本发明，这些远程处理设备通过通信网络被链接。

参照图7，计算设备700包括直接地或者间接地耦合以下设备的总线710：存储器712、一个或多个处理器714、一个或多个呈现组件716、输入/输出(I/O)端口718、输入/输出组件720、和说明性功率供应722。总线710表示可以是一条或多条总线(诸如，地址总线、数据总线、或者其组合)。虽然为了清楚起见，用线示出了图7的各种框，但是实际上，描绘各种组件不是那么清楚，并且比喻地，线将更精确地是灰色的和模糊的。例如，可以将呈现组件(诸如，显示设备)视为I/O组件。而且，处理器具有存储器。发明人认识到这是本领域的本质，并且重申图7的示意图仅仅是对可以结合本发明的一个或多个实施例来使用的示例计算设备的说明。未在如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等这些类别之间进行区分，因为预期所有这些组件都在图7的范围内并且都是对“计算设备”的引用。

计算设备700通常包括各种计算机可读介质。计算机可读介质可以是由计算设备700可访问的任何可用介质，并且包括易失性和非易失性介质两者以及可移除和不可移除介质。通过示例的方式而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括按照用于存储信息(诸如，计算机可读指令、数据结构、程序模块或者其他数据)的任何方法或者技术而实施的易失性和非易失性可移除和不可移除介质。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪速存储器或者其他存储技术、CD-ROM、数字通用盘(DVD)或者其他光盘存储装置、磁带盒、磁带、磁盘存储装置或者其他磁存储设备、或者可以被用于存储所需信息并且由计算装置700可访问的任何其他介质。计算机存储介质不包括信号自身。通信介质通常实施计算机可读指令、数据结构、程序模块或者经调制的数据信号中的其他数据(诸如，载波或者其他传送机构)，并且包括任何信息传递介质。术语“经调制的数据信号”是指这样的信号：使其特性中的一个或多个特性以将信息编码在信号中的方式被设置或者被改变。通过示例的方式而非限制，通信介质包括有线介质(诸如，有线网络或者直接有线连接)和无线介质(诸如，声学、RF、红外和其他无线介质)。上述内容中的任何内容的组合也应该被包括在计算机可读介质的范围内。

存储器712包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的、或者其组合。示例性硬件设备包括固态存储器、硬盘驱动、光盘驱动等。计算设备700包括从各种实体(诸如，存储器712或者I/O组件720)读取数据的一个或多个处理器。(多个)呈现组件616向用户或者其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等。

I/O端口718允许计算设备700被逻辑耦合至包括I/O组件720的其他设备，这些其他设备中的一些可以被内置。说明性组件包括麦克风、操纵杆、游戏手柄、碟形卫星天线、扫描仪、打印机、无线设备等。I/O组件720可以提供处理由用户生成的空中手势、声音、或者其他生理输入的自然用户界面(NUI)。在一些实例中，输入可以被传输至恰当的网络元件以供进一步处理。NUI可以实施以下的任何组合：语音识别、触控笔识别、面部识别、生物特征识别、在屏幕上和屏幕附近的手势识别、空中手势、头部和眼睛追踪、以及与计算设备700的显示器相关联的触摸识别(如下面更详细地描述的)。计算设备700可以被配备有用于手势检测和识别的深度照相机(诸如，立体照相机***、红外照相机***、RGB照相机***)、触摸屏技术、以及上述这些的组合。附加地，计算设备700可以配备有使得能够检测运动的加速度计或者陀螺仪。加速度计或者陀螺仪的输出可以被提供至计算设备700的显示器，以渲染沉浸式增强现实或者虚拟现实。

本文所描述的实施例支持基于神经网络的安全音频水印加注和音频真实性验证。本文所描述的组件是指音频水印加注***的集成组件。集成组件是指支持使用音频水印加注***的功能性的硬件架构和软件框架。硬件架构是指物理组件及其相互关系，并且软件框架是指提供可以利用在设备上所实施的硬件来实施的功能性的软件。

端到端基于软件的音频水印加注***可以在音频水印加注***组件内操作，以操作计算机硬件来提供音频水印加注***功能性。在低级别处，硬件处理器执行选自用于给定处理器的机器语言(也被称为机器代码或者本机)指令集的指令。处理器识别本机指令，并且执行与例如逻辑、控制和存储操作相关的对应的低级别功能。用机器代码所编写的低级软件可以向较高级软件提供更复杂的功能性。如本文所使用的，计算机可执行指令包括任何软件，包括用机器代码所编写的低级软件、较高级软件(诸如，应用软件)及其任何组合。在这点上，音频水印加注***组件可以管理资源以及为音频水印加注***功能性提供服务。对于本发明的实施例，预期任何其他变型及其组合。

已经在本公开中标识了各种组件，应该理解，在本公开的范围内，可以采用任何数量的组件和布置以实现期望的功能性。例如，为了在概念上清楚起见，用线示出在附图中所描绘的实施例中的组件。还可以实现这些以及其他组件的其他布置。例如，虽然一些组件被描绘为单个组件，但是本文所描述的元件中的许多元件可以被实现为离散或者分布式组件或者与其他组件结合，以及可以按照任何适当的组合和位置来实现许多元件。一些元件可以完全被省略。此外，如下面所描述的，在本文中被描述为由一个或多个实体执行的各种功能可以由硬件、固件和/或软件实施。例如，各种功能可以由执行被存储在存储器中的指令的处理器实施。因此，除了所示出的那些布置和元件之外或者代替所示出的那些布置和元件，可以使用其他布置和元件(例如，机器、接口、功能、命令和功能组等)。

本文具体描述了本发明的主题以满足法定要求。然而，描述本身不旨在限制本专利的范围。相反，结合其他现有或者未来技术，本发明人已经考虑了还可以按照其他方式来实施所要求保护的主题以包括与在本文中所描述的步骤或者步骤组合类似的不同步骤或者步骤组合。此外，虽然本文可以使用术语“步骤”和/或“框”来暗示所采用的方法中的不同元素，但是这些术语不应该被解释为暗示本文所公开的各个步骤之中或者之间的任何特定顺序，除非明确地描述了单独的步骤的顺序以及除了当明确地描述了单独的步骤的顺序时。

已经关于特定实施例描述了本发明，这些特定实施例在所有方面都旨在是说明性的而不是限制性的。在不脱离本发明的范围的情况下，对于本发明所属领域的普通技术人员而言，备选实施例将变得显而易见。

从前述内容，将了解到：本发明非常适合于实现上面所阐述的所有目的和目标以及对于该***和方法而言明显并且固有的其他优点。要明白，某些特征和子组合是实用的，并且可以在不参考其他特征和子组合的情况下采用。这是权利要求书所预期的并且在权利要求书的范围内。

Claims

1.一种计算机***，包括：

一个或多个硬件处理器和存储器，所述存储器包括：

计算机程序指令，其由所述一个或多个硬件处理器可执行；以及

音频水印检测器，其包括神经网络，所述神经网络被训练为从被测音频信号检测使用具体水印嵌入技术而被嵌入的具体音频水印的存在或者不存在；以及

音频真实性验证组件，其被配置为使用所述一个或多个硬件处理器来：

访问经降级的音频信号；

通过将所述经降级的音频信号的至少一部分的时域样本馈送到所述音频水印检测器中来对所述经降级的音频信号的至少所述一部分进行分类，以生成指示所述具体音频水印的所述存在或者不存在的分类标签；以及

基于所述分类标签来返回分类结果。

2.根据权利要求1所述的计算机***，其中所述具体音频水印的存在指示源软件在生成所述被测音频信号的工作流中被使用。

3.根据权利要求2所述的计算机***，其中所述源软件是声音操纵软件。

4.根据权利要求1所述的计算机***，所述音频水印检测器作为生成式对抗网络的一部分与基于神经网络的攻击器一起被联合地训练。

5.根据权利要求1所述的计算机***，其中所述音频真实性验证组件被配置为：使用所述音频水印检测器，通过从所述经降级的音频的滑动窗口标识所述时域样本，来迭代地对所述经降级的音频信号的连续分块进行分类。

6.根据权利要求1所述的计算机***，其中所述分类结果包括对所述经降级的音频信号的总体分类，所述总体分类基于所述经降级的音频信号的分块被所述音频水印检测器分类为具有所述音频水印的阈值量。

7.一种用于音频水印检测的计算机化的方法，所述方法包括：

接收要测试的音频波形；

使用音频水印检测器来生成所述音频波形的二元分类，所述二元分类指示所述音频波形是否包括使用具体水印嵌入技术而被嵌入的具体音频水印，所述音频水印检测器包括被配置为检测所述具体音频水印的神经网络；以及

基于所述二元分类来返回分类结果。

8.根据权利要求7所述的方法，其中所述具体音频水印的存在指示源软件在生成所述音频波形的工作流中被使用。

9.根据权利要求8所述的方法，其中所述源软件是声音操纵软件。

10.根据权利要求7所述的方法，还包括：将所述音频水印检测器作为生成式对抗网络的一部分与基于神经网络的攻击器一起联合地训练。

11.根据权利要求7所述的方法，其中使用所述音频水印检测器来生成所述二元分类包括：使用所述音频水印检测器来迭代地对所述音频波形的多个分块进行分类，并且基于对所述多个分块的分类来生成所述二元分类。

12.根据权利要求7所述的方法，其中所述分类结果包括时间相关图，所述时间相关图指示所述音频波形的分块的随时间的分类，所述随时间的分类指示所述音频波形的所述分块是否包括所述具体音频水印。

13.根据权利要求7所述的方法，其中使用所述音频水印检测器来生成所述二元分类包括：将所述音频波形的时域样本馈送到所述音频水印检测器中，并且对所述时域样本执行一维(1D)卷积。

14.一种或多种存储计算机可使用指令的计算机存储介质，所述计算机可使用指令在由计算设备使用时使所述计算设备执行操作，所述操作包括：

经由音频真实性验证门户来接收经降级的音频片段；

将所述经降级的音频片段上传至远程服务器，所述远程服务器被配置为使用音频水印检测器基于神经网络来执行对所述经降级的音频片段的真实性的评估，所述神经网络被配置为从所述经降级的音频片段检测音频水印的存在，所述音频水印的所述存在指示源软件在生成所述经降级的音频片段的工作流中是否被使用；

从所述远程服务器接收基于所述真实性的评估的分类结果；以及

经由所述音频真实性验证门户来提供所述分类结果。

15.根据权利要求14所述的一种或多种计算机存储介质，其中所述经降级的音频片段包括深度伪造音频。

16.根据权利要求14所述的一种或多种计算机存储介质，其中所述经降级的音频片段被包括在视频文件的音轨中。

17.根据权利要求14所述的一种或多种计算机存储介质，所述音频水印检测器作为生成式对抗网络的一部分与基于神经网络的攻击器一起被联合地训练。

18.根据权利要求14所述的一种或多种计算机存储介质，其中所述远程服务器还被配置为：使用所述音频水印检测器来执行所述真实性的评估，以迭代地对所述经降级的音频片段的多个分块进行分类，并且基于对所述多个分块的分类来生成所述分类结果。

19.根据权利要求14所述的一种或多种计算机存储介质，其中所述分类结果包括时间相关图，所述时间相关图指示所述经降级的音频片段的分块的随时间的分类，所述随时间的分类指示所述经降级的音频片段的所述分块是否包括所述具体音频水印。

20.根据权利要求14所述的一种或多种计算机存储介质，其中所述远程服务器还被配置为：通过将所述经降级的音频片段的时域样本馈送到所述音频水印检测器中来执行所述真实性的评估。