CN114600187A

CN114600187A - 提供对音频信号中的语音的对抗保护

Info

Publication number: CN114600187A
Application number: CN202080072357.4A
Authority: CN
Inventors: B·布塞尔; M-I·尼古拉; A·拉瓦特; M·辛恩; N·M·特兰; M·威斯托巴
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-10-14
Filing date: 2020-10-02
Publication date: 2022-06-07
Also published as: GB2604277A; JP2022552119A; GB202206097D0; WO2021074736A1; US10896664B1

Abstract

用于由处理器提供音频信号中的语音的对抗保护的实施例。针对音频信号的自动音频分析，可通过使用对抗噪声来提供关于一个或多个音频设备的安全防御。

Description

提供对音频信号中的语音的对抗保护

技术领域

本发明一般涉及计算***，尤其涉及用于提供音频信号中的语音的对抗(adversarial)保护的各种实施例。

背景技术

在当今社会，消费者、商人、教育工作者等通过各种介质实时、跨越很长距离、并且多次没有边界或界限地通信。计算机和网络技术的出现使得生活质量的提高成为可能，同时增强了日常活动并简化了信息共享。计算***可以包括物联网(IoT)，物联网是使用现有因特网基础设施对散布在全球的计算设备的互连。即，IoT基于日常对象(不仅是计算机和计算机网络)可经由IoT通信网络(例如，自组织***或因特网)来读取、识别、定位、寻址和控制的想法。换言之，IoT可指代类似因特网的结构中的唯一可标识设备及其虚拟表示。随着技术的巨大进步和发展，对这些***取得进展的需求越大，对效率和改进的优势就越大。

发明内容

提供了用于由处理器对音频信号中的语音提供对抗保护的各种实施例。在一个实施例中，仅作为示例，提供了用于再次由处理器提供对音频信号中的语音的对抗保护的方法。通过使用对抗噪声，可以提供对一个或多个音频设备的安全防御，以对抗音频信号的自动音频分析。

附图说明

为了容易地理解本发明的优点，将通过参考在附图中示出的具体实施例来呈现对以上简要描述的本发明的更具体的描述。应当理解，这些附图仅描述了本发明的典型实施例，因此不应被认为是对其范围的限制，将通过使用附图来描述和解释本发明的附加特征和细节，其中：

图1是描绘了根据本发明的实施例的示例性云计算节点的框图；

图2是示出根据本发明实施例的示例性云计算环境的附加框图；

图3是示出根据本发明实施例的抽象模型层的附加框图；

图4是描述了根据本发明的各方面起作用的各种用户硬件和云计算组件的附加框图；

图5是描绘了用于由处理器提供音频信号中的语音的对抗保护的附加示例性操作的图，其中同样可以实现本发明的各方面；

图6是描绘了用于由处理器提供音频信号中的语音的对抗保护的附加示例性操作的图，其中同样可以实现本发明的各方面；

图7是描绘了用于由处理器提供音频信号中的语音的对抗保护的示例性方法的流程图，其中同样可以实现本发明的各方面；以及

图8是描绘了用于由处理器提供音频信号中的语音的对抗保护的示例性方法的附加流程图，其中同样可以实现本发明的各方面。

具体实施方式

计算***可以包括称为“云计算”的大规模计算，其中资源可以经由诸如计算机网络的通信***交互和/或被访问。资源可以是计算设备、存储设备、应用程序和/或在一个或多个计算设备(诸如服务器)上运行的其它计算机相关设备和/或服务的软件呈现的模拟和/或仿真。例如，多个服务器可以传送和/或共享信息，该信息可以根据处理能力、存储空间和/或完成所请求的任务所需的其他计算资源的量而跨服务器扩展和/或缩小。词语“云”是指在计算设备、计算机网络和/或以这种布置交互的其他计算机相关设备之间的互连性的图的云状外观。

另外，物联网(IoT)是可被嵌入在对象、尤其是电器中并通过网络连接的计算设备的新兴概念。IoT网络可包括一个或多个IoT设备或“智能设备”，它们是诸如其中嵌入有计算设备的电器的物理对象。这些对象中的许多对象是可独立操作的设备，但是它们也可以与控制***或替代地与分布式控制***(诸如在云计算环境上运行的分布式控制***)配对。

因此，计算***中，特别是云计算环境内的计算***中，以各种设置的IoT设备、移动通信设备(例如，智能电话、平板电脑、智能手表或计算机本身等)的使用的大量增加向用户提供了各种有益用途。

例如，许多用户在各种计算***上使用一个或多个应用，诸如例如在具有麦克风的移动设备上使用一个或多个应用，以用于经由电信或计算机网络与其他用户进行语言通信。一些计算***可以使用人工智能(“AI”)并且使得能够自动分析大量音频信号。特别地，语音到文本模型允许将口语转录为文本格式，其可以用于进一步的处理，如聚类、文本挖掘、通过关键词过滤等。恶意对手拦截包括语音的音频信号的传输或访问在数据库中存储的音频信号可能导致拦截数据和侵犯数据隐私，这可能导致针对预期通信的接收者或用户的负面后果(例如知识产权的盗窃或甚至工业间谍)。

因此，本文所描绘的各种实施例提供了一种通过提供对音频信号中的语音的对抗保护来保存和保护可听数据的新颖解决方案。在一个方面，面对对抗音频信号的自动音频分析，可以通过使用对抗噪声、对抗补丁或其组合来提供一个或多个音频设备上的安全防御。在一个方面，可以选择目标或“边界”区域(例如，屏幕/显示器的整个部分或一个或多个所选择的区域)来采集数字或模拟音频信号，以便向数字或模拟音频信号提供对抗噪声。可以确定、计算和/或选择对抗噪声。

对抗噪声可针对不同级别的误分类，例如音素级别、单词级别和/或句子级别。例如，在音素级别，可以引导对抗噪声将各个音素错误分类为静默或随机失真的音素(这将导致“难以理解的”转录)。在单词级别，可以引导对抗性噪声对整个单词进行错误分类(例如，潜在地使语法失真)。在句子级别，可以引导对抗性噪声对整个句子错误分类。

本发明可以在单词或句子级别引入对抗噪声，禁止音频信号的截取，并且阻止***自动检测该对抗噪声，从而增强数据隐私和保护(例如，对抗噪声是附加的保护层)。

由于对抗噪声可能在通信中引起一些延迟，因此完整的单词/句子可能需要在可以创建对抗噪声并将其添加到音频信号之前被传送(例如，说出或讲出)。然而，通过在音素级别引入对抗噪声，仅引入非常小的延迟(例如，对于标准语音到文本***为10毫秒“ms”)。

用户可以指定应当被应用于音频信号中的语音的对抗噪声的对抗防御强度作为输入。

可以(例如，由用户使用输入设备和/或机器学习操作)调整对抗噪声强度。噪声强度可以根据噪声强度影响音频信号质量的程度而增加和/或减小。例如，噪声强度可以被调整到更大的对抗噪声级别，这提供了更高的安全度(因为它们导致计算机***正确地分类音频信号的更多困难)。例如，还可以将对抗噪声强度实现为整个音频记录的一部分时间，其中对抗防御主动地修改原始信号(例如，窗口长度、可接受的延迟、间隔频率等)

同样，增加或减少对抗噪声强度可能影响音频信号的质量(例如，较小/较弱的对抗噪声级别)，诸如，例如，在用户或第3方实体没有注意到(例如，没有意识到)可听噪声的情况下。可替代地，噪声强度可以被调整到用户或第3方实体感知到伪像但是仍将能够理解音频的口述内容/通信的级别(例如，更大/更强的级别)。

在另一方面中，本发明还可通过音频/通信设备(例如，扬声器)播放对抗噪声，且通过音频采集设备(例如，麦克风)将其与语音一起记录，以避免被受攻击音频采集设备拦截的音频信号的自动分析。

本发明还可以报告当前防御强度的估计(例如，类似于电池充电状态，并且可以是对当前防御强度的有效性的估计)。

因此，本发明确保并保护数据(例如，个人/专有信息)免受通过截取、窃听和/或对一个或多个数据库(例如，音频数据库)的未授权访问不适当地获得的音频信号的自动分析。

在另一方面，本发明可以通过向数字或模拟音频信号添加对抗噪声来修改由音频采集设备(例如，麦克风)采集的数字或模拟音频信号。对抗噪声可能导致语音到文本模型对数字或模拟音频信号的误分类。例如，对抗噪声可能导致语音到文本模型根本不能检测到任何语音(例如，语音到文本模型将转录静默)。对抗噪声可能导致语音到文本操作/模型转录随机话语。对抗噪声可以使语音到文本模型产生作为目标的转录(例如，噪声可以被设计成使得词语“专利”的话语被转录为“烤面包机”)。对抗噪声的添加阻止计算机***自动解析和分析音频信号中的口语内容。应当注意，应用于数字或模拟音频信号的对抗噪声影响音频信号的自动化处理，但是对于有机体(例如，人)而言对抗噪声是足够低的以仍然理解话语并且在大多数情况下甚至不会注意到任何添加的噪声。

可理解，尽管本公开包括关于云计算的详细描述，但是本文中记载的教导的实现不限于云计算环境。相反，本发明的实施例能够结合现在已知或以后开发的任何其它类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便的按需网络访问，所述可配置计算资源可以以最小的管理努力或与服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特征如下：

按需自助：云消费者可以单方面地自动地根据需要提供计算能力，诸如服务器时间和网络存储，而不需要与服务的提供者进行人工交互。

广域网接入：能力在网络上可用，并且通过促进由异构的薄或厚客户端平台(例如，移动电话、膝上型计算机和PDA)使用的标准机制来访问。

资源池化：供应商的计算资源被集中以使用多租户模型来服务多个消费者，其中不同的物理和虚拟资源根据需求被动态地分配和重新分配。存在位置无关的意义，因为消费者通常不控制或不知道所提供的资源的确切位置，但是能够在较高抽象级别(例如国家、州或数据中心)指定位置。

快速弹性：在一些情况下，可以快速且弹性地提供快速向外扩展的能力和快速向内扩展的能力。对于消费者，可用于提供的能力通常看起来不受限制，并且可以在任何时间以任何数量购买。

测量服务：云***通过利用在适合于服务类型(例如，存储、处理、带宽和活动用户账户)的某一抽象级别的计量能力来自动地控制和优化资源使用。可以监视、控制和报告资源使用，从而为所利用服务的提供者和消费者两者提供透明度。

服务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用程序可通过诸如web浏览器(例如，基于web的电子邮件)等瘦客户机界面从各种客户机设备访问。消费者不管理或控制包括网络、服务器、操作***、存储、或甚至个别应用能力的底层云基础结构，可能的例外是有限的用户专用应用配置设置。

平台即服务(PaaS)：提供给消费者的能力是将消费者创建或获取的应用部署到云基础设施上，该消费者创建或获取的应用是使用由提供商支持的编程语言和工具创建的。消费者不管理或控制包括网络、服务器、操作***或存储的底层云基础设施，但具有对部署的应用和可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其它基本计算资源，所述软件可以包括操作***和应用。消费者不管理或控制底层云基础设施，但具有对操作***、存储、部署的应用的控制，以及可能对选择的联网组件(例如，主机防火墙)的有限控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可以由组织或第三方管理，并且可以存在于建筑物内或建筑物外。

社区云：云基础设施由若干组织共享，并且支持具有共享关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可以由组织或第三方管理，并且可以存在于场所内或场所外。

公有云：云基础设施可用于一般公众或大型工业群体，并且由销售云服务的组织拥有。

混合云：云基础设施是两个或更多云(私有、共同体或公共)的组合，所述云保持唯一实体，但是通过使数据和应用能够移植的标准化或私有技术(例如，用于云之间的负载平衡的云突发)绑定在一起。

云计算环境是面向服务的，其关注无状态、低耦合、模块性和语义互操作性。在云计算的核心是包括互连节点的网络的基础设施。

现在参考图1，示出了云计算节点的示例的示意图。云计算节点10仅是合适的云计算节点的一个示例，并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制。无论如何，云计算节点10能够被实现和/或执行上文阐述的任何功能。

在云计算节点10中，存在计算机***/服务器12，其可与许多其他通用或专用计算***环境或配置一起操作。适合与计算机***/服务器12一起使用的公知的计算***、环境和/或配置的示例包括但不限于个人计算机***、服务器计算机***、瘦客户端、胖客户端、手持式或膝上型设备、多处理器***、基于微处理器的***、机顶盒、可编程消费电子产品、网络PC、小型计算机***、大型计算机***、以及包括任何上述***或设备的分布式云计算环境等。

计算机***/服务器12可以在计算机***可执行指令的一般上下文中描述，诸如由计算机***执行的程序模块。通常，程序模块可以包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机***/服务器12可以在分布式云计算环境中实践，其中任务由通过通信网络或IoT网络链接的远程处理设备执行。在分布式云计算环境中，程序模块可以位于包括存储器存储设备的本地和远程计算机***存储介质中。

如图1所示，云计算节点10中的计算机***/服务器12以通用计算设备的形式示出。计算机***/服务器12的组件可以包括但不限于一个或多个处理器或处理单元16、***存储器28以及将包括***存储器28的各种***组件耦合到处理器16的总线18。

总线18表示若干类型的总线结构中的任何一种的一个或多个，包括存储器总线或存储器控制器、***总线、加速图形端口、以及使用各种总线体系结构中的任何一种的处理器或局部总线。作为示例而非限制，这些体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强型ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线和***部件互连(PCI)总线。

计算机***/服务器12通常包括各种计算机***可读介质。这样的介质可以是计算机***/服务器12可访问的任何可用介质，并且它包括易失性和非易失性介质、可移动和不可移动介质。

***存储器28可以包括易失性存储器形式的计算机***可读介质，例如随机存取存储器(RAM)30和/或高速缓冲存储器32。计算机***/服务器12还可以包括其他可移动/不可移动、易失性/非易失性计算机***存储介质。仅作为示例，存储***34可被提供用于从不可移动、非易失性磁介质(未示出，并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出，但是可以提供用于从可移动、非易失性磁盘(例如，“软盘”)读取和向其写入的磁盘驱动器，以及用于从诸如CD-ROM、DVD-ROM或其它光学介质等可移动、非易失性光盘读取或向其写入的光盘驱动器。在这种情况下，每个都可以通过一个或多个数据介质接口连接到总线18。如下面将进一步描绘和描述的，***存储器28可以包括至少一个程序产品，该程序产品具有一组(例如，至少一个)程序模块，该程序模块被配置成执行本发明的实施例的功能。

具有一组(至少一个)程序模块42的程序/实用程序40，以及操作***、一个或多个应用程序、其它程序模块和程序数据，可作为示例而非限制存储在***存储器28中。操作***、一个或多个应用程序、其它程序模块和程序数据或其某种组合中的每一个可包括联网环境的实现。程序模块42通常执行这里描述的本发明实施例的功能和/或方法。

计算机***/服务器12还可以与一个或多个外部设备14通信，诸如键盘、指示设备、显示器24等；一个或多个设备，其使得用户能够与计算机***/服务器12交互；和/或任何使计算机***/服务器12能够与一个或多个其它计算设备通信的设备(例如网卡、调制解调器等)。这种通信可以经由输入/输出(I/O)接口22发生。然而，计算机***/服务器12可以经由网络适配器20与一个或多个网络通信，所述网络诸如局域网(LAN)、通用广域网(WAN)、IoT网络和/或公共网络(例如，因特网)。如图所示，网络适配器20通过总线18与计算机***/服务器12的其它组件通信。应当理解，尽管未示出，其它硬件和/或软件组件可以与计算机***/服务器12结合使用。示例包括但不限于：微码、设备驱动程序、冗余处理单元、外部磁盘驱动器阵列、RAID***、磁带驱动器和数据档案存储***等。

现在参考图2，描绘了说明性云计算环境50。如图所示，云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10，所述本地计算设备例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机***54N。节点10可以彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为服务，云消费者不需要为其维护本地计算设备上的资源。应当理解，图2中所示的计算设备54A-N的类型仅旨在说明，并且计算节点10和云计算环境50可以在任何类型的网络和/或网络可寻址连接上(例如，使用web浏览器)与任何类型的计算设备通信。

现在参考图3，示出了由云计算环境50(图2)提供的一组功能抽象层。应当预先理解，图3中所示的组件、层和功能仅旨在说明，并且本发明的实施例不限于此。如所描绘的，提供了以下层和相应的功能：

设备层55包括嵌入有和/或独立的电子器件、传感器、致动器和其他对象以在云计算环境50中执行各种任务的物理和/或虚拟设备。设备层55中的每个设备将联网能力结合到其他功能抽象层，使得从设备获得的信息可以被提供给该设备，和/或来自其他抽象层的信息可以被提供给设备。在一个实施例中，包括设备层55在内的各种设备可以并入统称为“物联网”(IoT)的实体的网络。如本领域普通技术人员将理解的，这样的实体网络允许数据的相互通信、收集和传播以实现各种目的。

如图所示，设备层55包括传感器52、致动器53、具有集成处理、传感器和联网电子设备的“学习”恒温器56、相机57、可控家用插座/插口58以及可控电开关59，如图所示。其它可能的设备可以包括但不限于各种附加传感器设备、联网设备、电子设备(诸如远程控制设备)、附加致动器设备、所谓的“智能”电器(诸如冰箱或洗衣机/干衣机)以及各种各样的其它可能的互连对象。

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储装置65；以及网络和网络组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储器72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作***74；以及虚拟客户机75。

在一个示例中，管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其它资源的动态采购。计量和定价82提供了在云计算环境中利用资源时的成本跟踪，以及用于消耗这些资源的开帐单或***。在一个示例中，这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证，以及为数据和其他资源提供保护。用户门户83为消费者和***管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)规划和履行85提供对云计算资源的预安排和采购，其中根据SLA预期未来需求。

工作负载层90提供了可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：绘图和导航91；软件开发和生命周期管理92；虚拟教室教育传送93；数据分析处理94；交易处理95；以及在本发明的所示实施例的上下文中，使用工作负荷和功能96来为各种计算机控制的设备配置各种设置，以便在音频信号中提供对抗保护。另外，用于在音频信号中提供对抗保护的工作负荷和功能96可以包括诸如数据分析(包括来自各种环境传感器的数据收集和处理)、图像分析、任务和设备分析和/或数据分析功能的操作。本领域的普通技术人员将理解，用于在音频信号中提供对抗保护的工作负荷和功能96还可以结合各种抽象层的其他部分(诸如硬件和软件60、虚拟化70、管理80和其他工作负荷90(例如，诸如数据分析处理94)中的那些)来工作，以实现本发明的所示实施例的各种目的。

现在转向图4，示出了描绘根据所示实施例的各种机制的示例性功能组件400的框图。在一个方面，图1-3中描述的设备、组件、模块和/或功能中的每一个也可应用于图4的设备、组件、模块和功能，并且，图1-3的操作和步骤中的一个或多个也可被包括在图4的一个或多个操作或动作中，再次示出了计算机***/服务器12，其可结合智能对抗保护服务402。

在一个方面，计算机***/服务器12可以向一个或多个计算设备提供虚拟化计算服务(即，虚拟化计算、虚拟化存储、虚拟化联网等)，如本文所描述的。更具体地，计算机***/服务器12可以提供虚拟化计算、虚拟化存储、虚拟化联网和在硬件基底上执行的其他虚拟化服务。

在一个方面，计算机***/服务器12可以提供对抗保护服务402(例如，智能对抗保护服务402)，其可以与一个或多个计算设备通信和/或关联，该一个或多个计算设备诸如例如智能音频采集/生成设备430(例如，助听器、麦克风、扬声器、通信设备等)和/或用户设备420(例如，物联网“IoT”计算设备或其他类型的音频生成或采集设备，诸如例如相机、电视、智能电话、智能手表、台式计算机、膝上型计算机、平板电脑、智能手表和/或可以具有一个或多个处理器、存储器和/或无线通信技术的另一电子设备)。

智能对抗保护服务402、智能音频采集/生成设备430和/或用户设备420可以各自通过一种或多种通信方法(诸如计算网络、无线通信网络或实现通信的其他网络装置(在图4中各自被统称为“网络”18))彼此相关联和/或彼此通信。在一个方面，智能对抗保护服务402可以本地安装在智能音频采集/生成设备430和/或用户设备420上。替代地，智能对抗保护服务402可以位于智能音频采集/生成设备430和/或用户设备420中的每一个的外部(例如，经由云计算服务器)。

智能对抗保护服务402可结合处理单元16来执行根据本发明的各方面的各种计算、数据处理和其它功能。示出了偏好和兴趣的数据库404(例如，知识域或本体)，以及安全防御组件406、对抗噪声组件408、机器学习组件410、和/或记录/转录组件414。

安全防御组件406可以针对对音频信号的自动音频分析而使用对抗噪声来提供对一个或多个音频设备的安全防御。与对抗噪声组件408相关联的安全防御组件406可以将对抗噪声施加到一个或多个图像显示设备的一个或多个显示帧。在这样做时，对抗噪声组件408可确定或选择对抗噪声的类型，以在数字音频信号、模拟音频信号或其组合上实现。与对抗噪声组件408相关联的安全防御组件406然后可以将对抗噪声应用于数字音频信号、模拟音频信号或其组合中的通信(例如，音素级别、单词级别和/或句子级别的通信数据等)。

在附加方面，与机器学习组件410相关联的安全防御组件406可使用机器学习操作来分析音频信号。在一个方面，音频信号可以从用户和/或从位于音频数据库(诸如，例如在知识域部件412中)中的记录消息实时地传送和发送。

与机器学习组件410相关联的安全防御组件406可估计对抗噪声的理论安全防御强度。与机器学习组件410相关联的安全防御组件406可经由反馈循环操作来估计对抗噪声的实际安全防御强度。安全防御组件406可以调整对抗噪声的安全防御强度的程度。

应当注意，理论防御强度是通过估计作为当前噪声级别的函数的性能降级的级别或程度(例如，语音到文本AI模型的性能将降级多少)来确定的。该估计可以基于离线测量。实际防御强度可确定有和没有对抗噪声的音频信号上的语音到文本AI模型的输出的差异。实际防御强度在计算上可能比理论防御强度更昂贵，另一方面，它是当前噪声级别的有效性的更准确测量。

音频文件、录音和/或转录的数据库可包括和/或关联于知识域412，其可以是表示知识域的表达、关键字、概念的本体。例如，可以基于音频文件/记录内的通信类型对所有记录的音频文件进行分类、组织和/或保存/检索。在一个方面，术语“域”是旨在具有其普通含义的术语。另外，术语“域”可以包括***的专业领域或与特定主题或多个主题相关的材料、信息、内容和/或其他资源的集合。域可以指与任何特定主题或所选主题的组合相关的信息。术语本体也是具有其普通含义的术语。在一个方面，术语本体在其最广泛的意义上可以包括可以被建模为本体的任何事物，包括但不限于分类法、词表、词汇表等。例如，本体可以包括与感兴趣的域或特定类别或概念的内容相关的信息或内容。可以利用与源同步的信息来连续地更新本体，将来自源的信息添加到本体作为模型、模型的属性或本体内的模型之间的关联。

另外，知识域412可包括一个或多个外部资源，诸如例如到一个或多个因特网域、网页等的链接。例如，文本数据可以被超链接到可以描述、解释或提供与音频数据有关的附加信息的网页。

在另一方面，计算机***/服务器12的安全防御组件406可与处理单元16协同工作以实现本发明的各个方面。例如，安全防御组件406可以经历各种数据分析功能以分析从一个或多个设备(诸如，例如用户设备420和/或智能音频采集/生成设备430)传送的音频数据。

安全防御组件406可以接收和分析与音频数据相关联的每个物理属性。安全防御组件406可以认知地接收和/或检测用于用户设备420和/或智能音频采集/生成设备430的音频数据(例如，可以转录的音频数据)。

安全防御组件406、对抗噪声组件408和/或机器学习组件410可访问并监测一个或多个音频数据源(诸如，例如用户设备420和/或智能音频采集/生成设备430(例如，无线电、电话、电视、计算机等))以检测音频数据。例如，用户设备420和/或智能音频采集/生成设备430可以广播来自用户440的通信(例如，语音命令)。安全防御组件406、对抗噪声组件408和/或机器学习组件410，它们可以监测和访问来自一个或多个用户的通信(例如，语音命令)。

作为检测音频数据的一部分，安全防御组件406、对抗噪声组件408和/或机器学习组件410可从音频数据中识别音频数据的一个或多个源、与音频数据相关联的上下文因素、音频数据的一个或多个特性、用户的一个或多个语义短语、句子、词或其组合。

记录/转录组件414还可以动态地记录和存储来自用户440的音频数据通信。例如，机器学习可以学习和记录由用户440创建和/或定向到其的每个通信/音频数据。记录/转录组件414然后可记录通信数据(例如，记录、转录和/或保存音频转录)、提取一个或多个关键词/短语、和/或使用NLP来转录语音到文本形式。而且，由其它方所作的与音频数据有关的词、短语和/或完整句子(例如，会话的全部或部分)可以基于NLP提取操作(例如，基于NLP的关键字提取)以文本形式被转录。文本数据可以被中继、发送、存储或进一步处理，使得相同的音频数据(例如，会话的全部或部分)可以在稍后的时间点被对抗保护服务402听到或监听。

因此，与对抗噪声组件408和/或机器学习组件410相关联的安全防御组件406可修改音频数据(例如，语音到文本数据)的全部或部分。与对抗噪声组件408和/或机器学习组件410相关联的安全防御组件406甚至可向用户440发送指示该对抗噪声的应用的警报。用户440然后可以调整(例如，增加和/或减少)对抗噪声的强度级别。

现在转到图5，曲线图500描绘了用于提供音频信号中的语音的对抗保护的示例性操作。也就是说，曲线图500描绘了对音频信号的对抗性攻击的示意性表示。在一个方面，图1-4中描述的设备、组件、模块和/或功能中的每一个也可以应用于图5的设备、组件、模块和功能。此外，图1-4的一个或多个组件、功能和/或特征可以在图4中实现。为了简洁起见，省略了对在此描述的其他实施例中采用的类似元件、组件、模块、服务、应用和/或功能的重复描述。

在一个方面中，曲线图500的X轴501表示时间，且Y轴502表示音频信号的幅值或信号强度。原始音频信号503(例如，良性的并且可以是模拟的或数字的)被表示为实线。对抗音频信号504被表示为虚线，并且使用对抗噪声来修改。

在施加对抗噪声时，输出句子505对应于原始音频信号503，例如从语音到文本模型(例如，递归神经网络等)获得的原始音频信号503，其采用原始音频信号503作为输入。

输出句子506是通过使用音频信号同时应用目标对抗噪声防御作为输入的语音到文本模型(例如，递归神经网络等)来创建的。这导致输出句子506的小的细微变化，这些变化难以被人察觉。然而，输出句子507是通过使用音频信号连同非目标的对抗噪声防御作为输入的语音到文本模型(例如，递归神经网络等)来创建的。这导致输入句子的完全随机的改变。因此，输出句子506和输出句子507示出了基于施加到对抗音频信号504的对抗噪声强度的程度或级别的结果输出语句。

因此，对抗音频信号504是通过应用对抗噪声修改原始音频信号503的结果，该原始音频信号可以由音频采集设备采集并且可以是数字的或模拟的。

现在转到图6，该图描绘了用于提供音频信号中的语音的对抗保护的示例性攻击向量操作600。在一个方面，图1-4中描述的设备、组件、模块和/或功能中的每一个也可以应用于图6的设备、组件、模块和功能。并且，图1-4的一个或多个组件、功能和/或特征可以在图4中实现。为了简洁起见，省略了对在此描述的其他实施例中采用的类似元件、组件、模块、服务、应用和/或功能的重复描述。

在操作中，攻击向量操作600包括用户601(例如，被标识为“Alice”的用户/说话者)记录音频信号并且期望发送音频信号和/或将音频信号存储在数据库中。音频采集/生成设备605(例如，麦克风)可以利用例如麦克风/机器学习操作来记录/转录用户601所提供的音频消息，并且可以将所创建的音频信号通信、传输和/或发送到对抗安全防御组件604。

对抗安全防御组件604可将所选择的级别的对抗噪声(例如，在音素级别、词级别和/或句子级别添加对抗噪声)添加到由用户601传送的原始音频信号，而对所表示的原始音频信号(例如，语音)的改变最小或没有改变，并且不影响接收方602(例如，用户“Bob”)对消息的理解。如在框606中，对抗安全防御组件604可将所创建的受对抗保护的音频信号(例如，具有所施加的对抗噪声的音频信号)通信、传送、存储和/或发送到接收方602。对抗安全防御组件604还可通过分析被对抗保护的音频信号来估计当前的对抗噪声强度级别，并在通信、传送、存储和/或发送所创建的被对抗保护的音频信号之前修改被对抗保护的音频信号。在一个方面，可以经由音频采集/生成设备605(例如，麦克风)使用反馈环路来帮助分析和/或估计对抗噪声强度级别。

接收方602(例如，被标识为“Bob”的用户)可接收音频信号，并且可以理解由用户601传送的消息。对手603(例如，对抗收听者“Eve”)监听在用户601和接收方602之间传输和/或存储的消息，并且使用机器学习模型来分析音频信号。

访问传输的或存储的受对抗保护的音频信号的对手603试图应用自动分析操作，以试图对窃取的受对抗保护的音频信号进行分类。然而，施加到被对抗保护的音频信号的对抗噪声干扰自动分析和/或降低自动分析的成功率，从而保存和保护由用户601传送的音频信号。

现在转向图7，描绘了用于由处理器在音频信号中提供对抗保护的附加方法700，其中可以实现所图示的实施例的各个方面。功能700可以被实现为作为机器上的指令执行的方法，其中指令被包括在至少一个计算机可读介质或一个非暂时性机器可读存储介质上。功能700可以在框702中开始。

如在框704中，可以通过使用对抗噪声在一个或多个音频设备上提供安全防御，以对抗音频信号的自动音频分析。功能700可在框706中结束。

现在转向图8，描绘了用于由处理器在音频信号中提供对抗保护的附加方法800，其中可以实现所图示的实施例的各个方面。功能800可以被实现为作为机器上的指令执行的方法，其中指令被包括在至少一个计算机可读介质或一个非暂时性机器可读存储介质上。功能800可以在框802中开始。

可以选择对抗噪声，如在框804中的。如在框806中，可以将对抗噪声的对抗噪声强度的级别应用于音频信号。如在框808中，可以利用对抗噪声来修改音频信号。功能800可以在框810中结束。

在一个方面，结合图7或8的至少一个框和/或作为其一部分，方法700和/或800的操作可包括以下各项中的每一者。方法700和/或800的操作可以将对抗噪声应用于数字音频信号、模拟音频信号或其组合，和/或确定或选择对抗噪声的类型以在通信中的数字音频信号、模拟音频信号或其组合上实现。

方法700和/或800的操作可以使用机器学习操作来分析音频信号，其中，从用户或从位于音频数据库中的记录消息实时地传送和发送音频信号。

方法700和/或800的操作可以经由反馈环路操作来估计对抗噪声的理论安全防御强度，和/或估计对抗噪声的实际安全防御强度。方法700和/或800的操作可以调整对抗噪声的安全防御强度的程度。

本发明可以是***、方法和/或计算机程序产品。计算机程序产品可以包括其上具有计算机可读程序指令的计算机可读存储介质(或多个介质)，所述计算机可读程序指令用于使处理器执行本发明的各方面。

计算机可读存储介质可以是能够保留和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述的任何合适的组合。计算机可读存储介质的更具体示例的非穷举列表包括以下：便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、诸如上面记录有指令的打孔卡或凹槽中的凸起结构的机械编码装置，以及上述的任何适当组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤线缆的光脉冲)、或通过线路传输的电信号。

本文描述的计算机可读程序指令可以从计算机可读存储介质下载到相应的计算/处理设备，或者经由网络(例如因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器相关指令、微代码、固件指令、状态设置数据，或者以一种或多种编程语言的任意组合编写的源代码或目标代码，该编程语言包括面向对象的编程语言(例如Smalltalk、C++等)以及常规的过程式编程语言(例如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全在用户的计算机上执行，部分在用户的计算机上执行，作为独立的软件包执行，部分在用户的计算机上并且部分在远程计算机上执行，或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可以通过任何类型的网络连接到用户的计算机，包括局域网(LAN)或广域网(WAN)，或者可以连接到外部计算机(例如，使用因特网服务提供商通过因特网)。在一些实施例中，为了执行本发明的各方面，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化。

在此参考根据本发明实施例的方法、装置(***)和计算机程序产品的流程图和/或框图描述本发明的各方面。将理解，流程图和/或框图的每个框以及流程图和/或框图中的框的组合可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图的一个或多个框中指定的功能/动作的装置。这些计算机可读程序指令还可以存储在计算机可读存储介质中，其可以引导计算机、可编程数据处理装置和/或其他设备以特定方式工作，使得其中存储有指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图的一个或多个框中指定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上，以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图示出了根据本发明的各种实施例的***、方法和计算机程序产品的可能实现的架构、功能和操作。在这点上，流程图或框图中的每个框可以表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些替代实施方案中，框中所提及的功能可不按图中所提及的次序发生。例如，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行，这取决于所涉及的功能。还将注意，框图和/或流程图的每个框以及框图和/或流程图中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的专用的基于硬件的***来实现。

Claims

1.一种由一个或多个处理器用于在音频信号中提供对抗保护的方法，包括：

针对对音频信号的自动音频分析，通过使用对抗噪声在一个或多个音频设备上提供安全防御。

2.根据权利要求1所述的方法，还包括将所述对抗噪声应用于数字音频信号、模拟音频信号或其组合。

3.根据权利要求1所述的方法，还包括确定或选择所述对抗噪声的类型以在通信中的数字音频信号、模拟音频信号或其组合上实现。

4.根据权利要求1所述的方法，还包括使用机器学习操作来分析所述音频信号，其中，所述音频信号是从用户或从位于音频数据库中的记录的消息实时地通信和发送的。

5.根据权利要求1所述的方法，还包括估计所述对抗噪声的理论安全防御强度。

6.根据权利要求1所述的方法，还包括经由反馈回路操作来估计所述对抗噪声的实际安全防御强度。

7.根据权利要求1所述的方法，还包括调整所述对抗噪声的安全防御强度的程度。

8.一种用于在音频信号中提供对抗保护的***，包括：

具有可执行指令的一个或多个计算机，所述可执行指令在被执行时使所述***：

9.根据权利要求8所述的***，其中，所述可执行指令将所述对抗噪声应用于数字音频信号、模拟音频信号或其组合。

10.根据权利要求8所述的***，其中，所述可执行指令确定或选择所述对抗噪声的类型以在通信中的数字音频信号、模拟音频信号或其组合上实现。

11.根据权利要求8所述的***，其中，所述可执行指令使用机器学习操作来分析所述音频信号，其中，所述音频信号从用户或从位于音频数据库中的记录的消息实时地通信和发送。

12.根据权利要求8所述的***，其中，所述可执行指令估计所述对抗噪声的理论安全防御强度。

13.根据权利要求8所述的***，其中，所述可执行指令经由反馈回路操作来估计所述对抗噪声的实际安全防御强度。

14.根据权利要求8所述的***，其中，所述可执行指令调整所述对抗噪声的安全防御强度的程度。

15.一种计算机程序产品，用于通过一个或多个处理器在音频信号中提供对抗保护，所述计算机程序产品包括具有存储在其中的计算机可读程序代码部分的非暂时性计算机可读存储介质，所述计算机可读程序代码部分包括：

可执行部分，其针对对音频信号的自动音频分析，通过使用对抗噪声来提供一个或多个音频设备上的的安全防御。

16.根据权利要求15所述的计算机程序产品，还包括将所述对抗噪声应用于数字音频信号、模拟音频信号或其组合的可执行部分。

17.根据权利要求15所述的计算机程序产品，还包括确定或选择所述对抗噪声的类型以在通信中的数字音频信号、模拟音频信号或其组合上实现的可执行部分。

18.根据权利要求15所述的计算机程序产品，还包括使用机器学习操作来分析所述音频信号的可执行部分，其中，所述音频信号从用户或从位于音频数据库中的记录的消息被实时地通信和发送。

19.根据权利要求15所述的计算机程序产品，还包括可执行部分，所述可执行部分：

估计所述对抗噪声的理论安全防御强度；或

经由反馈回路操作来估计所述对抗噪声的实际安全防御强度。

20.根据权利要求15所述的计算机程序产品，还包括调整所述对抗噪声的安全防御强度的程度的可执行部分。