CN115136581A

CN115136581A - 多媒体内容

Info

Publication number: CN115136581A
Application number: CN202180014562.XA
Authority: CN
Inventors: J·A·利帕南; L·J·拉克索南; M·T·维勒莫; A·J·勒蒂涅米
Original assignee: Nokia Technologies Oy
Current assignee: Nokia Technologies Oy
Priority date: 2020-02-14
Filing date: 2021-02-02
Publication date: 2022-09-30
Also published as: US20230074589A1; JP2023513318A; EP3866457A1; US11805312B2; WO2021160465A1

Abstract

一种装置，包括用于以下操作的部件：标识声源的音频焦点衰减；确定经受音频焦点衰减的声源与对应视觉对象之间的对应关系；以及修改图像的捕获以至少部分排除和/或修改与经受音频焦点衰减的声源相对应的视觉对象。

Description

多媒体内容

技术领域

本公开的实施例涉及多媒体内容。特别是捕获和/或处理多媒体内容。

背景技术

非专业人士经常在临时的计划外的场景中记录多媒体内容。例如，带有声音的视频可以很容易地记录在便携式相机、支持相机的移动电话或者体育活动相机上。

希望提高所捕获或者记录的多媒体内容的质量。

发明内容

根据各种但不一定是所有实施例，提供了一种装置，该装置包括用于以下操作的部件：

标识声源的音频焦点衰减；

确定经受音频焦点衰减的声源与对应视觉对象之间的对应关系；以及

修改图像的捕获，以至少部分排除和/或修改与经受音频焦点衰减的声源相对应的视觉对象。

在一些但不一定是所有示例中，该装置包括用于以下操作的部件：

确定经受音频焦点衰减的声源的位置；

确定与经受音频焦点衰减的声源的位置相关联的视觉对象；以及

修改所捕获的图像，以排除所确定的视觉对象。

在一些但不一定是所有示例中，用于确定经受音频焦点衰减的声源的位置的部件包括用于以下操作的部件：

确定候选声源具有超过阈值的能量或者水平；

确定目标声源与候选声源之间缺乏足够相关性；以及

如果候选声源具有超过阈值的能量或者水平、并且与目标声源缺乏足够相关性，则获取候选声源的位置。

取而代之，目标声源可以是用户选择的声源。

例如，定位可以经由用户选择来进行。在一些但不一定是所有示例中，目标声源是用户选择的，该装置包括用于在取景器显示器中对与目标声源相关联的视觉对象的用户选择的部件。

在一些但不一定是所有示例中，候选声源能够位于多个位置中的任何一个位置处，例如离散位置。

在一些但不一定是所有示例中，候选声源能够使用空间音频来定位。

在一些但不一定是所有示例中，用于确定与经受音频焦点衰减的声源的位置相关联的视觉对象的部件包括用于对象识别的部件。

在一些但不一定是所有示例中，用于修改图像捕获的部件被配置为对所捕获的图像重新成帧，以排除与声源相关联的视觉对象。

在一些但不一定是所有示例中，用于修改图像捕获的部件被配置为改变应用于在图像传感器阵列处检测到的图像的裁剪，其中所应用的裁剪确定所述所捕获的图像。

在一些但不一定是所有示例中，用于修改图像捕获的部件被配置为改变应用于在图像传感器阵列处检测到的图像的裁剪的位置。

在一些但不一定是所有示例中，用于修改图像捕获的部件被配置为维持应用于在图像传感器阵列处检测到的图像的裁剪的大小。

在一些但不一定是所有示例中，用于修改图像捕获的部件被配置为排除与经受音频焦点衰减的声源相关联的所有视觉对象。

在一些但不一定在所有示例中，用于修改图像捕获的部件被配置为排除与经受音频焦点衰减的声源相关联的所选择的视觉对象，其中视觉对象的选择取决于以下中的一项或多项：

使所捕获的图像内的、与经受音频焦点衰减的声源相关联的视觉对象的数目最小化；

使从所捕获的图像中排除的、与经受音频焦点衰减的声源相关联的视觉对象的数目最大化；

使经受音频焦点衰减、并且与所捕获的图像内的视觉对象相关联的声源的总能量最小化；

使经受音频焦点衰减、并且与从所捕获的图像中排除的视觉对象相关联的声源的总能量最大化；

与经受音频焦点衰减的声源相关联的视觉对象的对象识别；

与经受音频焦点衰减的声源相关联的视觉对象到该装置的接近度；以及

使由与经受音频焦点衰减的声源相关联的视觉对象占据的所捕获的图像的面积最小化。

根据各种但不一定是所有实施例，提供了一种计算机程序，该计算机程序当在计算机上运行时执行：

标识声源的音频焦点衰减；

根据各种但不一定是所有实施例，提供了一种方法，该方法包括：

标识声源的音频焦点衰减；

根据各种但不一定是所有实施例，提供了如所附权利要求中要求保护的示例。

定义

声源的音频焦点衰减是对该声源应用相对衰减。声源的水平降低。

声源的音频焦点衰减是对该声源应用相对增益。声源的水平增加。

多个声源中的一个(或多个)声源的音频焦点衰减必然导致多个声源中的其他声源的音频焦点增益，

多个声源中的一个(或多个)声源的音频焦点增益必然导致多个声源中的其他声源的音频焦点衰减，

附图说明

现在将参考附图描述一些示例实施例，在附图中：

图1A和图1B示出了本文中描述的主题的示例实施例；

图2A示出了本文中所描述的主题的另一示例实施例；

图2B示出了本文中所描述的主题的另一示例实施例；

图2C示出了本文中所描述的主题的另一示例实施例；

图3示出了本文中所描述的主题的另一示例实施例；

图4A和图4B示出了本文中所描述的主题的另一示例实施例；

图5A和图5B示出了本文中所描述的主题的另一示例实施例；

图6A示出了本文中所描述的主题的另一示例实施例；

图6B示出了本文中所描述的主题的另一示例实施例；

图6C示出了本文中所描述的主题的另一示例实施例。

具体实施方式

图1A和图1B示出了包括多个声源12的声音空间10的示例。位于不同位置的声源12用不同下标标记。图1A和图1B示出了相对于原点14处于不同位置的三个声源12₁、12₂、12₃。

诸如麦克风等音频捕获设备可以放置在原点14处或者附近。音频捕获设备可以例如布置为阵列，例如一维、二维或者三维阵列。

多个音频捕获设备的使用使得一个声源12相对于另一声源12选择性相对衰减。

在该示例中，存在多个声源12，至少包括目标声源12₃和一个或多个其他非目标声源12₁、12₂。

音频捕获装置被配置为向目标声源12₃应用相对增益并且向一个或多个其他非目标声源12₁、12₂应用相对衰减，以为目标声源12₃创建音频焦点16。一个或多个非目标声源12₂、12₂存在焦点衰减。

目标声源12₃位于相对于原点14的第一位置处，并且一个或多个非目标声源12₁、12₂位于距原点14的第二位置处，第二位置不同于第一位置。也就是说，目标声源12₃在空间上不同于一个或多个非目标声源12₁、12₂。

音频捕获装置可以被配置为使用波束成形来隔离来自第一位置的声音。波束成形使用来自不同音频捕获设备的音频信号的加权线性组合。音频信号的加权线性组合可以使用硬件或者软件或者硬件和软件的组合来执行。

在一些但不一定是所有示例中，线性组合的权重是自适应的。例如，在一些示例中，它们可以通过在将响应保持在朝向第一位置的目标方向上的约束下使干扰声源(例如，非目标声源12₁、12₂)的能量最小化来获取。这是最小方差无失真响应。

在一些但不一定是所有示例中，权重是频率相关的。

例如，波束成形器可以用于处理来自离散麦克风阵列的信号并且提供传播声场的空间滤波。空间滤波分离具有重叠频率内容但源自不同空间位置的信号。来自目标位置(方向角)的目标信号不会被衰减，但来自其他位置(方向角)的信号会被衰减。空间滤波器为非目标信号的方向在增益中创建深度零点。因此，波束成形器可以作为用于来自目标方向16的信号的空间带通滤波器和作为用于来自非目标方向的信号的带阻滤波器进行操作。

来自不同麦克风的音频信号的加权线性组合可以表示为y(t)＝W^Hx(t)。对于到达方向为θ的复平面波，y(t)＝exp(jωt)。r(θ，ω)其中波束成形器响应r(θ，ω)＝W^Hd(θ，ω)；d(θ，ω)是转向向量。

W^H被选择使得y(t)包含来自目标声源12₃(目标方向上的音频焦点16)的显著更大(例如，最大)贡献和来自非目标声源12₁、12₂(非目标方向)的显著更小(例如，最小)贡献。

它可以跨单个频带应用，也可以跨不同频带单独应用。

权重w^H可以通过受响应约束(诸如一个方向的目标增益和另一方向的目标衰减(例如，强制零增益))使成本函数最小化来获取，例如，使输出方差最小化(目标)。这创建了最小方差无失真响应(MVDR)波束成形器，该波束成形器保留了目标信号(例如，来自目标声源12₃)，同时使来自非目标方向(例如，来自非目标声源12₁、12₂)的非目标信号对输出的贡献最小化。

权重和空间滤波可以实时改变。例如，转向向量d(θ，ω)可以实时改变。例如，权重w^H可以实时调节。

图1A和图1B还示出了包括一个或多个视觉对象22的视觉空间20的示例。位于不同位置的视觉对象22用不同下标标记。图1A和图1B示出了相对于原点14处于不同位置的三个视觉对象22₁、22₂、22₃。

在该示例但不一定是所有示例中，每个声源12₁、12₂、12₃具有对应视觉对象22₁、22₂、22₃。

在该示例中，声音空间10和视觉空间20对应。声源12₁、12₂、12₃在声音空间10中的位置与视觉对象22₁、22₂、22₃在视觉空间20中的位置重叠。

一个或多个图像捕获设备(诸如相机)可以放置在原点14处或者附近。图像捕获设备可以例如被布置为捕获由视场26₁定义的视觉场景。图像捕获设备可以用于示例是捕获视频的摄像机，该视频包括由视场26₁定义的视觉场景序列。

在该示例中，视觉对象22₁、22₂对应于衰减声源12₁、12₂，并且视觉对象22₃对应于非衰减声源12₃。衰减声源例如可以是静音声源。

从图1B可以看出，与衰减声源12₁相对应的视觉对象22₁不在视场26₁内，并且因此不在由原点14处的相机捕获的视觉场景内。

从图1B可以看出，与非衰减声源12₃相对应的视觉对象22₃在视场26₁内，并且因此在由原点14处的相机捕获的视觉场景内。

从图1B可以看出，与衰减声源12₂相对应的视觉对象22₂在视场26₁内，并且因此在由原点14处的相机捕获的视觉场景内。

在该示例中，视场26₁内与衰减声源12₂相对应的视觉对象22₂可以是对与非衰减声源12₃相对应的视觉对象22₃的干扰。如下情况下尤其如此，即，当与视场26₁内的衰减声源12₂相对应的视觉对象22₂比视觉对象22₃占据视觉场景的更大部分时；或者当视觉对象22₃是背景对象时，视觉对象22₂是前景对象；或者视觉对象22₂是动态视觉对象(移动位置和/或改变的视觉对象)。

图2A示出了视觉场景的示例。视觉对象22₂对应于衰减声源12₂。视觉对象22₂及其对应衰减声源12₂的位置在视场26₁内。视觉对象22₂可以在所捕获的图像中看到。视觉对象22₃对应于非衰减声源12₃。视觉对象22₃及其对应非衰减声源12₃的位置在视场26₁内。视觉对象22₃可以在所捕获的图像中看到。从非衰减声源12₃捕获的音频在听觉上最为突出，而较大尺寸的前景视觉对象22₂在视觉上最为突出。较大尺寸的前景视觉对象22₂在视觉上从与非衰减声源12₃相对应的视觉对象22₃分散了注意力。

以下方法100(图3)减少了注意力分散。

方法100包括：

在框102处，标识声源12₂的音频焦点衰减；

步骤104，确定经受音频焦点衰减的声源12₂与对应视觉对象22₂之间的对应关系；以及

在框106处，修改图像的捕获，以至少部分排除和/或修改与经受音频焦点衰减的声源12₂相对应的视觉对象22₂。

在一些但不一定所有示例中，在框102处，该方法可以包括自动标识声源12₂的音频焦点衰减。在一些但不一定所有示例中，在框104处，该方法可以包括自动确定经受音频焦点衰减的声源12₂与对应视觉对象22₂之间的对应关系。在一些但不一定是所有示例中，在框106处，该方法可以包括自动修改图像的捕获，以至少部分排除和/或修改与经受音频焦点衰减的声源12₂相对应的视觉对象22₂。

该方法减少了对与经受音频焦点衰减的声源12₂相对应的视觉对象22₂的捕获图像的视觉影响。

方法100的结果的示例在图2B中示出。该方法修改图像的捕获，以至少部分修改与经受音频焦点衰减的声源12₂相对应的视觉对象22₂。未修改的视觉对象22₂在图2A中示出并且已修改的视觉对象22₂'在图2B中示出。在该示例中，未修改的视觉对象22₂(不是视觉对象22₃)经受例如50个像素的模糊内核的影响，以产生已修改的视觉对象22₂'。实际上，与经受音频焦点衰减的声源12₂相对应的视觉对象22₂在视觉上被衰减，例如通过模糊、着色等。

方法100的结果的示例在图2C中示出。该方法修改图像的捕获，以对视觉场景重新成帧并且至少部分排除与经受音频焦点衰减的声源12₂相对应的视觉对象22₂。未修改的视觉对象22₂在图2A中示出并且至少部分排除的已修改的视觉对象22₂'在图2C中示出。在该示例中，未修改的视觉对象22₂(不是视觉对象22₃)至少部分从捕获图像中被排除。这可以例如通过对通过平移或者跟踪和/或缩放而捕获的图像有效地重新成帧来实现。这可以通过改变视场26的大小和/或方向来实现。

图4A类似于图1B。其示出了与非衰减声源12₃相对应的视觉对象22₃在视场26₁内，并且因此在由原点14处的相机捕获的视觉场景内，并且与衰减声源12₂相对应的视觉对象22₂在视场26₁内，并且因此在由原点14处的相机捕获的视觉场景内。

图4B类似于图1B，然而，视场26₁已经被修改为新的视场，即视场26₁'。这对除了与衰减声源12₂相对应的视觉对象22₂的全部或者部分之外的其他所捕获的图像重新成帧。

因此，图4B示出了与非衰减声源12₃相对应的视觉对象22₃在新的视场26₁'内并且因此在由原点14处的相机所捕获的视觉场景内，并且与衰减声源12₂相对应的视觉对象22₂至少部分从新的视场26₁'中被排除并且因此不再在由原点14处的相机所捕获的视觉场景内。

在一些示例中，重新成帧自动发生。在其他示例中，用户被给予用于引起重新成帧的用户可选择选项。

在该示例中，重新成帧维持相同分辨率，并且实际上是平移或跟踪。在其他示例中，重新成帧另外地或备选地改变分辨率并且实际上是缩放。

在图4A和图4B的示例中，示出了第二较大视场26₂。大视场26₂示出了由相机的图像传感器成像的视觉场景。较小视场26₁、26₁'示出了由图像传感器捕获的视觉场景。较小视场26₁、26₁'是第二较大视场26₂的子部分。图4B所示的成帧是通过裁剪大视场图像以实现较小视场图像来实现的。裁剪可以在图4A与图4B之间改变大小和/或位置。裁剪可以在图4A与图4B之间保持相同大小。在该示例中，修改图像的捕获被配置为改变应用于在图像传感器阵列处检测到的图像的裁剪，其中所应用的裁剪确定所捕获的图像。裁剪定义了传感器阵列的感测器的连续子集。应用于在图像传感器阵列处检测到的图像的裁剪的位置被改变。应用于在图像传感器阵列处检测到的图像的裁剪的尺寸可以维持或者改变。重新裁剪的效果在图5A和图5B中示出。图5A示出了在图像传感器阵列(视场26₂)处检测到的图像和当前应用的裁剪(视场26₁，其包括与衰减声源12₂相对应的视觉对象22₂)。图5B示出了由新应用于在图像传感器阵列(视场26₂)处检测到的图像的新的裁剪(视场26₁，其不包括与衰减声源12₂相对应的视觉对象22₂)定义的所捕获的图像。在该示例但不一定是所有示例中，所捕获的图像保留与衰减声源12₂相对应的排除的视觉对象22₂的一部分(已修改的视觉对象22₂')。

方法100(图3)包括：在框102处，标识声源12₂的音频焦点衰减。例如，该框可以包括：

获取音频焦点方向，例如波束成形转向向量d(θ，ω)；

获取声源方向；

确定被衰减(例如，不在音频焦点方向上)的一个或多个声源。

方法100包括：在框104处，确定经受音频焦点衰减的声源12与对应视觉对象22之间的对应关系。

该框104可以包括：

确定经受音频焦点衰减的声源12的位置；

确定与经受音频焦点衰减的声源12的位置相关联的视觉对象22；以及

修改所捕获的图像以排除或者修改所确定的视觉对象22。

如果视觉对象22在经受音频焦点衰减的声源12的位置处或者附近，例如，如果视觉对象22(或者视觉对象22的任何部分)在该位置的阈值距离内，则视觉对象22与该位置相关联。

在一些但不一定是所有示例中，在框104之前，捕获图像。然后在框106修改该所捕获的图像。在一些但不一定是所有示例中，处理所捕获的图像以标识对应视觉对象22₂。

计算机视觉技术可以用于标识与位置相关联的视觉对象22的周边，或者以其他方式识别或者表征与该位置相关联的视觉对象22。计算机视觉技术可以例如包括边缘或者角检测、兴趣点检测和特征检测。

例如，位置可以是一维方向角(例如，方位角

)、二维方向角(例如，方位角

和极角θ)、二维坐标(例如，笛卡尔坐标(x，y)或者极坐标(r，φ))、或者三维坐标(例如，笛卡尔坐标(x，y，z)或者圆柱极坐标(r，φ，z)或者球极坐标(r，φ，θ))。

修改所捕获的图像，以修改所确定的视觉对象22可以例如包括处理所捕获的图像，例如参考图2B所述。

例如，修改所捕获的图像，以修改所确定的视觉对象22可以包括重新成帧或者裁剪所捕获图像，例如参考图2C或者图4A、图4B、图5A、图5B所述。

由于候选声源12具有超过阈值的能量或者水平，并且目标声源12₃与候选声源12之间缺乏足够相关性(相关性得分低于阈值)，候选声源(其可以是也可以不是经受音频焦点衰减的声源12)可以被标识为经受音频焦点衰减的声源12。

确定经受音频焦点衰减的声源12的位置可以包括：

确定候选声源12具有超过阈值的能量或者水平；

确定目标声源12₃与候选声源12之间缺乏足够相关性；以及

如果候选声源12具有超过阈值的能量或者水平，并且与目标声源12₃缺乏足够相关性，则获取候选声源12的位置。

阈值可以为零或者可以是非零阈值。

在一些示例中，候选声源12可以位于例如由波束成形引导向量d(θ，ω)的量化值定义的多个离散位置中的任何一个离散位置处。

候选声源12能够使用空间音频来定位，例如使用如上所述的波束成形器；或者来自与候选声音对象相关联的元数据。

在一些但不一定是所有示例中，目标声源12₃可以是用户选择的。该装置可以例如包括用于在取景器显示器中进行用户选择的部件。

图6A示出了装置50的示例。

装置50是音频捕获装置并且包括用于输入音频的音频输入电路***60。音频输入电路***包括多个音频捕获设备62。在该示例中，多个音频捕获设备62是麦克风。

麦克风在空间上分布，以形成离散麦克风阵列。例如，该阵列可以是1D、2D或3D。

装置50为图像捕获装置，并且包括图像捕获设备70。图像捕获设备70可以是相机或图像传感器。

例如，它可以是摄像机72。

控制器80被配置为接收来自音频输入电路***60的音频数据和来自图像捕获设备70的视觉数据。数据可以是原始的，或者一些预处理可以在音频输入电路***60和/或图像捕获设备70处发生。

在该示例中，装置50是波束成形器装置。它被配置为对来自音频输入电路***60的音频数据进行空间滤波，以提供如前所述的音频焦点。音频焦点衰减来自不需要的方向的声音。

控制器80还被配置为：

标识声源12的音频焦点衰减；

确定经受音频焦点衰减的声源12与对应视觉对象22之间的对应关系；以及

修改图像的捕获，以至少部分排除和/或修改与经受音频焦点衰减的声源12相对应的视觉对象22。

装置50是渲染装置并且包括用于将图像和音频同时渲染为多媒体内容的用户输出电路***40。在该示例中，用户输出电路***40包括音频输出电路***42，音频输出电路***42可以包括一个或多个扬声器、耳机、或者到扬声器或者耳机的接口。在该示例中，用户输出电路***40包括图像输出电路***，该图像输出电路***可以包括例如一个或多个显示器44。

装置50可以被配置为在显示器44上显示在与经受音频焦点衰减的声源相对应的视觉对象的排除/修改之前的图像。

装置50可以被配置为在显示器44上显示在与经受音频焦点衰减的声源相对应的视觉对象的排除/修改之后的图像。

装置50可以被配置为在显示器44上显示至少部分排除和/或修改与经受音频焦点衰减的声源相对应的视觉对象的捕获图像。

在一些示例中，装置50可以包括被配置为使得用户能够向装置50提供控制命令的用户输入电路***90。在一些但不一定是所有示例中，用户输入电路***90可以与显示器44集成以创建触摸屏显示器。在一些但不一定是所有示例中，显示器44或者触摸屏显示器为摄像机72提供相机取景器。用户输入电路***90可以使得用户能够标识声源12和/或与声源12相关联的视觉对象22。

装置50可以是便携式或手持式设备。例如，它可以是相机，也可以是具有相机功能的移动电话。

图6B示出了控制器80的示例。控制器80的实现可以作为控制器电路***。控制器80可以单独以硬件实现，具有仅包括固件的软件的某些方面，或者可以是硬件和软件(包括固件)的组合。

如图6B所示，控制器80可以使用启用硬件功能的指令来实现，例如，通过使用通用或者专用处理器82中可以存储在计算机可读存储介质(磁盘、存储器等)上以由这样的处理器82执行的计算机程序86的可执行指令。

处理器82被配置为从存储器84读取和向存储器84写入。处理器82还可以包括处理器82经由其输出数据和/或命令的输出接口以及经由其向处理器82输入数据和/或命令的输入接口。

存储器84存储计算机程序86，该计算机程序86包括计算机程序指令(计算机程序代码)，该计算机程序指令(计算机程序代码)在被加载到处理器82中时控制装置50的操作。计算机程序86的计算机程序指令提供使得该装置能够执行图3所示的方法的逻辑和例程。通过读取存储器84，处理器82能够加载和执行计算机程序86。

装置50因此包括：

至少一个处理器82；以及

包括计算机程序代码的至少一个存储器84，

至少一个存储器84和计算机程序代码被配置为与至少一个处理器82一起引起装置50至少执行：

标识声源的音频焦点衰减；

修改图像的捕获以至少部分排除和/或修改与经受音频焦点衰减的声源相对应的视觉对象。

如图6B所示，计算机程序86可以经由任何合适的传递机制88到达装置50。例如，传递机制88可以是包括或者有形地体现计算机程序86的机器可读介质、计算机可读介质、非暂态计算机可读存储介质、计算机程序产品、存储器设备、记录介质(诸如光盘只读存储器(CD-ROM)或者数字多功能光盘(DVD)或者固态存储器)、制品。传递机制可以是被配置为可靠地传输计算机程序86的信号。装置50可以传播或者传输计算机程序86作为计算机数据信号。

计算机程序指令用于引起装置至少执行以下操作或者用于执行至少以下操作：

标识声源的音频焦点衰减；

计算机程序指令可以被包括在计算机程序、非暂态计算机可读介质、计算机程序产品、机器可读介质中。在一些但不一定是所有示例中，计算机程序指令可以分布在一个以上的计算机程序之上。

尽管存储器84被示出为单个组件/电路***，但它可以被实现为一个或多个单独的组件/电路***，其中的一些或全部组件/电路***可以是集成的/可移除的和/或可以提供永久/半永久/动态/高速缓存的存储。

尽管处理器82被示出为单个组件/电路***，但它可以被实现为一个或多个单独的组件/电路***，其中的一些或全部组件/电路***可以是集成的/可移除的。处理器82可以是单核或多核处理器。

上述示例可以扩展到存在多个音频焦点方向的情况。

上述示例可以扩展到存在多个声源经受音频焦点衰减并且对应于候选捕获图像中的视觉对象的情况。

针对这些声源中的每个执行方法100。

该方法可以包括：

在框102处，标识多个声源12的音频焦点衰减；

在框104处，确定经受音频焦点衰减的多个声源12与要捕获的图像中存在的相应多个视觉对象22之间的对应关系；以及

在框106处，修改图像的捕获以至少部分排除和/或修改与经受音频焦点衰减的多个声源12相对应的相应多个视觉对象22中的至少一些。

在一些但不一定是所有示例中，该方法完全或部分地排除和/或修改与经受音频焦点衰减的声源12相关联的所有视觉对象22，否则这些视觉对象22会在所捕获的图像内。结果，已经衰减的声源12是不可见的。

在一些但不一定是所有示例中，修改图像的捕获被配置为排除与经受音频焦点衰减的声源12相关联的所选择的视觉对象22，其中视觉对象22的选择取决于以下中的一项或多项：

使所捕获的图像内与经受音频焦点衰减的声源12相关联的视觉对象22的数目最小化；

使从所捕获的图像中排除的与经受音频焦点衰减的声源12相关联的视觉对象22的数目最大化；

使经受音频焦点衰减并且与所捕获的图像内的视觉对象22相关联的声源12的总能量最小化；

使经受音频焦点衰减并且与从所捕获的图像中排除的视觉对象22相关联的声源12的总能量最大化；

与经受音频焦点衰减的声源12相关联的视觉对象22的对象识别；

与经受音频焦点衰减的声源12相关联的视觉对象22到装置50的接近度；

与经受音频焦点衰减的声源相关联的视觉对象22的移动或变化；

使由与经受音频焦点衰减的声源12相关联的视觉对象22占据的所捕获的图像的面积最小化。

对“计算机可读存储介质”、“计算机程序产品”、“有形地体现的计算机程序”等或“控制器”、“计算机”、“处理器”等的引用应当理解为不仅涵盖具有不同架构(诸如单/多处理器架构和顺序(Von Neumann)/并行架构)的计算机，也涵盖专用电路，诸如现场可编程门阵列(FPGA)、专用电路(ASIC)、信号处理设备和其他处理电路***。对计算机程序、指令、代码等的引用应当理解为涵盖可编程处理器或者固件的软件，例如硬件设备的可编程内容，无论是处理器的指令，还是固定功能设备、门阵列或者可编程逻辑器件等的配置设置。

如在本申请中使用的，术语“电路***”可以是指以下中的一项或多项或全部：

(a)纯硬件电路***实现(诸如仅在模拟和/或数字电路***中的实现)，以及

(b)硬件电路和软件的组合，诸如(如适用)：

(i)(多个)模拟和/或数字硬件电路与软件/固件的组合，以及

(ii)具有软件的(多个)硬件处理器(包括(多个)数字信号处理器)、软件和(多个)存储器的任何部分，其一起工作以引起装置(诸如移动电话或服务器)执行各种功能，以及

(c)(多个)硬件电路和/或(多个)处理器，诸如(多个)微处理器或(多个)微处理器的一部分，其需要软件(例如，固件)进行操作，但软件可能在操作不需要它的情况下不存在。

该电路***的定义适用于该术语在本申请中的所有使用，包括在任何权利要求中。作为另一示例，如在本申请中使用的，术语电路***还涵盖仅硬件电路或处理器及其(或它们的)随附软件和/或固件的实现。例如，如果适用于特定权利要求元素，术语电路***还涵盖用于移动设备的基带集成电路、或者服务器、蜂窝网络设备或其他计算或网络设备中的类似集成电路。

图3中所示的块可以表示方法中的步骤和/或计算机程序86中的代码段。对块的特定顺序的说明并不一定表示这些块具有所需要的或优选的顺序，并且块的顺序和布置可以改变。此外，可以省略一些块。

在已经描述了结构特征的情况下，结构特征可以被用于执行结构特征的一个或多个功能的部件代替，无论该功能或这些功能是否被明确或者隐含地描述。

在一些但不一定是所有示例中，装置50被配置为传送来自装置50的数据，在有或者没有在装置50处的存储器84中对数据的本地存储的情况下，并且在有或者没有由装置50处的电路***或处理器对数据的本地处理的情况下。

数据可以以已处理或者未处理的格式远程存储在一个或多个设备上。数据可以存储在云端。

数据可以在一个或多个设备处远程处理。数据可以在一个或多个设备处部分地在本地处理和部分地远程处理。

例如，数据可以经由诸如Wi-Fi或Bluetooth等短程无线电通信或者通过远程蜂窝无线电链路被无线地传送到远程设备。该装置可以包括通信接口，例如用于数据通信的无线电收发器。

装置50可以是形成更大的分布式网络的一部分的物联网的一部分。

数据的处理(无论是本地的还是远程的)可以用于健康监测、数据聚合、患者监测、生命体征监测或者其他目的。

数据的处理(无论是本地的还是远程的)可以涉及人工智能或者机器学习算法。例如，数据可以用作学习输入来训练机器学习网络，或者可以用作机器学习网络的查询输入，机器学习网络提供响应。机器学习网络可以例如使用线性回归、逻辑回归、向量支持机器或非循环机器学习网络，诸如单或者多隐藏层神经网络。

数据的处理(无论是本地的还是远程的)可以产生输出。该输出可以被传送到装置50，在该装置50中它可以产生对对象敏感的输出，诸如音频输出、视觉输出或者触觉输出。

数据的记录可以仅包括临时记录，或者可以包括永久记录，或者可以包括临时记录和永久记录两者。临时记录表示临时记录数据。这可以例如在感测或图像捕获期间发生，在动态存储器处发生，在诸如循环缓冲器、寄存器、高速缓存等缓冲器处发生。永久记录表示数据采用可寻址数据结构的形式，该可寻址数据结构从可寻址存储空间中可检索并且因此可以存储和检索直到删除或者覆盖，尽管可能会或者可能不会发生长期存储。与图像相关的术语“捕获”的使用涉及图像数据的临时记录。与图像相关的术语“存储”的使用涉及图像数据的永久记录。

在上述示例中，捕获图像也可以是记录图像。

此处使用的“模块”是指不包括由最终制造商或者用户添加的某些零件/组件的单元或装置。

例如，装置50可以物理地分离成以下中的一个或多个：音频输入电路***60、图像捕获设备70、控制器80和用户输出电路***40，它们可以在时间和/或空间上分离。装置50的功能可以使用多个不同但功能上耦合的设备来实现。

上述示例可以用作以下各项的启用组件：

汽车***；电信***；电子***，包括消费电子产品；分布式计算***；媒体***，用于生成或渲染媒体内容，包括音频、视觉和视听内容以及混合、中介、虚拟和/或增强现实；个人***，包括个人健康***或者个人健身***；导航***；用户界面，也称为人机界面；网络，包括蜂窝、非蜂窝和光网络；自组织网络；互联网；物联网；虚拟化网络；以及相关的软件和服务。

本文档中使用的术语“包括”具有包括性而非排他性。即，对包括Y的X的任何引用表示X可以仅包括一个Y或可以包括多于一个Y。如果意在使用具有排他性含义的“包括”，则将在上下文中通过提及“仅包括一个……”或使用“由……组成”来明确说明。

在本描述中，参考了各种示例。与示例相关的特征或功能的描述表明这些特征或者功能存在于该示例中。在文本中对术语“示例”或者“例如”或者“可能”或者“可以”的使用表示，无论是否明确说明，这些特征或者功能至少存在于所描述的示例中，无论是否描述为示例，并且它们可以但不一定存在于某些或者所有其他示例中。因此，“示例”、“例如”、“可能”或“可以”是指一类示例中的特定实例。实例的属性可以是仅该实例的属性或者该类的属性或者包括类中的一些但不是所有实例的类的子类的属性。因此，隐含地公开了，参考一个示例而不是参考另一示例而描述的特征可以在可能的情况下在该另一示例中用作工作组合的一部分，但不一定必须用于该另一示例。

尽管在前面的段落中已经参考各种示例描述了实施例，但是应当理解，可以在不脱离权利要求的范围的情况下对给出的示例进行修改。

前面描述中描述的特征可以以除了上面明确描述的组合之外的其他组合使用。

尽管已经参考某些特征描述了功能，但是这些功能可以由其他特征执行，无论是否描述。

尽管已经参考某些实施例描述了特征，但是这些特征也可以存在于其他实施例中，无论是否描述。

本文件中使用的术语“一个(a)”或“该(the)”具有包括性而非排他性。即，对包括一个(a)/该(the)Y的X的任何引用表示X可以仅包括一个Y或可以包括多于一个Y，除非上下文清楚地表明相反。如果意在使用具有排他性含义的“一个(a)”或“该(the)”，则将在上下文中明确说明。在某些情况下，可以使用“至少一个”或“一个或多个”来强调包括性含义，但不应当将这些术语的缺失视为推断和排他性含义。

权利要求中的特征(或者特征组合)的存在是对该特征或者(特征组合)本身的引用、以及对实现基本相同技术效果的特征(等效特征)的引用。等效特征包括例如作为变体并且以基本相同的方式实现基本相同结果的特征。等效特征包括例如以基本相同的方式执行基本相同的功能以实现基本相同的结果的特征。

在本说明书中，参考了各种示例，使用形容词或者形容词短语来描述示例的特性。与示例相关的特性的这种描述表明该特性在一些示例中完全如所描述的那样存在并且在其他示例中基本上如所描述的那样存在。

尽管在前述说明书中力图提请注意被认为是重要的这些特征，但应当理解，申请人可以通过权利要求就上文提及和/或在附图中示出的任何可专利特征或者特征组合寻求保护，无论是否强调。

Claims

1.一种装置，包括用于以下操作的部件：

标识声源的音频焦点衰减；

确定经受音频焦点衰减的所述声源与对应视觉对象之间的对应关系；以及

修改图像的捕获，以至少部分排除和/或修改与经受音频焦点衰减的所述声源相对应的所述视觉对象。

2.根据权利要求1所述的装置，包括用于以下操作的部件：

确定经受音频焦点衰减的所述声源的位置；

确定与经受音频焦点衰减的所述声源的所述位置相关联的视觉对象；以及

修改所述所捕获的图像，以排除所确定的所述视觉对象。

3.根据权利要求2所述的装置，其中用于确定经受音频焦点衰减的所述声源的位置的所述部件包括用于以下操作的部件：

确定候选声源具有超过阈值的能量或者水平；

确定目标声源与所述候选声源之间缺乏足够相关性；以及

如果所述候选声源具有超过所述阈值的能量或者水平、并且与所述目标声源缺乏足够相关性，则获取所述候选声源的位置。

4.根据权利要求3所述的装置，其中所述候选声源能够位于多个位置中的任何一个位置处。

5.根据权利要求3或4所述的装置，其中所述候选声源能够使用空间音频来定位。

6.根据权利要求3、4或5所述的装置，其中所述目标声源是用户选择的，所述装置包括用于在取景器显示器中对与所述目标声源相关联的视觉对象的用户选择的部件。

7.根据权利要求2至6中任一项所述的装置，其中用于确定与经受音频焦点衰减的所述声源的所述位置相关联的视觉对象的所述部件包括用于对象识别的部件。

8.根据任一前述权利要求所述的装置，其中用于修改图像捕获的所述部件被配置为对所捕获的图像重新成帧，以排除与所述声源相关联的所述视觉对象。

9.根据任一前述权利要求所述的装置，其中用于修改图像捕获的所述部件被配置为改变应用于在图像传感器阵列处检测到的图像的裁剪，其中所应用的裁剪确定所述所捕获的图像。

10.根据权利要求9所述的装置，其中用于修改图像捕获的所述部件被配置为改变应用于在所述图像传感器阵列处检测到的所述图像的所述裁剪的位置。

11.根据权利要求10所述的装置，其中用于修改图像捕获的所述部件被配置为维持应用于在所述图像传感器阵列处检测到的所述图像的所述裁剪的大小。

12.根据任一前述权利要求所述的装置，其中用于修改图像捕获的所述部件被配置为排除与经受音频焦点衰减的声源相关联的所有视觉对象。

13.根据权利要求1至11中任一项所述的装置，其中用于修改图像捕获的所述部件被配置为排除与经受音频焦点衰减的声源相关联的所选择的视觉对象，其中所述视觉对象的所述选择取决于以下中的一项或多项：

使从所述所捕获的图像中排除的、与经受音频焦点衰减的声源相关联的视觉对象的数目最大化；

使经受音频焦点衰减、并且与所述所捕获的图像内的视觉对象相关联的声源的总能量最小化；

使经受音频焦点衰减、并且与从所述所捕获的图像中排除的视觉对象相关联的声源的总能量最大化；

与经受音频焦点衰减的声源相关联的视觉对象的对象识别；

与经受音频焦点衰减的声源相关联的视觉对象到所述装置的接近度；以及

使由与经受音频焦点衰减的声源相关联的视觉对象占据的所述捕获图像的面积最小化。

14.一种计算机程序，当在计算机上运行时执行：

标识声源的音频焦点衰减；

15.一种方法，包括：

标识声源的音频焦点衰减；