CN106954121A

CN106954121A - 自动全光视频重新聚焦的音频事件检测

Info

Publication number: CN106954121A
Application number: CN201610861719.3A
Authority: CN
Inventors: P.赫利尔; Q.K.N.董; V.阿利; P.莱恩德克
Original assignee: Thomson Licensing SAS
Current assignee: Thomson Licensing SAS
Priority date: 2015-09-29
Filing date: 2016-09-28
Publication date: 2017-07-14
Also published as: JP2017069949A; EP3151535A1; US10674057B2; KR20170038164A; US20170094143A1

Abstract

本公开涉及自动全光视频重新聚焦的音频事件检测。提供一种全光相机和相关联的方法。该相机具有用于生成数字图像的传感器阵列。图像具有相关联的音频信号。传感器阵列被配置为捕获与默认的空间坐标相关联的数字图像，并且还被配置为接收来自处理器的控制输入，以基于在新的空间坐标处的事件的发生，将焦点从默认的空间坐标改变到新的空间坐标。

Description

自动全光视频重新聚焦的音频事件检测

技术领域

本公开一般涉及记录和广播技术，并且具体涉及使用具有重新聚焦特征的全光相机的广播。

背景技术

本章节目的在于向读者介绍技术的各个方面，并且帮助更好地理解所展示的各个实施例。因此，应当理解，这些陈述从这个角度来阅读，而不作为对现有技术的承认。

具有简单布置的典型的3D图像捕获设备捕获右眼图像和左眼图像。因此，这样的方法需要两个相机来增加最终产品的总体大小和质量。为了克服同时使用两个相机的负担，已经开发了使用单个全光相机、通过视差或者“多视角图像”能力捕获多个图像的技术。全光相机通过使用布置在成像平面处的柱状透镜阵列前面的单个透镜来捕获图像。在全光相机中，主透镜孔径在每个透镜状元件后面成像。从不同的透镜所捕获的多个子图像生成最终图像，其中每个透镜反射其前面的场景。

对透镜状阵列后面的图像进行数字化以获得数字全光图像。因此，每个子图像由对进入主孔径的光射线的路径进行编码的局部像素阵列来表示。对于大孔径，每个子图像的各个像素将在子图像中被点亮。对于小孔径，仅一个像素将被点亮。

近年来，除了全光相机的发展之外，作为整体的数字相机和数字电影摄像机的性能和功能由于技术的提高而独立地被增强。例如，诸如电荷耦合器件阵列(CCD)或者互补金属氧化物半导体阵列(CMOS)这样的一些固态图像传感器的使用已经极大地增强了使用这些相机的质量和容易性。具体地，在图像传感器中使用的像素结构的大小已经由于半导体器件处理技术的快速发展而进一步减小，从而实现了更大的分辨率。与成像技术的增强相结合的全光相机的发展如今使更大数量的像素和驱动器能够一起集成在图像传感器中，由此提供令人惊讶的结果。这样的发展能够增强观看快感并且提高所展示的图像的分辨率。然而，现有技术仍然缺乏在创建沉浸式观看体验中充分利用这些改进并且因此在整体上提高娱乐价值的设备和技术。

发明内容

提供一种全光相机和相关联的方法。在一个实施例中，该相机具有用于生成数字图像的传感器阵列。图像具有相关联的音频信号。传感器阵列被配置为捕获与默认的空间坐标相关联的数字图像，并且还被配置为接收来自处理器的控制输入，以基于在新的空间坐标处的事件的发生，将焦点从默认的空间坐标改变到新的空间坐标。

在另一个实施例中，相关联的方法包括：经由处理器接收来自全光相机的多个数字图像；经由处理器接收与图像相关联的多个音频信号；以及由处理器确定事件的发生，并且将焦点从默认的空间坐标改变到与事件的发生相关联的新的空间坐标。

附图说明

参照附图、借助于下面决不是限制性的实施例和执行示例，将更好地理解和例示本发明，附图中：

图1图示示出具有多个麦克风的分布式全光成像***的框图；

图2图示根据图1的实施例的另一个框图，例示根据一个实施例的不同的所计算出的兴趣得分；

图3是示出如根据一个实施例的所估计的重新聚焦平面的框图；以及

图4是图示根据一个实施例的图像和相关联音频信号的传递的流程图。

在图1至图3中，所表示的方框仅仅是功能实体，其未必对应于物理上单独的实体。也就是说，它们能够开发为软件、硬件的形式或者实现在包括一个或多个处理器的一个或若干集成电路中。

在任何可能的情况下，在附图各处，将使用相同的标号来参考相同或相似的部件。

具体实施方式

应当理解，为了清楚地理解本发明，本发明的附图和描述已经简化以例示相关的元件，同时为了清楚的目的，消减了在典型的数字多媒体内容传递方法和***中存在的许多其他元件。然而，因为这样的元件在本领域中众所周知，所以这里不提供对这些元件的详细讨论。这里，本公开针对所有这样的变型和修改。

图1是示出全光成像***100的一个实施例的例示。能够提供诸如体育场地110这样的允许比赛或音乐会的广播的场地。在该实施例中，如在130处所示，使用一个或多个全光相机进行广播。如所示那样，还能够在跨越场地110的某些期望位置处选择性地布置多个麦克风120。一般地，广播通常涉及音频和/或视频内容经由一个或多个的通信介质(主要是电子通信介质)分发给到分散的观众。来自诸如场地110这样的大型场所的广播在历史上包括经由无线电和电视(TV)节目安排的分发。然而，近年来，广播能够包括由个人和其他实体在因特网上对图像进行流传输。

在许多背景下，广播针对大量观众(诸如在因特网上提供的那些)或者针对使用无线电和电视***的一般大众消费来进行。然而，如图1中所示的本***不仅针对更大量和更多的公众观众提供广播，还能够被提供使得其被认为适合于更有限的观看。后者能够包括各种场所，诸如百货商店、银行、公寓大楼、餐饮大厅或者甚至是以家庭或学校事件为中心的更小的场所。另外，使用的范围能够多种多样，从诱使购买产品到增强安全性。

在一个实施例中，***100包括一个或多个计算机和/或处理器150，其允许图像和音频的总体管理并且用于将图像和/或音频广播给一个或多个用户设备。在图1中，如所示那样，处理器150是全光相机130的一部分，但是在其他实施例中，处理器可以是单独的实体或者是一个或多个计算机和/或服务器的一部分。虽然图1图示单个场所***，但是在其他实施例中，可以存在多个场所，其可以位于离开彼此的远程设施内，并且每个具有至少一个全光相机。分开的场所之间的广播将由处理器或计算机监视和控制，并且能够与单个场所***类似地进行管理。

当场地很大或者事件跨越多个设施而分散时，提供沉浸式广播特别具有挑战性。沉浸式视频广播不需要总是在场地中记录以具有重新聚焦需求。能够用全光相机记录或广播的任何事件可能十分庞大并且具有与特别大的事件相似的某些需求。这样的事件的示例包含包括音乐厅、体育场所、诸如歌剧院、剧场、电影院等舞台式和剧场式场所的较大的场地，或者较小的场所，诸如会议厅和结婚礼堂、商店或者能够包括如先前所述的具有安全性需求的旅馆、银行和公寓大楼的多设施场所。

在单个设施场所中，如图1中所示，能够在围绕单个设施或场地的选择性的特殊位置处捕获视频和音频。在多设施场所(未示出)中，能够仍然完全保持这样，除了空间定位的相机和音频设备不是分散在单个位置处而是分散在多个位置处之外。在每种情况下，一个或多个计算机和/或处理器(150)能够控制多个设备之间的通信。在一个实施例中，全光相机(130)的使用将允许焦点从场地的一个部分转移到另一个部分。在多设施环境中，能够通过若干全光相机做到这一点。在这样的情况下，将存在默认的视图，并且然后将存在多个其他视图，其中场景由相同的全光相机同时捕获。将存在一个或多个预先选择的事件，其将所广播的事件的焦点从默认的场景移动到替换的场景。为了使得对该概念的理解更容易，能够参照图1的实施例提供示例。

这里，场所能够是诸如体育馆这样的单个设施场所，并且事件可以是由仅一个相机所捕获的足球比赛。默认的视图是运动场的视图，并且集中在足球比赛本身上。预先选择的事件具有来自麦克风的音频反馈。例如，在该示例中，体育馆或体育场地110被遍及场所(诸如沿着其周长)而在关键之处布置的N个麦克风120所围绕。在一个实施例中，声音的突然增加或者声音的突然增加超过某个阈值或分贝，将使广播焦点重新移动到该区域，使得将广播在那个特定麦克风的附近和直接周围的场景。在其他实施例中，预先选择的事件可以未必连接到音频反馈或者对特定的音频反馈敏感。例如，突然的讨论或者欢笑声能够触发重新聚焦，即使该声音没有超过阈值分贝。

在一个实施例中，***100包括被配置为捕获数字图像的全光相机130以及与全光相机130通信的处理器150。处理器150也与用于接收与至少一个所捕获的数字图像相关联的音频信号的至少一个麦克风(120)通信。处理器150被配置为传递与默认的空间坐标(未示出)相关联的至少一个数字图像以及相关联的音频。处理器150基于预先选择的分类器的发生，将数字图像和相关联的音频的焦点和传递从默认的空间坐标改变到新的空间坐标。分类器基于与新的空间坐标相关联的事件的发生。***100还能够包括多个麦克风和传感器140(所示布置仅作为示例，并且能够位于任何其他位置)，传感器140能够检测运动、光、湿度、温度或者如能够由本领域那些技术人员意识到的那样的其他数据。这能够提供许多沉浸式机会。在一个实施例中，例如，许多球员能够在空间中被跟踪并且与测量参数的传感器相关联(携带等)，在一个实施例中，参数能够是物理的(出汗、心率等)，并且该信息也能够用来细化感兴趣的最佳平面。

在一个实施例中，分类器能够定义为各种预先选择的或者优先级事件，如讨论的那样，所述事件然后能够将图像的广播和传递从默认的空间坐标重新聚焦到与分类器相关联的新的空间坐标。该分类器能够与由音频、传感器、图像、光检测的事件或者各种其他相似的合格事件相关联。例如，广播重新聚焦可以基于欢笑、鼓掌、踢球的检测或者甚至诸如球员之间的打架或者裁判员之间的讨论这样的异常事件的发生而发生。当分类器是音频事件时，全光采集将相应地重新聚焦，并且音频被混合以便创建与分类器相关联的沉浸式体验(例如，感兴趣的特定事件)。视觉事件可以包括例如戏剧制作中在舞台上的彼得潘的飞行，使得相机将从舞台重新聚焦到观众区上方飞行的演员。再次，当存在相关联的音频时，这将同时传递。如所讨论的那样，声音和音频反馈仅可以是一个这样的预先选择的选项，但是也可以诸如由事件组织者选择其他触发事件。

在另一个实施例中，一个或多个全光相机可以用于一个或多个设施中的安全性。与声音一起，可以存在能够检测非法入侵的动作以及光和/或热检测器。当若干分类器同时发生，或者选择若干设施时，在一个实施例中，分类器或者全光相机(根据设施)的优先级列表能够提前提供给处理器并且存储在存储单元中，或者如将要讨论的那样，这种优先级可以由处理器自身确定。

为了讨论处理器能够确定重要性的次序的实施例，现在将使用一个示例以便于理解。然而，能够意识到，如本领域那些技术人员所意识到的那样，能够提供不同的替换实施例。在该示例中，音频是事件(分类器)的重新聚焦和传递的重要方面。在该实施例中，能够在空间上校准图1的***100。在这样的实施例中，在全光相机130的坐标系100中，麦克风“i”的位置“X_i”将变得由处理器150所知道。这样的***100给出具有沉浸式体验的机会，其中视频能够使用任何任意平面重新聚焦。另外，音频能够被混合(或者从感兴趣的事件的位置附近的一个麦克风选择)，以便匹配广播将被重新聚焦到的所选取的视角。在现有技术中，大多数重新聚焦不得不手动执行。例如，在足球比赛中，诸如在足球世界杯期间，来自若干麦克风的音频反馈被混合，使得“前景”声音(例如，正在踢球)以比背景声音(人***谈)更高的分贝级别提供。这样的处理的自动化能够提供许多益处，包括可以仅持续几秒的事件的即时捕获，特别是在即使几秒钟的延迟也能够使事件不被广播的直播广播中。

在一个实施例中，能够在事件之前校准诸如图1中所示的装备。校准处理在广播开始之前作为预处理步骤而进行。在该实施例中，相关地并且在空间上执行校准。在该实施例中，校准需要放置至少一个全光相机130和麦克风120以及确定麦克风在包括相机130的坐标系中的空间位置。该校准步骤之后，在一个实施例中，位置的集合{X_i,i∈[1,N]}经由相机相关联的处理器(140)或者由替换的计算机或处理器来计算。在该实施例中，来自不同麦克风120的信号也可以通过诸如本领域技术人员已知的那些已知的同步技术来同步，并且进一步由处理器140操纵和管理。

在另一个实施例中，当全光相机130拍摄、记录或者广播场景并且分布式麦克风采集音频时，能够提供采集设置。例如，在拍摄期间，并且对于每个麦克风，也执行能够与预先选择准则相关联的感兴趣特征的检测。例如，使用分类器，像欢笑、鼓掌、踢球这样的特定声音的检测能够使用已知的技术实时地完成。另外，如先前所述，还能够使用关于音频信号的异常的检测。当该处理结束时，对由“i”索引的每个麦克风给出0和1之间的兴趣得分。得分0指示在该信号中不存在特定的兴趣，而1指示最大的兴趣。在数学上，估计时刻t时的得分集合{S_i(t),i∈[1,N]}。在图2中所提供的实施例提供这样的检测的示例。

在图2中所图示的示例中，每个麦克风的阴影指示所计算出的兴趣得分。在该示例中，浅灰色指示低得分，如由麦克风225所示，而深灰色(229)对应于高得分。浅色与深色之间的差异指示变化的兴趣和得分的范围，如图2中在227和228处所示。在该示例中，在每个时刻t，能够计算重新聚焦平面的最优位置，在一个实施例中，作为加权回归问题的解：估计平面位置P(t)，诸如其使得均方差最小化：

该最小二乘问题容易求解，因为该问题对应于找到最佳地拟合一组点的超平面。解是已知的，超平面应当经过点的质心，并且正交矢量的方向能够使用主成分分析而容易地获得。

在该示例中，最佳解对应于等式z＝0的平面，因为所有麦克风在平面上几乎对齐(在这种情况下，方向z确切地是海拔或者重力的方向)。这直接地解决，想象例如所有麦克风都放置在足球场上。

为了提供更有效的解，在另一个实施例中，通过保留关联到自相关矩阵的第二最小特征值的特征向量(如果关联到方向，则最小特征值)，能够获得解。在数学上，这意味着要估计的与平面正交的单位矢量如下：使用这样的约束，能够通过最小二乘法解算器来估计最优平面。图3例示根据另一个实施例的该重新聚焦平面估计的结果。

在图3中所提供的实施例的示例中，考虑麦克风的放置和可用性。在该示例中，然后估计重新聚焦平面300。该解使得均方距离最小化。例如，在一个实施例中，一个变型可能是能够简单地根据围绕具有最高兴趣得分的麦克风的位置来选取重新聚焦视点，例如当时，这是可适用的。在另一个实施例中，不同的变型可以是根据具有相对高的兴趣得分(例如，S_i(t)>阈值)的麦克风位置的子集来确定重新聚焦平面的最优位置：

为了向用户或观看者提供沉浸式体验，将被用于对全光采集实际地进行重新聚焦的平面将在时间上被滤波，以便避免将在视觉上不舒服的抖动。为此，能够使用对数据的任何时间滤波，诸如例如卡尔曼滤波或者启发式更新规则。

图4是使用该示例的一些方法的流程图图示。在该实施例中，能够通过参看图1至图3进一步领会该方法。如在410处所示，与场所中的至少一个全光相机和多个麦克风通信的处理器接收与每个麦克风相关联的校准得分。在步骤420中，处理器还接收与每个麦克风相关联的兴趣得分。如在步骤430中所示，处理器然后基于校准得分和兴趣得分计算每个麦克风的阈值音频范围。这是因为，如前面所讨论的那样，每个麦克风的位置可以确定其可以记录的音频信号有多么重要。例如，放置在观众落座的位置处的麦克风可以具有更高的阈值，使得基于观众欢呼的普通级别或者人群之间的规则讨论，噪声不会触发广播重新聚焦。然而，布置在裁判台旁边的麦克风可以更加灵敏并且可以针对更低的阈值来调整，使得甚至即使是激烈的争论也能够触发它。如400处所示，处理器正常地传递来自默认空间坐标的数字图像和相关联的音频信号。然而，如440-460处所示，当已经超过音频范围阈值时，传递和焦点将从默认的空间坐标移动到新的空间坐标。新的空间坐标与被超过阈值的麦克风的位置相关联。如450-455处所示，如前面所讨论的那样，如果检测到能够导致聚焦平面的建立的多于一个的分类器或事件，则可以存在优先级次序。

由一个实施例所提供的几乎瞬间的重新移动能够提供沉浸式体验，这允许随着广播事件发展而及时地传递广播事件。因此，用户和观看者能够容易地跟随比赛、晚会中的最佳瞬间，或者以提供立即结果的方式发觉安全问题并且甚至与客户交互。

Claims

1.一种全光相机(130)，具有用于生成数字图像的传感器阵列(140)，所述图像具有相关联的音频信号，包括：

所述传感器阵列，被配置为捕获与默认的空间坐标相关联的数字图像(400)；

所述传感器阵列，被配置为接收来自处理器的控制输入，以基于在新的空间坐标处事件的发生(440)，将焦点从默认的空间坐标改变到新的空间坐标(460)。

2.根据权利要求1所述的***，其中，至少一个传感器(140)与处理器通信。

3.根据权利要求1或2所述的***，其中，所述事件与传感器所检测到的至少一个分类器的发生相关联。

4.根据权利要求1或2所述的***，其中，所述音频信号由多个麦克风(120)捕获。

5.根据权利要求2或3所述的***，其中，存在多于一个的分类器(450)，并且重新聚焦的次序基于优先级列表上分类器的所选择的次序。

6.根据权利要求5所述的***，其中，至少一个分类器是音频事件。

7.根据权利要求6所述的***，其中，所述音频事件包括欢笑、鼓掌或者球的声音中的一个。

8.根据权利要求5或7所述的***，其中，所述音频事件是高于预先选择的分贝阈值的任何异常响亮的声音。

9.一种使用在默认的空间坐标(400)上聚焦的全光相机(130)来捕获图像的方法，包括：

经由处理器接收来自全光相机的多个数字图像；

经由处理器接收与数字图像相关联的多个音频信号；

由处理器确定事件的发生(440)，并且将焦点从默认的空间坐标改变到与事件的发生相关联的新的空间坐标(460)。

10.根据权利要求9所述的方法，其中，默认的空间坐标与场所(110)相关联，并且音频信号从布置在场所(110)中的不同位置的多个麦克风(120)接收，还包括：

由处理器接收来自多个麦克风(120)的多个校准得分(410)；

由处理器(130)确定与麦克风(120)中的每个的位置相关联的兴趣得分(420)；

由处理器基于校准得分和兴趣得分来计算麦克风中的每个的阈值音频范围(430)；

当已经超过音频范围阈值时，处理器将数字图像和相关联音频信号的焦点和传递从默认的空间坐标(400)改变到新的空间坐标，所述新的空间坐标同与所超过的音频范围阈值相关联的麦克风的位置相关联。

11.根据权利要求10所述的方法，其中，如果超过多于一个阈值范围(450)，则处理器基于与最高兴趣得分相关联的麦克风来提供新的空间坐标。

12.根据权利要求11所述的方法，其中，处理器根据兴趣得分对麦克风进行分类。

13.根据权利要求12所述的方法，其中，分类的范围从高评级到低评级，并且当多于一个麦克风已经超过阈值音频范围时，由处理器计算重新聚焦平面，用于图像的传递。

14.根据权利要求13所述的方法，其中，由处理器根据具有相对高的兴趣得分的麦克风位置的子集来计算重新聚焦平面的最优位置，并且能够由处理器通过计算加权回归值来优化重新聚焦平面。

15.根据权利要求14所述的方法，其中，基于每个麦克风的经最小化的均方根的值以及它们相关联的兴趣得分来估计加权回归值。