CN113302950A

CN113302950A - 音频***、音频重放设备、服务器设备、音频重放方法和音频重放程序

Info

Publication number: CN113302950A
Application number: CN201980089410.9A
Authority: CN
Inventors: 本间弘幸; 知念彻; 及川芳明
Original assignee: Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2019-01-24
Filing date: 2019-12-11
Publication date: 2021-08-24
Also published as: US20220086587A1; US11937069B2; JPWO2020153027A1; KR20210118820A; WO2020153027A1; DE112019006727T5

Abstract

本发明具有：面部数据检测单元，根据所输入的图像数据来检测面部数据；声学系数获取单元，输出与从面部数据检测单元输出的面部数据相对应的声学系数；以及声学系数应用单元，对音频信号进行基于由声学系数获取单元获取的声学系数的声学处理。

Description

音频***、音频重放设备、服务器设备、音频重放方法和音频重放程序

技术领域

本公开涉及音频***、音频再现设备、服务器设备、音频再现方法和音频再现程序。

背景技术

目前，已知一种通过使用多个扬声器来再现期望声场的技术。这样的声场再现技术可以实现三维声学空间。专利文献1已经公开了一种能够通过使用头部相关传递函数来实现期望的声学效果的声控装置。

引文列表

专利文献

专利文献1：日本专利申请公开2015-228571号

发明内容

技术问题

在这些领域中，期望实现适合于用户的声场。本公开的目的是提供一种实现适合于用户的声场的音频***、音频再现设备、服务器设备、音频再现方法和音频再现程序。

技术方案

例如，本公开是一种音频***，包括：

面部数据检测单元，其基于输入的图像数据检测面部数据；

声学系数获取单元，其输出与从面部数据检测单元输出的面部数据相关联的声学系数；以及

声学系数应用单元，其对音频信号进行基于由声学系数获取单元获取的声学系数的声学处理。

本公开是例如一种音频再现设备，包括：

面部数据检测单元，其基于输入的图像数据检测面部数据；以及

声学系数应用单元，其对音频信号进行基于与面部数据相关联的声学系数的声学处理。

本公开是例如一种服务器设备，包括：

接收单元，其接收从音频再现设备发送的面部数据；以及

声学系数获取单元，其输出面部数据；其中

服务器设备将声学系数获取单元输出的声学系数发送到音频再现设备。

本公开是例如一种音频再现方法，包括：

面部数据检测处理，其基于输入的图像数据检测面部数据；以及

声学系数应用处理，其对音频信号进行基于与面部数据相关联的声学系数的声学处理。

本公开是例如使信息处理设备进行以下操作的音频再现程序：

附图说明

[图1]图1是示出通用再现装置的配置的框图。

[图2]图2是用于说明一种平移处理的三维VBAP的图。

[图3]图3是示出本实施例的音频***的框图。

[图4]图4是示出本实施例的个性化声学系数设定处理的流程图。

[图5]图5是示出本实施例的个性化声学系数获取处理的流程图。

[图6]图6是示出根据本实施例的个性化声学系数重新计算处理的流程图。

[图7]图7是示出显示测试信号信息的状态的图。

具体实施方式

在下文中，将参考附图描述本公开的实施例等。应当注意，将按以下顺序给出描述。

<1.对一般技术的描述>

<2.实施例>

下面将描述的实施例等是本公开的有利的具体实例，并且本公开的内容不限于该实施例。

<1.对一般技术的描述>

基于对象的音频技术已经被用于电影、游戏等，并且也已经开发出可以处理基于对象的音频的编码技术。例如，作为国际标准等的MPEG标准是已知的。

在这种编码技术中，利用传统的双声道立体声技术或诸如5.1声道的多声道立体声技术，可以将运动的声源等作为独立的音频对象来处理，并且可以将对象的位置信息作为元数据与音频对象的信号数据一起编码。通过这样做，可以在扬声器的数量和布置不同的各种观看环境中进行再现，并且可以在再现(例如，音量控制、效果的添加等)时容易地处理在传统编码技术中难以处理的特定声源。

图1是示出通用再现装置100的配置的框图。再现装置100包括核心解码处理单元101、渲染处理单元102和头部相关传递函数处理单元103。核心解码处理单元101对外部输入的输入比特流进行解码，并输出音频对象信号和包括对象位置信息等的元数据。这里，对象是构成要再现的音频信号的一个或多个声源，音频对象信号对应于从声源发射的音频信号，对象位置信息对应于作为声源的对象的位置。

基于解码的音频对象信号和对象位置信息，渲染处理单元102对布置在虚拟空间中的扬声器进行渲染处理，并输出其中再现虚拟空间中的声场的虚拟扬声器信号。头部相关传递函数处理单元103将一般头部相关传递函数应用于虚拟扬声器信号，并输出用于耳机或扬声器再现的音频信号。

这里，已知在渲染处理单元102中使用称为三维矢量幅度平移(VBAP)的技术。它是通常称为平移的渲染技术之一，并且是通过将增益分配给以观看位置为原点的球面上存在的扬声器中最接近也存在于球面上的音频对象的三个扬声器来进行渲染的技术。

图2是用于说明三维VBAP的图。假定将观看位置U11设置为原点O，并且从存在于三维空间中的球面上的音频对象VSP2输出声音。假定音频对象VSP2的位置是从原点O(观看位置U11)开始的矢量P，则可以通过将增益分配给与音频对象VSP2在同一球面上的扬声器SP1、SP2和SP3来表示矢量P。因此，通过使用表示各个扬声器SP1、SP2和SP3的位置的矢量L1、L2和L3，可以将矢量P表示为等式(1)。

P＝g1×L1+g2×L2+g3×L3 (1)

这里，假定g1、g2和g3分别表示扬声器SP1、SP2和SP3的增益，并且g123＝[g1 g2g3和L123＝[L1 L2 L3]，则等式(1)可以由下面的等式(2)来表示。

g123＝P^TL123^-1 (2)

可以通过将音频对象信号分配给具有这样确定的增益的相应的扬声器SP1、SP2和SP3来进行渲染。由于扬声器SP1、SP2和SP3的布置是固定的并且是已知的信息，所以逆矩阵L123^-1可以被预先确定并且可以以相对低的计算复杂度被处理。

在这种平移技术中，可以通过在空间中布置大量扬声器来增加空间分辨率。然而，与电影院不同，通常难以在普通房屋的空间中布置大量扬声器。已知的是，在这种情况下，通过使用头部相关传递函数的听觉传输处理，可以用布置在真实空间中的少量扬声器以听觉近似来再现布置在空间中的大量虚拟扬声器的再现信号。

另一方面，用于听觉传输处理的头部相关传递函数根据头部和耳形状而极大地变化。因此，通过将麦克风***到具有平均人脸形状的假人头部的耳孔中并测量冲激响应，来创建用于目前市场上存在的耳机的听觉传输处理和双声道处理的头部相关传递函数。然而，实际上，平均头部相关传递函数是不充分的，因为它取决于面部、耳朵等的形状和布置，这些形状和布置因个体而异，并且难以如实地再现声场。

根据本实施例的音频***是鉴于这样的情况而制成的，并且其一个目的是通过使用面部识别技术从由相机获取的图像中获取面部数据，并且根据所获取的面部数据通过使用个性化的头部相关传递函数如实地再现用于单个个人的声场。在下文中，将描述根据该实施例的音频***的各种实施例。

<2.实施例>

图3是表示本实施例的音频***的框图。音频***包括输出音频信号的再现装置300和服务器设备200。再现装置300和服务器设备200经由诸如因特网的各种通信线路可通信地彼此连接。首先，将描述再现装置300的音频再现功能。

再现装置300中的音频再现功能由核心解码处理单元301、渲染处理单元302和声学系数应用单元303实现。核心解码处理单元301具有与以上参考图1描述的核心解码处理单元101类似的功能，对输入比特流进行解码，并输出音频对象信号和对象位置信息(元信息)。渲染处理单元302具有与以上参考图1描述的渲染处理单元102的功能类似的功能。在渲染处理单元302中，进行例如上述VBAP的平移处理，并输出虚拟扬声器信号。声学系数应用单元303通过将各种声学系数应用到输入的虚拟扬声器信号来输出音频信号。

接下来，将描述用于获取将由声学系数应用单元303应用的各种声学系数的方法。根据本实施例的再现装置300能够获取通过对作为收听者的用户成像而获得的图像数据。可以从可通信地连接到再现装置300的各种信息设备(例如，TV、智能扬声器、个人计算机等)获取图像数据。这些信息设备均配备有相机并且能够对收听由再现装置300再现的音频信号的用户的状态进行成像。应当注意，可以采用照相机直接可通信地连接到再现装置300以获取图像数据而不是将配备有照相机的信息设备可通信地连接到再现装置300的实施例。

此外，根据本实施例，用于显示各种类型的信息的显示装置可以连接到再现装置300。再现装置300显示各种类型的信息，从而使用户能够选择声学系数。此外，用于选择声学系数的输入装置也连接到再现装置300。除了遥控设备、键盘或鼠标之外，用户所拥有的智能电话可以可通信地连接并用作输入装置。

接下来，将参考图4的流程图描述用于获得在再现装置300中使用的个性化声学系数的方法。图4是示出在再现装置300中使用的个性化声学系数设置处理的流程图。

在由再现装置300进行的个性化声学系数设置处理中，首先将图像数据输入到面部数据检测单元304(S11)，并且面部数据检测单元304基于图像数据进行面部识别处理(S12)。面部数据检测单元304基于识别结果检测并输出面部数据。通常使用的技术可以应用于面部识别处理。应当注意，面部数据可以是从图像数据提取的面部部分，或者可以采用诸如面部轮廓以及眼睛、耳朵和鼻子的位置和尺寸的面部特征量的各种形式。此外，面部数据可以包括用户在收听空间中的位置或用户面对的方向。

将作为识别结果的面部数据发送到服务器设备200(S13)。它由面部数据发送单元305进行。到服务器设备200的传输不限于物理上有线或无线传输，并且为此可以使用任何介质。此外，除了无损压缩和未压缩格式之外，还可以将可以基于大量面部数据在服务器设备200上进行匹配的轻有损压缩技术用于逻辑格式。

这里，稍后将描述用于从在服务器设备200上接收的面部数据输出个性化声学系数的方法，并且将在假定从服务器设备200发送个性化声学系数的情况下继续描述。在步骤S14，再现装置300确定是否已经从服务器设备200接收到一个或多个声学系数(S14)。它由个性化声学系数接收单元306执行。在面部数据被发送之后的预定时间段内不能接收到个性化声学系数的情况下，进行超时并且终止个性化声学系数设置处理。

另一方面，在已经从服务器设备200接收到个性化声学系数的情况下(S14：是)，用户可以选择接收到的个性化声学系数。该处理由个性化声学系数选择单元307进行。通过连接到再现装置300的输入装置来选择用户。在该实施例中，除了默认个性化声学系数之外，服务器设备200还发送至少一个个性化声学系数候选。因此，用户可以选择是使用默认的个性化声学系数还是使用个性化声学系数候选。在用户选择个性化声学系数(S15：是)的情况下，再现装置300再现测试信号(S16)并使显示装置显示测试信号信息(S17)。用户再现测试信号并在切换个性化声学系数的同时收听从扬声器输出的音频信号。

图7示出了在显示装置上显示的测试信号信息的实例。图像显示单元308使显示装置显示基于测试信号信息的图像。在本实施例中，以原点O为中心，基于位置信息显示移动的声源A。此时，再现装置300输出基于测试信号的音频信号，使得使用用户的观看位置作为原点O在移动的声源A的位置信息处实现定位。这里，假设用户面对X轴的正方向。此时，在声学系数应用单元303中使用所接收的个性化声学系数。用户基于显示在显示装置上的移动的声源A的位置和用户正在收听的声音(具体地，定位)来确定个性化的声学系数是否合适。图7示出了由箭头表示的移动的声源A的轨迹。从该图可以看出，在本实例中，移动的声源A在围绕原点O循环的同时进行轨迹上升。在这种情况下，用户收听在用户周围循环的同时上升的局部声音。

在该实施例中，默认个性化声学系数和至少一个个性化声学系数候选用于使用户能够选择合适的个性化声学系数。用户使用输入装置适当地选择个性化声学系数作为候选，并确定合适的个性化声学系数(S18)。另一方面，在没有选择个性化声学系数的情况下(S15：否)，则使用接收到的默认个性化声学系数(S18)。将个性化声学系数的选择结果发送到服务器设备200(S19)。然后，再现装置300将所确定的个性化声学系数设置到声学系数应用单元303(S20)。

以上是在再现装置300中进行的个性化声学系数设置处理的细节。在该实施例中，通过使用根据所发送的面部数据从服务器设备200接收的个性化声学系数，可以再现具有适合于面部数据的个性化声学系数的声场，并且如实地再现声场。此外，通过允许用户选择个性化声学系数，用户可以使用更适合的个性化声学系数。然后，通过将用户的确定结果发送到服务器设备200，服务器设备200可以使用确定结果进行学习处理，并且以更高的准确度提供个性化声学系数。

接下来，将参考图5和图6的流程图来描述服务器设备200侧的处理。图5是示出由服务器设备200进行的个性化声学系数获取处理的流程图。服务器设备200接收从再现装置300发送的面部数据，用于开始个性化声学系数获取处理。这里，使用头部相关传递函数作为根据本实施例的个性化声学系数。可以根据基于面部数据的单个个人中的每一个的特征量，通过使用头部相关传递函数来再现适合于单个个人的声场。应当注意，面部数据的接收和个性化声学系数的传输由个性化声学系数获取单元201进行。当开始个性化声学系数获取处理时，在步骤S21中确定所接收的面部数据是否存在于存储单元204中。

在面部数据不存在的情况下(S21：否)，将与不使用头部相关传递函数的下混合处理等效的系数作为个性化声学系数发送(S22)。应当注意，这里阐述的下混合处理意味着例如用于通过将立体声的每个声道乘以0.5并在从立体声转换为单声道时将其相加来获得单声道信号的处理。在发送个性化声学系数之后(S22)，终止个性化声学系数获取处理。

另一方面，在存在面部数据的情况下(S21：是)，确定是否存在多个面部数据(S23)。这里，多个面部数据的存在相当于使用再现装置300收听的多个用户的存在。在存在多个面部数据的情况下(S23：是)，在S24的处理中，发送使用具有宽收听区域的广义头部相关传递函数的系数作为个性化声学系数(S24)。应当注意，现有技术可以用于扩大收听区域的处理。此外，这里提出的广义头部相关传递函数是指通过将麦克风***到被称为模拟典型人脸和耳朵的形状的虚拟头部的模型的耳孔中的测量而获得的函数。在发送个性化声学系数之后(S24)，终止个性化声学系数获取处理。应当注意，在面部数据包含每个用户的位置信息的情况下，可以将所有用户的位置设置为收听区域并且将它们确定为个性化声学系数。

接着，在不存在多个面部数据的情况下(S23：否)，服务器设备200确定存储单元204中是否存在所注册的面部数据(S25)。具体地，个性化声学系数获取单元201访问存储单元204并且确定输入的面部数据是否已经被注册。在存在面部数据的情况下(S25：是)，发送与面部数据相关联的个性化声学系数作为默认个性化声学系数。此外，在该实施例中，至少一个个性化声学系数候选与默认个性化声学系数一起被发送。因此，包括默认个性化声学系数的多个个性化声学系数被发送到再现装置300(S26)。这里，作为候选的个性化声学系数是不同于默认个性化声学系数的个性化声学系数，并且例如基于所接收的面部数据来确定，或者通过用于调整默认个性化声学系数的方法来确定。

另一方面，在存储单元204中不存在面部数据的情况下(S25：否)，通过分析输入的面部数据来确定并发送多个个性化声学系数(S27)。例如，将面部数据输入到具有通过机器学习获得的学习系数的神经网络中，并以似然的顺序发送多个个性化的声学系数候选，作为用于分析面部数据的方法是可以想到的。在再现装置300中，默认设置以似然顺序的最高个性化声学系数。应当注意，当在S26中发送除了注册的个性化声学系数之外的候选时，还使用针对未知面部数据的个性化声学系数的获取。

接下来，将参考图6的流程图描述个性化声学系数重新计算处理。个性化声学系数重新计算处理是由服务器设备200进行的处理，并且是基于从再现装置300发送的个性化声学系数的选择结果而进行的处理。在步骤S31，服务器设备200接收从再现装置300发送的个性化声学系数的选择结果(S31)。该处理在图3的个性化声学系数选择结果接收单元202中进行。

在上面参考图4描述的个性化声学系数设置处理中，服务器设备200接收选择结果以及面部数据。在步骤S32，服务器设备200在存储单元204中记录在个性化声学系数设置处理中接收到的个性化声学系数和面部数据对(S32)。在步骤S33，使用存储在存储单元204中的个性化声学系数和面部数据对进行学习处理(S33)。这里，学习处理是用于更新基于面部数据的个性化声学系数的确定算法的机器学习处理，并且可以将诸如卷积神经网络(CNN)或递归神经网络(RNN)(称为深度神经网络)的现有方法用作机器学习处理。当生成图5中描述的个性化声学系数候选时，使用个性化声学系数的更新确定算法。

如上所述，在个性化声学系数重新计算处理中，基于面部数据发送多个个性化声学系数，使得用户可以选择个性化声学系数，从而可以使用适合于用户的个性化声学系数。此外，可以通过基于选择结果学习面部数据和个性化声学系数之间的关系来提供更合适的个性化声学系数。

应注意，尽管在此实施例中发送默认个性化声学系数和作为候选的个性化声学系数，但可采用下文将描述的实施例替代此实施例。在该实施例中，服务器设备200仅发送默认个性化声学系数。在再现装置300侧，用户可以使用输入装置来调整所接收的默认个性化声学系数。在个性化声学系数设置处理中，将调整后的结果作为选择结果发送给服务器设备200。服务器设备200基于选择结果和面部数据对进行学习处理，从而确定个性化声学系数的确定算法。应当注意，也可以使用个性化声学系数的这种调节以及从上述多个个性化声学系数中的选择。

根据至少本公开的实施例，可以通过根据收听音频信号的用户的面部数据应用声学系数来形成适合于用户的声场。应当注意，本文描述的效果不必受到限制，并且可以提供在本公开中描述的任何效果。此外，不应将本公开的内容解释为由于所示出的效果而受到限制。

本公开还可以实现为装置、方法、程序、***等。例如，用于进行在上述实施例中描述的功能的程序是可下载的，并且不具有在该实施例中描述的功能的装置可以通过下载该程序在该装置中进行在该实施例中描述的控制。本公开还可以实现为分配这种程序的服务器。此外，各个实施例和修改实例中描述的内容可以适当地组合。

本公开还可以采用以下配置。

(1)音频***，包括：

面部数据检测单元，基于输入的图像数据检测面部数据；

声学系数获取单元，输出与从所述面部数据检测单元输出的面部数据相关联的声学系数；以及

声学系数应用单元，对音频信号进行基于由所述声学系数获取单元获取的声学系数的声学处理。

(2)根据(1)的音频***，其中，

所述声学系数是头部相关传递函数。

(3)根据(1)或(2)的音频***，其中，

在与输入的面部数据相关联的单个个人已经注册的情况下，所述声学系数获取单元输出与所述单个个人相关联的声学系数作为所述声学系数。

(4)根据(1)至(3)中任一项的音频***，其中，

在与输入的面部数据相关联的单个个人尚未被注册的情况下，所述声学系数获取单元基于所述输入的面部数据的分析结果来输出声学系数。

(5)根据(1)至(4)中任一项的音频***，其中，

声学系数获取单元输出多个声学系数。

(6)根据(5)的音频***，其中，

在与输入的面部数据相关联的单个个人已经注册的情况下，所述声学系数获取单元输出与所述单个个人相关联的声学系数和至少一个作为候选的声学系数。

(7)根据(5)或(6)的音频***，其中，

在与输入的面部数据相关联的单个个人尚未被注册的情况下，所述声学系数获取单元输出多个作为候选的声学系数。

(8)根据(1)至(7)中任一项的音频***，其中，

在所述面部数据检测单元已经检测到多条面部数据的情况下，所述声学系数获取单元输出具有宽收听区域的声学系数。

(9)根据(8)的音频***，其中，

所述声学系数获取单元基于所检测的面部数据的位置来输出具有所述宽收听区域的所述声学系数。

(10)根据(5)至(9)中任一项的音频***，还包括：

选择单元，使用户能够选择所输出的多个声学系数；以及

声学系数重新计算单元，基于所述选择单元中的选择结果和所述声学系数获取单元中使用的面部数据来进行学习处理。

(11)根据(5)至(10)中任一项的音频***，还包括：

选择单元，使用户能够选择所输出的多个声学系数；以及

图像显示单元，基于位置信息显示对象，其中

所述声学系数应用单元基于所显示的所述对象的位置信息对音频信号进行声音定位并输出所述音频信号。

(12)一种音频再现设备，包括：

面部数据检测单元，基于输入的图像数据检测面部数据；以及

声学系数应用单元，基于与所述面部数据相关联的声学系数对音频信号进行声学处理。

(13)根据(12)的音频再现设备，还包括：

发送单元，将检测到的所述面部数据发送到服务器设备；以及

接收单元，接收与所述面部数据相关联的所述声学系数。

(14)一种服务器设备，包括：

接收单元，接收从音频再现设备发送的面部数据；以及

声学系数获取单元，输出所述面部数据；其中

所述服务器设备将所述声学系数获取单元输出的声学系数发送到所述音频再现设备。

(15)一种音频再现方法，包括：

面部数据检测处理，基于输入的图像数据检测面部数据；以及

声学系数应用处理，对音频信号进行基于与所述面部数据相关联的声学系数的声学处理。

(16)一种音频再现程序，其使信息处理设备进行：

参考符号列表

100 再现装置

101 核心解码处理单元

102 渲染处理单元

103 头部相关传递函数处理单元

200 服务器设备

201 个性化声学系数获取单元

202 个性化声学系数选择结果接收单元

204 存储单元

300 再现装置

301 核心解码处理单元

302 渲染处理单元

303 声学系数应用单元

304 面部数据检测单元

305 面部数据发送单元

306 个性化声学系数接收单元

307 个性化声学系数选择单元

308 图像显示单元。

Claims

1.一种音频***，包括：

面部数据检测单元，基于输入的图像数据检测面部数据；

2.根据权利要求1所述的音频***，其中，

所述声学系数是头部相关传递函数。

3.根据权利要求1所述的音频***，其中，

4.根据权利要求1所述的音频***，其中，

5.根据权利要求1所述的音频***，其中，

所述声学系数获取单元输出多个声学系数。

6.根据权利要求5所述的音频***，其中，

7.根据权利要求5所述的音频***，其中，

8.根据权利要求1所述的音频***，其中，

9.根据权利要求8所述的音频***，其中，

10.根据权利要求5所述的音频***，进一步包括:

选择单元，使用户能够选择所输出的多个声学系数；以及

11.根据权利要求5所述的音频***，进一步包括:

选择单元，使用户能够选择所输出的多个声学系数；以及

图像显示单元，基于位置信息显示对象，其中

12.一种音频再现设备，包括：

13.根据权利要求12所述的音频再现设备，进一步包括：

接收单元，接收与所述面部数据相关联的所述声学系数。

14.一种服务器设备，包括：

接收单元，接收从音频再现设备发送的面部数据；以及

声学系数获取单元，输出所述面部数据；其中

15.一种音频再现方法，包括：

16.一种音频再现程序，使信息处理设备进行：