CN114391263A - 用于扩展现实体验的参数设置调整 - Google Patents

用于扩展现实体验的参数设置调整 Download PDF

Info

Publication number
CN114391263A
CN114391263A CN202080047177.0A CN202080047177A CN114391263A CN 114391263 A CN114391263 A CN 114391263A CN 202080047177 A CN202080047177 A CN 202080047177A CN 114391263 A CN114391263 A CN 114391263A
Authority
CN
China
Prior art keywords
audio
energy map
examples
energy
parameter adjustment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080047177.0A
Other languages
English (en)
Inventor
I.G.穆诺兹
S.G.斯瓦米纳坦
N.G.彼得斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of CN114391263A publication Critical patent/CN114391263A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/301Automatic calibration of stereophonic sound system, e.g. with test microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

公开了用于确定针对音频捕获的参数调整的***和方法。该***和方法包括处理电路,该处理电路被配置为访问与一个或多个音频流相对应的至少一个能量图。该处理电路然后可以从该至少一个能量图确定关于该至少一个音频元件的参数调整。该参数调整可以被配置为调整通过该至少一个音频元件的音频捕获。另外,该处理电路可以被配置为输出指示关于该至少一个音频元件的参数调整的指示。

Description

用于扩展现实体验的参数设置调整
本申请要求于2020年7月1日提交的美国申请第16/918,754号的优先权,该美国申请要求于2019年7月3日提交的美国临时申请第62/870,570号的权益,这些申请中的每一个的全部内容通过引用方式结合于本文中。
技术领域
本公开涉及诸如音频数据的媒体数据的处理。
背景技术
正在开发以计算机为媒介的现实***,以允许计算设备增强或添加、去除或减去或通常修改用户体验的现有现实。以计算机为媒介的现实***(也可以称为“扩展现实***”或“XR***”)可以包括例如虚拟现实(VR)***、增强现实(AR)***和混合现实(MR)***。以计算机为媒介的现实***的感知成功通常与此类以计算机为媒介的现实***在视频和音频体验两个方面提供逼真的沉浸式体验的能力有关,其中视频和音频体验以用户期望的方式匹配。尽管人类视觉***比人类听觉***更敏感(例如,在场景中各种物体的感知定位方面),但是确保足够的听觉体验是确保逼真的沉浸式体验的越来越重要的因素,尤其是随着视频体验改进以允许使得用户能够更好地识别音频内容的来源的更好地定位视频对象。
发明内容
本公开总体上涉及以计算机为媒介的现实***的用户体验的听觉方面,该现实***包括虚拟现实(VR)、混合现实(MR)、增强现实(AR)、计算机视觉和图形***。该技术的各个方面可以提供自适应音频捕获、渲染扩展现实***以及经由一个或多个参数调整补偿参数设置差异。该技术的各个方面可以为扩展现实(XR)***提供声学空间的自适应音频捕获或合成和渲染。如本文所使用的,声学环境被表示为室内环境或室外环境,或者室内环境和室外环境两者。声学环境可以包括一个或多个亚声学空间,该亚声学空间可以包括各种声学元件。室外环境的示例可以包括汽车、建筑物、墙壁、森林等。声学空间可以是声学环境的示例并且可以是室内空间或室外空间。如本文所使用的,音频元素是由传声器捕获的声音(例如,直接从近场源捕获或从远场源(无论是真实的还是合成的)反射),或先前合成的声场,或从文本合成为语音的声音,或来自声学环境中的对象的虚拟声音的反射。
在一个示例中,该技术的各个方面涉及一种被配置为确定针对音频捕获的参数调整的设备,该设备包括存储器,该存储器被配置为存储与一个或多个音频流相对应的至少一个能量图;以及一个或多个处理器,该一个或多个处理器耦合到该存储器并且被配置为:访问与该一个或多个音频流相对应的至少一个能量图;至少部分地基于该至少一个能量图来确定关于至少一个音频元件的参数调整,该参数调整被配置为调整通过该至少一个音频元件的音频捕获;以及输出该参数调整。
在另一个示例中,该技术的各个方面涉及一种用于确定针对音频捕获的参数调整的方法,该方法包括:访问至少一个能量图,该至少一个能量图对应于一或多个音频流;至少部分地基于该至少一个能量图来确定关于至少一个音频元件的参数调整,该参数调整被配置为调整通过该至少一个音频元件的音频捕获;以及输出指示关于该至少一个音频元件的参数调整的指示。
在另一个示例中,该技术的各个方面涉及一种被配置为确定针对音频捕获的参数调整的设备,该设备包括:用于访问至少一个能量图的部件,该至少一个能量图对应于一或多个音频流;用于至少部分地基于该至少一个能量图来确定关于至少一个音频元件的参数调整的部件,该参数调整被配置为调整通过该至少一个音频元件的音频捕获;以及用于输出指示关于该至少一个音频元件的参数调整的指示的部件。
在另一个示例中,该技术的各个方面涉及一种其上存储指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:访问至少一个能量图,该至少一个能量图对应于一或多个音频流;至少部分地基于该至少一个能量图来确定关于至少一个音频元件的参数调整,该参数调整被配置为调整通过该至少一个音频元件的音频捕获;以及输出指示关于该至少一个音频元件的参数调整的指示。
在另一个示例中,该技术的各个方面涉及一种被配置为生成声场的设备,该设备包括存储器,该存储器被配置为存储表示该声场的音频数据;以及一个或多个处理器,该一个或多个处理器耦合到该存储器并且被配置为:向一个或多个源设备发送音频流;确定用于调整音频元件的参数设置的指令;以及调整该参数设置以调整该声场的生成。
在另一个示例中,该技术的各个方面涉及一种调整声场生成的参数设置的方法,该方法包括:向一个或多个源设备发送音频流;确定用于调整音频元件的参数设置的指令;以及调整该参数设置以调整该声场的生成。
在另一个示例中,该技术的各个方面涉及一种被配置为生成声场的设备,该设备包括:用于向一个或多个源设备发送音频流的部件;用于确定用于调整音频元件的参数设置的指令的部件;以及用于调整该参数设置以调整该声场的生成的部件。
在另一个示例中,该技术的各个方面涉及一种其上存储有指令的非暂时性计算机可读存储介质,该指令在被执行时使一个或多个处理器:向一个或多个源设备发送音频流;确定用于调整音频元件的参数设置的指令;以及调整该参数设置以调整该声场的生成。
在附图及下文描述中陈述本公开的一或多个示例的细节。从具体实施方式、附图说明及权利要求书,本技术的各个方面的其它特征、目的和优点将是显而易见的。
附图说明
图1A至1C是示出可以执行本公开中描述的技术的各个方面的***的图。
图2是示出由用户穿戴的VR设备的示例的图。
图3A至3D是更详细地示出图1A至1C的示例中所示的流选择单元的示例操作的图。
图4A至4B是示出图1A至1C的示例中所示的音频解码设备在执行调整技术的各个方面时的示例操作的流程图。
图5A至5D是更详细地示出图1A至1C的示例中所示的音频解码设备的示例操作的图。
图6是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备的示例的图。
图7A和7B是示出可以执行本公开中描述的技术的各个方面的其它示例***的图。
图8是示出图1A至1C的示例中所示的源设备和内容消费设备中的一个或多个的示例组件的框图。
图9A至9C是示出图1A至1C的示例中所示的流选择单元在执行流选择技术的各个方面时的示例操作的流程图。
图10示出了根据本公开的各方面的支持参数调整的无线通信***的示例。
具体实施方式
本公开的技术总体上涉及被配置为促进对扩展现实(XR)***中的音频渲染的某些音频元件的调整。具体地,所公开的技术涉及为被配置为捕获或合成XR***的音频数据的音频元件确定理想的参数设置。多个音频元件可以协同工作以为XR体验提供音频体验。在示例中,XR***可以利用各种音频元件,诸如音频接收器(例如,传声器)或音频合成器,其被配置为捕获和/或生成(例如,产生、再现、重新创建、合成等)表示音频环境中的特定声场的音频数据。在示例中,XR***可以利用被配置为合成音频数据以在XR体验中提供音频的音频元件。在一些示例中,用户可以利用计算机程序来生成用于XR体验的音频。在任何情况下,被配置为在XR***中捕获或生成音频的音频元件可以基于调节音频信号或音频元件的可调参数设置的应用来这样做。当跨设备适当补偿时,可以以统一或均衡的方式提供音频流。如果音频元件之间没有适当的补偿,则音频元件可能无法提供身临其境的XR体验,并且可能最终使试图体验XR空间(例如,XR世界、虚拟世界、AR世界等)的用户迷失方向或迷惑。
音频元件的参数设置可能不一定最初关于其它音频元件协调或兼容,该其它音频元件被配置为对音频流做出贡献以渲染沉浸式音频体验。在示例中,捕获共同声场的音频的两个传声器在捕获共同声场内的音频时可以应用不同的增益设置。在另一个示例中,来自不同制造商或供应商的两个传声器可能会应用类似的增益设置,但是由于制造差异,这两个传声器可能会以仍然会导致所生成的音频数据发生变化的某种方式这样做。在另一个示例中,源设备可以提供合成音频,该合成音频将包括在其它另一个音频渲染中,诸如来自由传声器或其它音频接收设备捕获的音频。在此类示例中,可能需要同步参数设置,使得体验音频的用户可能不会感知来自各种不同音频元件的音频渲染的差异。音频元件之间缺乏协调可能在用户手动更改参数设置时(诸如用户针对音频接收设备或音频合成设备调整关于高频声音的增益或如上所述音频元件***包括来自不同制造商或供应商的音频元件时)尤其明显。
根据本公开的技术,XR设备可以接收音频元件的星座中的每个音频元件(例如,传声器、合成声源等)的能量图。能量图对应于经由音频元件捕获或合成的音频的音频表示。XR设备还可以形成复合能量图,该复合能量图包含若干能量图,该若干能量图对应于在XR环境中实施音频流的不同音频元件。基于能量图,XR设备可能使对音频元件中的一个或多个的参数设置的调整,其中能量图不同于同一音频环境中的其它音频元件的能量图。XR设备可以通过向音频元件发送调整指令来引起参数调整,该指令诸如用于如根据能量图所确定的那样调整环境中的传声器的增益以与环境中的其它音频元件(例如,传声器等)生成的声音匹配的指令。在一些示例中,XR设备可以在对从源设备接收的音频数据进行解码时引起参数调整或者可以在使用音频渲染器渲染音频时调整音频流的参数。
另外,XR设备可以根据在环境中实施的各种音频元件来确定操作状态。在示例中,XR设备可以从传声器接收音频样本或者可以从传声器接收指示音频元件的当前操作状态的其它状态数据。操作状态可以包括信噪比(SNR),该信噪比指示传声器当前正在操作以生成满足或不满足预定义SNR阈值的音频。
在说明性和非限制性示例中,由于第一音频元件(例如,传声器)在音频捕获期间在人的口袋中,因此第一音频元件可能无法生成高质量音频信号。因而,XR设备可以确定第一音频元件的操作状态指示第一音频元件的SNR低于预定义SNR阈值(例如,不满足SNR阈值)。在此类示例中,XR设备可以在形成或更新星座的复合能量图之前,从其它音频元件的星座集中去除不合格的第一音频元件。因而,XR设备可以将音频元件确定为不合格的音频元件,其中该音频元件例如是损坏的、嘈杂的(例如,不良的SNR)、不生成声音等等。在另一个示例中,XR设备可以在形成或更新星座的复合能量图之前从多个音频流中禁用或去除第一音频元件的音频流。通过这种方式,XR设备可以形成复合能量图,XR设备被配置为将该复合能量图参考作为基线以用于与各种其它音频元件的附加能量图进行比较。
在一些示例中,XR设备可以基于复合能量图来确定参数调整以发送到音频元件的星座集中的有效(例如,合格的)音频元件。在示例中,XR设备可以将复合能量图与音频元件的能量图进行比较,并且基于该比较,XR设备可以确定用于调节从音频元件获得的音频数据的参数调整(例如,增益调整等)。通过这种方式,XR设备可以根据为其它音频元件的音频流确定的能量图、诸如根据从多个能量图生成的复合能量图来有效地减少各个能量图之间的变化。
根据本公开的各种技术中的一个或多个,XR设备可以确定音频元件的某些参数调整。XR设备可以被配置为在音频数据的捕获期间、在音频数据的合成期间或在XR设备渲染音频数据时应用参数调整,诸如以渲染音频体验的各方面以向用户提供XR体验。在示例中,诸如在音频元件生成损坏的或者嘈杂音频的情况下,参数调整可以包括对音频元件的星座集中的特定音频元件的增益参数设置的调整或对音频元件的禁用。
在一些示例中,参数调整可以还包括禁用音频元件或排除音频元件,诸如在用户可能设定某些隐私限制的情况下,无法使用来自该音频元件的音频。在此类实例中,XR设备被配置为在形成复合能量图时排除禁用的音频元件的能量图。在进行特定的参数调整后,用户在使用XR设备时可以感受到均衡且沉浸式的XR体验。另外,XR设备可以通过从被配置为从共同声场和/或在共同声场中捕获音频数据的音频元件的星座集中标识和排除某些音频元件来节省处理和存储器资源。这是因为XR设备可以有效地利用那些资源来仅为能够提供均衡且沉浸式的XR体验的那些音频元件管理和分析能量图。
有多种不同的方式来表示声场。示例格式包括基于声道的音频格式、基于对象的音频格式和基于场景的音频格式。基于声道的音频格式是指5.1环绕声格式、7.1环绕声格式、22.2环绕声格式或将音频声道定位到听众周围的特定位置以便生成声场的任何其它基于声道的格式。
基于对象的音频格式可以指代其中指定音频对象(通常使用脉码调制(PCM)进行编码并称为PCM音频对象)以便表示声场的格式。此类音频对象可以包括标识音频对象相对于听众或声场中的其它参考点的位置的位置信息(例如,元数据),使得音频对象可以被渲染到一个或多个扬声器声道以供回放以生成声场。本公开中描述的技术可以应用于以下格式中的任一个,包括基于场景的音频格式、基于声道的音频格式、基于对象的音频格式或其任何组合。
基于场景的音频格式可以包括分层元素集,其定义三维(3D)声场。分层元素集的一个示例是球谐系数(SHC)集。以下表达式展示了使用SHC对声场的描述或表示:
Figure GDA0003538401340000071
该表达式表明声场的任意点
Figure GDA0003538401340000072
在时间t的压力pi可以由
Figure GDA0003538401340000073
唯一表示。在此,
Figure GDA0003538401340000074
c是声速(约343m/s),
Figure GDA0003538401340000075
是参考点(或观察点),jn(·)是阶数n的球贝塞尔函数,并且
Figure GDA0003538401340000076
是阶数n和子阶数m的球谐基函数(也可以称为作为球面基函数)。可以认识到,方括号中的项是信号(例如,
Figure GDA0003538401340000077
)的频域表示,其可以用诸如离散傅里叶变换(DFT)、离散余弦变换(DCT)或小波变换等各种时频变换近似。分层集的其它示例包括小波变换系数集和多分辨率基函数的其它系数集。
Figure GDA0003538401340000078
可以通过各种传声器阵列配置物理获取(例如,记录),或者替代地,它们可以从基于声道或基于对象的声场描述中导出。SHC(也可称为环绕声系数)表示基于场景的音频,其中SHC可以输入到音频编码器以获得可以促进更高效发送或存储的编码后SHC。例如,可以使用涉及(1+4)2(25,因此是四阶)个系数的四阶表示。
如上所述,SHC可以从使用传声器阵列的传声器记录中导出。在Poletti,M.在2005年11月发表在J.Audio Eng.Soc.第53卷第11号第1004至第1025页的“Three-DimensionalSurround Sound Systems Based on Spherical Harmonics”中描述了可以如何从传声器阵列物理地获取SHC的各个示例。
以下方程可以示出可以如何从基于对象的描述中导出SHC。与各个音频对象相对应的声场的系数
Figure GDA0003538401340000079
可以被表达为:
Figure GDA00035384013400000710
其中i是
Figure GDA00035384013400000711
是阶数n的(第二类)球面汉克尔函数,并且
Figure GDA00035384013400000712
是对象的位置。(例如,使用时频分析技术,诸如对经脉码调制PCM的流执行快速傅里叶变换)知道作为频率函数的对象源能量g(ω)可以使得能够将每个PCM对象和对应位置转换为
Figure GDA00035384013400000713
此外,可以表明(因为以上是线性和正交分解)每个对象的系数
Figure GDA0003538401340000081
是可加的。通过这种方式,PCM对象的数量可以由
Figure GDA0003538401340000082
系数表示(例如,作为各个对象的系数向量的总和)。系数可以包含关于声场的信息(作为3D坐标函数的压力),并且以上表示从各个对象到观察点
Figure GDA0003538401340000083
附近的整个声场表示的变换。
正在开发以计算机为媒介的现实***(也可以称为“扩展现实***”或“XR***”)以利用由环绕声系数提供的许多潜在益处。例如,环绕声系数可以通过潜在地实现声场内的声源的准确3D定位的方式来表示3D声场。因此,XR设备可以将环绕声系数渲染到扬声器馈送,当经由一个或多个扬声器或耳机播放时,该扬声器馈送可以准确地生成声场。
作为另一个示例,环绕声系数可以被转译或旋转以在没有过于复杂的数学运算的情况下考虑用户移动,由此潜在地适应XR设备的低等待时间要求。另外,环绕声系数是分层的,由此自然地通过降阶来适应可扩展性(这可以消除与更高阶相关联的环绕声系数),由此潜在地实现声场的动态调节以适应XR设备的等待时间和/或电池需求。
特别是对于计算机游戏应用和实时视频流应用,将环绕声系数用于XR设备可以使得能够开发依赖于由环绕声系数提供的更具沉浸式的声场的许多用例。在依赖于声场的低等待时间生成(例如,再现)的这些高度动态用例中,XR设备可能相对于更难以操纵或涉及复杂渲染的其它表示更偏好环绕声系数。下面参考图1A至1C提供了关于这些用例的更多信息。
虽然在本公开中关于VR设备进行了描述,但是可以在其它设备(诸如移动设备、扬声器、音频元件(例如,传声器、合成音频源等)或其它XR设备)的上下文中执行这些技术的各个方面。在说明性和非限制性示例中,移动设备(诸如所谓的智能手机)可以(例如,经由扬声器、一个或多个头戴式耳机等)渲染声学空间。移动设备或其至少部分可以安装到用户的头部或者像在正常使用移动设备时所做的那样观看。即,经由扬声器、头戴式耳机或音频元件生成的任何信息以及移动设备的屏幕上的任何信息都可以被视为移动设备的一部分。移动设备可能能够提供跟踪信息,由此允许XR体验(当安装在头上时)和正常体验两者来体验声学空间,其中正常体验仍可以允许用户体验提供XR精简型体验的声学空间(例如,举起设备并旋转、移动或平移设备以体验声学空间的不同部分)。另外,本公开的技术还可以与在一些实例中可以对应于声学空间的所显示世界一起使用,其中所显示世界可以呈现在XR设备(例如,移动设备、VR设备等)的屏幕上。
图1A至1C是示出可以执行本公开中描述的技术的各个方面的***的图。如图1A的示例中所示,***10包括源设备12A和内容消费设备14A。虽然在源设备12A和内容消费设备14A的上下文中进行了描述,但是该技术可以在其中对声场的任何表示进行编码以形成表示音频数据的比特流(例如,音频流)的任何上下文中实施。此外,源设备12A可以表示能够生成声场表示的任何形式的计算设备,并且在本文中一般在作为VR内容创建者设备的上下文中描述。同样,内容消费设备14A可以表示能够实施本公开中描述的音频补偿技术以及音频回放的任何形式的计算设备,并且在本文中一般在作为VR客户端设备的上下文中描述。
源设备12A可以由娱乐公司或可以生成多声道音频内容以供诸如内容消费设备14A等内容消费设备的操作者消费的其它实体来操作。在一些VR场景中,源设备12A结合视频内容生成音频内容。源设备12A包括内容捕获设备20、内容编辑设备22和声场表示生成器24。内容捕获设备20可以被配置为与传声器18或其它音频元件对接或以其它方式通信。
传声器18可以表示
Figure GDA0003538401340000091
或其它类型的三维(3D)音频传声器,其能够捕获声场并将其表示为音频数据19,该音频数据可以指代上述基于场景的音频数据(诸如环绕声系数)、基于对象的音频数据和基于声道的音频数据中的一个或多个。虽然被描述为3D音频传声器,但是传声器18也可以表示被配置为捕获音频数据19的其它类型的传声器(诸如全向传声器、点式传声器、单向传声器等)。音频数据19可以表示音频流或包括音频流。
在一些示例中,内容捕获设备20可以包括集成到内容捕获设备20的壳体中的集成传声器18。内容捕获设备20可以无线地或经由有线连接与传声器18对接。不是经由传声器18捕获或结合捕获音频数据19,内容捕获设备20可以在音频数据19经由某种类型的可移动存储、无线地和/或经由有线输入过程输入之后处理音频数据19。在示例中,内容捕获设备20可以在输入音频数据19之后处理音频数据19,并且结合处理输入的音频数据19,内容捕获设备20可以经由传声器18捕获音频数据19。在一些示例中,音频数据19可以包括音频类型层。在示例中,内容捕获设备20可以将音频数据19输出为包括先前存储的音频数据19,诸如先前记录的音频输入,该音频输入与结合对先前存储的音频数据19的实时或近实时处理捕获的音频分层在一起。应当理解,根据本公开,内容捕获设备20与传声器18的各种其它组合是可能的。
内容捕获设备20还可以被配置为与内容编辑设备22对接或以其它方式通信。在一些实例中,内容捕获设备20可以包括内容编辑设备22(在一些实例中,其可以表示软件或软件与硬件的组合,包括由内容捕获设备20执行以将内容捕获设备20配置为执行特定形式的内容编辑(例如,信号调节)的软件)。在一些示例中,内容编辑设备22是与内容捕获设备20物理地分离的设备。
内容编辑设备22可以表示被配置为编辑或以其它方式更改从内容捕获设备20接收的内容21(包括音频数据19)的单元。内容编辑设备22可以将编辑后的内容23和相关联的元数据25输出到声场表示生成器24。元数据25可以包括隐私限制元数据、可行性元数据、参数设置信息(PSI)、音频位置信息和其它音频元数据。在示例中,内容编辑设备22可以将参数调整(诸如可以由PSI定义的调整)应用于音频数据19或应用于内容21(例如,增益参数、频率响应参数、SNR参数等)并从中生成编辑后的内容23。
在一些示例中,内容编辑设备22可以应用参数设置(诸如增益、频率响应、压缩、压缩比、降噪、定向传声器、转译/压缩和/或均衡设置)以修改或调节对传入音频的捕获和/或修改或调节传出音频流(例如,声场被合成以便被渲染为好像音频流是在虚拟或非虚拟世界或其它生成的声场中的特定位置处捕获的)。参数设置可以由PSI 46A定义。PSI 46A可以包括经由侧声道33或经由比特流27从内容消费设备14A接收的信息。PSI 46A可以定义对参数设置的调整,诸如增益调整、频率响应调整、压缩调整或以者均衡设置。
在另一个示例中,内容消费设备14A可以向源设备12A发送一个或多个能量图,诸如复合能量图。源设备12A可以接收一个或多个能量图并基于一个或多个能量图确定PSI46A。源设备12A可以将调整后的参数设置应用于音频数据19的捕获,其中调整后的参数设置由PSI 46A定义。源设备12A然后可以经由比特流27向内容消费设备14A发送音频数据19,其中比特流27已经基于所确定的PSI 46A进行调节。因而,内容消费设备14A可以从源设备12A接收符合一个或多个能量图的比特流27(例如,音频流),而内容消费设备14A无需对比特流27(例如,音频信号)执行附加调节,以将音频流与其它源设备12(例如,图1C的一个或多个源设备12B、其它源设备12A、图7A或7B的一个或多个源设备12C等)的其它音频流匹配。
在一些示例中,内容编辑设备22可以生成包括音频数据19的编辑后的内容23,其中PSI 46A应用于音频数据19。另外,内容编辑设备22可以生成可以包括PSI 46A的元数据25。在此类示例中,源设备12A可以在基于PSI 46B调整PSI 46A之前或之后向内容消费设备14A发送经由PSI 46A应用的参数设置。通过这种方式,内容消费设备14A可以基于源设备12A的当前参数设置来确定对参数设置的调整,因为那些设置涉及音频流(例如,比特流27)的能量图和能量图与已形成和/或存储到星座图(CM)47的复合能量图之间的差异。
在示例中,内容消费设备14A(例如,XR设备)可以基于音频元件的一个或多个音频流的能量图来确定PSI 46B。内容消费设备14A可以确定PSI 46B并利用PSI 46B来调整从源设备12A或从另一个源设备(例如,图1C的源设备12B)接收的音频流。内容消费设备14A可以从源设备12A接收能量图,可以基于从源设备12A接收的音频流来确定源设备12A的能量图,或者它们的组合。在示例中,内容消费设备14A可以从一些多个源设备12A接收能量图并且可以确定其它源设备12A的能量图。内容消费设备14A可以将能量图存储到CM 47或音频解码设备34的另一个存储位置。在一些实例中,音频解码设备34可以包括PSI 46B作为音频数据19'的一部分,使得音频渲染器32可以在渲染音频数据19'时将PSI 46B应用于音频数据19'。
另外或替代地,内容消费设备14A可以将PSI 46B输出到源设备12A。源设备12A可以将信息存储为PSI 46A,在一些实例中,这可以简单地涉及对先前已经由源设备12A应用的PSI 46A的更新。在一些实例中,源设备12A可以基于PSI 46A来重新配置或以其它方式调整源设备12A的参数。
声场表示生成器24可以包括能够与内容编辑设备22(或内容捕获设备20)对接的任何类型的硬件设备。虽然图1A的示例中未示出,但是声场表示生成器24可以使用编辑后的内容23,其包括音频数据19和由内容编辑设备22提供以生成一个或多个比特流27的信息(例如,元数据25)。在关注音频数据19的图1A的示例中,声场表示生成器24可以生成由音频数据19表示的同一声场的一个或多个表示以获得包括声场表示的比特流27。在一些示例中,比特流27可以还包括元数据25(例如,音频元数据)。
例如,为了使用环绕声系数生成声场的不同表示(这也是音频数据19的一个示例),声场表示生成器24可以使用用于声场的环绕声表示的译码方案,称为混合阶环绕声(MOA),如在2017年8月8日提交并作为在2019年1月3日提交的美国专利申请公开第2019/0007781号出版的题为“MIXED-ORDER AMBISONICS(MOA)AUDIO DATA FOR COMPUTER-MEDIATED REALITY SYSTEMS”的美国专利申请第15/672,058号中更详细地讨论的。
为了生成声场的特定MOA表示,声场表示生成器24可以生成环绕声系数全集的部分子集。例如,由声场表示生成器24生成的每个MOA表示可以提供关于声场的一些区域的精度,但在其它区域中提供较低精度。在示例中,声场的MOA表示可以包括八(8)个未压缩的环绕声系数,而同一声场的三阶环绕声表示可以包括十六(16)个未压缩的环绕声系数。因而,声场的每个MOA表示(例如,作为环绕声系数的部分子集生成)的存储密集度和带宽密集度可能低于(例如,在声场的MOA表示通过所示发送声道作为比特流27的一部分发送的情况下)从环绕声系数生成的同一声场的对应三阶环绕声表示。
虽然关于MOA表示进行了描述,但是也可以对一阶环绕声(FOA)表示执行本公开的技术,其中与一阶球面基函数和零阶球面基函数相关联的所有环绕声系数用于表示声场。换句话说,声场表示生成器24可以使用给定阶N的所有环绕声系数来表示声场,而不是使用环绕声系数的部分非零子集来表示声场,从而导致总环绕声系数等于(N+1)2
在这方面,环绕声音频数据(其是指代MOA表示或全阶表示中的环绕声系数的另一种方式,诸如上面提到的一阶表示)可以包括与具有一阶或更低阶的球面基函数相关联的环绕声系数(可以称为“1阶环绕声音频数据”)、与具有混合阶和子阶的球面基函数相关联的环绕声系数(可以称为上文讨论的“MOA表示”),或与具有大于一阶的球面基函数相关联的环绕声系数(在本文称为“全阶表示”)。
在一些示例中,内容捕获设备20或内容编辑设备22可以被配置为与声场表示生成器24进行无线通信。在一些示例中,内容捕获设备20或内容编辑设备22可以经由无线连接或有线连接中的一个或两者与声场表示生成器24进行通信。经由内容捕获设备20或内容编辑设备22与声场表示生成器24之间的连接,内容捕获设备20或内容编辑设备22可以提供各种形式的内容,出于讨论的目的,该形式在本文被描述为音频数据的部分19。
在一些示例中,内容捕获设备20可以利用声场表示生成器24的各个方面(就声场表示生成器24的硬件或软件能力而言)。例如,声场表示生成器24可以包括专用硬件其被配置为(或专用软件,其在执行时使一个或多个处理器执行)执行心理声学音频编码(诸如由运动图像专家组(MPEG)、MPEG-H3 D音频译码标准、MPEG-I沉浸式音频标准或专有标准(诸如AptXTM(包括AptX的各种版本,诸如增强型AptX–E-AptX、AptX live、AptX立体声和AptX高清晰度–AptX-HD)、高级音频译码(AAC)、音频编解码器3(AC-3)、Apple无损音频编解码器(ALAC)、MPEG-4音频无损流媒体(ALS)、增强型AC-3、免费无损音频编解码器(FLAC)、Monkey's Audio、MPEG-1 Audio LayerII(MP2)、MPEG-1 Audio LayerIII(MP3)、Opus和Windows Media Audio(WMA)或其它标准)陈述的被表示为“USAC”的统一语音和音频译码器)。
在一些示例中,内容捕获设备20可以不包括心理声学音频编码器专用硬件或专用软件,而是可以以非心理声学音频译码的形式提供内容21的音频方面。声场表示生成器24可以通过至少部分地对内容21的音频方面执行心理声学音频编码来帮助捕获内容21。在一些示例中,声场表示生成器24可以将PSI 46A应用于内容21的音频方面以生成符合PSI 46A的初始参数设置或调整后的参数设置(诸如增益设置或调整增益设置)的比特流27(例如,音频流)。
通过至少部分地基于从音频数据19(在音频数据19包括基于场景的音频数据的情况下)生成的音频内容(例如,MOA表示和/或一(或更高)阶环绕声表示)生成一个或多个比特流27,声场表示生成器24也可以辅助内容捕获和发送。比特流27可以表示音频数据19的压缩版本和任何其它不同类型的内容21(诸如球形视频数据、图像数据或文本数据的压缩版本)。
声场表示生成器24可以生成用于例如跨发送声道发送的比特流27,该发送声道可以是有线或无线声道,诸如Wi-FiTM声道、
Figure GDA0003538401340000131
声道或符合第五代(5G)蜂窝标准的声道、数据存储设备等。比特流27可以表示音频数据19的编码版本并且可以包括主比特流和另一侧比特流,其可以被称为侧声道信息(例如,元数据),如经由侧声道33所示。在一些实例中,表示音频数据19的压缩版本的比特流27(其也可以表示基于场景的音频数据、基于对象的音频数据、基于声道的音频数据或者它们的组合)可以符合根据MPEG-H 3D音频译码标准和/或MPEG-I沉浸式音频标准而生成。
在本公开的一些示例中,源设备12A可以被配置为生成多个音频流以用于发送到内容消费设备14A。源设备12A可以被配置为经由单个内容捕获设备20和/或内容捕获设备20的集群(例如,多个内容捕获设备)生成多个音频流中的每一个。在一些用例中,可能希望能够控制由源设备12A生成的多个音频流中的哪些音频流可用于由内容消费设备14A回放。
例如,来自内容捕获设备20的某些捕获设备的音频可以包含敏感信息和/或来自内容捕获设备20的某些捕获设备的音频可能不意味着排他访问(例如,所有用户的无限制访问)。在一些示例中,可能需要基于由内容捕获设备20捕获的信息类型和/或基于内容捕获设备20所处的物理区的位置来限制对来自内容捕获设备20的某些捕获设备的音频的访问。此类隐私限制可以在内容消费设备14A是否可以利用来自某些音频元件的一个或多个音频流来形成复合能量图发挥作用,其中隐私限制或其它类型的限制导致内容消费设备14A在形成复合能量图时排除此类音频元件。
根据本公开的示例技术,源设备12A可以还包括被配置为生成元数据25的控制器31。在示例中,元数据25可以指示隐私限制(例如,隐私限制元数据)。在一些示例中,源设备12和内容消费设备14可以被配置为经由侧声道33进行通信。在示例中,内容消费设备14可以向源设备12发送PSI。在另一个示例中,内容消费设备14可以向源设备12发送至少一个能量图(例如,复合能量图)。在此类示例中,源设备12可以访问至少一个能量图。源设备12可以基于能量图(例如,与源设备12相对应的一个能量图)与至少一个受访问的能量图的比较来确定PSI 46A。
在一些示例中,元数据25可以对应于由源设备12A生成的多个比特流27中的一个或多个。在示例中,隐私限制元数据可以指示多个比特流27中的一个或多个何时是受限制的或不受限制的音频流。
在一些示例中,控制器31可以仅生成隐私限制元数据以指示比特流27包括受限制或不受限制的音频流。在此类示例中,内容消费设备14可以推断没有隐私限制元数据(例如,指示受限音频流的元数据)的音频流是不受限制的。内容消费设备14可以接收隐私限制元数据并且基于隐私限制来确定可用于解码和/或回放的一个或多个比特流27(例如,音频流)。内容消费设备14A可以基于被确定为可用于解码和/或回放的一个或多个比特流27来生成对应声场。
在图1A的示例中,控制器31在侧声道33中发送隐私限制元数据。在另一个示例中,控制器31可以在比特流27中发送隐私限制元数据。
在一些示例中,控制器31不需要是单独的物理单元。相反,控制器31可以集成到内容编辑设备22或声场表示生成器24中。在另一个示例中,控制器31可以从内容消费设备14A接收数据,诸如PSI 46B。控制器31进而可以基于PSI 46A来重新配置内容编辑设备22、内容捕获设备20和/或声场表示生成器24。在参数调整(例如,重新配置)后,源设备12然后可以生成由能量图表示的音频流,该能量图已经被补偿以与其它能量图和/或与复合能量图(例如,由多个能量图形成的能量图)匹配。
在其它示例中,控制器31可以被配置为使用密码来确定可供内容消费设备14回放的音频流。内容消费设备14可以被配置为(例如,经由侧声道33)向控制器31发出密码。在一些示例中,内容消费设备14可以被配置为基于与密码相关联的隐私限制来接收多个比特流27(例如,音频流)中的一个或多个,并且基于多个音频流中的一个或多个来生成对应声场。
在一些示例中,控制器31可以被配置为基于与密码相关联的隐私限制来生成(或导致源设备12的其它结构单元生成)多个比特流27中的一个或多个。可以执行各种密码技术或者可以结合隐私限制音频元数据技术使用各种密码技术。本文描述了隐私限制(例如,许可状态)的附加示例。在示例中,某些隐私限制可能会影响用于确定PSI 46A或PSI 46B的复合能量图的形成,其中PSI可以定义参数设置调整。
内容消费设备14A可以由个人操作并且可以表示VR客户端设备。虽然关于VR客户端设备进行了描述,但是内容消费设备14A可以表示其它类型的设备,诸如增强现实(AR)客户端设备、混合现实(MR)客户端设备(或其它XR客户端设备)、标准计算机、音频扬声器、耳机、头戴式耳机、移动设备(包括所谓的智能手机)或能够基于比特流27(例如,音频流)生成(例如,再现)声场和/或跟踪操作内容消费设备14A的个人的头部移动和/或一般平移移动的任何其它设备。如图1A的示例中所示,内容消费设备14A包括音频回放***16A,其可以指代能够渲染音频数据19'以作为单声道或多声道音频内容回放的任何形式的音频回放***。
内容消费设备14A可以包括用户界面(UI)。UI可以包括一个或多个输入设备和一个或多个输出设备。输出设备可以包括例如被配置为输出信息以供用户感知的一个或多个扬声器、一个或多个显示设备、一个或多个触觉设备等。输出设备可以与内容消费设备14A成一体或者可以是耦合到内容消费设备14的单独设备。
在一些示例中,内容消费设备14A可以提供对能量图的视觉描绘。在此类示例中,用户可以手动标识XR空间中的有问题设备。在示例中,内容消费设备14A可以经由UI提供对能量图的视觉描绘,其指示音频元件的星座集(例如,被配置为捕获共同声场的音频元件集)中的特定音频元件未正常工作并且不接受参数调整或以其它方式继续生成在参数调整后不具有符合预期能量图(例如,复合能量图)的对应能量图的比特流27。在一些示例中,这种类型的不符合可以指示音频元件的校准失败。
一个或多个输入设备可以包括用户可以与其交互以向内容消费设备14A提供输入的任何合适的设备。例如,一个或多个输入设备可以包括传声器、鼠标、指针、游戏控制器、遥控器、触摸屏、线性滑块电位器、摇臂开关、按钮、滚轮、旋钮等。在一个或多个用户输入设备包括触摸屏的示例中,触摸屏可以允许基于单个触摸输入(例如,触摸、滑动、轻敲、长按和/或圈出图形用户界面的区域)来选择一个或多个捕获设备表示。在一些实施方式中,触摸屏可以允许多点触摸输入。在这些示例中,触摸屏可以允许基于多个触摸输入来选择图形用户界面的多个区域。
尽管在图1A中被示为直接发送到内容消费设备14A,但是源设备12A可以将比特流27输出到位于源设备12A与内容消费设备14A之间的中间设备。中间设备可以存储比特流27以供稍后输送到内容消费设备14A,其可以请求比特流27。中间设备可以包括文件服务器、网络服务器、台式计算机、膝上型计算机、平板计算机、移动电话、智能电话或能够存储比特流27以供稍后检索或发送到音频解码设备(例如,内容消费设备14A的音频解码设备34)的任何其它设备。中间设备可以驻留在能够诸如通过向内容消费设备14A发送比特流27将比特流27(并且可能结合发送对应的视频数据比特流)流式发送到请求比特流27的订户的内容输送网络中。
替代地,源设备12A可以将比特流27存储到存储介质,诸如光盘、数字视频光盘、高清晰视频光盘或其它存储介质,其中大部分能够被计算机读取,因此可以被称为计算机可读存储介质或非暂时性计算机可读存储介质。在该上下文中,发送声道可以指代通过其发送存储到介质的内容(例如,以一个或多个比特流27的形式)的声道(并且可以包括零售商店和其它基于商店的输送机制)。在任何情况下,本公开的技术因此不应在这方面限于图1A的示例。
如本文指出,内容消费设备14A包括音频回放***16A。音频回放***16A可以表示任何能够回放单声道和/或多声道音频数据的***。音频回放***16A可以包括多个不同的音频渲染器32。音频渲染器32可以各自提供不同形式的渲染,其中不同形式的渲染可以包括执行矢量基幅平移(VBAP)的各种方式中的一个或多个和/或执行声场合成的各种方式中的一个或多个。如本文所使用的,“A和/或B”是指“A或B”,或“A和B两者”。
音频播放***16A可以还包括音频解码设备34。音频解码设备34可以表示被配置为对比特流27进行解码以输出音频数据19'的设备(其中撇号可以表示音频数据19'由于音频数据19'的有损压缩(诸如量化)而不同于音频数据19)。音频解码设备34可以是与音频渲染器32相同的物理设备的一部分,或者可以是物理上分离的设备的一部分并且被配置为经由无线或有线连接与音频渲染器32进行通信。而且,音频数据19'可以包括基于场景的音频数据,在一些示例中,该音频数据可以形成全一阶(或更高阶)环绕声表示或全一阶(或更高阶)环绕声表示的形成同一声场的MOA表示的子集、全一阶(或更高阶)环绕声表示的分解,诸如在MPEG-H 3D音频译码标准或其它形式的基于场景的音频数据中描述的主要音频信号、环境环绕声系数和基于矢量的信号(可以指代具有表示对应的主要音频信号的空间特性的多个元素的多维球谐矢量)。音频数据19'可以包括音频流或音频流的表示。
在一些示例中,音频解码设备34可以根据PSI 46B对比特流27进行解码。在示例中,音频解码设备34可以根据CM 47确定复合能量图,并且根据复合能量图可以确定对特定音频元件(例如,源设备12A)和从音频元件接收的比特流27(例如,音频流)的参数调整。在说明性示例中,当对比特流27进行解码时,音频解码设备34可以调整对比特流27的频率响应以生成音频数据19'以供随后的音频渲染。
其它形式的基于场景的音频数据包括根据HOA(高阶环绕声)传输格式(HTF)定义的音频数据。关于HTF的更多信息可以在由欧洲电信标准协会(ETSI)于2018年6月(2018-06)发表在ETSI TS 103 589 V1.1.1的题为“Higher Order Ambisonics(HOA)TransportFormat”的技术规范(TS)以及在2018年12月20日提交的题为“PRIORITY INFORMATION FORHIGHER ORDER AMBISONIC AUDIO DATA”的美国专利申请公开第2019/0918028号中找到。在任何情况下,音频数据19'可以类似于音频数据19的全集或部分子集,但是可能由于有损操作(例如,量化)和/或经由发送声道的发送而不同。
音频数据19'可以包括基于声道的音频数据作为基于场景的音频数据的替代或包括它们的结合。音频数据19'可以包括基于对象的音频数据或基于声道的音频数据作为基于场景的音频数据的替代或包括它们的结合。因而,音频数据19'可以包括基于场景的音频数据、基于对象的音频数据和基于声道的音频数据的任何组合。
音频回放***16A的音频渲染器32可以在音频解码设备34已经对比特流27解码以获得音频数据19'之后,渲染音频数据19'以输出扬声器馈送35。在一些示例中,音频数据19'可以包括PSI 46B。在此类示例中,音频渲染器32可以根据PSI 46B来渲染音频数据19'。扬声器馈送35可以驱动一个或多个扬声器或头戴式耳机(为了便于说明,在图1A的示例中未示出)。各种音频表示(包括声场的基于场景的音频数据(和可能的基于声道的音频数据和/或基于对象的音频数据)可以通过多种方式(包括N3D、SN3D、FuMa、N2D或SN2D)归一化。在示例中,音频渲染器32可以基于PSI 46B对声场进行归一化。通过这种方式,音频渲染器32可以进一步提供具有统一参数设置的声场,使得用户在收听不同音频元件的音频流时不会感知增益差异。
为了选择适当的渲染器或者在一些实例中生成适当的渲染器,音频回放***16A可以获得指示扬声器(例如,扬声器或头戴式耳机扬声器)的数量和/或扬声器的空间几何形状的扬声器信息37。在一些实例中,音频回放***16A可以使用参考传声器获得扬声器信息37并且可以以动态确定扬声器信息37的方式驱动扬声器(其可以指代电信号的输出以引起换能器振动)。在其它实例中或者结合对扬声器信息37的动态确定,音频回放***16A可以提示用户与音频回放***16A交互并输入扬声器信息37。
音频回放***16A可以基于扬声器信息37来选择音频渲染器32中的一个。在一些实例中,当没有一个音频渲染器32在距扬声器信息37中指定的扬声器几何形状的某个阈值相似性度量(就扬声器几何形状而言)以内时,音频回放***16A可以基于扬声器信息37而生成音频渲染器32中的一个。在一些实例中,音频回放***16A可以基于扬声器信息37而生成音频渲染器32中的一个,而无需首先尝试选择音频渲染器32中的一个现有音频渲染器。在一些示例中,扬声器信息37(诸如扬声器的音量或数量)可以导致对音频数据19'的进一步调整,其中音频数据19'包括PSI 46B。在示例中,音频渲染器32可以将PSI 46B的版本应用于适合特定扬声器配置和/或扬声器设置的音频数据19'。
当将扬声器馈送35输出到头戴式耳机时,音频回放***16A可以利用音频渲染器32中的一个,该音频渲染器使用头部相关传递函数(HRTF)或能够渲染到左右扬声器馈送35以供头戴式耳机扬声器播放的其它函数来提供双耳渲染,诸如双耳房间脉冲响应渲染器。术语“扬声器”或“换能器”通常可以指代任何扬声器,包括扬声器、头戴式耳机扬声器、骨传导扬声器、耳塞式扬声器、无线头戴式耳机扬声器等。一个或多个扬声器或头戴式耳机然后可以回放渲染的扬声器馈送35来生成声场。在示例中,一个或多个扬声器可以放置在用户附近并且可以生成声场,该声场被配置为使用户沉浸在声场中或描绘用户附近的位置处的声场,在该位置中,用户可以感知声场是从如音频数据19'所定义的各种不同位置发出的。
虽然被描述为从音频数据19'渲染扬声器馈送35,但是对扬声器馈送35的渲染的引用可以指代其它类型的渲染,诸如直接结合到对来自比特流27的音频数据进行解码中的渲染。可以在MPEG-H 3D音频译码标准的附件G中找到替代渲染的示例,其中渲染发生在主要信号形成期间和声场复合之前的背景信号形成期间。因而,对音频数据19'的渲染的引用应当被理解为指代对实际音频数据19'的渲染或音频数据19'的分解或表示(诸如上述主要音频信号、环境环绕声系数,和/或基于矢量的信号-也可以称为V矢量或多维环绕声空间矢量)。
音频回放***16A还可以基于跟踪信息41来调整音频渲染器32。即,音频回放***16A可以与跟踪设备40对接,该跟踪设备被配置为跟踪VR设备的用户的头部移动和可能的平移移动。跟踪设备40可以表示一个或多个传感器(例如,相机-包括深度相机、陀螺仪、磁力计、加速度计、发光二极管-LED等),其被配置为跟踪VR设备的用户的头部移动和可能的平移移动。音频回放***16A可以基于跟踪信息41来调节音频渲染器32,使得扬声器馈送35反映用户的头部移动和可能的平移移动的变化,以通过响应于此类移动的方式生成声场。
图1B是说明被配置为执行本公开中描述的技术的各个方面的另一示例***50的框图。除了图1A中所示的音频渲染器32被替换为能够使用一个或多个HRTF或能够渲染到左右扬声器馈送43的其它函数来执行双耳渲染的双耳渲染器42(在内容消费设备14B的音频回放***16B中)之外,***50类似于图1A中所示的***10。
音频回放***16B可以将左右扬声器馈送43输出到头戴式耳机48。头戴式耳机48表示可穿戴设备的另一个示例,其可以耦合到附加的可穿戴设备,诸如XR设备(例如,VR耳机)、智能眼镜、智能服装、智能珠宝(例如,手表、戒指、手镯、项链等)等,以促进声场的生成(例如,再现)。头戴式耳机48可以无线地或经由有线连接耦合到附加的可穿戴设备。
另外,头戴式耳机48可以经由有线连接(诸如标准3.5mm音频插孔、通用***总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过
Figure GDA0003538401340000201
连接、无线网络连接等)耦合到音频回放***16B。头戴式耳机48可以基于左右扬声器馈送43来生成由音频数据19'表示的声场。头戴式耳机48可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应的左右扬声器馈送43供电(或换句话说,驱动)。
图1C是示出另一个示例***60的框图。示例***60类似于图1A的示例***10,但是***60的源设备12B不包括内容捕获设备。源设备12B包含合成设备29。内容开发者可以使用合成设备29来生成合成音频源。合成的音频源可以具有与其相关联的位置信息,其可以标识音频源相对于听众或声场中的其它参考点的位置,使得音频源可以被渲染到一个或多个扬声器声道以供回放以努力生成声场。在一些示例中,合成设备29还可以合成视觉或视频数据。
例如,内容开发者可以为视频游戏生成合成音频流。虽然图1C的示例与图1A的示例的内容消费设备14A一起示出,但是图1C的示例的源设备12B可以与图1B的内容消费设备14B一起使用。在一些示例中,图1C的源设备12B还可以包括内容捕获设备,使得比特流27可以包含捕获的音频流和合成的音频流两者。
如上所述,内容消费设备14A或14B(其中的任一个在下文中可以被称为内容消费设备14)可以表示其中人类可穿戴显示器(其也可以被称为“头戴式显示器”)安装在操作VR设备的用户眼前的VR设备。图2是示出VR设备204的示例的图。在说明性示例中,VR设备204被描绘为由用户202穿戴的耳机。虽然如此描述,但是本公开的技术不限于此,并且本领域技术人员将理解VR设备可以具有不同形式。在示例中,VR设备204可以包括一个或多个扬声器(例如,由用户202穿戴的头戴式耳机、外部扬声器组、一个或多个可安装扬声器等)。
在一些示例中,VR设备204耦合到或以其它方式包括头戴式耳机206,其可以通过扬声器馈送35的回放生成由音频数据19'表示的声场。扬声器馈送35可以表示模拟或数字信号,其能够使头戴式耳机206的换能器内的隔膜以各种频率振动,其中这种过程通常被称为驱动头戴式耳机206。
视频、音频和其它传感数据可以在XR体验中发挥重要作用。例如,为了参与VR体验,用户202可以穿戴VR设备204(也可以称为VR客户端设备)或其它可穿戴电子设备。VR客户端设备(诸如VR设备204)可以包括跟踪设备(例如,跟踪设备40),该跟踪设备被配置为跟踪用户202的头部移动,并且调节经由VR设备204示出的视频数据以考虑头部移动,提供沉浸式体验,其中用户202可以体验声学空间、显示的世界或声学空间和显示的世界两者。显示的世界可以指代虚拟世界(其中所有世界都是模拟的)、增强世界(其中世界的部分由虚拟对象增强)或物理世界(其中真实世界图像被虚拟化导航)。
虽然VR(以及其它形式的AR和/或MR)可以允许用户202在视觉上驻留在虚拟世界中,但是VR设备204通常可能缺乏将用户可听地置于声学空间中的能力。换句话说,VR***(可以包括负责渲染视频数据和音频数据的计算机-为了便于说明,未在图2的示例中示出,以及VR设备204)可能无法可听地支持全3D沉浸式(并且在一些实例中以反映经由VR设备204呈现给用户的所显示场景的方式而可能无法逼真地支持)。
虽然在本公开中关于VR设备进行了描述,但是可以在其它设备(诸如移动设备、扬声器、音频元件(例如,传声器、合成音频源等)或其它XR设备)的上下文中执行这些技术的各个方面。在该实例中,移动设备可以(例如,经由扬声器、一个或多个头戴式耳机等)渲染声学空间。移动设备或其至少部分可以安装到用户202的头部或者像在正常使用移动设备时所做的那样观看。因而,屏幕上的任何信息都可以是移动设备的一部分,以及经由扬声器、头戴式耳机或音频元件生成的任何信息。移动设备可能能够提供跟踪信息41,由此允许VR体验(当安装在头上时)和正常体验两者来体验声学空间,其中正常体验仍可以允许用户体验提供VR精简型体验的声学空间(例如,举起设备并旋转或平移设备以观看所显示世界的不同部分)。
XR的音频方面已被分类为三个不同的沉浸类别。第一类别提供最低水平的沉浸并且称为三自由度(3DOF)。3DOF是指在3DOF(横摆、俯仰和滚动)中考虑头部移动的音频渲染,由此允许用户在任何方向上自由地环顾四周。然而,3DOF无法考虑头部不以声场的光学和声学中心为中心的平移头部移动。
第二类别(称为3DOF plus(3DOF+))除了由于头部移动远离声场内的光学中心和声学中心而导致的有限空间平移移动之外,还提供3DOF(横摆、俯仰和滚动)。3DOF+可以为诸如运动视差等感知效果提供支持,这可以增强沉浸感。
第三类别(称为六自由度(6DOF))以在头部移动(横摆、俯仰和滚动)方面考虑3DOF而且也考虑用户在空间中的平移(x、y和z平移)的方式渲染音频数据。空间平移可以由跟踪用户在物理世界中的位置的传感器或通过输入控制器引起。
3DOF渲染是VR音频方面的最新技术。因而,VR的音频方面的沉浸感不如视频方面,由此潜在地降低用户体验的整体沉浸。然而,VR正在迅速转变,并且可能会迅速发展为支持3DOF+和6DOF两者,这可能会为其它用例提供机会。
例如,交互式游戏应用可以利用6DOF来促进全沉浸式游戏,其中用户自己在VR世界中移动并且可以通过走向虚拟对象来与虚拟对象进行交互。此外,交互式直播应用可以利用6DOF来允许VR客户端设备体验音乐会或体育赛事的直播流,就好像自己出现在音乐会上一样,允许用户在音乐会或体育赛事中移动。
存在与这些用例相关联的许多困难。在全沉浸式游戏的实例中,等待时间可能需要保持在低水平,以实现不会导致恶心或晕车的游戏玩法。此外,从音频角度来看,导致与视频数据失去同步的音频播放等待时间可能会降低沉浸。此外,对于某些类型的游戏应用,空间准确度对于允许准确响应可能很重要,包括对用户如何感知声音的响应,因为这允许用户预测当前不在视野中的动作。
在直播应用的上下文中,大量源设备12A或12B(其中的任一个在下文中可以被称为源设备12)可以流式发送内容21,其中源设备12可以具有广泛不同的能力。例如,一个源设备12可以是具有数字固定镜头相机和一个或多个传声器的智能手机,而另一个源设备可以是能够获得比智能手机更高的分辨率和质量的视频的生产级电视装备。然而,在直播应用的上下文中,所有源设备12都可以提供不同质量的流,VR设备可以尝试从中选择合适的流来提供预期体验。
此外,与游戏应用类似,音频数据等待时间使得与视频数据失去同步可能会导致降低沉浸。此外,空间准确度也可能很重要,使得用户可以更好地理解不同音频源的上下文或位置。此外,当用户使用相机和音频元件(例如,传声器)进行直播时,隐私可能会成为问题,因为用户可能不希望直播完全对公众开放。
在调节音频流的上下文中,音频元件(例如,XR设备、音频接收设备、音频合成设备等)可以应用各种参数设置,诸如增益、频率响应和/或其它调节设置,以便修改音频捕获并生成沉浸式XR体验。在一些实例中,音频接收设备的参数设置可以被完全补偿以便允许音频解码设备34基于音频流为XR环境生成足够的声场。
在一些示例中,音频元件的参数设置最初可能与也可以被配备有也应用各种参数设置的音频接收设备(例如,传声器)的其它音频元件、源设备或附件设备(诸如可穿戴设备、移动设备等)不协调或不兼容。例如,一个音频元件的参数设置最初可能不对应于另一个音频元件的参数设置,从而导致音频捕获不良和声场的失真表现。
这种缺乏协调可能在用户手动更改参数设置时(例如,针对音频接收设备或XR设备调整关于高频声音的增益或音频元件***包括来自不同制造商或供应商的音频元件时)尤其明显。在涉及传声器作为至少一个音频元件的示例中,可能的情况是,并非所有跨将音频流式发送到XR设备的传声器星座的传声器都具有相同的增益、频率响应或其它参数,或者可能未得到补偿,从而不与传声器或其它音频元件的星座中的其它传声器或其它音频元件协调。在另一个示例中,并非所有跨将音频流式发送到XR设备的传声器星座中的传声器都可以得到补偿以便提供无噪声的音频流,或者音频元件可能未得到补偿以与其它音频元件星座中的音频元件协调。即,如果音频元件之间没有诸如通过参数调整(例如,均衡、校准等)得到适当补偿,则音频元件可能无法提供沉浸式XR体验,并且可能最终使利用XR设备的用户迷失方向或困惑。
根据本发公开中所描述的技术,音频解码设备34可以访问与经由比特流27可获得的音频流(其由比特流27表示且因此比特流27可以被称为“音频流27”)相对应的能量图。音频解码设备34可以利用能量图来确定关于至少一个音频元件(例如,音频接收设备,诸如传声器或其它接收器,或音频生成设备,诸如虚拟扬声器或被配置为在虚拟环境中合成音频声场的其它虚拟设备)的参数调整,例如增益或频率响应调整。通过这种方式,音频解码设备34可以在检测到关于音频元件的参数设置的差异时自动调整音频元件。音频解码设备34可以应用参数调整作为调整后的参数设置,以便修改音频捕获并且为音频元件补偿应用的参数设置中的差异。可以基于一个能量图相对于参考能量图(例如,基线能量图、复合能量图等)的分析来确定参数调整。在一些示例中,参数调整可以被配置为根据参数调整将目标能量图移位,使得目标能量图与参考能量图尽可能地重叠。
音频元件可能能够使用参数调整来提高音频空间化准确度和提高6DOF渲染的质量两者。在操作中,音频解码设备34可以与一个或多个源设备12对接以确定每个音频元件的参数调整。如图1A至1C的示例中所示,音频回放***16A或16B可以包括音频解码设备34,而源设备12A或12B可以包括内容编辑设备22或合成设备29。这些***和设备可以单独地或一起表示被配置为执行本公开中描述的音频补偿技术的各个方面的一个或多个音频元件。
在一些实例中,音频元件(例如,传声器、音频声场合成器或其它XR设备等)可以包括源设备12A或12B,在这种情况下,内容编辑设备22或合成设备29可以确定并应用根据与比特流27中的一个或多个相对应的能量图进行参数调整。在此类实例中,内容编辑设备22可以被配置为执行关于补偿源设备12A或12B(其在本文中通常可以被称为“源设备12”)的调整技术的一些或所有方面。类似地,在内容消费设备14A或14B(其在本文中通常可以称为内容消费设备14)包括一个或多个音频元件(例如,传声器等)的实例中,音频解码设备34可以执行关于补偿内容消费设备14的调整技术的一些或所有方面。在一些实例中,源设备12和内容消费设备14可以被集成到音频元件(例如,独立传声器)中。例如,内容消费设备14可以包括XR设备,而源设备可以包括作为音频元件与XR设备对接的传声器18。在非限制性示例中,XR设备可以包括传声器附件,该传声器附件在用户导航或以其它方式体验XR空间时捕获用户的语音。
此外,在一些示例中,音频解码设备34可以确定一个或多个音频元件的操作状态信息(例如,诊断数据)和/或可以从一个或多个音频元件接收操作状态信息。同样,音频元件可以向音频解码设备34发送操作状态信息(例如,自诊断数据)。操作状态信息可以提供关于接收的音频信号的质量、音频元件的许可状态(例如,访问音频元件的能量图的许可、访问音频元件的音频流的许可等)和/或其它可行性特性的信息。例如,操作状态信息可以包括SNR信息或增益信息。诸如通过在用户的口袋中被检测到而没有接收到清晰的音频流或基于加速度计、光检测或其它传感器数据,操作状态信息可以指示音频元件当前是不活动的。
操作状态(例如,诊断数据、可行性数据等)还可以表示音频元件的许可状态(例如,隐私设置)。例如,操作状态信息可以指示特定音频元件正在限制一定量或类型的音频数据的发送。许可状态可以指示一个或多个音频流是受限制还是不受限制。在一些示例中,隐私设置可以指代例如通过密码、授权级别或等级、时间等限制对比特流27中的一个或多个的访问的数字访问权限。
操作状态信息还可以指示在确定参数调整时使用特定音频元件将是不可行的。例如,特定音频元件可能不被配置为允许操纵用于调节音频捕获的参数设置。换句话说,音频元件可能不具有可配置设置并且可能仅能够应用可以作为由制造商编程的参数设置的单个参数设置。在另一个示例中,可行性状态可以指示传声器相对于音频解码设备34的位置。当传声器离音频解码设备34太远时,音频解码设备34可以确定使用来自该特定传声器的音频流来确定对另一个音频元件(例如,与音频解码设备34相对应的一个音频元件)的参数调整将是不可行的。
在一些示例中,操作状态信息可以包括跟踪信息(例如,以确定用户是否面对音频源308)。在此类示例中,音频解码设备34可以使用跟踪信息来确定可行性状态。
音频解码设备34可以至少部分地基于操作状态信息来从能量图集中排除比特流27中的至少一个(例如,音频流中的至少一个)和/或能量图,使得排除的音频流对参数调整确定没有贡献。例如,来自不合格传声器的音频流可以从用于确定参数调整的比特流27集合中排除。
音频解码设备34可以对比特流27中的每一个执行能量分析以确定比特流27中的每一个的能量图,将能量图存储在CM 47中。能量图可以共同定义由比特流27表示的共同声场的能量。在一些实例中,音频解码设备34可以从源设备12接收一个或多个能量图。另外,音频解码设备34可以基于多个比特流27生成单个能量图。在其它实例中,音频解码设备34可以聚合与多个比特流27(例如,多个音频流)相对应的多个能量图以确定复合能量图。在一些实例中,单个能量图可以包括与多个能量图相对应的复合能量图。
在一些示例中,音频解码设备34可以从源设备12接收复合能量图中的一个或多个和/或其它单独的能量图。在一些实例中,单个能量图(诸如复合能量图)可以包括多个能量图分量。例如,能量图分量可以基于对一个或多个音频流的能量分析。在另一个示例中,能量图分量可以是另一个能量图。例如,多个能量图可以形成单个复合能量图(例如,多个能量图可以融合在一起或合成为单个复合能量图)。通过这种方式,能量图可以包括与一个或多个音频流相对应的多个能量图分量,其中能量图分量可以是音频流或与音频流相对应的能量图。
音频解码设备34可以将复合能量图、各个能量图或比特流27中的一个或多个存储到存储器以用于后续访问和分析。例如,音频回放***16A或16B可以被配置为将能量图和音频流存储到CM 47。在一些示例中,源设备12可以被配置为将能量图和音频流存储到源设备12的存储器设备。源设备12可以被配置为将能量图和/或音频流发送到内容消费设备14。
音频解码设备34可以分析一个或多个能量图以确定关于音频元件(例如,传声器18中的一个等)的参数调整。例如,音频解码设备34可以分析增益或分析由一个或多个能量图定义的频率响应以确定是否需要进行参数调整以便均衡传声器和/或声音生成设备。在一些实例中,音频解码设备34可以执行能量图的比较以确定参数设置是否需要调整(例如,增益的增加或减少)。在一个示例中,音频解码设备34可以将从多个音频流导出的能量图与另一个能量图进行比较以确定对诸如传声器的音频元件的参数设置的适当调整,以便充分补偿来自音频元件的不充分音频捕获。在一些示例中,音频解码设备34可以将复合能量图与另一个能量图进行比较,其中另一能量图也用于复合能量图的生成。在一些示例中,音频解码设备34可以利用长期能量图来处理瞬态情况,诸如喊叫或响亮的引擎。
音频解码设备34可以分析能量图中的差异并确定参数调整以补偿差异。在一些示例中,音频解码设备34可以在分析能量图时确定差异,诸如音频流中的不连续性。例如,音频解码设备34可以从能量图的比较中检测音频流的频率响应中的间隙。音频解码设备34可以根据分析能量图来确定对音频接收设备的参数设置的调整以去除或补偿差异。在一些实例中,远程服务器可以分析能量图并确定调整,在这种情况下,远程服务器向音频元件中的一个或多个发送调整。另外,远程服务器可以基于比特流27生成能量图中的一个或多个,包括复合能量图。
音频解码设备34可以输出指示一个或多个参数调整的指示,包括参数调整的细节,诸如应用多少增益、增益是否被指定到某个频率区域、压缩设置、频率响应设置、和/或被配置为在存在其它音频元件(例如,物理或虚拟存在)的情况下调整音频元件的参数设置的其它设置。例如,在补偿音频元件时,该设置可以被配置为例如通过调整音频捕获或音频生成来协调、优化、均衡、校准、归一化、修改或以其它方式增加音频元件之间的兼容性。在一个示例中,根据本文公开的一些技术,一个或多个处理器可以优化用于XR体验的参数设置。在此类示例中,XR设备然后可以被配置为在对音频元件星座集中的音频元件进行参数调整(例如,增益调整、频率响应调整、启用、禁用等)之后提供均衡的沉浸式体验,并且另外,XR设备然后需要对损坏的音频元件(例如,在被禁用时)需要较少处理,并且在一些示例中,在形成复合能量图时也可能需要较少处理,诸如当仅使用具有高的或相对较高的SNR的能量图时可能需要较少处理,因此那些能量图可以用于形成复合能量图。
可以实施参数调整,使得可以将参数调整应用于捕获的音频。例如,实施可以包括根据参数调整将传声器的当前参数设置调整为另一参数设置。参数调整的实施可以包括根据参数调整将当前参数设置替换为另一个参数设置。在非限制性示例中,参数调整可以是对一个或多个传声器的增益的调整中的一个。传声器的一个或多个处理器可以确定或接收参数调整指示并实施增益调整,由此实现参数调整。
在音频被捕获时或在生成之前(例如,在声源处),可以将参数调整应用于由传声器(诸如传声器18)捕获的音频。例如,音频解码设备34可以利用一个或多个参数设置(调整或未调整的)来调节经由一个或多个传声器接收的音频。可以仅针对具有音频流能量图的特定传声器确定参数调整,该音频流能量图不对应于与由一个或多个其它传声器捕获的音频相对应的一个或多个其它能量图。
在一些实例中,音频解码设备34可以向源设备12发送参数调整,使得源设备12可以在生成音频(例如,从源设备12向内容消费设备14流式发送内容)时利用参数调整。在任何情况下,特定参数调整将对应于与一个或多个其它能量图相比在能量图中具有差异的传声器,使得参数调整被配置为优化特定传声器并补偿或去除差异。在通过实施调整后的参数设置去除差异时,传声器将能够生成更接近作为真实声场的镜像的声场。
在一些示例中,参数调整将对应于基于与从传声器捕获音频相对应的能量图偏离正常或参考能量图的程度来捕获音频流的传声器。在一些实例中,音频解码设备34还可以接收关于***中的传声器的标识细节,诸如型号、制造商等,其可以有助于音频解码设备34确定参数调整。例如,音频解码设备34可以应用参数调整是必要的置信度得分,其中标识细节指示传声器来自不同的OEM(原始设备制造商)。在此类实例中,初始参数设置更有可能彼此不兼容,并且(诸如通过归一化、均衡或校准)应调整一个或两个初始参数设置以彼此成镜像或更接近作为真实声场的镜像。
至少部分地基于参数设置(调整或未调整),音频解码设备34可以将比特流27输出为音频数据19'。另外,音频解码设备34可以基于质量特性来选择将根据参数设置调节哪些比特流27。音频解码设备34可以应用参数设置来调节比特流27中的一个或多个以生成音频数据19'。在此类实例中,音频解码设备34可以生成音频数据19',其包括参数设置信息或已经具有应用于音频数据19'的参数设置信息。音频回放***16A或16B然后可以使用音频数据19'生成声场。在另一个示例中,当将音频数据19'渲染到扬声器馈送35或扬声器馈送43时,音频渲染器32或双耳渲染器42可以将参数设置应用于音频数据19'。
在一些示例中,音频解码设备34可以基于能量图来生成能量曲线图叠加。在一些示例中,能量曲线图叠加可以基于复合能量图。能量曲线图叠加还可以包括特定能量图的叠加,因为它与复合能量图或与不同音频流相对应的另一个能量图进行比较。音频解码设备34可以提供能量曲线图以显示给用户。例如,音频解码设备34可以输出能量曲线图叠加或输出叠加作为UI的一部分。因而,音频解码设备34可以被配置为生成UI数据,其包括能量图数据、音频数据和/或参数设置数据。音频解码设备34可以与UI生成设备结合工作以导致UI显示在XR设备上或另一个音频元件(例如,移动电话的传声器)上。
在一些示例中,音频解码设备34可以被配置为测试对一个或多个杂散传声器的调整是否成功,以便使传声器与其它音频渲染设备(例如,内容消费设备14)和/或接收设备(例如,源设备12)同步。音频解码设备34可以监控新配置的传声器以根据参数调整来确定传声器是否正在接收音频。音频解码设备34可以输出调整成功的信号。然而,在其它实例中,音频解码设备34可以输出调整不成功的警告信号。警告信号可以基于在实施参数调整后的能量图的另一比较。信号可以采用在UI上显示的通知的形式。例如,音频解码设备34可以为直播者生成反馈,而无论直播者的音频是否被破坏或者对音频元件(例如,传声器等)的调整是否成功。同样,可以向用户发出关于XR设备成功校准的反馈。例如,下面参考图3A至3D、图4A至4B和图5A至5D讨论关于音频解码设备34可以如何调整音频捕获的更多信息。
图3A至3D是更详细地示出图1A至1C的示例中所示的流选择单元44的示例操作的图。如图3A的示例中所示,流选择单元44可以确定设备位置信息(DLI)(例如,图1A至1C中的45B)指示内容消费设备14(示出为VR设备204)在虚拟位置300A处。流选择单元44接下来可以确定音频元件302A至302J(统称为音频元件302)中的一个或多个的音频位置信息(ALI)45A,其可以不仅表示传声器,诸如图1A或1B中所示的传声器18,而且表示其它类型的捕获设备,包括其它XR设备、移动电话-包括所谓的智能手机-等,或者可以确定合成声场,诸如图1C的通过合成设备29根据PSI 46A生成的音频数据19。
流选择单元44接下来可以通过上述方式获得能量图,分析能量图以确定音频源位置304,其可以表示图1A至1C的示例中所示的ASL49的一个示例。能量图可以表示音频源位置304。在示例中,流选择单元44可以基于至少一个能量图(例如,复合能量图)来表示音频源位置304,其中音频源位置304处的能量可高于周围区域。即,流选择单元44可以基于至少一个能量图来确定较高能量位置并且可以将音频源位置304确定为对应于较高能量位置(例如,虚拟或物理位置)。在一些示例中,流选择单元44可以基于多个能量图来表示音频源位置304。鉴于能量图中的每一个可以表示与音频源位置304相对应的该较高能量,流选择单元44可以基于能量图中的较高能量对音频源位置304进行三角测量。
接下来,流选择单元44可以将音频源距离306A确定为音频源位置304与VR设备204的虚拟位置300A之间的距离。流选择单元44可以将音频源距离306A与音频源距离阈值进行比较。在一些示例中,流选择单元44可以基于音频源308的能量导出音频源距离阈值。即,当音源308具有较高能量时(或换句话说,当音源308较嘈杂时),流选择单元44可以增加音源距离阈值。当音源308具有低高能量时(或换句话说,当音源308较安静时),流选择单元44可以降低音源距离阈值。在其它示例中,流选择单元44可以获得静态定义的音频源距离阈值,其可以由用户(例如,用户202)静态定义或指定。
在任何情况下,流选择单元44可以在音频源距离306A大于音频源距离阈值(在该示例中为了说明目的而假设)时,选择音频元件302A至302J(“音频元件302”)的比特流27的单个音频流。例如,流选择单元44可以选择与虚拟位置300具有最短距离的音频元件(例如,图3A的示例中的音频元件302A)的比特流27。流选择单元44可以输出比特流27中的对应比特流,音频解码设备34可以将其解码并输出为音频数据19'。
假设用户(例如,用户202)从虚拟位置300A移动到虚拟位置300B,流选择单元44可以将音频源距离306B确定为音频源位置304与虚拟位置300B之间的距离。在一些示例中,流选择单元44可以仅在一些可配置的释放时间之后更新,该释放时间可以指代听众停止移动之后的时间。
在任何情况下,流选择单元44可以再次将音频源距离306B与音频源距离阈值进行比较。当音频源距离306B小于或等于音频源距离阈值(在该示例中出于说明目的而假设)时,流选择单元44可以选择音频元件302的比特流27的多个音频流。流选择单元44可以输出比特流27中的对应比特流,音频解码设备34可以将其解码并输出为音频数据19'。
流选择单元44还可以确定虚拟位置300A与由ALI 45A表示的捕获位置(或合成位置)中的一个或多个(并且可能每一个)之间的一个或多个接近距离以获得一个或多个接近距离。流选择单元44然后可以将一个或多个接近距离与阈值接近距离进行比较。与一个或多个接近距离小于或等于阈值接近距离以获得音频数据19'时相比,流选择单元44可以在一个或多个接近距离大于阈值接近距离时选择更少数量的比特流27。然而,与一个或多个接近距离大于阈值接近距离以获得音频数据19'时相比,流选择单元44可以在接近距离中的一个或多个小于阈值接近距离时选择更大数量的比特流27。
换句话说,流选择单元44可以尝试选择比特流27中的那些比特流,使得音频数据19'最接近与虚拟位置300B匹配并围绕虚拟位置300B。接近距离阈值可以定义此阈值,用户202可以设定该阈值或者流选择单元44可以基于音频元件302F至302J的质量、音频源308的增益或响度、跟踪信息41(例如,以确定用户202是否面对音频源308)或任何其它因素来再次确定该阈值。
在这方面,当听众在位置300B处时,流选择单元44可以增加音频空间化准确度。此外,当听众在位置300A处时,流选择单元44可以降低位率,因为仅使用音频元件302A的音频流而不是音频元件302B至302J的多个音频流来生成声场。
接下来参考图3B的示例,流选择单元44可以确定音频元件302A的音频流被破坏、嘈杂或不可用。鉴于音频源距离306A大于音频源距离阈值,流选择单元44可以根据上文更详细描述的技术从CM 47中去除音频流并且迭代通过比特流27以选择比特流27中的单个比特流(例如,在图3B的示例中,音频元件302B的音频流)。
接下来参考图3C的示例,流选择单元44可以获得包括ALI 45A的新音频流(音频元件302K的音频流)和对应的新信息(例如,元数据)。流选择单元44可以将新的音频流添加到表示比特流27的CM 47。鉴于音频源距离306A大于音频源距离阈值,流选择单元44然后可以根据上文更详细描述的技术迭代通过比特流27以选择比特流27中的单个比特流(例如,在图3C的示例中,音频元件302B的音频流)。
在图3D的示例中,音频元件302被替换为特定的示例设备320A至320J(“设备320”),其中设备320A表示专用传声器320A,而设备320B、320C、320D、320G、320H和320J表示智能手机。设备320E、320F和320I可以表示XR设备(例如,VR设备)。设备320中的每一个可以包括音频元件302,其捕获或合成将根据本公开中描述的流选择技术和参数调整技术的各个方面来选择或排除的比特流27(例如,音频流)。
在一些示例中,设备320可以还包括一个或多个音频扬声器。虽然未在图3D的示例中示出,但是应当理解,图3D可以还包括与生成的音频源相对应的音频元件302,诸如经由计算机程序生成的音频。可以基于每个相应的音频元件的能量图分析和比较来调整被配置为生成音频数据19的音频元件(诸如传声器或合成的音频源)的参数设置,使得用户202以与预期体验音频(例如,均衡音频)的方式严格匹配的方式体验音频。在示例中,用户202可以对着传声器320A说话,然后另一个用户可能能够通过头戴式耳机或其它扬声器设备听到用户202说话。当传声器320A根据另一用户的XR环境中(例如,在虚拟音乐会上)的其它声音(例如,生成的音频流)而未得到补偿时,另一用户可能会体验或感知用户202的口语具有不合适的音量或增益或者作为嘈杂或失真的信号,这然后可能导致另一用户对XR***生成不愉快的体验。
在说明性示例中,音频解码设备34可以基于XR环境中的一个或多个声音的能量图(例如,在音乐会环境中捕获音频的每个传声器的能量图)来补偿用户202的传声器320A,使得当为另一用户生成声场时,音频解码设备34可以在联合观看虚拟音乐会期间生成用户202的语音的音频流,其中在传声器320A的各种增益调整后,另一用户可以听到用户202说话。
在一些示例中,音频解码设备34可以通过向源设备12发送参数调整(例如,经由侧声道33)、用于生成能量图的至少一个音频流或至少一个能量图(例如,复合能量图)来补偿传声器320A,其中源设备12可以实施参数调整以为音频元件(例如,传声器18、合成设备29等)补偿与音频元件相对应的能量图和至少一个其它能量图(例如,复合能量图)中的一个或多个差异。在另一示例中,源设备12的声场表示生成器24或内容消费设备14的音频解码设备34可以基于能量图分析调节从音频元件生成的音频数据19以最终生成表示能量图的音频数据19',该能量图与一个或多个其它能量图(包括复合能量图)匹配。在该说明性示例中,另一用户可能与用户202在物理上分离,但是在虚拟世界中,可能坐在用户202旁边并欣赏同一音乐会。
图4A是示出图1A至1C的示例中所示的音频解码设备34在执行参数调整技术的各个方面时的示例操作的流程图。在图4A中,音频解码设备34可以从特定定义的音频元件集(诸如由音频元件与内容消费设备14的接近度或与音频的声场所在的空间的接近度定义的星座集)中的所有启用的音频元件获得比特流27(例如,音频流)。在示例中,音频解码设备34可以从每个音频接收设备获得比特流27(例如,这是指代诸如传声器18等传声器的另一种方式)。比特流27可以包括对应信息(例如,元数据)。音频解码设备34可以对比特流27中的每一个执行能量分析以计算相应的能量图并将能量图存储到存储位置,诸如存储到CM47。
在一些示例中,音频解码设备34可以访问至少一个能量图(402)。至少一个能量图可以包括由存储到存储器位置的相应能量图中的每一个形成的复合能量图。在一些实例中,访问至少一个能量图可以包括音频解码设备34从另一个设备接收至少一个能量图、从另一个设备接收一个以上的能量图、基于音频流生成一个或多个能量图、生成复合能量图、获得音频流并从中生成能量图,或它们的任何组合。
音频解码设备34然后可以使用所访问的能量图来确定对诸如传声器或合成设备29等音频元件的参数调整(404)。在一些示例中,音频解码设备34可以将与第一音频元件的音频相对应的第一能量图与比较能量图进行比较。如上文所讨论的,比较能量图可以基于一个或多个能量图并且可以包括第一能量图或者可以是基于一个或多个能量图的复合能量图,该一个或多个能量图可以包括也可以不包括第一能量图。
在一些示例中,音频解码设备34可以确定关于能量图的比较的差异得分。例如,差异得分可以表示特定的音频元件偏离基线能量图(例如,复合能量图)的程度。在一些示例中,音频解码设备34可以基于比较中的差异来调整差异得分。例如,当存在关于第一能量图的不连续性或第一能量图与一个或多个其它能量图之间的不连续性时,音频解码设备34可以增加差异得分,这指示关于音频流或多个音频流之间的不连续性。音频解码设备34可以将差异得分与差异阈值进行比较以确定是否需要调整参数。在其它示例中,音频解码设备34可以使用差异得分来确定参数调整,而不管该得分是否超过差异阈值。例如,音频解码设备34可以使用查找表或补偿公式来基于差异得分确定参数调整。
在一些示例中,音频解码设备34可以通过确定音频元件的能量图与复合能量图之间的差异来确定参数调整。在此类示例中,差异可以指示已经或将要应用于目标音频元件(例如,以参数调整为目标的音频元件)的音频信号的频率相关均衡器(EQ)增益。在示例中,差异是由复合能量图给出的音频元件位置处的预期能量与音频元件信号的测量能量之间的差值。在说明性示例中,音频解码设备34可以至少部分地基于复合能量图来确定音频元件的特定位置处的预期能量,然后可以对由音频元件生成的信号执行能量分析以确定差异(例如,能量差)。音频解码设备34音频解码设备34然后可以向音频元件发送参数调整,其可以包括作为参数调整的一部分的差异。在实施参数调整时,音频元件可以将差异(以分贝(dB)为单位)直接作为增益因子应用于由音频元件生成的音频信号。
在一些实例中,音频解码设备34可以在确定参数调整之前确定一个或多个音频元件的操作状态(408)。操作状态可以包括音频元件的信噪比。在另一个示例中,音频解码设备34可以利用从一个或多个传声器18接收的自诊断数据来确定可以用于建立基线读数的传声器18的阵列。在一个示例中,音频解码设备34可以在访问一个或多个能量图之前或在访问能量图之后利用此数据。在先前情况下,音频解码设备34可以选择性地仅访问满足由操作状态信息定义并且如先前所讨论的标准的那些能量图。在之后情况下,音频解码设备34可以基于操作状态来修改能量图或音频流(410)。例如,音频解码设备34可以在形成复合能量图时从考虑中去除或排除某些音频流或能量图。在任何情况下,音频解码设备34可以去除噪声信号或从考虑中去除生成嘈杂信号的那些设备。
音频解码设备34可以根据任何给定频率更新各种输入。例如,音频解码设备34可以以音频帧速率更新所有或一些能量图(意味着能量图按每帧更新一次)。在一些实例中,音频解码设备34可以周期性地更新能量图和复合能量图。在一些示例中,音频解码设备34可以响应于触发(诸如检测到新的音频元件或检测到以前不可用、无响应、嘈杂的或以其它方式损坏的音频元件现在已变得可用以供考虑)而更新能量图。例如,用户可以更新隐私设置,其允许音频解码设备34使用新的音频流和对应的能量图来确定参数调整,或者要求音频解码设备34现在从考虑中排除音频流或能量图。在另一个示例中,音频解码设备34可以以UI速率更新许可/隐私设置(意味着通过经由UI输入的更新来驱动更新)。作为另一个示例,音频解码设备34可以以传感器速率更新位置(意味着位置通过音频元件的移动而改变)。
在一些示例中,音频解码设备34可以输出对应传声器的参数调整(406)。例如,音频解码设备34可以向与需要调整的音频流捕获相对应的传声器发送参数调整。在另一个示例中,音频解码设备34可以直接对与音频解码设备34相对应的传声器实施参数调整。在一些示例中,音频解码设备34可以将参数调整输出到存储位置并且存储参数调整以供后续访问。在一些实例中,音频解码设备34可以根据由于强能量图读数(例如,近能量图比较)而调整或维持的参数设置对与比特流27中的一个相对应的音频数据19'进行解码和输出。
在另一个示例中,音频解码设备34可以调整每个音频元件(例如,每个接收器)的频率相关增益。在示例中,音频解码设备34可以基于复合能量图与为每个音频元件获得的单独能量图的比较来确定对频率相关增益的调整。
如图4B中所示,音频解码设备34可以在循环配置中重复该过程。例如,音频解码设备34然后可以访问和/或确定每个音频元件302(例如,音频捕获接收器、音频合成器)的能量图(420)。在一些示例中,音频解码设备34然后可以确定音频元件302的操作状态(422)。在示例中,音频解码设备34可以接收操作状态信息(例如,自诊断)并且检查是否有任何音频捕获接收器不合格(例如,嘈杂或无声)。
在一些示例中,音频解码设备34可以确定是否从考虑中去除任何音频元件作为有效音频元件(424)。在示例中,音频解码设备34可以从考虑中去除那些不合格的音频元件。即,音频解码设备34可以仅使用或考虑使用有效音频元件(例如,接收器、合成器)的能量图。因而,音频解码设备34可以使用经由有效音频元件获得的能量图来确定复合能量图(426)。有效音频元件可以包括未损坏、嘈杂、无声或以其它方式不能用于形成用于基线比较的复合能量图的音频元件。
在一些示例中,音频解码设备34可以确定复合能量图。虽然参考音频解码设备34进行了描述,但是本公开的技术不限于此,并且应当理解,内容消费设备14的、源设备12的或远程设备(例如,远程服务器504)的其它设备或处理***可以执行本公开的各种技术中的一个或多个。在涉及源设备12执行本公开的各种技术中的一个或多个的说明性示例中,控制器31可以经由侧声道33从内容消费设备14A或从其它源设备12接收多个能量图。
在另一个示例中,用于源设备12的特定控制器31可以从其它源设备12或从内容消费设备14接收音频流(例如,比特流27)。特定控制器31进而可以根据与音频元件302相对应的多个能量图或从与其相对应的多个音频流确定复合能量图。在另一个示例中,控制器31可以将多个能量图和/或多个音频流(例如作为从控制器31或从声场表示生成器24发送到内容编辑设备22的元数据25)传递到内容编辑设备22。另外,内容编辑设备22或内容捕获设备20可以从控制器31或从声场表示生成器24接收多个能量图和/或多个音频流,进而可以基于该多个能量图或基于为多个源设备12中的每一个确定的多个音频流来确定复合能量图。如图所述,控制器31可以与声场表示生成器24和/或内容编辑设备22中的一个或多个集成。
然而,为了避免混淆并且如本文所描述的,参考音频解码设备34来描述本公开的各种技术,其中音频解码设备34可以通过根据复合能量图分析一个或多个相应的能量图来确定对特定的源设备12(例如,有效的源设备12)的参数调整,并将参数调整传递到各种源设备12,其中源设备12可以接收参数调整(例如,作为PSI 46A)并实施参数调整以补偿经由源设备12对音频数据19的生成或提供补偿能量图之间的差异(例如,差异)的补偿后的编辑内容23。在一些实例中,参数调整可以包括用于禁用特定源设备12的指令,其中源设备12正在生成损坏的、嘈杂的或以其它方式迷惑的比特流27和/或将其发送到内容消费设备14或远程服务器(例如,远程服务器504)。
在一些示例中,为了生成复合能量图,音频解码设备34可以根据多个能量图计算滚降(例如,频率)并且组合能量图以基于滚降频率形成复合能量图。在示例中,音频解码设备34可以在多个能量图的滚降值之间进行插值以确定单个复合能量图,诸如由来自多个能量图的至少两个能量图(例如,具有最高SNR的两个能量图、一个比较能量图和来自经预补偿的参考音频元件等的一个或多个参考能量图)组成的能量图。复合能量图可以与用于形成复合能量图的能量图不同和分离。在另一个示例中,复合能量图可以包括特定的一个源设备12所特有的各个能量图。在任何情况下,复合能量图被形成为用作确定另一个设备的能量图何时未与音频元件302的星座集合中的其它设备匹配或以者未用其补偿的基线。
在说明性示例中,音频解码设备34可以从多个能量图计算理论和/或位置相关滚降以形成复合能量图。滚降计算可以基于线性或对数标度(例如,分贝等),这取决于调谐偏好信息(例如,基于包括调谐偏好信息的PSI 46)。在一些示例中,音频解码设备34可以通过多种不同方式从滚降信息确定复合能量图,该方式包括确定参考能量图、在能量图之间进行插值,诸如在相应的能量图的频率数据之间进行插值等等。
在一些示例中,音频解码设备34可以确定已经发信号通知为已经预补偿(例如,预校准、预均衡)的第一音频元件(例如,音频元件302A)。在说明性且非限制性示例中,第一音频元件可以包括传声器18和/或内容捕获设备20(例如,图1A或1B)。在任何情况下,音频解码设备34可以使用与第一音频元件相对应的能量图作为参考能量图。音频解码设备34然后可以通过计算其它音频元件(例如,接收器、合成声场等)相对于参考能量图的滚降来计算复合能量图。在没有音频元件发信号通知进行预补偿的示例中,音频解码设备34可以计算音频元件集中的多个音频元件的质心位置。音频解码设备34然后可以将最接近质心位置的一个或多个音频元件确定为参考元件以提供用于执行能量图比较(例如,滚降频率比较)的参考能量图。
在另一个示例中,音频解码设备34(或一些示例中的远程服务器)可以从多个源设备12接收多个音频流(例如,多个比特流27)。另外或替代地,音频解码设备34可以接收多个能量图和/或关于一个或多个能量图的SNR的信息。音频解码设备34可以根据多个音频流确定多个能量图和/或可以确定多个能量图(例如,不同音频元件12的能量图)的SNR信息。基于与多个能量图相关的SNR信息和/或一个或多个能量图的SNR信息,音频解码设备34可以从音频元件集(例如,星座)中确定相对于星座中的其它音频元件302的能量图具有最高SNR能量图的一个或多个音频元件302。
在示例中,音频解码设备34可以确定相对于星座中的其它音频元件302具有更高SNR能量图的前“N”个音频元件302。在另一个示例中,音频解码设备34可以确定音频元件302的星座中超过SNR阈值的前“N”个音频元件302。在一些示例中,音频解码设备34可以接收指示一个或多个音频元件302的操作状态的SNR信息(例如,作为音频元数据),然后可以基于相对于音频元件302的集合中的任何其它音频元件302具有最高SNR能量图的音频元件302从SNR信息确定复合能量图。
在说明性示例中,音频解码设备34可以是从音频元件302A至302K接收音频流和/或能量图的设备204(例如,头戴式耳机、音频扬声器、XR设备等)的解码设备,诸如为了举例说明而参考图3A至3C描述的那些解码设备。在另一个示例中,本公开的技术可以由实施源设备12的功能性的音频元件302来执行,诸如在音频元件302包括内容捕获设备20(例如,传声器18)和/或合成设备29的情况下。音频元件302可以确定复合能量图并确定音频元件302可以发送到音频元件302的星座中的其它音频元件302的一个或多个参数调整。
在另一个说明性示例中,参考图5B进行说明,设备504A、204A、204B、504B等中的任一个或多个可以基于前“N”个音频元件302或基于参考能量图来确定复合能量图以便随后确定对音频元件302A的参数调整,在图5B的说明性示例中,该参数调整包括禁止音频元件302A为设备204A或204B的用户202生成用于XR体验的音频,或者排除音频元件302A的能量图用于复合能量图的生成。这可能是因为音频元件302A例如具有不良的质量特性、操作或可行性状态(例如,在口袋中、受密码保护)、能量图差异等,使得音频元件302A被禁用和/或发信号通知为不合格,直到音频元件302A被重新配置为随后改进质量、操作状态、能量图差异或导致音频解码设备34提供首先被禁用或被标记为不合格的音频元件302A的参数调整的其它因素的时间为止。
在任何情况下,一旦生成,音频解码设备34或另一个示例中的另一设备就可以访问一旦生成就能确定如本文描述的音频元件中的一个或多个的参数调整的复合能量图。随着附加音频元件进入音频元件302的星座集和/或随着特定的音频元件302获得资格状态或失去资格状态,音频解码设备34可以随时间推移而更新复合能量图(例如,音频元件302A可以在图5B的示例中重新进入星座,提示设备504、204的音频解码设备34或另一个音频元件更新或者修改一个或多个复合能量图)。(例如,设备204A的)音频解码设备34然后可以利用复合能量图来确定音频元件的星座集中的音频元件的能量图中的差异和/或可以向其它设备(例如、服务器504、设备204B、其它音频元件302等中的一个或多个)发送复合能量图以用于进一步的能量图和/或参数调整处理。
当确定复合能量图时,音频解码设备34进一步被配置为利用前“N”个音频元件302(例如,具有最高SNR能量图的音频元件302)并且可以利用与音频元件302的集合中的音频元件302相对应的相应能量图,该音频元件的能量图满足SNR阈值或该音频元件的能量图的SNR值原本高于与音频元件302的集合中的其它音频元件302相对应的能量图的SNR。音频解码设备34然后可以在N个能量图之间进行插值以形成复合能量图。在示例中,音频解码设备34可以访问与多个音频流相对应的多个能量图,其中能量图具有满足SNR阈值的SNR值(例如,相对于其它能量图具有更高的质量特性),然后音频解码设备34可以在多个能量图之间进行插值以形成复合能量图。在一些示例中,音频解码设备34可以确定多个能量图之间的平均值并且基于该平均值和/或基于插值来形成复合能量图。
在说明性示例中,“N”可以基于在地理区域中在彼此的阈值距离内检测到的音频元件302的总数。在任意示例中,音频元件302的总数可以包括驻留在音乐厅的舞台(例如,舞台523)上的十五个传声器和两个合成声场。音频解码设备34可以被配置为将小于总数的特定数量选择为“N”(例如,前五个)或将总数的得分选择为“N”(例如,在该说明性示例中为总共十七个音频元件302的前一半或前三分之一)。
在一些示例中,音频解码设备34可以将每个有效音频元件的能量图与复合能量图进行比较(428)。在示例中,音频解码设备34然后可以分析能量图以检查能量图之间的频率相关差异。
在一些实例中,音频解码设备34可能不对音频元件302执行操作状态检查。在此类示例中,音频解码设备34可以比较音频元件的能量图以确定在能量图与复合能量图之间是否存在任何频率相关差异。音频解码设备34可以据此调整每个接收器的频率相关增益。然而,音频解码设备34可以基于对频率相关差异的分析来确定音频元件不需要参数调整。在此类示例中,音频解码设备34可以返回分析所有有效音频元件的能量图。
在一些示例中,音频解码设备34可以在访问能量图之前接收或确定操作状态信息。在此类情况下,音频解码设备34可以基于操作状态信息从考虑中去除一些能量图或一些音频流。在其它实例中,音频解码设备34可以并行地分析能量图和操作状态信息以便确定哪些能量图应被分析以及哪些不应被分析。音频解码设备34然后可以针对6DOF收听和/或渲染对实时XR捕获设备进行自动均衡或归一化。
在另一个示例中,音频解码设备34可以访问多个音频元件的复合能量图,该复合能量图是从能量图集生成的,每个能量图对应于多个音频元件中的一个音频元件;确定多个音频元件中的至少一个音频元件的配置签名与复合能量图之间的差异;并且至少部分地基于该差异来生成用于调整参数设置的指令。
在一些示例中,音频解码设备34可以对能量图集进行编译,该能量图集包括来自多个音频元件的至少两个音频元件的能量图。音频解码设备34然后可以生成多个音频元件的复合能量图,该复合能量图是从能量图集生成的,每个能量图对应于多个音频元件中的一个音频元件。内容消费设备14然后可以向源设备12发送复合能量图。
在另一个示例中,控制器31可以生成能量图并向内容消费设备14发送该能量图。控制器31可以进而从内容消费设备14A接收指令以调整参数设置。内容消费设备14可以基于能量图与复合能量图的比较来确定指令。响应于接收到指令,源设备12可以调整参数设置。
虽然就音频解码设备34而言进行了讨论,但是任何数量的不同音频设备(包括源设备12的一个或多个处理器或内容消费设备的一个或多个处理器或任何其它音频相关设备)都可以执行本公开的各种技术。音频设备应至少被配置为访问和/或分析一个或多个能量图。
图5A至5D是更详细地示出图1A至1C的示例中所示的音频解码设备34的示例操作的图。如图5A的示例中所示,音频解码设备34可以确定多个音频元件302的存在。音频解码设备34可以对应于VR设备204A或VR设备204B(“VR设备204”)中的一个、音频源308、音频元件302中的一个或远程服务器504中的一个。音频解码设备34可以确定一个或多个音频元件302(其可以不仅表示传声器,诸如图1A和1B中所示的传声器18,而且还表示其它类型的音频接收设备,包括其它XR设备、移动电话-包括所谓的智能手机等,或生成的声场)的参数设置。
如上所述,音频解码设备34可以从音频元件302(其可以不仅表示传声器,诸如图1A中所示的传声器18,而且还表示其它类型的捕获设备,包括其它XR设备、移动电话-包括所谓的智能手机等,或生成的声场)获得比特流27。音频解码设备34可以与音频元件302对接以获得比特流27。在一些示例中,流选择单元44可以根据5G蜂窝标准、个域网(PAN)(诸如
Figure GDA0003538401340000401
)或其它一些开源、专有或标准化的通信协议与接口(诸如接收器、发送器和/或收发器)交互以获得比特流27。音频流的无线传送和/或其它音频数据(诸如能量图或参数调整)的发送在图5A至5C的示例中被表示为闪电,其中选定的音频数据19'被示为从音频元件302中的一个或多个传送往返于VR设备204、往返于远程服务器504以及往返于音频源308。
在一些实例中,音频源308可以包括用户、流媒体源(例如,智能电视)或一些其它音频生成源,诸如具有声音的环境。在一些实例中,音频元件302G可以位于远离用户的环境中,其中用户可以在XR空间中体验该环境。例如,用户可能在远程电影院中远程观看电影,多人一起远程体验XR空间,其中一个或多个传声器可以放置在电影院中以捕获一个或多个音频流。
音频解码设备34可以通过从存储器中检索能量图或生成至少一个能量图来以上述方式访问至少一个能量图。例如,音频解码设备34可以对比特流27中的一个执行能量分析以诸如当确定复合能量图时确定与相应音频流或在一些实例中与多个音频流相对应的至少一个能量图。
接下来参考图5B的示例,音频解码设备34可以从音频元件302A接收操作状态信息。使用操作状态信息,音频解码设备34可以确定由音频元件302A捕获的音频流被破坏、是嘈杂的或不可用的。在一些示例中,音频解码设备34可以将音频元件的SNR与阈值SNR进行比较以确定音频元件是否损坏、嘈杂的或不可用的。类似地,音频元件可以对无声应用最小增益检查(例如,设备开启但在用户的口袋或钱包中)。音频解码设备34可以从CM 47中去除音频流和/或相应的能量图。
在一些实例中,音频解码设备34可以在生成复合能量图之前去除音频流和/或能量图。在其它实例中,音频解码设备34可以在音频流和/或能量图不被视为不可用的情况下重新生成复合能量图。在任何情况下,音频解码设备34可以相对于音频帧速率周期性地更新能量图,单独地更新能量图或作为复合能量图更新。复合能量图可以是多个能量图的平均值,使得复合能量图最有可能提供对共同声场的最准确描绘。
在图5C的示例中,音频元件302被替换为特定设备320A至320E(“设备320”),其中设备320A表示专用传声器320A,而设备320B和320C表示移动设备320(例如,智能电话或移动手持设备)。设备320E和320F可以表示VR设备320。设备320中的每一个可以包括音频元件302,其捕获根据本公开中描述的参数调整技术的各个方面调节的比特流27。在一些示例中,音频元件302可以被启用以接收音频。在另一个示例中,音频元件302可以由合成设备29生成。此外,设备320可以包括可穿戴设备、移动手持终端、XR设备、音频接收器。
设备320可以耦合到一个或多个扬声器。诸如通过再现、再创建、产生、播放、存储或以其它方式表示声场,扬声器可以被配置为生成声场。根据本公开的各个方面,设备320可以被配置为提供3DOF、3DOF+或6DOF用户体验。在一些实例中,设备320可以包括被配置为根据5G蜂窝标准和/或根据个域网标准接收音频流的接收器。另外,设备320可以被配置为通过无线链路(诸如通过5G空中接口或蓝牙接口)接收数据。在其它示例中,设备320可以被配置为通过有线链路接收数据。在一些实例中,设备320中的一个可以包括被配置为执行调整技术的远程服务器。另外,设备320可以包括源设备12或内容消费设备14。例如,设备320可以通过一个或多个扬声器生成音频,因此可以包括源设备12。
在一些示例中,诸如智能电话等移动设备可以从多个源设备12接收音频流并确定对源设备12和内容消费设备14的参数调整。智能电话可以生成能量图并渲染能量曲线图叠加以提供对能量图和声场的视觉表示。智能电话可以从另一个音频设备、外部服务器或通过使用比特流27生成能量图来访问能量图。
在一些示例中,音频解码设备34可以使用对等通信来共享来自已经被调整的一个或多个设备的参数调整(例如,校准调整)并且与引入该区域的新设备共享该参数调整。在一些示例中,音频解码设备34可以利用电子通信网络(ECNS)。音频解码设备34可以被配置为通过噪声或其它传声器到扬声器的反馈来防止反馈。
在一些示例中,可以存在房间相关参数调整。例如,音频解码设备34可以被配置为减少房间模式共振。在示例中,特定房间共振可能发生在一个或多个特定节点处。在一些示例中,特定的房间共振可能发生在一个节点或多个节点处,其中声音波长是房间尺寸的倍数。当音频元件位于相消干扰节点处时,音频解码设备34然后可以应用参数调整来提升一个或多个特定节点已经影响的频率。在此类示例中,受影响的音频元件可以实施(例如,应用)带通均衡增益以提升受节点影响的频率。
在另一个示例中,当音频元件处于存在相长干扰的节点处时,音频解码设备34可以确定降低房间相关频率下的增益的参数调整。通过这种方式,音频元件可以实施参数调整(例如,以降低增益、提升一个或多个受影响频率等)以增加由音频元件生成的信号的质量特性。在示例中,在存在相长干扰的节点处降低音频元件的房间相关频率下的增益可以允许音频元件生成听起来不“轰隆”或至少听起来不如参数调整前那么“轰隆”的声场。
图5D是示出具有三个或更多个音频元件的示例音乐会的概念图。在图5D的示例中,描绘了舞台523上的许多音乐家。歌手512位于音频元件510A后面。弦乐组514被描绘在音频元件510B后面。鼓手516被描绘在音频元件510C后面。其它音乐家518被描绘在音频元件510D后面。音频元件510A至510D可以捕获与由传声器接收到的声音相对应的音频流。在一些示例中,音频元件510A至510D可以表示生成的音频流(例如,合成音频流)。
音频元件510A可以表示主要与歌手512相关联的一个或多个捕获的音频流。另外或替代地,示例音频流还可以包括由其它乐队成员(诸如弦乐组514、鼓手516或其它音乐家518)生成的声音。另外或替代地,音频元件510B可以表示主要与弦乐组514相关联的一个或多个音频流,而且也可以表示由其它乐队成员生成的声音。通过这种方式,音频元件510A至510D中的每一个可表示不同的音频流。
还描绘了许多设备。这些设备表示位于多个不同目标收听位置处的用户设备。头戴式耳机521位于音频元件510A附近,但在音频元件510A与音频元件510B之间。因而,根据本公开的技术,流选择单元44可以选择音频流中的至少一个来为头戴式耳机521的用户生成音频体验,这类似于用户位于图5D中的头戴式耳机521所处的位置。类似地,VR护目镜522被示为位于音频元件510C后面以及鼓手516与其它音乐家518之间。流选择单元44可以选择至少一个音频流来为VR护目镜522的用户生成音频体验,这类似于用户位于图5D中的VR护目镜522所处的位置。
智能眼镜524被示为位于音频元件510A、510C和510D之间的正中央。流选择单元44可以选择至少一个音频流来为智能眼镜524的用户生成音频体验,这类似于用户位于图5D中的智能眼镜524所处的位置。另外,设备526(其可以表示能够实施本公开的技术的任何设备,诸如移动手持终端、扬声器阵列、头戴式耳机、VR护目镜、智能眼镜等)被示为位于音频元件510B的前面。流选择单元44可以选择至少一个音频流来为设备526的用户(例如,用户202)生成音频体验,这类似于用户位于图5D中的设备526所处的位置。虽然针对特定位置讨论了特定设备,但是所描绘的任何设备都可以提供与图5D中描绘的不同的期望收听位置的指示。
在此类示例中,内容消费设备14和/或源设备12可以彼此协调以形成每个音频元件510和音频元件521(例如,耳机传声器)的复合能量图以确定是否禁用任何音频元件510或521。在一些示例中,诸如在一个音频元件嘈杂的情况下,内容消费设备14和/或源设备12可以在生成复合能量图之前进一步确定是否去除任何音频元件510或521。在示例中,音频元件510A可以包括听众成员的传声器,其中传声器在听众成员的口袋中并且因此可能具有不良SNR读数或低于预定SNR阈值的其它质量指标。因而,内容消费设备14和/或源设备12可以接收音频元件510A的能量图,但是当为相对于舞台523的剩余和有效音频元件生成复合能量图时可以排除该能量图。在一些示例中,音乐家518可能并不物理地出现在舞台523上,但是音频元件510D可以包括在图5中示出音乐家的位置处生成的音频流。然而,内容消费设备14和/或源设备12可以确定包括与合成音频元件510D相对应的能量图的复合能量图。
图6是示出可以根据本公开中描述的技术的各个方面操作的可穿戴设备602的示例的图。在各个示例中,可穿戴设备602可以表示XR设备(例如,诸如本文描述的VR设备204、AR耳机、MR耳机或任何其它类型的XR耳机)。增强现实“AR”可以指代叠加在用户实际所处的现实世界上的计算机渲染图像或数据。混合现实“MR”可以指代被锁定到现实世界中的特定位置的计算机渲染的图像或数据,或者可以指代VR的一种变型,其中部分计算机渲染的3D元素和部分拍摄的真实元素组合成模拟用户在环境中的物理存在的沉浸式体验。扩展现实“XR”可以表示VR、AR和MR的统称。关于XR术语的更多信息可以在Jason Peterson于2017年7月7日发表的题为“Virtual Reality,Augmented Reality,and Mixed RealityDefinitions”的文档中找到。
可穿戴设备602可以表示其它类型的设备,诸如手表(包括所谓的“智能手表”)、眼镜(包括所谓的“智能眼镜”)、头戴式耳机(包括所谓的“无线头戴式耳机”和“智能头戴式耳机”)、智能服装、智能珠宝等。无论是否表示VR设备、手表、眼镜和/或耳机,可穿戴设备602都可以经由有线连接或无线连接与支持可穿戴设备602的计算设备进行通信。
在一些实例中,支持可穿戴设备602的计算设备可以集成在可穿戴设备602内,因而,可穿戴设备602可以被视为与支持可穿戴设备602的计算设备相同的设备。在其它实例中,可穿戴设备602可以与可以支持可穿戴设备602的单独计算设备进行通信。在这方面,术语“支持”不应被理解为需要单独的专用设备,而是被配置为执行本公开中描述的技术的各个方面的一个或多个处理器可以集成在可穿戴设备602内或集成在与可穿戴设备602分离的计算设备内。
例如,当可穿戴设备602表示VR设备时,单独的专用计算设备(诸如包括一个或多个处理器的个人计算机)可以渲染音频和视觉内容,而可穿戴设备602可以确定平移头部移动,根据本公开中描述的技术的各个方面,专用计算设备可以基于该平移头部移动渲染音频内容(作为扬声器馈送)。作为另一个示例,当可穿戴设备602表示智能眼镜时,可穿戴设备602可以包括一个或多个处理器,其确定平移头部移动(通过在穿戴设备602的一个或多个传感器内的对接)并基于确定的平移头部移动来渲染扬声器馈送。
如图所示,可穿戴设备602包括一个或多个定向扬声器,以及一个或多个跟踪和/或记录相机。另外,可穿戴设备602包括一个或多个惯性、触觉和/或健康状况传感器、一个或多个眼动跟踪相机、一个或多个高灵敏度音频元件(例如,一个或多个传声器)和光学/投影硬件。可穿戴设备602的光学/投影硬件可以包括耐用的半透明显示技术和硬件。
可穿戴设备602还包括连接硬件,其可以表示支持多模式连接的一个或多个网络接口,诸如4G通信、5G通信、
Figure GDA0003538401340000451
Wi-FiTM等。可穿戴设备602还包括一个或多个环境光传感器、一个或多个相机和夜视传感器,以及一个或多个骨传导传感器。在一些实例中,可穿戴设备602还可以包括具有鱼眼镜头和/或长焦镜头的一个或多个无源和/或有源相机。虽然未在图6中示出,但是可穿戴设备602还可以包括一个或多个发光二极管(LED)灯。在一些示例中,LED灯可以被称为“超亮”LED灯。在一些实施方式中,可穿戴设备602还可以包括一个或多个后置相机。应当理解,可穿戴设备602可以表现出多种不同的形状因子。
此外,跟踪和记录相机以及其它传感器可以促进平移距离的确定。虽然未在图6的示例中示出,但是可穿戴设备602可以包括用于检测平移距离的其它类型的传感器。
虽然关于可穿戴设备的特定示例(诸如本文关于图2的示例讨论的VR设备204和本文在图1A至1C的示例中陈述的其它设备)进行了描述,但是本领域普通技术人员将理解,与图1A至1C和2相关的描述可以适用于可穿戴设备的其它示例。例如,其它可穿戴设备(诸如智能眼镜)可以包括传感器,通过该传感器获得平移头部移动。作为另一个示例,其它可穿戴设备(诸如智能手表)可以包括传感器,通过该传感器获得平移移动。因而,本公开中描述的技术不应限于特定类型的可穿戴设备,而是任何可穿戴设备都可以被配置为执行本公开中描述的技术。
图7A和7B是示出可以执行本公开中描述的技术的各个方面的示例***的图。图7A示出了其中源设备12C还包括相机702的示例。相机702可以被配置为捕获视频数据,并将捕获的原始视频数据提供给内容捕获设备20。内容捕获设备20可以将视频数据提供给源设备12C的另一个组件,以进一步处理成视口经划分的部分。
在图7A的示例中,内容消费设备14C还包括VR设备204。将理解,在各种实施方式中,VR设备204可以被包括在内容消费设备14C中或从外部耦合到内容消费设备。VR设备204包括用于输出视频数据(例如,与各种视口相关联的)和用于渲染音频数据的显示硬件和扬声器硬件。
图7B示出了其中图7A中所示的音频渲染器32被替换为能够使用一个或多个HRTF或能够渲染到左右扬声器馈送43的其它函数来执行双耳渲染的双耳渲染器42的示例。内容消费设备14D的音频回放***16C可以将左右扬声器馈送43输出到头戴式耳机48。
头戴式耳机48可以经由有线连接(诸如标准3.5mm音频插孔、通用***总线(USB)连接、光学音频插孔或其它形式的有线连接)或无线地(诸如通过
Figure GDA0003538401340000461
连接、无线网络连接等)耦合到音频回放***16C。头戴式耳机48可以基于左右扬声器馈送43来生成由音频数据19'表示的声场。头戴式耳机48可以包括左头戴式耳机扬声器和右头戴式耳机扬声器,它们由对应的左右扬声器馈送43供电(或换句话说,驱动)。应当注意,内容消费设备14C和/或内容消费设备14D可以与图1A至1C的源设备12一起使用。
图8是示出图1A至1C的示例中所示的源设备和内容消费设备中的一个或多个的示例组件的框图。在图8的示例中,设备710包括处理器712(其可以被称为“一个或多个处理器”或“处理器”)、图形处理单元(GPU)714、***存储器716、显示处理器718、一个或更多集成扬声器740、显示器703、UI 720、天线721和收发器模块722。在其中设备710是移动设备的示例中,显示处理器718是移动显示处理器(MDP)。在一些示例中,诸如在其中设备710是移动设备的示例中,处理器712、GPU 714和显示处理器718可以形成为集成电路(IC)。
例如,IC可以被认为是芯片封装内的处理芯片并且可以是片上***(SoC)。在一些示例中,处理器712、GPU 714和显示处理器718中的两者可以一起容纳在同一IC中,而另一个可以容纳在不同的集成电路中(例如,在不同的芯片封装中),或者所有三个都可以容纳在不同的IC中或在同一IC上。然而,在其中设备710是移动设备的示例中,处理器712、GPU714和显示处理器718可能都容纳在不同的集成电路中。
处理器712、GPU 714和显示处理器718的示例包括但不限于一个或多个处理器,诸如一个或多个数字信号处理器(DSP)、通用微处理器、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)或其它等效的集成或离散逻辑电路***。处理器712可以是设备710的中央处理单元(CPU)。在一些示例中,GPU 714可以是专用硬件,其包括为GPU 714提供适合图形处理的大规模并行处理能力的集成和/或离散逻辑电路。在一些实例中,GPU 714还可以包括通用处理能力,并且在实施通用处理任务(例如,非图形相关任务)时可以被称为通用GPU(GPGPU)。显示处理器718也可以是专用集成电路硬件,其被设计为从***存储器716中检索图像内容,将图像内容组合成图像帧,并将图像帧输出到显示器703。
处理器712可以执行各种类型的应用。应用的示例包括网络浏览器、电子邮件应用、电子表格、视频游戏、生成用于显示的可视对象的其它应用,或本文更详细列出的任何应用类型。***存储器716可以存储用于执行应用的指令。处理器712上的应用中的一个的执行使处理器712生成要显示的图像内容的图形数据和(可能经由集成扬声器740)要播放的音频数据19。处理器712可以向GPU 714发送图像内容的图形数据,以用于基于处理器712发送到GPU 714的指令或命令进行进一步处理。
处理器712可以根据特定应用程序处理接口(API)与GPU 714通信。此类API的示例包括
Figure GDA0003538401340000471
Figure GDA0003538401340000472
API、Khronos组的
Figure GDA0003538401340000473
Figure GDA0003538401340000474
以及OpenCLTM;然而,本公开的各方面不限于DirectX、OpenGL或OpenCL API,并且可以扩展到其它类型的API。此外,本公开中描述的技术不需要根据API起作用,并且处理器712和GPU 714可以利用任何进程进行通信。
***存储器716可以是设备710的存储器。***存储器716可以包括一个或多个计算机可读存储介质。***存储器716的示例包括但不限于随机存取存储器(RAM)、电可擦除可编程只读存储器(EEPROM)、闪存或可以用于携带或存储呈指令和/或数据结构形式的所需数据并且可以由计算机或处理器访问的其它介质。
在一些示例中,***存储器716可以包括使处理器712、GPU 714和/或显示处理器718执行本公开中归于处理器712、GPU 714和/或显示处理器718的功能的指令。因此,***存储器716可以是其上存储有指令的计算机可读存储介质,该指令在被执行时使一个或多个处理器(例如,处理器712、GPU 714和/或显示处理器718)执行各种功能。
***存储器716可以包括非暂时性存储介质。术语“非暂时性”指示存储介质不体现在载波或传播信号中。然而,术语“非暂时性”不应被解释为表示***存储器716是不可移动的或其内容是静态的。作为一个示例,***存储器716可从设备710移除并移动到另一设备。作为另一个示例,基本上类似于***存储器716的存储器可以***到设备710中。在某些示例中,非暂时性存储介质可以存储随时间变化的数据(例如,存储在RAM中)。
UI 720可以表示一个或多个硬件或虚拟(意味着硬件和软件的组合)UI,用户可以通过该UI与设备710交互。UI 720可以包括物理按钮、开关、拨动开关、灯或它们的虚拟版本。UI 720还可以包括物理或虚拟键盘、触摸界面-诸如触摸屏、触觉反馈等。
处理器712可以包括一个或多个硬件单元(包括所谓的“处理核”),其被配置为执行上文关于源设备12(例如,内容创建者设备)和/或内容消费设备14的模块、单元或其它功能组件中的任一个中的一个或多个所讨论的全部或部分操作。例如,处理器712可以实施上文在图3A至3D、图4A至4B、图5A至5D、图6、图7A至7B和图9A至9C以及图10中关于参数调整和/或能量图描述的功能性。天线721和收发器模块722可以表示被配置为在源设备12与内容消费设备14之间建立和维持连接的单元。天线721和收发器模块722可以表示能够根据一种或多种无线通信协议(诸如5G蜂窝标准、PAN协议,诸如
Figure GDA0003538401340000481
或其它开源、专有或其它通信标准)进行无线通信的一个或多个接收器和/或一个或多个发送器。因而,收发器模块722可以被配置为接收和/或发送无线信号。在一些示例中,收发器模块722可以表示单独的发送器、单独的接收器、单独的发送器和单独的接收器两者或组合的发送器和接收器。天线721和收发器模块722可以被配置为接收编码的音频数据。同样,天线721和收发器模块722可以被配置为发送编码的音频数据。
图9A至9C是示出图1A至1C的示例中所示的流选择单元44在执行流选择和音频元件补偿技术的各个方面时的示例操作的流程图。首先参考图9A的示例,流选择单元44可以从所有启用的音频元件(例如,接收器,诸如传声器18、音频合成器,诸如合成设备29等)获得比特流27,其中比特流27可以包括对应信息(例如,元数据),诸如ALI 45A(800)。流选择单元44可以对比特流27中的每一个执行能量分析以计算相应的能量图(802)。在说明性示例中,流选择单元44可以基于至少两个能量图(例如,为音频元件的星座中的多个音频元件确定的能量图)的组合来确定复合能量图。在说明性示例中,音频解码设备34可以在多个能量图之间进行插值以形成复合能量图。在另一个示例中,音频解码设备34可以将能量图的滚降与经预补偿的音频元件的另一个参考能量图的滚降进行比较以形成复合能量图。
流选择单元44可以基于与音频源308的接近度(如由音频源距离306A和/或306B所定义)和与音频元件的接近度(如由本文讨论的接近距离定义)来迭代通过音频元件的不同组合(在CM 47定义)(804)。如图9A中所示,音频元件可以被排序或以其它方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的听众位置(这是指代“虚拟位置”或“设备位置”的另一种方式)和由ALI 45A表示的音频元件位置以上述方式迭代,以标识是否需要比特流27的更大子集或比特流27的精简子集(806、808)。
当需要比特流27的更大子集时,流选择单元44可以向音频数据19'添加音频元件,或者换句话说,添加附加的音频流(诸如当用户更接近图3A的示例中的音频源时)(810)。当需要比特流27的精简子集时,流选择单元44可以从音频数据19'中去除音频元件,或者换句话说,去除一个或多个现有的音频流(诸如当用户更远离图3A的示例中的音频源时)(812)。
在一些示例中,流选择单元44可以确定音频元件的当前星座是最佳集(或者,换句话说,现有音频数据19'将与本文描述的选择过程保持相同导致相同的音频数据19')(804),并且过程可以返回到802。然而,当音频流被添加到音频数据19'或从音频数据中去除时,流选择单元44可以更新CM 47(814),生成星座历史(815)(包括位置、能量图等)。
另外,流选择单元44可以确定隐私设置是启用还是禁用音频元件的添加(其中隐私设置可以指代例如通过密码、授权级别或等级、时间等限制对比特流27中的一个或多个的访问的数字访问权限)(816、818)。当隐私设置使得能够添加音频元件时,流选择单元44可以将音频元件添加到更新的CM 47(其是指将音频流添加到音频数据19')(820)。当隐私设置禁止添加音频元件时,流选择单元44可以从更新的CM 47中去除音频元件(其是指从音频数据19'中去除一个或多个音频流)(822)。通过这种方式,流选择单元44可以标识启用新的音频元件集(824)。
流选择单元44可以通过这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以UI速率更新隐私设置(意味着通过经由UI输入的更新来驱动更新)。流选择设备44可以以传感器速率更新位置(意味着位置通过音频元件的移动而改变)。流选择单元44可以进一步以音频帧率更新能量图(意味着能量图每帧更新一次)。
接下来参考图9B的示例,流选择单元44可以通过上关于图9A描述的方式操作,不同的是流选择单元44可以不基于能量图来确定CM 47。因而,流选择单元44可以从所有启用的音频元件获得比特流27,其中比特流27可以包括对应信息(例如,元数据),诸如ALI 45A(840)。流选择单元44可以确定隐私设置是启用还是禁用音频元件的添加(其中隐私设置可以指代例如通过密码、授权级别或等级、时间等限制对比特流27中的一个或多个的访问的数字访问权限)(842、844)。
当隐私设置使得能够添加接收器时,流选择单元44可以将音频元件添加到更新的CM 47(其是指将音频流添加到音频数据19')(846)。当隐私设置禁止添加接收器时,流选择单元44可以从更新的CM 47中去除音频元件(其是指从音频数据19'中去除一个或多个音频流)(848)。通过这种方式,流选择单元44可以标识启用新的音频元件集(850)。流选择单元44可以迭代(852)通过CM 47中的音频元件的不同组合以确定星座历史(854),其表示音频数据19'。
流选择单元44可以通过这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以UI速率更新隐私设置(意味着通过经由UI输入的更新来驱动更新)。流选择设备44可以以传感器速率更新位置(意味着位置通过音频元件的移动而改变)。流选择单元44可以进一步以音频帧率更新能量图(意味着能量图每帧更新一次)。
接下来参考图9C的示例,流选择单元44可以通过上关于图9A描述的方式操作,不同的是流选择单元44可以不基于启用的音频元件的隐私设置来确定CM 47。因而,流选择单元44可以从所有启用的音频元件获得比特流27(例如,音频流),其中比特流27可以包括对应元数据(例如,音频元数据、PSI、ALI 45A等)(860)。流选择单元44可以对比特流27中的每一个执行能量分析以计算相应的能量图(862)。
流选择单元44接下来可以基于与音频源308的接近度(如由音频源距离306A和/或306B所定义)和与音频元件的接近度(如由上文讨论的接近距离定义)来迭代通过音频元件的不同组合(在CM 47定义)(864)。如图9C中所示,音频元件可以被排序或以其它方式与不同的访问权限相关联。流选择单元44可以基于由DLI 45B表示的听众位置(这再次是指代上文讨论的“虚拟位置”或“设备位置”的另一种方式)和由ALI 45A表示的音频元件位置以上述方式迭代,以标识是否需要比特流27的更大子集或比特流27的精简子集(866、868)。
当需要比特流27的更大子集时,流选择单元44可以向音频数据19'添加音频元件,或者换句话说,添加附加的音频流(诸如当用户更接近图3A的示例中的音频源时)(870)。当需要比特流27的精简子集时,流选择单元44可以从音频数据19'中去除音频元件,或者换句话说,去除一个或多个现有的音频流(诸如当用户更远离图3A的示例中的音频源时)(872)。
在一些示例中,流选择单元44可以确定音频元件的当前星座是最佳集(或者,换句话说,现有音频数据19'将与本文描述的选择过程保持相同导致相同的音频数据19')(864),并且过程可以返回到862。然而,当音频流被添加到音频数据19'或从音频数据中去除时,流选择单元44可以更新CM 47(874),生成星座历史(875)。
流选择单元44可以通过这种方式迭代并根据任何给定频率更新各种输入。例如,流选择单元44可以以传感器速率更新位置(意味着位置通过音频元件的移动而改变)。流选择单元44可以进一步以音频帧率更新能量图(意味着能量图每帧更新一次)。
应当认识到,取决于示例,本文描述的任何技术的某些动作或事件可以以不同顺序执行,可以被添加、合并或完全排除(例如,并非所有描述的动作或事件都是技术实践所必需的)。此外,在某些示例中,动作或事件可以同时执行,例如,通过多线程处理、中断处理或多个处理器执行,而不是顺序执行。
在一些示例中,VR设备(或流设备)可以使用耦合到VR/流媒体设备的存储器的网络接口向外部设备传送交换消息,其中该交换消息与声场的多个可用表示相关联。在一些示例中,VR设备可以使用耦合到网络接口的天线接收无线信号,包括数据分组、音频分组、视频协议或与声场的多个可用表示相关联的传输协议数据。在一些示例中,一个或多个传声器阵列可以捕获声场。
在一些示例中,存储到存储器设备的声场的多个可用表示可以包括声场的多个基于对象的表示、声场的高阶环绕声表示、声场的混合阶环绕声表示、声场的基于对象的表示与声场的高阶环绕声表示的组合、声场的基于对象的表示与声场的混合阶环绕声表示的组合,或声场的混合阶表示与声场的高阶环绕声表示的组合。
在一些示例中,声场的多个可用表示中的声场表示中的一个或多个可以包括至少一个高分辨率区域和至少一个较低分辨率区域,并且其中基于转向角的选定呈现提供关于至少一个高分辨率区域的更大空间精度和关于较低分辨率区域的更低空间精度。
图10示出了根据本公开的各方面的支持参数调整的无线通信***1002的示例。无线通信***1002包括基站105、用户设备(UE)115和核心网络130。在一些示例中,无线通信***1002可以是长期演进(LTE)网络、高级LTE(LTE-A)网络、LTE-APro网络、5G蜂窝网络或新无线电(NR)网络。在一些情况下,无线通信***1002可以支持增强型宽带通信、超可靠(例如,任务关键型)通信、低等待时间通信或与低成本和低复杂度设备的通信。
基站105可以经由一个或多个基站天线与UE 115进行无线通信。本文描述的基站105可以包含或者可以被本领域技术人员称为基站收发器、无线电基站、接入点、无线电收发器、NodeB、eNodeB(eNB)、下一代NodeB或giga-NodeB(其中的任一个都可以被称为gNB)、家庭NodeB、家庭eNodeB或其它一些合适的术语。无线通信***1002可以包括不同类型的基站105(例如,宏小区基站或小小区基站)。本文描述的UE 115可能能够与各种类型的基站105和网络设备进行通信,该网络设备包括宏eNB、小小区eNB、gNB和中继基站等。
每个基站105可以与其中支持与各种UE 115的通信的特定地理覆盖区域110相关联。每个基站105可以经由通信链路125为相应的地理覆盖区域110提供通信覆盖,并且基站105与UE 115之间的通信链路125可以利用一个或多个载波。无线通信***1002中所示的通信链路125可以包括从UE 115到基站105的上行链路发送,或者从基站105到UE 115的下行链路发送。下行链路发送也可以被称为前向链路发送,而上行链路发送也可以被称为反向链路发送。
基站105的地理覆盖区域110可以被划分为构成地理覆盖区域110的一部分的扇区,并且每个扇区可以与小区相关联。例如,每个基站105可以为宏小区、小小区、热点或其它类型的小区或其各种组合提供通信覆盖。在一些示例中,基站105可以是可移动的,并且因此为移动的地理覆盖区域110提供通信覆盖。在一些示例中,与不同技术相关联的不同地理覆盖区域110可以重叠,并且同一基站105或不同基站105可以支持与不同技术相关联的重叠地理覆盖区域110。无线通信***1002可以包括例如异构LTE/LTE-A/LTE-A Pro、5G蜂窝或NR网络,其中不同类型的基站105为各种地理覆盖区域110提供覆盖。
UE 115可以分散在整个无线通信***1002中,并且每个UE 115可以是固定的或移动的。UE 115也可以被称为移动设备、无线设备、远程设备、手持设备或订户设备,或者一些其它合适的术语,其中“设备”也可以被称为单元、站、终端或客户端。UE 115也可以是个人电子设备,诸如蜂窝电话、个人数字助理(PDA)、平板计算机、膝上型计算机或个人计算机。在本公开的示例中,UE 115可以是本公开中描述的任何音频源,包括VR耳机、XR耳机、AR耳机、车辆、智能手机、传声器、传声器阵列或包括传声器或能够发送捕获和/或合成的音频流的任何其它设备。在一些示例中,合成音频流可以是存储在存储器中或先前生成(例如,创建、合成等)的音频流。在一些示例中,UE 115还可以指代无线本地环路(WLL)站、物联网(IoT)设备、万物联网(IoE)设备或机器型通信(MTC)设备等,该UE可以在诸如电器、车辆、仪表等各种制品中实施。
诸如MTC或IoT设备等一些UE 115可以是低成本或低复杂度设备,并且可以(例如,经由机器对机器(M2M)通信)提供机器之间的自动化通信。M2M通信或MTC可以指代允许设备在无需人类干预的情况下彼此或与基站105进行通信的数据通信技术。在一些示例中,M2M通信或MTC可以包括来自交换和/或使用参数设置和参数调整的设备的通信,这些调整例如增益或频率响应调整,其指示参数调整和/或能量曲线图叠加数据调整捕获各种音频流的一个或多个传声器和/或音频源(例如,音频元件)的参数设置集。
在一些情况下,UE 115还可能能够与其它UE 115直接通信(例如,使用对等(P2P)或设备对设备(D2D)协议)。利用D2D通信的一组UE 115中的一个或多个可以在基站105的地理覆盖区域110内。这组中的其它UE 115可能在基站105的地理覆盖区域110之外,或者不能接收来自基站105的发送。在一些情况下,经由D2D通信进行通信的多组UE 115可以利用一对多(1:M)***,其中每个UE 115向该组中的每个其它UE 115进行发送。在一些情况下,基站105促进用于D2D通信的资源的调度。在其它情况下,在UE 115之间执行D2D通信而无需基站105参与。
基站105可以与核心网络130以及彼此进行通信。例如,基站105可以通过回程链路132(例如,经由S1、N2、N3或其它接口)与核心网络130对接。基站105可以直接地(例如,在基站105之间直接地)或间接地(例如,经由核心网络130)通过回程链路134(例如,经由X2、Xn或其它接口)彼此通信。
在一些情况下,无线通信***1002可以利用授权的无线电频谱带和未授权的无线电频谱带两者。例如,无线通信***1002可以在诸如5GHz工业科学医疗(ISM)带等未授权带中采用授权辅助接入(LAA)、未授权的LTE(LTE-U)无线电接入技术(RAT)或NR技术。当在未授权无线电频率频谱带中操作时,诸如基站105和UE 115之类的无线设备可以采用先听后讲(LBT)程序来确保在发送数据之前清空信道。在一些情况下,未授权带中的操作可以基于载波聚合配置与在授权带(例如,LAA)中操作的分量载波的结合。未授权频谱中的操作可以包括下行链路发送、上行链路发送、对等发送或这些的组合。未授权频谱中的双工可以基于频分双工(FDD)、时分双工(TDD)或两者的组合。
本公开包括以下示例:
示例1A:一种被配置为确定针对音频捕获的参数调整的音频设备,所述音频设备包括:存储器,所述存储器被配置为存储与一个或多个音频流相对应的至少一个能量图;以及一个或多个处理器,所述一个或多个处理器耦合到所述存储器并且被配置为:访问与所述一个或多个音频流相对应的所述至少一个能量图;至少部分地基于所述至少一个能量图来确定关于至少一个传声器的参数调整,所述参数调整被配置为调整通过所述至少一个传声器的所述音频捕获;以及输出指示关于所述至少一个传声器的所述参数调整的指示。
示例2A:根据权利要求1A所述的音频设备,其中所述一个或多个处理器被配置为:执行关于所述一个或多个音频流的能量分析以确定所述至少一个能量图。
示例3A:根据示例1A和2A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:将所述至少一个能量图与一个或多个其它能量图进行比较,所述一个或多个其它能量图对应于由所述至少一个传声器捕获的音频;以及至少部分地基于所述至少一个能量图与所述一个或多个其它能量图之间的比较来确定所述参数调整。
示例4A:根据示例1A至3A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:从一个或多个源设备接收以下至少一项:所述至少一个能量图和所述一个或多个其它能量图。
示例5A:根据示例1A至4A的任意组合所述的音频设备,其中所述至少一个能量图包括多个能量图分量。
示例6A:根据示例5A所述的音频设备,其中所述能量图分量对应于所述一个或多个音频流。
示例7A:根据示例1A至6A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:在确定所述参数调整中分析以下至少一项:增益和频率响应。
示例8A:根据示例1A至7A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:确定所述参数调整以便修改对所述一个或多个音频流的捕获。
示例9A:根据示例1A至8A的任意组合所述的音频设备,其中所述参数调整包括对所述至少一个传声器的增益的调整。
示例10A:根据示例9A所述的音频设备,其中所述增益是频率相关的。
示例11A:根据示例1A至10A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:根据所述参数调整,利用所述至少一个传声器的一或多个参数设置来接收音频。
示例12A:根据示例1A至11A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:向与所述至少一个传声器相对应的第一源设备发送所述参数调整。
示例13A:根据示例1A至12A的任意组合所述的音频设备,其中确定所述参数调整包括确定关于所述一个或多个音频流的差异得分。
示例14A:根据示例13A所述的音频设备,其中当关于所述一个或多个音频流中的至少一个存在不连续性时,所述差异得分增加。
示例15A:根据示例14A所述的音频设备,其中所述不连续性包括所述至少一个音频流的频率响应中的间隙。
示例16A:根据示例13A至15A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:将所述差异得分与差异阈值进行比较;以及至少部分地基于所述差异得分与所述差异阈值的所述比较来确定所述参数调整。
示例17A:根据示例1A至16A的任意组合所述的音频设备,其中确定所述参数调整包括确定关于所述一个或多个音频流的增益中的变化。
示例18A:根据示例1A至17A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:至少部分地基于所述至少一个能量图渲染能量曲线图叠加。
示例19A:根据示例18A所述的音频设备,其中所述一个或多个处理器被配置为输出能量曲线图叠加以显示给用户。
示例20A:根据示例1A至19A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:访问所述一个或多个音频流中的至少一个的诊断数据;至少部分地基于所述诊断数据来确定所述一个或多个音频流的质量特性;至少部分地基于所述质量特性来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及至少部分地基于所述修改来确定所述参数调整。
示例21A:根据示例1A至20A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:确定与所述一个或多个音频流中的至少一个相对应的许可状态;至少部分地基于所述许可状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及至少部分地基于所述修改来确定所述参数调整。
示例22A:根据示例21A所述的音频设备,其中所述许可状态指示所述一个或多个音频流是受限制还是不受限制。
示例23A:根据示例1A至22A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:确定所述一个或多个传声器的可行性状态,所述可行性状态指示所述一个或多个传声器的可行性得分;至少部分地基于所述可行性状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及至少部分地基于所述修改来确定所述参数调整。
示例24A:根据示例20A至23A的任意组合所述的音频设备,其中修改包括调整用于确定所述至少一个能量图的能量图分量的数量。
示例25A:根据示例20A至24A的任意组合所述的音频设备,其中修改包括从所述一个或多个音频流中去除至少一个音频流。
示例26A:根据示例20A至25A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:接收所述诊断数据作为自诊断数据。
示例27A:根据示例20A至26A的任意组合所述的音频设备,其中所述诊断数据包括以下至少一项:信噪比信息和增益。
示例28A:根据示例20A至27A的任意组合所述的音频设备,其中确定所述质量特性包括将所述一个或多个音频流中的至少一个标记为不合格音频流。
示例29A:根据示例1A至28A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:接收调整状态。
示例30A:根据示例29A所述的音频设备,其中所述调整状态指示根据所述参数调整对接收音频的所述至少一个传声器的成功调整。
示例31A:根据示例29A和30A的任意组合所述的音频设备,其中所述调整状态指示所述至少一个传声器正在接收音频。
示例32A:根据示例1A至31A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:关于音频帧速率周期性地更新所述至少一个能量图。
示例33A:根据示例1A至32A的任意组合所述的音频设备,其中所述音频设备包括可穿戴设备。
示例34A:根据示例1A至33A的任意组合所述的音频设备,其中所述音频设备包括移动设备。
示例35A:根据示例35A的任意组合所述的音频设备,其中所述移动设备包括移动手持终端。
示例36A:根据示例1A至35A的任意组合所述的音频设备,其中所述音频设备包括所述至少一个传声器。
示例37A:根据示例1A至36A的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的耳机。
示例38A:根据示例1A至37A的任意组合所述的音频设备,其中所述音频设备包括一个或多个扬声器。
示例39A:根据示例1A至38A的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的扩展现实(XR)耳机。
示例40A:根据示例39A所述的音频设备,其中所述XR耳机包括增强现实耳机、虚拟现实耳机或混合现实耳机中的一个或多个。
示例41A:根据示例1A至41A的任意组合所述的音频设备,其中所述音频设备包括被配置为生成声场的一个或多个扬声器。
示例42A:根据示例1A至41A的任意组合所述的音频设备,其中所述至少一个传声器被配置为提供六自由度用户体验。
示例43A:根据示例1A至42A的任意组合所述的音频设备,其中所述音频设备包括被启用以接收音频的音频接收器。
示例44A:根据示例1A至43A的任意组合所述的音频设备,其中所述音频设备包括被配置为接收所述一个或多个音频流的接收器。
示例45A:根据示例44A所述的音频设备,其中所述接收器包括被配置为根据5G蜂窝标准接收所述一个或多个音频流的接收器。
示例46A:根据示例44A所述的音频设备,其中所述接收器包括被配置为根据个域网标准接收所述一个或多个音频流的接收器。
示例47A:根据示例1A至46A的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:通过无线链路接收以下至少一项:所述一个或多个音频流和所述至少一个能量图。
示例48A:根据示例47A所述的音频设备,其中所述无线链路通过5G空中接口。
示例49A:根据示例47A所述的音频设备,其中所述无线链路通过蓝牙接口。
示例50A:根据示例1A至49A的任意组合所述的音频设备,其中所述音频设备包括被配置为确定所述至少一个能量图的远程服务器。
示例51A:一种用于确定针对音频捕获的参数调整的方法,所述方法包括:访问至少一个能量图,所述至少一个能量图对应于一或多个音频流;至少部分地基于所述至少一个能量图来确定关于至少一个传声器的参数调整,所述参数调整被配置为调整通过所述至少一个传声器的所述音频捕获;以及输出指示关于所述至少一个传声器的所述参数调整的指示。
示例52A:根据示例51A所述的方法,所述方法还包括:执行关于所述一个或多个音频流的能量分析以确定所述至少一个能量图。
示例53A:根据示例51A和52A的任意组合所述的方法,所述方法还包括:将所述至少一个能量图与一个或多个其它能量图进行比较,所述一个或多个其它能量图对应于由所述至少一个传声器捕获的音频;以及至少部分地基于所述至少一个能量图与所述一个或多个能量图之间的比较来确定所述参数调整。
示例54A:根据示例51A至53A的任意组合所述的方法,所述方法还包括:从一个或多个源设备接收以下至少一项:所述至少一个能量图和所述其它能量图。
示例55A:根据示例51A至54A的任意组合所述的方法,其中所述至少一个能量图包括多个能量图分量。
示例56A:根据示例55A所述的方法,其中所述能量图分量对应于所述一个或多个音频流。
示例57A:根据示例51A至56A的任意组合所述的方法,所述方法还包括:在确定所述参数调整中分析以下至少一项:增益和频率响应。
示例58A:根据示例51A至57A的任意组合所述的方法,所述方法还包括:确定所述参数调整以便修改对所述一个或多个音频流的捕获。
示例59A:根据示例51A至58A的任意组合所述的方法,其中所述参数调整包括对所述至少一个传声器的增益的调整。
示例60A:根据示例59A所述的方法,其中所述增益是频率相关的。
示例61A:根据示例51A至60A的任意组合所述的方法,所述方法包括:根据所述参数调整,利用所述至少一个传声器的一或多个参数设置来接收音频。
示例62A:根据示例51A至61A的任意组合所述的方法,所述方法还包括:向与所述至少一个传声器相对应的第一源设备发送所述参数调整。
示例63A:根据示例51A至62A的任意组合所述的方法,其中确定所述参数调整包括:确定关于所述一个或多个音频流的差异得分。
示例64A:根据示例63A所述的方法,所述方法还包括:当关于所述一个或多个音频流中的至少一个存在不连续性时,增加所述差异得分。
示例65A:根据示例64A所述的方法,其中所述不连续性包括所述至少一个音频流的频率响应中的间隙。
示例66A:根据示例63A至65A的任意组合所述的方法,所述方法还包括:将所述差异得分与差异阈值进行比较;以及至少部分地基于所述差异得分与所述差异阈值的所述比较来确定所述参数调整。
示例67A:根据示例51A至66A的任意组合所述的方法,其中确定所述参数调整包括:确定所述一个或多个音频流的增益中的变化。
示例68A:根据示例51A至67A的任意组合所述的方法,所述方法包括:至少部分地基于所述至少一个能量图渲染能量曲线图叠加。
示例69A:根据示例68A所述的方法,所述方法还包括:输出所述能量曲线图叠加以显示给用户。
示例70A:根据示例51A至69A的任意组合所述的方法,所述方法还包括:访问所述一个或多个音频流中的至少一个的诊断数据;至少部分地基于所述诊断数据来确定所述一个或多个音频流的质量特性;至少部分地基于所述质量特性来修改以下至少一项:所述一个或多个能量图和所述多个音频流;以及至少部分地基于所述修改来确定所述参数调整。
示例71A:根据示例51A至70A的任意组合所述的方法,所述方法还包括:确定与所述一个或多个音频流中的至少一个相对应的许可状态;至少部分地基于所述许可状态来修改以下至少一项:所述一个或多个能量图和所述多个音频流;以及至少部分地基于所述修改来确定所述参数调整。
示例72A:根据示例71A所述的方法,其中所述许可状态指示所述一个或多个音频流是受限制还是不受限制。
示例73A:根据示例51A至72A的任意组合所述的方法,所述方法还包括:确定所述一个或多个传声器的可行性状态,所述可行性状态指示所述一个或多个传声器的可行性得分;至少部分地基于所述可行性状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及至少部分地基于所述修改来确定所述参数调整。
示例74A:根据示例70A至73A的任意组合所述的方法,其中修改包括:调整用于确定所述至少一个能量图的能量图分量的数量。
示例75A:根据示例70A至74A的任意组合所述的方法,其中修改包括从所述一个或多个音频流中去除至少一个音频流。
示例76A:根据示例70A至75A的任意组合所述的方法,所述方法还包括:接收所述诊断数据作为自诊断数据。
示例77A:根据示例70A至76A的任意组合所述的方法,其中所述诊断数据包括以下至少一项:信噪比信息和增益信息。
示例78A:根据示例70A至77A的任意组合所述的方法,其中确定所述质量特性包括:将所述一个或多个音频流中的至少一个标记为音频流。
示例79A:根据示例51A至78A的任意组合所述的方法,所述方法还包括:确定调整状态。
示例80A:根据示例79A所述的方法,其中所述调整状态指示所述至少一个传声器正在接收音频。
示例81A:根据示例80A所述的方法,其中所述调整状态根据所述参数调整来指示至少一个传声器正在接收音频。
示例82A:根据示例51A至81A的任意组合所述的方法,所述方法还包括:关于音频帧速率周期性地更新所述至少一个能量图。
示例83A:根据示例51A至82A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括可穿戴设备。
示例84A:根据示例51A至83A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括移动设备。
示例85A:根据示例84A所述的方法,其中所述移动设备包括移动手持终端。
示例86A:根据示例51A至85A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括所述至少一个传声器。
示例87A:根据示例51A至86A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为耦合到所述一个或多个扬声器的耳机。
示例88A:根据示例51A至87A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括一个或多个扬声器。
示例89A:根据示例51A至88A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为耦合到所述一个或多个扬声器的扩展现实(XR)耳机。
示例90A:根据示例89A所述的方法,其中所述XR耳机包括增强现实耳机、虚拟现实耳机或混合现实耳机中的一个或多个。
示例91A:根据示例51A至90A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为生成声场的一个或多个扬声器。
示例92A:根据示例51A至91A的任意组合所述的方法,其中至少一个音频设备执行所述方法,其中所述至少一个音频设备被配置为提供六自由度用户体验。
示例93A:根据示例51A至92A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括至少一个音频接收器,所述音频接收器被启用以从一个或多个源设备接收音频。
示例94A:根据示例51A至93A的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括至少一个音频接收器,所述音频接收器被配置为接收所述一个或多个音频流。
示例95A:根据示例94A所述的方法,其中所述接收器包括被配置为根据5G蜂窝标准接收所述一个或多个音频流的接收器。
示例96A:根据示例94A所述的方法,其中所述接收器包括被配置为根据个域网标准接收所述一个或多个音频流的接收器。
示例97A:根据示例51A至96A的任意组合所述的方法,所述方法还包括:通过无线链路接收以下至少一项:所述一个或多个音频流和所述至少一个能量图。
示例98A:根据示例97A所述的方法,其中所述无线链路通过5G空中接口。
示例99A:根据示例97A所述的方法,其中所述无线链路通过蓝牙接口。
示例100A:根据示例51A至99A的任意组合所述的方法,其中所述音频设备包括被配置为确定所述至少一个能量图的远程服务器。
示例101A:一种被配置为调整音频捕获的音频设备,所述音频设备包括:用于访问至少一个能量图的部件,所述至少一个能量图对应于一或多个音频流;用于至少部分地基于所述至少一个能量图来确定关于至少一个传声器的参数调整的部件,所述参数调整被配置为调整通过所述至少一个传声器的所述音频捕获;以及用于输出指示关于所述至少一个传声器的所述参数调整的指示的部件。
示例102A:根据示例101A所述的音频设备,所述音频设备还包括:用于执行关于所述一个或多个音频流的能量分析以确定所述至少一个能量图的部件。
示例103A:根据示例101A和102A的任意组合所述的音频设备,所述音频设备还包括:用于将所述至少一个能量图与一个或多个其它能量图进行比较的部件,所述一个或多个其它能量图对应于由所述至少一个传声器捕获的音频;以及用于至少部分地基于所述至少一个能量图与所述一个或多个其它能量图之间的比较来确定所述参数调整的部件。
示例104A:根据示例101A至103A的任意组合所述的音频设备,所述音频设备还包括:用于从一个或多个源设备接收以下至少一项的部件:所述至少一个能量图和所述一个或多个能量图。
示例105A:根据示例101A至104A的任意组合所述的音频设备,其中所述至少一个能量图包括多个能量图分量。
示例106A:根据示例105A所述的音频设备,其中所述能量图分量对应于所述一个或多个音频流。
示例107A:根据示例101A至106A的任意组合所述的音频设备,其中用于确定所述参数调整的所述部件还包括:用于分析以下至少一项的部件:增益和频率响应。
示例108A:根据示例101A至107A的任意组合所述的音频设备,其中所述参数调整被配置为修改对一个或多个音频流的捕获。
示例109A:根据示例101A至108A的任意组合所述的音频设备,其中所述参数调整包括对所述至少一个传声器的增益的调整。
示例110A:根据示例109A所述的音频设备,其中所述增益是频率相关的。
示例111A:根据示例101A至110A的任意组合所述的音频设备,其还包括:用于根据所述参数调整利用所述至少一个传声器的一或多个参数设置的部件。
示例112A:根据示例101A至111A的任意组合所述的音频设备,其还包括:用于向与所述至少一个传声器相对应的第一源设备发送所述参数调整的部件。
示例113A:根据示例101A至112A的任意组合所述的音频设备,其中用于确定所述参数调整的所述部件还包括:用于确定关于一个或多个音频流的差异得分的部件。
示例114A:根据示例113A所述的音频设备,其中当所述一个或多个音频流中的至少一个之间存在不连续性时,所述差异得分增加。
示例115A:根据示例114A所述的音频设备,其中所述不连续性包括所述至少一个音频流的频率响应中的间隙。
示例116A:根据示例113A至115A的任意组合所述的音频设备,所述音频设备还包括:用于将所述差异得分与差异阈值进行比较的部件;以及用于至少部分地基于所述差异得分与所述差异阈值的所述比较来确定所述参数调整的部件。
示例117A:根据示例101A至116A的任意组合所述的音频设备,其中用于确定所述参数调整的所述部件还包括:用于确定所述一个或多个音频流的增益中的变化的部件,其中所述差异是至少部分地基于所述至少一个音频流的增益中的变化。
示例118A:根据示例101A至117A的任意组合所述的音频设备,其还包括:用于至少部分地基于所述至少一个能量图渲染能量曲线图叠加的部件。
示例119A:根据示例118A所述的音频设备,所述音频设备还包括:用于输出所述能量曲线图叠加以显示给用户的部件。
示例120A:根据示例101A至119A的任意组合所述的音频设备,所述音频设备还包括:用于访问所述一个或多个音频流中的至少一个的诊断数据的部件;用于至少部分地基于所述诊断数据来确定所述一个或多个音频流的质量特性的部件;用于至少部分地基于所述质量特性来修改以下至少一项的部件:访问所述至少一个能量图和所述一个或多个音频流;以及用于至少部分地基于所述修改来确定所述参数调整的部件。
示例121A:根据示例101A至120A的任意组合所述的音频设备,所述音频设备还包括:用于确定与所述一个或多个音频流中的至少一个相对应的许可状态的部件;用于至少部分地基于所述许可状态来修改以下至少一项的部件:所述至少一个能量图和所述一个或多个音频流;以及用于至少部分地基于所述修改来确定所述参数调整的部件。
示例122A:根据示例121A所述的音频设备,其中所述许可状态指示所述一个或多个音频流是受限制还是不受限制。
示例123A:根据示例101A至122A的任意组合所述的音频设备,所述音频设备还包括:用于确定所述一个或多个传声器的可行性状态的部件,所述可行性状态指示所述一个或多个传声器的可行性得分;用于至少部分地基于所述可行性状态来修改以下至少一项的部件:所述至少一个能量图和所述一个或多个音频流;以及用于至少部分地基于所述修改来确定所述参数调整的部件。
示例124A:根据示例120A至123A的任意组合所述的音频设备,其中所述修改部件还包括:用于调整用于确定所述至少一个能量图的能量图分量的数量。
示例125A:根据示例120A至124A的任意组合所述的音频设备,其中所述修改部件还包括:用于从所述一个或多个音频流中去除至少一个音频流的部件。
示例126A:根据示例120A至125A的任意组合所述的音频设备,所述音频设备还包括:用于接收所述诊断数据作为自诊断数据的部件。
示例127A:根据示例120A至126A的任意组合所述的音频设备,其中所述诊断数据包括以下至少一项:信噪比信息和增益水平信息。
示例128A:根据示例120A至127A的任意组合所述的音频设备,所述音频设备还包括:用于至少部分地基于所述质量特性将所述一个或多个音频流中的至少一个标记为不合格音频流的部件。
示例129A:根据示例101A至128A的任意组合所述的音频设备,所述音频设备还包括:用于确定调整状态的部件。
示例130A:根据示例129A所述的音频设备,其中用于确定调整状态的所述部件包括用于指示根据所述参数调整对接收音频的所述至少一个传声器的成功调整的部件。
示例131A:根据示例129A和130A的任意组合所述的音频设备,其中用于确定所述调整状态的所述部件包括用于指示所述至少一个传声器正在接收音频的部件。
示例132A:根据示例101A至131A的任意组合所述的音频设备,所述音频设备还包括:用于关于音频帧速率周期性地更新所述至少一个能量图的部件。
示例133A:根据示例101A至132A的任意组合所述的音频设备,其中所述音频设备包括可穿戴设备。
示例134A:根据示例101A至133A的任意组合所述的音频设备,其中所述音频设备包括移动设备。
示例135A:根据示例101A至134A的任意组合所述的音频设备,其中所述移动设备包括移动手持终端。
示例136A:根据示例101A至135A的任意组合所述的音频设备,其中所述音频设备包括所述一个或多个传声器中的所述传声器中的至少一个。
示例137A:根据示例101A至136A的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的耳机。
示例138A:根据示例101A至137A的任意组合所述的音频设备,其中所述音频设备包括一个或多个扬声器。
示例139A:根据示例101A至138A的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的扩展现实(XR)耳机。
示例140A:根据示例139A所述的音频设备,其中所述XR耳机包括增强现实耳机、虚拟现实耳机或混合现实耳机中的一个或多个。
示例141A:根据示例101A至140A的任意组合所述的音频设备,其中所述音频设备包括用于生成声场的部件。
示例142A:根据示例101A至141A的任意组合所述的音频设备,其还包括用于提供六自由度用户体验的部件。
示例143A:根据示例101A至142A的任意组合所述的音频设备,其中所述音频设备包括至少一个音频接收器,所述音频接收器包括用于从一个或多个源设备接收音频的部件。
示例144A:根据示例101A至143A的任意组合所述的音频设备,其中所述音频设备包括接收器,所述接收器包括用于接收所述一个或多个音频流的部件。
示例145A:根据示例144A所述的音频设备,其中所述接收器包括包含用于根据5G蜂窝标准接收所述一个或多个音频流的部件的接收器。
示例146A:根据示例144A所述的音频设备,其中所述接收器包括包含用于根据个域网标准接收所述一个或多个音频流的部件的接收器。
示例147A:根据示例101A至146A的任意组合所述的音频设备,其还包括:用于通过无线链路接收以下至少一项的部件:所述一个或多个音频流和所述至少一个能量图。
示例148A:根据示例147A所述的音频设备,其中用于通过无线链路接收的所述部件包括5G空中接口。
示例149A:根据示例147A所述的音频设备,其中用于通过无线链路接收的所述部件包括蓝牙接口。
示例150A:根据示例111A至149A的任意组合所述的音频设备,其中所述音频设备包括远程服务器,所述远程服务器包括用于确定至少一个能量图的部件。
示例151A:一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使音频设备的一个或多个处理器:访问与一个或多个音频流相对应的至少一个能量图;至少部分地基于所述至少一个能量图来确定关于至少一个传声器的参数调整,所述参数调整被配置为调整通过所述至少一个传声器的所述音频捕获;以及输出指示关于所述至少一个传声器的所述参数调整的指示。
示例1B:一种被配置为生成声场的音频设备,所述音频设备包括:存储器,所述存储器被配置为存储表示所述声场的音频数据;以及一个或多个处理器,所述一个或多个处理器耦合到所述存储器并且被配置为:向一个或多个源设备发送音频流;确定用于调整所述音频设备的参数设置的指令;以及调整所述参数设置以调整所述声场的生成。
示例2B:根据示例1B所述的音频设备,其中所述一个或多个处理器被配置为向所述一个或多个源设备发送诊断数据。
示例3B:根据示例1B和2B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:对所述音频流执行能量分析以确定至少一个能量图;以及向所述一个或多个源设备发送所述至少一个能量图。
示例4B:根据示例1B至3B的任意组合所述的音频设备,其中所述参数设置被配置为修改对所述音频流的捕获。
示例5B:根据示例1B至4B的任意组合所述的音频设备,其中所述参数设置包括对所述音频设备的频率相关增益的调整。
示例6B:根据示例1B至5B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为至少部分地基于所述至少一个能量图来渲染能量曲线图叠加。
示例7B:根据示例6B所述的设备,其中至少部分地基于复合能量图来渲染所述能量曲线图叠加,所述复合能量图是至少部分地基于所述至少一个能量图。
示例8B:根据示例6B和7B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为输出能量曲线图叠加以显示给用户。
示例9B:根据示例1B至8B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:确定所述音频流的质量特性;以及向所述一个或多个源设备发送所述质量特性。
示例10B:根据示例1B至9B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:向所述一个或多个源设备发送以下至少一项:许可状态和可行性状态。
示例11B:根据示例1B至10B的任意组合所述的音频设备,其中从所述一个或多个源设备接收所述指令。
示例12B:根据示例1B至11B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:从所述一个或多个源设备接收复合能量图。
示例13B:根据示例1B至12B的任意组合所述的音频设备,其中所述指令是至少部分地基于复合能量图。
示例14B:根据示例1B至13B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:从所述一个或多个源设备接收诊断数据,其中所述诊断数据包括以下至少一项:信噪比信息和声音水平信息。
示例15B:根据示例1B至14B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:发送调整状态。
示例16B:根据示例15B的任意组合所述的音频设备,其中所述调整状态指示所述音频设备正在接收音频。
示例17B:根据示例1B至16B的任意组合所述的音频设备,其中所述音频设备包括可穿戴设备。
示例18B:根据示例1B至17B的任意组合所述的音频设备,其中所述音频设备包括移动设备。
示例19B:根据示例18B的任意组合所述的音频设备,其中所述移动设备包括移动手持终端。
示例20B:根据示例1B至19B的任意组合所述的音频设备,其中所述音频设备包括至少一个传声器。
示例21B:根据示例1B至20B的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的耳机。
示例22B:根据示例1B至21B的任意组合所述的音频设备,其中所述音频设备包括一个或多个扬声器。
示例23B:根据示例1B至22B的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的扩展现实(XR)耳机。
示例24B:根据示例23B所述的音频设备,其中所述XR耳机包括增强现实耳机、虚拟现实耳机或混合现实耳机中的一个或多个。
示例25B:根据示例1B至24B的任意组合所述的音频设备,其中所述音频设备包括被配置为生成声场的一个或多个扬声器。
示例26B:根据示例1B至25B的任意组合所述的音频设备,其中所述一个或多个源设备包括多个音频接收器。
示例27B:根据示例1B至26B的任意组合所述的音频设备,其中所述音频设备包括发送器,所述发送器被配置为根据5G蜂窝标准发送数据。
示例28B:根据示例1B至27B的任意组合所述的音频设备,其中所述音频设备包括发送器,所述发送器被配置为根据个域网标准发送数据。
示例29B:根据示例1B至28B的任意组合所述的音频设备,其中所述一个或多个处理器被配置为:通过无线链路发送以下至少一项:所述音频流和所述至少一个能量图。
示例30B:根据示例29B所述的音频设备,其中所述无线链路通过5G空中接口。
示例31B:根据示例29B所述的音频设备,其中所述无线链路通过蓝牙接口。
示例32B:根据示例1B至31B的任意组合所述的音频设备,其中所述音频设备包括被配置为确定所述至少一个能量图的远程服务器。
示例33B:一种用于配置被配置为调整音频捕获的音频设备的方法,所述方法包括:向一个或多个源设备发送音频流;确定用于调整所述音频设备的参数设置的指令;以及调整所述参数设置来调整声场。
示例34B:根据示例33B所述的方法,所述方法还包括:向所述一个或多个源设备发送诊断数据。
示例35B:根据示例33B和34B的任意组合所述的方法,所述方法还包括:对所述音频流执行能量分析以确定至少一个能量图;以及向所述一个或多个源设备发送所述能量图。
示例36B:根据示例33B至35B的任意组合所述的方法,其中所述参数设置被配置为修改对所述音频流的捕获。
示例37B:根据示例33B至36B的任意组合所述的方法,其中所述参数设置包括对所述音频设备的频率相关增益的调整。
示例38B:根据示例33B至37B的任意组合所述的方法,所述方法还包括:至少部分地基于所述至少一个能量图渲染能量曲线图叠加。
示例39B:根据示例38B所述的方法,其中至少部分地基于复合能量图来渲染所述能量曲线图叠加,所述复合能量图是至少部分地基于所述一个或多个能量图。
示例40B:根据示例38B和39B的任意组合所述的方法,所述方法还包括:输出所述能量曲线图叠加以显示给用户。
示例41B:根据示例33B至40B的任意组合所述的方法,所述方法还包括:确定所述音频流的质量特性;以及向所述一个或多个源设备发送所述质量特性。
示例42B:根据示例33B至41B的任意组合所述的方法,所述方法还包括:向所述一个或多个源设备发送以下至少一项:许可状态和可行性状态。
示例43B:根据示例33B至42B的任意组合所述的方法,所述方法还包括:从所述一个或多个源设备接收所述指令。
示例44B:根据示例33B至43B的任意组合所述的方法,所述方法还包括:从所述一个或多个源设备接收复合能量图。
示例45B:根据示例33B至44B的任意组合所述的方法,其中所述指令是至少部分地基于复合能量图。
示例46B:根据示例33B至45B的任意组合所述的方法,所述方法还包括:从所述一个或多个源设备接收诊断数据,其中所述诊断数据包括以下至少一项:信噪比信息和声音水平信息。
示例47B:根据示例33B至46B的任意组合所述的方法,所述方法还包括:发送调整状态。
示例48B:根据示例47B所述的方法,其中所述调整状态指示所述音频设备正在接收音频。
示例49B:根据示例33B至48B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括可穿戴设备。
示例50B:根据示例33B至49B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括移动设备。
示例51B:根据示例33B至50B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为耦合到所述一个或多个扬声器的耳机。
示例52B:根据示例33B至51B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括一个或多个扬声器。
示例53B:根据示例33B至52B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为耦合到所述一个或多个扬声器的扩展现实(XR)耳机。
示例54B:根据示例53B所述的方法,其中所述XR耳机包括增强现实耳机、虚拟现实耳机或混合现实耳机中的一个或多个。
示例55B:根据示例33B至54B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为生成声场的一个或多个扬声器。
示例56B:根据示例33B至55B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括多个音频接收器。
示例57B:根据示例33B至56B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括所述至少一个传声器。
示例58B:根据示例33B至57B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括被配置为耦合到所述一个或多个扬声器的耳机。
示例59B:根据示例33B至58B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括一个或多个扬声器。
示例60B:根据示例33B至59B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括多个音频接收器。
示例61B:根据示例33B至60B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括发送器,所述发送器被配置为根据5G蜂窝标准发送数据。
示例62B:根据示例33B至61B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括发送器,所述发送器被配置为根据个域网标准发送数据。
示例63B:根据示例33B至62B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备被配置为:通过无线链路发送以下至少一项:所述音频流和所述至少一个能量图。
示例64B:根据示例63B所述的方法,其中所述无线链路通过5G空中接口。
示例65B:根据示例63B所述的方法,其中所述无线链路通过蓝牙接口。
示例66B:根据示例33B至65B的任意组合所述的方法,其中至少一个音频设备执行所述方法,所述至少一个音频设备包括远程服务器,所述远程服务器被配置为确定所述至少一个能量图。
示例67B:一种被配置为生成声场的音频设备,所述音频设备包括:用于向一个或多个源设备发送音频流的部件;用于确定用于调整所述音频设备的参数设置的指令的部件;以及用于调整所述参数设置来调整声场的生成的部件。
示例68B:根据示例67B所述的音频设备,所述音频设备还包括:用于向所述一个或多个源设备发送诊断数据的部件。
示例69B:根据示例67B和68B的任意组合所述的音频设备,所述音频设备还包括:用于对所述音频流执行能量分析以确定能量图的部件;以及用于向所述一个或多个源设备发送所述能量图的部件。
示例70B:根据示例67B至69B的任意组合所述的音频设备,其中所述参数设置被配置为修改对所述音频流的捕获。
示例71B:根据示例67B至70B的任意组合所述的音频设备,其中所述参数设置包括对所述音频设备的频率相关增益的调整。
示例72B:根据示例67B至71B的任意组合所述的音频设备,所述音频设备还包括:用于至少部分地基于一个或多个能量图渲染能量曲线图叠加的部件。
示例73B:根据示例72B所述的音频设备,所述音频设备还包括:用于至少部分地基于复合能量图来渲染所述能量曲线图叠加的部件,所述复合能量图是至少部分地基于所述一个或多个能量图。
示例74B:根据示例72B和73B的任意组合所述的音频设备,所述音频设备还包括:用于输出所述能量曲线图叠加以显示给用户的部件。
示例75B:根据示例67B至74B的任意组合所述的音频设备,所述音频设备还包括:用于确定所述音频流的质量特性的部件;以及用于向所述一个或多个源设备发送所述质量特性的部件。
示例76B:根据示例67B至75B的任意组合所述的音频设备,所述音频设备还包括:用于向所述一个或多个源设备发送以下至少一项的部件:许可状态和可行性状态。
示例77B:根据示例67B至76B的任意组合所述的音频设备,所述音频设备还包括:用于从所述一个或多个源设备接收所述指令的部件。
示例78B:根据示例67B至58B的任意组合所述的音频设备,所述音频设备还包括:用于从所述一个或多个源设备接收复合能量图的部件。
示例79B:根据示例67B至78B的任意组合所述的音频设备,其中所述指令是至少部分地基于复合能量图。
示例80B:根据示例67B至79B的任意组合所述的音频设备,所述音频设备还包括:用于从所述一个或多个源设备接收诊断数据的部件,其中所述诊断数据包括以下至少一项:信噪比信息和声音水平信息。
示例81B:根据示例67B至80B的任意组合所述的音频设备,所述音频设备还包括:用于发送调整状态的部件。
示例82B:根据示例81B的任意组合所述的音频设备,其中所述调整状态指示所述音频设备正在接收音频。
示例83B:根据示例67B至82B的任意组合所述的音频设备,其中所述音频设备包括可穿戴设备。
示例84B:根据示例67B至83B的任意组合所述的音频设备,其中所述音频设备包括移动设备。
示例85B:根据示例67B至84B的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的耳机。
示例86B:根据示例67B至85B的任意组合所述的音频设备,其中所述音频设备包括一个或多个扬声器。
示例87B:根据示例67B至86B的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的扩展现实(XR)耳机。
示例88B:根据示例87B所述的音频设备,其中所述XR耳机包括增强现实耳机、虚拟现实耳机或混合现实耳机中的一个或多个。
示例89B:根据示例67B至88B的任意组合所述的音频设备,其中所述音频设备包括用于生成声场的部件。
示例90B:根据示例67B至89B的任意组合所述的音频设备,其中所述音频设备包括多个音频接收器。
示例91B:根据示例67B至90B的任意组合所述的音频设备,所述音频设备包括多个音频接收器。
示例92B:根据示例67B至90B的任意组合所述的音频设备,其中所述音频设备包括至少一个传声器。
示例93B:根据示例67B至92B的任意组合所述的音频设备,其中所述音频设备包括耦合到一个或多个扬声器的耳机。
示例94B:根据示例67B至93B的任意组合所述的音频设备,其中所述音频设备包括一个或多个扬声器。
示例95B:根据示例67B至94B的任意组合所述的音频设备,其中所述音频设备包括多个音频接收器。
示例96B:根据示例67B至95B的任意组合所述的音频设备,所述音频设备包括用于根据5G蜂窝标准发送数据的部件。
示例97B:根据示例67B至96B的任意组合所述的音频设备,其中所述音频设备包括用于根据个域网标准发送数据的部件。
示例98B:根据示例67B至97B的任意组合所述的音频设备,其中所述至少一个音频设备包括:用于通过无线链路发送以下至少一项的部件:所述音频流和所述至少一个能量图。
示例99B:根据示例98B所述的音频设备,其中所述无线链路通过5G空中接口。
示例100B:根据示例98B所述的音频设备,其中所述无线链路通过蓝牙接口。
示例101B:根据示例67B至100B的任意组合所述的音频设备,其中所述音频设备包括远程服务器,所述远程服务器具有用于确定至少一个能量图的部件。
示例102B:一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使音频设备的一个或多个处理器:向一个或多个源设备发送音频流;确定用于调整所述音频设备的参数设置的指令;以及调整所述参数设置以调整声场的生成。
应当注意,本文描述的方法描述了可能的实施例,并且操作和步骤可以被重新布置或以其它方式修改,并且其它实施例是可能的。此外,可以组合来自两种或更多种方法的各方面。
在一或多个示例中,所描述的功能可以在硬件、软件、固件或其任何组合中实施。当以软件实施时,功能可以作为一或多个指令或代码存储在计算机可读介质上或经由计算机可读介质发送并由基于硬件的处理单元执行。计算机可读介质可以包括计算机可读存储介质(其对应于诸如数据存储介质之类的有形介质)或通信介质,其包括促进例如根据通信协议将计算机程序从一个地方转移到另一个地方的任何介质。以此方式,计算机可读介质一般可对应于(1)非暂时性有形计算机可读存储介质,或(2)通信介质(诸如,信号或载波)。数据存储介质可为可由一个或多个计算机或一个或多个处理器访问以检索用于实施本公开中所描述的技术的指令、代码和/或数据结构的任何可用介质。计算机程序产品可包括计算机可读介质。
通过示例的方式而不是限制的方式,这种计算机可读存储介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储介质或其它磁存储设备、快闪存储器或者可以用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机访问的任何其它介质。而且,将任何连接适当地称为计算机可读介质。例如,当使用同轴电缆、光缆、双绞线、数字订户线(DSL)或例如红外线、无线电及微波等无线技术从网站、服务器或其它远程源发送指令时,在介质的定义中包括同轴电缆、光纤电缆、双绞线、DSL或例如红外线、无线电及微波等无线技术。然而,应当理解,计算机可读存储介质和数据存储介质不包括连接、载波、信号或其它暂时性介质,而是针对非暂时性、有形存储介质。如本文中使用的磁盘及光盘包含压缩光盘(CD)、激光光盘、光学光盘、数字多功能光盘(DVD)、软盘及蓝光光盘,其中磁盘通常磁性地生成数据,而光盘借助于激光光学地生成数据。上述组合也应包括于计算机可读介质的范围内。
指令可以由一个或多个处理器执行,如一个或多个DSP、通用微处理器、ASIC、FPGA或其它等效的集成或离散逻辑电路***。因此,如本文所使用的术语“处理器”可以指代任何前述结构或者适合于实施本文描述的技术的任何其它结构。另外,在一些方面中,本文描述的功能性可以被提供于被配置用于编码和解码或者被结合在组合编解码器中的专用硬件和/或软件模块内。而且,技术可完全实施于一个或多个电路或逻辑元件中。
本公开的技术可实施于广泛多种设备或装置中,包括无线手持机、集成电路(IC)或一组IC(例如,芯片组)。本公开中描述各种组件、模块或单元以强调被配置为执行所公开技术的设备的功能方面,但未必需要由不同硬件单元来实现。更确切地,如上文所描述,可将各种单元组合于编解码硬件单元中,或由互操作性硬件单元(包括如上文所描述的一个或多个处理器)的集合结合合适软件和/或固件来提供各种单元。
已经描述了各种示例。这些和其它示例在以下权利要求的范围内。

Claims (30)

1.一种被配置为确定针对音频捕获的参数调整的设备,所述设备包括:
存储器,所述存储器被配置为存储与一个或多个音频流相对应的至少一个能量图;以及
一个或多个处理器,所述一个或多个处理器耦合到所述存储器并且被配置为:
访问与所述一个或多个音频流相对应的所述至少一个能量图;
至少部分地基于所述至少一个能量图来确定关于至少一个音频元件的参数调整,所述参数调整被配置为调整所述至少一个音频元件的所述一个或多个音频流;以及
输出所述参数调整。
2.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
执行关于所述一个或多个音频流的能量分析以确定所述至少一个能量图。
3.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
将所述至少一个能量图与一个或多个其它能量图进行比较,所述一个或多个其它能量图对应于由所述至少一个音频元件捕获的音频;以及
至少部分地基于所述至少一个能量图与所述一个或多个其它能量图之间的比较来确定所述参数调整。
4.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
根据所述参数调整,利用所述至少一个音频元件的一或多个参数设置来接收音频。
5.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
向与所述至少一个音频元件相对应的第一源设备发送所述参数调整。
6.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
确定所述一个或多个音频流的质量特性;
至少部分地基于所述质量特性来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及
至少部分地基于所述修改来确定所述参数调整。
7.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
确定与所述一个或多个音频流中的至少一个相对应的许可状态;
至少部分地基于所述许可状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及
至少部分地基于所述修改来确定所述参数调整。
8.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
确定所述一个或多个音频元件的可行性状态,所述可行性状态指示所述一个或多个音频元件的可行性得分;
至少部分地基于所述可行性状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及
至少部分地基于所述修改来确定所述参数调整。
9.根据权利要求1所述的设备,其中,所述设备包括一个或多个扬声器。
10.根据权利要求1所述的设备,其中,所述设备包括扩展现实(XR)耳机。
11.根据权利要求1所述的设备,其中,所述设备包括所述至少一个音频元件,其中所述至少一个音频元件被配置为接收音频。
12.根据权利要求1所述的设备,其中,所述至少一个音频元件包括至少一个传声器,所述至少一个传声器被配置为接收所述一个或多个音频流。
13.根据权利要求1所述的设备,其中,所述一个或多个处理器被配置为:
通过无线链路接收以下至少一项:所述一个或多个音频流和所述至少一个能量图。
14.根据权利要求1所述的设备,其中,所述设备包括远程服务器,所述远程服务器被配置为确定所述至少一个能量图。
15.一种用于确定针对音频捕获的参数调整的方法,所述方法包括:
访问至少一个能量图,所述至少一个能量图对应于一或多个音频流;
至少部分地基于所述至少一个能量图来确定关于至少一个音频元件的参数调整,所述参数调整被配置为调整通过所述至少一个音频元件的所述音频捕获;以及
输出指示关于所述至少一个音频元件的所述参数调整的指示。
16.根据权利要求15所述的方法,所述方法还包括:
执行关于所述一个或多个音频流的能量分析以确定所述至少一个能量图。
17.根据权利要求15所述的方法,所述方法还包括:
将所述至少一个能量图与一个或多个其它能量图进行比较;以及
至少部分地基于所述至少一个能量图与所述一个或多个其它能量图之间的比较来确定所述参数调整。
18.根据权利要求17所述的方法,所述方法还包括:
从一个或多个源设备接收以下至少一项:所述至少一个能量图和所述一个或多个其它能量图。
19.根据权利要求15所述的方法,所述方法还包括:
在确定所述参数调整中分析以下至少一项:所述至少一个音频元件的增益和频率响应。
20.根据权利要求15所述的方法,其中,所述至少一个音频元件包括传声器,并且其中所述参数调整包括对所述传声器的增益的调整。
21.根据权利要求15所述的方法,所述方法包括:
根据所述参数调整,利用所述至少一个音频元件的一或多个参数设置来接收音频。
22.根据权利要求15所述的方法,所述方法还包括:
向与所述至少一个音频元件相对应的第一源设备发送所述参数调整。
23.根据权利要求15所述的方法,其中,确定所述参数调整包括:
确定关于所述一个或多个音频流的差异得分。
24.根据权利要求23所述的方法,所述方法还包括:
将所述差异得分与差异阈值进行比较;以及
至少部分地基于所述差异得分与所述差异阈值的所述比较来确定所述参数调整。
25.根据权利要求15所述的方法,所述方法还包括:
确定所述一个或多个音频流的质量特性;
至少部分地基于所述质量特性来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及
至少部分地基于所述修改来确定所述参数调整。
26.根据权利要求15所述的方法,所述方法还包括:
确定与所述一个或多个音频流中的至少一个相对应的许可状态;
至少部分地基于所述许可状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及
至少部分地基于所述修改来确定所述参数调整。
27.根据权利要求15所述的方法,所述方法还包括:
确定所述至少一个音频元件的可行性状态,所述可行性状态指示所述至少一个音频元件的可行性得分;
至少部分地基于所述可行性状态来修改以下至少一项:所述至少一个能量图和所述一个或多个音频流;以及
至少部分地基于所述修改来确定所述参数调整。
28.根据权利要求15所述的方法,所述方法还包括:
通过无线链路接收以下至少一项:所述一个或多个音频流和所述至少一个能量图。
29.一种被配置为调整音频捕获的设备,所述设备包括:
用于访问至少一个能量图的部件,所述至少一个能量图对应于一或多个音频流;
用于至少部分地基于所述至少一个能量图来确定关于至少一个音频元件的参数调整的部件,所述参数调整被配置为调整通过所述至少一个音频元件的所述音频捕获;以及
用于输出指示关于所述至少一个音频元件的所述参数调整的指示的部件。
30.一种其上存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使一个或多个处理器:
访问与一个或多个音频流相对应的至少一个能量图;
至少部分地基于所述至少一个能量图来确定关于至少一个音频元件的参数调整,所述参数调整被配置为调整通过所述至少一个音频元件的所述音频捕获;以及
输出指示关于所述至少一个音频元件的所述参数调整的指示。
CN202080047177.0A 2019-07-03 2020-07-02 用于扩展现实体验的参数设置调整 Pending CN114391263A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962870570P 2019-07-03 2019-07-03
US62/870,570 2019-07-03
US16/918,754 US11937065B2 (en) 2019-07-03 2020-07-01 Adjustment of parameter settings for extended reality experiences
US16/918,754 2020-07-01
PCT/US2020/040691 WO2021003385A1 (en) 2019-07-03 2020-07-02 Adjustment of parameter settings for extended reality experiences

Publications (1)

Publication Number Publication Date
CN114391263A true CN114391263A (zh) 2022-04-22

Family

ID=74066169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080047177.0A Pending CN114391263A (zh) 2019-07-03 2020-07-02 用于扩展现实体验的参数设置调整

Country Status (3)

Country Link
US (1) US11937065B2 (zh)
CN (1) CN114391263A (zh)
WO (1) WO2021003385A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11937065B2 (en) * 2019-07-03 2024-03-19 Qualcomm Incorporated Adjustment of parameter settings for extended reality experiences
US20220294898A1 (en) * 2019-08-23 2022-09-15 Textnow, Inc. Systems and methods for improving audio quality using feedback control
US11375058B2 (en) * 2020-06-24 2022-06-28 Motorola Mobility Llc Methods and systems for providing status indicators with an electronic device
US11659330B2 (en) * 2021-04-13 2023-05-23 Spatialx Inc. Adaptive structured rendering of audio channels

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101529504B (zh) * 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
KR20090079782A (ko) * 2008-01-18 2009-07-22 삼성전자주식회사 청력 보호를 위한 오디오 처리 장치 및 방법
US8964994B2 (en) 2008-12-15 2015-02-24 Orange Encoding of multichannel digital audio signals
US20110035033A1 (en) * 2009-08-05 2011-02-10 Fox Mobile Dictribution, Llc. Real-time customization of audio streams
US20150063599A1 (en) * 2013-08-29 2015-03-05 Martin David Ring Controlling level of individual speakers in a conversation
US9900692B2 (en) 2014-07-09 2018-02-20 Sony Corporation System and method for playback in a speaker system
KR102371004B1 (ko) * 2015-08-12 2022-03-07 삼성전자 주식회사 오디오 신호 처리 방법 및 이를 지원하는 전자 장치
EP3465678B1 (en) * 2016-06-01 2020-04-01 Dolby International AB A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
US10409548B2 (en) 2016-09-27 2019-09-10 Grabango Co. System and method for differentially locating and modifying audio sources
US11032663B2 (en) 2016-09-29 2021-06-08 The Trustees Of Princeton University System and method for virtual navigation of sound fields through interpolation of signals from an array of microphone assemblies
US10659906B2 (en) * 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
CN108337455B (zh) * 2017-01-18 2022-03-11 三星电子株式会社 图像传感器
US20180357038A1 (en) * 2017-06-09 2018-12-13 Qualcomm Incorporated Audio metadata modification at rendering device
US10405126B2 (en) 2017-06-30 2019-09-03 Qualcomm Incorporated Mixed-order ambisonics (MOA) audio data for computer-mediated reality systems
US11070568B2 (en) 2017-09-27 2021-07-20 Palo Alto Networks, Inc. IoT device management visualization
US10657974B2 (en) 2017-12-21 2020-05-19 Qualcomm Incorporated Priority information for higher order ambisonic audio data
EP3765954A4 (en) * 2018-08-30 2021-10-27 Hewlett-Packard Development Company, L.P. SPACE CHARACTERISTICS OF MULTI-CHANNEL AUDIO SOURCE
US11937065B2 (en) * 2019-07-03 2024-03-19 Qualcomm Incorporated Adjustment of parameter settings for extended reality experiences

Also Published As

Publication number Publication date
US11937065B2 (en) 2024-03-19
US20210006921A1 (en) 2021-01-07
WO2021003385A1 (en) 2021-01-07

Similar Documents

Publication Publication Date Title
CN112771894B (zh) 针对计算机介导现实***进行渲染时表示遮挡
US11812252B2 (en) User interface feedback for controlling audio rendering for extended reality experiences
US11937065B2 (en) Adjustment of parameter settings for extended reality experiences
US11429340B2 (en) Audio capture and rendering for extended reality experiences
US11140503B2 (en) Timer-based access for audio streaming and rendering
US11354085B2 (en) Privacy zoning and authorization for audio rendering
US11580213B2 (en) Password-based authorization for audio rendering
CN114730564A (zh) 用于虚拟现实音频的基于优先级的声场编解码
US20210006976A1 (en) Privacy restrictions for audio rendering
CN114424587A (zh) 控制音频数据的呈现
CN116569255A (zh) 用于六自由度应用的多个分布式流的矢量场插值
US11601776B2 (en) Smart hybrid rendering for augmented reality/virtual reality audio
CN116195276A (zh) 控制音频数据的渲染

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination