CN113950845B

CN113950845B - 凹式音频渲染

Info

Publication number: CN113950845B
Application number: CN201980096978.3A
Authority: CN
Inventors: M·沃尔什; E·斯特因
Original assignee: DTS Inc
Current assignee: DTS Inc
Priority date: 2019-05-31
Filing date: 2019-06-10
Publication date: 2023-08-04
Anticipated expiration: 2039-06-10
Also published as: JP7285967B2; JP2022536255A; KR102565131B1; US20200382894A1; WO2020242506A1; US10869152B1; KR20220013381A; CN113950845A

Abstract

本主题提供了对音频虚拟化面临的技术问题的技术解决方案。为了降低音频虚拟化面临的技术复杂性和计算强度，一种技术解决方案包括利用不同的质量级别双耳渲染音频对象，其中用于每个音频源的质量级别可以基于它们相对于用户的视场的位置来选择。在示例中，这个技术解决方案通过降低用户的中央视觉场外的音频源的音频质量来降低技术复杂性和计算强度。在示例中，高质量音频渲染可以应用于这个强中央视觉敏锐度区域内的声音对象。这些技术解决方案减少了更高复杂性***上的处理，并且以降低的技术和计算成本提供了高得多的质量渲染的潜力。

Description

凹式音频渲染

相关申请和优先权要求

本申请与2019年5月31日提交并且标题为“Foveated Audio Rendering”的美国临时申请No.62/855,225相关并且要求其优先权，该美国临时申请的全部内容通过引用并入本文。

技术领域

本文描述的技术涉及用于空间音频渲染的***和方法。

背景技术

音频虚拟器可以用于创建各个音频信号源自各种地点(例如，位于3D空间中)的感知。当使用多个扩音器或使用头戴式耳机再现音频时，可以使用音频虚拟器。用于虚拟化音频源的技术包括基于相对于收听者的音频源地点渲染那个音频源。然而，相对于收听者渲染音频源地点可能在技术上复杂并且在计算上昂贵，尤其是对于多个音频源。需要的是提高的音频虚拟器。

附图说明

图1是根据实施例的用户视觉场的图。

图2是根据实施例的音频质量渲染决策引擎的图。

图3是根据实施例的用户声学球体的图。

图4是根据实施例的声音渲染***方法的图。

图5是根据示例实施例的虚拟环绕***的图。

具体实施方式

本主题提供了对音频虚拟化面临的技术问题的技术解决方案。为了降低音频虚拟化面临的技术复杂性和计算强度，技术解决方案包括利用不同的质量级别双耳渲染音频对象，其中用于每个音频源的质量级别可以基于它们相对于用户的视场的位置来选择。在示例中，这个技术解决方案通过降低用户的中央视觉场外的音频源的音频质量来降低技术复杂性和计算强度。这个解决方案利用用户验证音频渲染的准确性的降低的能力(如果用户无法看到对象音频应该来自哪里)。一般地，人类具有通常限于以注视方向为中心的近似六十度弧的强视觉敏锐度。负责这个强中央视觉敏锐度的眼睛的部分是小凹，并且如本文所使用的，凹式音频渲染是指基于相对于这个强中央视觉敏锐度区域的音频对象位置渲染音频对象。在示例中，高质量音频渲染可以应用于这个强中央视觉敏锐度区域内的声音对象。相反地，较低复杂性算法可以应用于无法看到正被渲染的对象的其它区域，并且用户将不太可能或不能够注意到与较低复杂性算法相关联的任何定位错误。这些技术解决方案减少了更高复杂性***上的处理，并且以降低的技术和计算成本提供了高得多的质量渲染的潜力。

下面结合附图阐述的详细描述旨在作为本主题的当前优选实施例的描述，而不旨在表示可以构造或使用本主题的唯一形式。本描述结合说明的实施例阐述了展开和操作本主题的功能和步骤序列。要理解的是，相同或等同的功能和序列可以通过也旨在涵盖在本主题的范围内的不同实施例来实现。还理解的是，关系术语(例如，第一、第二)的使用仅用于区分一个实体与另一个实体，而不一定要求或暗示这样的实体之间的任何实际的这样的关系或次序。

图1是根据实施例的用户视觉场100的图。用户110可以具有相关联的总视场120。总视场120可以被细分成多个区域。聚焦区域130可以直接在用户前方，其中聚焦区域130可以包括用户的总视场120的中央部分的近似三十度。3D视觉场140可以包括并且延伸超出聚焦区域130以包括用户的总视场120的中央部分的近似六十度。在示例中，用户110可以在3D视觉场140内以3D观看对象。周边视觉场150可以包括并且延伸超出3D视觉场140以包括用户的总视场120的中央部分的近似一百二十度。除了3D视觉场140之外，周边视觉场150还可以包括左周边区域160和右周边区域165。虽然双眼都能够观察左和右周边区域160和165中的对象，但是这些区域中降低的视觉敏锐度导致那些对象被以2D观看。视场120还可以包括对右眼不可见的仅左侧区域170，并且可以包括对左眼不可见的仅右侧区域175。

一个或多个音频源180可以定位在用户的视场120内。来自音频源180的音频可以行经单独的声学路径以到达用户110的每个耳膜。从音频源180到每个耳膜的单独路径创建独特的源到耳膜频率响应和耳间时间差(ITD)。这个频率响应和ITD可以组合以形成声学模型，诸如双耳头部相关传递函数(HRTF)。从音频源180到用户110的每个耳膜的每个声学路径可以具有独特的一对对应的HRTF。每个用户110可以具有略微不同的头部形状或耳朵形状，因此每个用户110根据头部形状或耳朵形状可以具有对应地略微不同的HRTF。为了从特定音频源180的地点准确地再现声音，可以对每个用户110测量HRTF值，并且可以将HRTF与音频源180卷积以从音频源180的地点渲染音频。虽然HRTF对特定用户110提供从特定地点的音频源180的准确再现，但是测量来自每个用户的来自每个地点的每种类型的声音以生成所有可能的HRTF是不实际的。为了减少HRTF测量的数量，可以在特定地点采样HRTF对，并且对于采样地点之间的地点可以对HRTF进行插值。使用这个HRTF插值再现的音频的质量可以通过增加采样地点的数量或通过提高HRTF插值来提高。

HRTF插值可以使用各种方法实现。在实施例中，HRTF插值可以包括创建多声道扬声器混合(例如，基于向量的幅度平移、环境立体声)和使用通用HRTF虚拟化扬声器。这个解决方案可以是高效的但是提供较低的质量，诸如当ITD和HRTF不正确并且导致减少的正面成像时。这个解决方案可以被用于多声道游戏、多声道电影或交互式3D音频(I3DA)。在实施例中，HRTF插值可以包括对于每个音频源的最小相位HRTF和ITD的线性组合。这可以通过提高的ITD的准确性来提供提高的低频率准确性。然而，在没有HRTF的密集的数据库(例如，至少100个HRTF)的情况下，这也可能降低HRTF插值的性能，并且实现起来可能在计算上更昂贵。在实施例中，HRTF插值可以包括对于每个音频源的个性化的HRTF和频域插值的组合。这可以专注于插值的HRTF音频源地点的更准确重建，并且可以对正面定位和外在化提供提高的性能，但是实现起来可能在计算上昂贵。

基于音频源180的地点的HRTF地点和插值的组合的选择可以提供提高的HRTF音频渲染性能。为了在降低计算强度的同时提高HRTF渲染的性能，可以对聚焦区域130内的音频对象应用最高质量HRTF渲染，并且对视场120内离聚焦区域130越来越远的区域可以降低HRTF渲染质量。这个基于视场120内的细分区域的HRTF的选择可以用于选择特定区域中的降低的音频质量渲染，其中降低的音频质量渲染将不被用户辨识。此外，无缝过渡可以在视场120内的细分区域的过渡处使用以减少或消除用户110检测区域之间的过渡的能力。视场120内和外的区域可以用于确定应用于每个声音源的渲染质量，诸如下面关于图2所描述的。

图2是根据实施例的音频质量渲染决策引擎200的图。决策引擎200可以通过确定声音源地点210开始。当一个或多个声音源地点在视觉场220内时，可以基于个体化的HRTF225的复频域插值渲染声音源。当一个或多个声音源地点在视觉场220外但在周边区域230内时，可以基于具有每源ITD 235的线性时域HRTF插值渲染声音源。当一个或多个声音源地点在视觉场220外并且在周边区域230外但在环绕区域240内时，可以基于虚拟扩音器245渲染声音源。

两个区域之间的边界上或附近的音频源可以基于可用的HRTF测量、视觉区域边界或视觉区域容限的组合进行插值。在实施例中，可以对视觉场220、周边区域230和环绕区域240之间的每个过渡进行HRTF测量。通过对区域之间的过渡进行HRTF测量，音频质量渲染决策引擎200可以提供相邻区域之间的一个或多个渲染质量之间的无缝过渡，使得过渡对于用户是可听透明的。过渡可以包括过渡角度，诸如以用户前方为中心的六十度锥形截面的锥形表面。过渡可以包括过渡区域，诸如以用户前方为中心的六十度锥形截面的锥形表面的任一侧的五度。在实施例中，过渡或过渡区域的地点基于附近HRTF测量的地点确定。例如，视觉场220与周边区域230之间的过渡点可以基于最靠近以用户前方为中心的近似六十度弧的HRTF测量地点确定。过渡的确定可以包括对准两个相邻渲染质量的结果，使得它们提供充分相似的结果以便实现无缝的可听连续性。在示例中，无缝过渡包括使用在边界处测量的HRTF，并且每源ITD可以使用测量的HRTF作为基线渲染，同时确保应用公共的ITD。

视觉区域容限可以与可用的HRTF测量组合使用以确定视觉区域边界。例如，如果HRTF在视觉场220外但在视觉场220的视觉区域容限内，那么HRTF地点可以用作视觉场220与周边区域230之间的边界。通过对区域过渡进行HRTF测量或通过基于可用的HRTF测量改变区域，诸如通过减少HRTF测量的次数或通过避免在整个用户的声学球体上实现HRTF渲染模型的需要，使用HRTF的音频源的渲染被简化。

一个或多个过渡或者过渡区域的使用可以提供本文描述的***和方法的可检测性。例如，可以通过检测过渡区域中的一个或多个处的音频过渡来检测HRTF过渡的实现。此外，可以准确地测量ITD并且将其与区域之间的交叉渐变进行比较。类似地，可以观察频域HRTF插值并且将其与正面区域上的线性插值进行比较。

图3是根据实施例的用户声学球体300的图。声学球体300可以包括视觉场区域310，其可以将视觉场220扩展到六十度视觉锥体。在示例中，视觉场区域310内的音频源可以基于频域HRTF插值渲染，并且可以包括基于确定的ITD的补偿。特别地，可以执行HRTF插值以从相邻的测量的HRTF导出一个或多个中间HRTF滤波器，可以基于测量或公式确定ITD，并且可以基于插值的HRTF和相关联的ITD对音频对象进行滤波。声学球体300可以包括视觉区域310的周边，其可以将周边区域230延伸到一百二十度视觉锥体。在示例中，周边区域230内的音频源可以基于时域头部相关脉冲响应(HRIR)插值渲染，并且可以包括基于确定的ITD的补偿。特别地，可以执行时域HRIR插值以从一个或多个测量的HRTF导出中间HRTF滤波器，可以基于测量或公式导出ITD，并且可以利用插值的HRTF和相关联的ITD对音频对象进行滤波。在示例中，HRIR采样可以不包括均匀采样。环绕音频渲染可以应用于环绕区域330，其中环绕区域330可以在周边区域320和视觉场区域310两者之外。在示例中，环绕区域330内的音频源可以基于跨扩音器阵列的基于向量的幅度平移(诸如使用在一个或多个扩音器地点处测量的HRIR)渲染。虽然关于图3示出并且讨论了三个区，但是可以识别或使用附加区以渲染一个或多个音频源。

声学球体300在对于一个或多个虚拟现实或混合现实应用渲染音频时可以特别有用。对于虚拟现实应用，用户主要关注注视方向上的一个或多个对象。通过使用本文描述的声学球体300和音频渲染，虚拟现实中的更高质量渲染可以被感知为发生在虚拟现实用户周围的更大空间上。对于混合现实应用(例如，增强现实应用)，可以将真实声音源与虚拟声音源混合以提高HRTF渲染和插值。对于虚拟现实或混合现实应用，对于注视方向内的发声对象，音频和可视质量两者都可以提高。

图4是根据实施例的声音渲染***方法400的图。方法400可以包括确定用户观看方向410。用户观看方向410可以被确定为在用户地点前方，或者可以基于交互式方向输入(例如，视频游戏控制器)、眼睛跟踪设备或其它输入被修改以包括用户观看方向410。方法400可以识别用户聚焦场内的一个或多个音频对象420。方法400可以包括利用较高质量渲染来渲染用户聚焦场内的对象430，并且可以包括利用较低质量渲染来渲染用户聚焦场外的对象435。可以使用附加的用户聚焦区域和附加的渲染质量，诸如上面所描述的。方法400可以包括组合一个或多个渲染的音频对象以输出给用户。在实施例中，方法400可以在软件内或在软件开发工具包(SDK)内实现以提供对方法400的访问。虽然可以使用这些各种用户聚焦区域来提供这种交错音频实现复杂性，但是可以使用模拟的物理扬声器地点，诸如关于图5所示出和所描述的。

图5是根据示例实施例的虚拟环绕***500的图。虚拟环绕***500是可以将上述交错音频实现复杂性应用于一组虚拟环绕声音源的示例***。虚拟环绕***500可以对用户510提供模拟的环绕声，诸如通过双耳头戴式耳机520。用户可以在观看屏幕530上的视频的同时使用头戴式耳机520。虚拟环绕***500可以用于提供多个模拟的环绕声道，诸如可以用于提供模拟的5.1环绕声。***500可以包括虚拟中央声道540，其可以被模拟为靠近屏幕530定位。***500可以包括成对的虚拟左和右扬声器，包括虚拟左前扬声器550、虚拟右前扬声器555、虚拟左后扬声器560、虚拟右后扬声器565和虚拟低音炮570。虽然虚拟环绕***500被示为提供模拟的5.1环绕声，但是***500可以用于模拟7.1、11.1、22.2或其它环绕声配置。

上述交错音频实现复杂性可以应用于虚拟环绕***500中的一组虚拟环绕声音源。声音源可以具有相关联的一组5.1音频声道，并且虚拟环绕***500可以用于在以5.1虚拟扬声器中的每一个的虚拟地点为中心的区域中提供最优的模拟音频渲染。在示例中，可以在虚拟扬声器中的每一个的地点处使用个体化的HRTF的复频域插值，并且可以在任何虚拟扬声器之间使用具有每源ITD的线性时域HRTF插值。虚拟扬声器地点可以与聚焦区域组合使用以确定模拟音频渲染。在示例中，可以在前置虚拟扬声器540、550和555的地点处使用个体化的HRTF的复频域插值，可以在用户的整个视场内在前置虚拟扬声器540、550和555之间使用具有每源ITD的线性时域HRTF插值，并且可以对后置虚拟扬声器560和565以及低音炮570使用虚拟扩音器。

本公开已参考其示例性实施例详细地描述，对于本领域技术人员将清楚的是，在不脱离实施例的范围的情况下可以在其中进行各种改变和修改。因此，旨在本公开覆盖本公开的修改和变型，条件是它们落入所附权利要求及其等同物的范围内。

本主题涉及处理音频信号(即，表示物理声音的信号)。这些音频信号由数字电子信号表示。在描述实施例时，可以示出或讨论模拟波形以说明概念。然而，应当理解的是，本主题的典型实施例将在数字字节或字的时间序列的背景下操作，其中这些字节或字形成模拟信号或最终物理声音的离散近似。离散的数字信号与周期性采样的音频波形的数字表示对应。对于均匀采样，要以足以满足感兴趣频率的Nyquist采样定理的速率或高于该速率对波形进行采样。在典型的实施例中，可以使用每秒近似44100个样本的均匀采样速率(例如，44.1kHz)，然而可以替代地使用更高的采样速率(例如，96kHz、128kHz)。根据标准数字信号处理技术，应当选择量化方案和位分辨率以满足特定应用的要求。本主题的技术和装置通常将在多个声道中相互依赖地应用。例如，它可以在“环绕”音频***(例如，具有多于两个声道)的背景下使用。

如本文所使用的，“数字音频信号”或“音频信号”没有描述仅仅数学抽象，而是代替地表示能够被机器或装置检测的物理介质中包含或携带的信息。这些术语包括记录或发送的信号，并且应当被理解为包括通过任何形式的编码(包括脉冲编码调制(PCM)或其它编码)的传送。输出、输入或中间音频信号可以通过各种已知方法中的任何一种进行编码或压缩，这些已知方法包括MPEG、ATRAC、AC3或DTS公司的专有方法，如美国专利No.5,974,380；5,978,762；以及6,487,535中所描述的。可能需要对计算的一些修改以适应特定的压缩或编码方法，如对于本领域技术人员将清楚的。

在软件中，音频“编解码器”包括根据给定音频文件格式或流传输音频格式来格式化数字音频数据的计算机程序。大多数编解码器被实现为与一个或多个多媒体播放器(诸如QuickTime Player、XJVIMS、Winamp、Windows Media Player、Pro Logic或其它编解码器)接口的库。在硬件中，音频编解码器是指将模拟音频编码为数字信号和将数字解码回模拟的单个或多个设备。换句话说，它包含运行在公共时钟上的模数转换器(ADC)和数模转换器(DAC)。

音频编解码器可以在消费者电子设备(诸如DVD播放器、蓝光播放器、电视调谐器、CD播放器、手持播放器、互联网音频/视频设备、游戏控制台、移动电话或另一个电子设备)中实现。消费者电子设备包括中央处理单元(CPU)，其可以表示一种或多种传统类型的这样的处理器，诸如IBM PowerPC、Intel Pentium(x86)处理器或其它处理器。随机存取存储器(RAM)临时存储由CPU执行的数据处理操作的结果，并且通常经由专用的存储器通道与其互连。消费者电子设备还可以包括永久存储设备(诸如硬盘驱动器)，其也通过输入/输出(LO)总线与CPU通信。还可以连接其它类型的存储设备，诸如带式驱动器、光盘驱动器或其它存储设备。图形卡也可以经由视频总线连接到CPU，其中图形卡将代表显示数据的信号发送到显示监视器。诸如键盘或鼠标的***数据输入设备可以通过USB端口连接到音频再现***。USB控制器对连接到USB端口的***设备翻译去往和来自CPU的数据和指令。诸如打印机、麦克风、扬声器或其它设备的附加设备可以连接到消费者电子设备。

消费者电子设备可以使用具有图形用户界面(GUI)的操作***，诸如来自华盛顿州雷蒙德市(Redmond,Wash.)的微软公司的WINDOWS、来自加利福尼亚州库比蒂诺(Cupertino,Calif.)的苹果公司的MAC OS、对移动操作***设计的移动GUI的各种版本(诸如Android)、或其它操作***。消费者电子设备可以执行一个或多个计算机程序。一般地，操作***和计算机程序有形地包含在计算机可读介质中，其中计算机可读介质包括固定或可移动数据存储设备(包括硬盘驱动器)中的一个或多个。操作***和计算机程序两者都可以从前面提到的数据存储设备加载到RAM中以供CPU执行。计算机程序可以包括指令，其在由CPU读取和执行时使CPU执行步骤以执行本主题的步骤或特征。

音频编解码器可以包括各种配置或架构。在不脱离本主题的范围的情况下，可以容易地替换任何这样的配置或架构。具有本领域普通技术的人员将认识到，上述序列是计算机可读介质中最常用的，但是在不脱离本主题的范围的情况下，存在可以替换的其它现有序列。

音频编解码器的一个实施例的元素可以由硬件、固件、软件或其任意组合来实现。当被实现为硬件时，音频编解码器可以在单个音频信号处理器上采用或者分布在各种处理部件当中。当以软件实现时，本主题的实施例的元素可以包括执行必要任务的代码片段。软件优选地包括执行在本主题的一个实施例中描述的操作的实际代码，或者包括仿真或模拟操作的代码。程序或代码片段可以存储在处理器或机器可访问介质中，或者由在载波(例如，由载波调制的信号)中包含的计算机数据信号通过传输介质发送。“处理器可读或可访问介质”或“机器可读或可访问介质”可以包括可以存储、发送或传送信息的任何介质。

处理器可读介质的示例包括电子电路、半导体存储器设备、只读存储器(ROM)、闪存、可擦除可编程ROM(EPROM)、软盘、紧凑盘(CD)ROM、光盘、硬盘、光纤介质、射频(RF)链路或其它介质。计算机数据信号可以包括可以通过传输介质(诸如电子网络通道、光纤、空气、电磁、RF链路或其它传输介质)传播的任何信号。代码片段可以经由诸如互联网、内联网或另一个网络的计算机网络下载。机器可访问介质可以包含在制造品中。机器可访问介质可以包括在由机器访问时使机器执行下面描述的操作的数据。这里的术语“数据”是指出于机器可读目的而编码的任何类型的信息，其可以包括程序、代码、数据、文件或其它信息。

本主题的实施例可以由软件实现。软件可以包括彼此耦合的若干模块。软件模块耦合到另一个模块以生成、发送、接收或处理变量、参数、自变量、指针、结果、更新后的变量、指针或者其它输入或输出。软件模块还可以是与在平台上执行的操作***交互的软件驱动程序或接口。软件模块还可以是硬件驱动器，用于配置、设置、初始化、发送数据到硬件设备或从硬件设备接收数据。

本主题的实施例可以被描述为通常被描绘为流程图、流程示图、结构图或框图的处理。尽管框图可以将操作描述为顺序处理，但是许多操作可以并行或同时地执行。此外，可以重新布置操作的次序。处理可以在其操作完成时终止。处理可以与方法、程序、过程或其它步骤组对应。

本描述包括用于合成音频信号(特别是在扩音器或头戴式耳机(例如，耳麦)应用中)的方法和装置。虽然在包括扩音器或耳麦的示例性***的背景下呈现了本公开的各方面，但是应当理解的是，所描述的方法和装置不限于这样的***并且本文的教导可应用于包括合成音频信号的其它方法和装置。如在实施例的描述中使用的，音频对象包括3D位置数据。因此，音频对象应当被理解为包括音频源与3D位置数据的特定组合表示，其通常在位置上是动态的。相比之下，“声音源”是用于在最终混合或渲染中回放或再现的音频信号并且它具有预期的静态或动态渲染方法或目的。例如，源可以是信号“左前”，或者源可以播放到低频效果(“LFE”)声道或向右平移90度。

为了更好地说明本文公开的方法和装置，这里提供实施例的非限制性列表。

示例1是一种声音渲染***，包括：一个或多个处理器；包括指令的存储设备，所述指令在由所述一个或多个处理器执行时将所述一个或多个处理器配置为：使用第一渲染质量渲染第一声音信号，所述第一声音信号与中央视觉区域内的第一声音源相关联；以及使用第二渲染质量渲染第二声音信号，所述第二声音信号与周边视觉区域内的第二声音源相关联，其中所述第一渲染质量高于所述第二渲染质量。

在示例2中，示例1的主题可选地包括其中：所述第一渲染质量包括个体化的头部相关传递函数(HRTF)的复频域插值；并且所述第二渲染质量包括具有每源耳间时间差(ITD)的线性时域HRTF插值。

在示例3中，示例1-2中的任何一个或多个的主题可选地包括其中：所述中央视觉区域与中央视觉敏锐度相关联；所述周边视觉区域与周边视觉敏锐度相关联；并且所述中央视觉敏锐度大于所述周边视觉敏锐度。

在示例4中，示例3的主题可选地包括其中：所述中央视觉区域包括用户注视方向上的中央锥形区域；并且所述周边视觉区域包括用户视场内且所述中央锥形区域外的周边锥形区域。

在示例5中，示例3-4中的任何一个或多个的主题可选地包括所述指令还将所述一个或多个处理器配置为使用过渡渲染质量渲染过渡声音信号，所述过渡声音信号与过渡边界区域内的过渡声音源相关联，所述过渡边界区域由所述中央锥形区域和沿着所述中央锥形区域的周界的周边锥形区域共享，其中所述过渡渲染质量提供所述第一渲染质量与所述第二渲染质量之间的无缝音频质量过渡。

在示例6中，示例5的主题可选地包括其中所述过渡边界区域被选择以包括HRTF采样地点。

在示例7中，示例6的主题可选地包括其中在所述过渡边界区域处应用公共的ITD。

在示例8中，示例1-7中的任何一个或多个的主题可选地包括所述指令还将所述一个或多个处理器配置为使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

在示例9中，示例8的主题可选地包括其中所述第三渲染质量包括虚拟扩音器渲染。

在示例10中，示例1-9中的任何一个或多个的主题可选地包括所述指令还将所述一个或多个处理器配置为：基于所述第一声音信号和第二声音信号生成混合输出信号；以及将所述混合输出信号输出到可听声音再现设备。

在示例11中，示例10的主题可选地包括其中：所述可听声音再现设备包括双耳声音再现设备；使用所述第一渲染质量渲染所述第一声音信号包括使用第一头部相关传递函数(HRTF)将所述第一声音信号渲染为第一双耳音频信号；以及使用所述第二渲染质量渲染所述第二声音信号包括使用第二HRTF将所述第二声音信号渲染为第二双耳音频信号。

示例12是一种声音渲染方法，包括：使用第一渲染质量渲染第一声音信号，所述第一声音信号与中央视觉区域内的第一声音源相关联；以及使用第二渲染质量渲染第二声音信号，所述第二声音信号与周边视觉区域内的第二声音源相关联，其中所述第一渲染质量高于所述第二渲染质量。

在示例13中，示例12的主题可选地包括其中：所述第一渲染质量包括个体化的头部相关传递函数(FIRTF)的复频域插值；并且所述第二渲染质量包括具有每源耳间时间差(ITD)的线性时域HRTF插值。

在示例14中，示例12-13中的任何一个或多个的主题可选地包括其中：所述中央视觉区域与中央视觉敏锐度相关联；所述周边视觉区域与周边视觉敏锐度相关联；并且所述中央视觉敏锐度大于所述周边视觉敏锐度。

在示例15中，示例14的主题可选地包括其中：所述中央视觉区域包括用户注视方向上的中央锥形区域；并且所述周边视觉区域包括用户视场内且所述中央锥形区域外的周边锥形区域。

在示例16中，示例14-15中的任何一个或多个的主题可选地包括使用过渡渲染质量渲染过渡声音信号，所述过渡声音信号与过渡边界区域内的过渡声音源相关联，所述过渡边界区域由所述中央锥形区域和沿着所述中央锥形区域的周界的周边锥形区域共享，其中所述过渡渲染质量提供所述第一渲染质量与所述第二渲染质量之间的无缝音频质量过渡。

在示例17中，示例16的主题可选地包括其中所述过渡边界区域被选择以包括HRTF采样地点。

在示例18中，示例16-17中的任何一个或多个的主题可选地包括其中在所述过渡边界区域处应用公共的ITD。

在示例19中，示例12-18中的任何一个或多个的主题可选地包括使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

在示例20中，示例19的主题可选地包括其中所述第三渲染质量包括虚拟扩音器渲染。

在示例21中，示例12-20中的任何一个或多个的主题可选地包括基于所述第一声音信号和第二声音信号生成混合输出信号；以及将所述混合输出信号输出到可听声音再现设备。

在示例22中，示例21的主题可选地包括其中：所述可听声音再现设备包括双耳声音再现设备；使用所述第一渲染质量进行所述第一声音信号的渲染包括使用第一头部相关传递函数(HRTF)将所述第一声音信号渲染为第一双耳音频信号；以及使用所述第二渲染质量进行所述第二声音信号的渲染包括使用第二HRTF将所述第二声音信号渲染为第二双耳音频信号。

示例23是一种或多种包括指令的机器可读介质，所述指令在由计算***执行时使所述计算***执行示例12-22的方法中的任何一个。

示例24是一种包括用于执行示例12-22的方法中的任何一个的部件的装置。

示例25是一种包括多个指令的机器可读存储介质，所述指令在利用设备的处理器执行时使所述设备：使用第一渲染质量渲染第一声音信号，所述第一声音信号与中央视觉区域内的第一声音源相关联；以及使用第二渲染质量渲染第二声音信号，所述第二声音信号与周边视觉区域内的第二声音源相关联，其中所述第一渲染质量高于所述第二渲染质量。

在示例26中，示例25的主题可选地包括其中：所述第一渲染质量包括个体化的头部相关传递函数(HRTF)的复频域插值；并且所述第二渲染质量包括具有每源耳间时间差(ITD)的线性时域HRTF插值。

在示例27中，示例25-26中的任何一个或多个的主题可选地包括其中：所述中央视觉区域与中央视觉敏锐度相关联；所述周边视觉区域与周边视觉敏锐度相关联；并且所述中央视觉敏锐度大于所述周边视觉敏锐度。

在示例28中，示例27的主题可选地包括其中：所述中央视觉区域包括用户注视方向上的中央锥形区域；并且所述周边视觉区域包括用户视场内且所述中央锥形区域外的周边锥形区域。

在示例29中，示例27-28中的任何一个或多个的主题可选地包括所述指令还使所述设备使用过渡渲染质量渲染过渡声音信号，所述过渡声音信号与过渡边界区域内的过渡声音源相关联，所述过渡边界区域由所述中央锥形区域和沿着所述中央锥形区域的周界的周边锥形区域共享，其中所述过渡渲染质量提供所述第一渲染质量与所述第二渲染质量之间的无缝音频质量过渡。

在示例30中，示例29的主题可选地包括其中所述过渡边界区域被选择以包括HRTF采样地点。

在示例31中，示例29-30中的任何一个或多个的主题可选地包括其中在所述过渡边界区域处应用公共的ITD。

在示例32中，示例25-31中的任何一个或多个的主题可选地包括所述指令还使所述设备使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

在示例33中，示例32的主题可选地包括其中所述第三渲染质量包括虚拟扩音器渲染。

在示例34中，示例25-33中的任何一个或多个的主题可选地包括所述指令还使所述设备：基于所述第一声音信号和第二声音信号生成混合输出信号；以及将所述混合输出信号输出到可听声音再现设备。

在示例35中，示例34的主题可选地包括其中：所述可听声音再现设备包括双耳声音再现设备；使用所述第一渲染质量进行所述第一声音信号的渲染包括使用第一头部相关传递函数(HRTF)将所述第一声音信号渲染为第一双耳音频信号；以及使用所述第二渲染质量进行所述第二声音信号的渲染包括使用第二HRTF将所述第二声音信号渲染为第二双耳音频信号。

示例36是一种声音渲染装置，包括：使用第一渲染质量渲染第一声音信号，所述第一声音信号与中央视觉区域内的第一声音源相关联；以及使用第二渲染质量渲染第二声音信号，所述第二声音信号与周边视觉区域内的第二声音源相关联，其中所述第一渲染质量高于所述第二渲染质量。

在示例37中，示例36的主题可选地包括其中：所述第一渲染质量包括个体化的头部相关传递函数(HRTF)的复频域插值；并且所述第二渲染质量包括具有每源耳间时间差(ITD)的线性时域HRTF插值。

在示例38中，示例36-37中的任何一个或多个的主题可选地包括其中：所述中央视觉区域与中央视觉敏锐度相关联；所述周边视觉区域与周边视觉敏锐度相关联；并且所述中央视觉敏锐度大于所述周边视觉敏锐度。

在示例39中，示例38的主题可选地包括其中：所述中央视觉区域包括用户注视方向上的中央锥形区域；并且所述周边视觉区域包括用户视场内且所述中央锥形区域外的周边锥形区域。

在示例40中，示例38-39中的任何一个或多个的主题可选地包括使用过渡渲染质量渲染过渡声音信号，所述过渡声音信号与过渡边界区域内的过渡声音源相关联，所述过渡边界区域由所述中央锥形区域和沿着所述中央锥形区域的周界的周边锥形区域共享，其中所述过渡渲染质量提供所述第一渲染质量与所述第二渲染质量之间的无缝音频质量过渡。

在示例41中，示例40的主题可选地包括其中所述过渡边界区域被选择以包括HRTF采样地点。

在示例42中，示例40-41中的任何一个或多个的主题可选地包括其中在所述过渡边界区域处应用公共的ITD。

在示例43中，示例39-42中的任何一个或多个的主题可选地包括使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

在示例44中，示例43的主题可选地包括其中所述第三渲染质量包括虚拟扩音器渲染。

在示例45中，示例36-44中的任何一个或多个的主题可选地包括基于所述第一声音信号和第二声音信号生成混合输出信号；以及将所述混合输出信号输出到可听声音再现设备。

在示例46中，示例45的主题可选地包括其中：所述可听声音再现设备包括双耳声音再现设备；使用所述第一渲染质量进行所述第一声音信号的渲染包括使用第一头部相关传递函数(HRTF)将所述第一声音信号渲染为第一双耳音频信号；以及使用所述第二渲染质量进行所述第二声音信号的渲染包括使用第二HRTF将所述第二声音信号渲染为第二双耳音频信号。

示例47是一种或多种包括指令的机器可读介质，所述指令在由机器执行时使所述机器执行示例1-46的操作中的任何一个的操作。

示例48是一种包括用于执行示例1-46的操作中的任何一个的部件的装置。

示例49是一种执行示例1-46中的任何一个的操作的***。

示例50是一种执行示例1-46中的任何一个的操作的方法。

以上详细描述包括对附图的引用，这些附图形成详细描述的一部分。附图通过图示的方式示出了具体实施例。这些实施例在本文中也称为“示例”。这样的示例除了示出或描述的要素之外还可以包括要素。而且，主题可以包括或者关于特定示例(或其一个或多个方面)或者关于本文示出或描述的其它示例(或其一个或多个方面)示出或描述的那些要素的任意组合或置换。

在本文档中，使用术语“一”或“一个”，如在专利文档中常见的，以包括一个或多于一个，独立于“至少一个”或“一个或多个”的任何其它实例或用法。在本文档中，术语“或”用于指非排他性的或，使得“A或B”包括“A但不是B”、“B但不是A”和“A且B”，除非另外指出。在本文档中，术语“包含”和“其中”用作相应术语“包括”和“其中”的简明英语等同物。而且，在以下权利要求中，术语“包含”和“包括”是开放式的，即，除了权利要求中这样的术语之后列出的要素之外还包括要素的***、设备、物品、成分、配方或处理仍然被视为落入那个权利要求的范围。而且，在以下权利要求中，术语“第一”、“第二”和“第三”等仅用作标记，并且不旨在对其对象施加数字要求。

以上描述旨在是说明性而非限制性的。例如，上述示例(或其一个或多个方面)可以彼此组合使用。其它实施例可以诸如由本领域普通技术人员在审阅以上描述之后使用。提供摘要以允许读者快速确定技术公开的本质。它是在理解到它将不被用于解释或限制权利要求的范围或含义的情况下提交的。在以上具体实施方式中，各种特征可以组合在一起以精简本公开。这不应当被解释为意图未要求保护的公开特征对于任何权利要求是必不可少的。更确切地说，本主题可以在于少于特定公开的实施例的所有特征。因此，以下权利要求特此并入具体实施方式中，其中每个权利要求自身作为单独的实施例，并且预期这些实施例可以以各种组合或置换彼此组合。范围应当参考所附权利要求连同这些权利要求所赋予的等同物的完整范围来确定。

Claims

1.一种声音渲染***，包括：

一个或多个处理器；

包括指令的存储设备，所述指令在由所述一个或多个处理器执行时将所述一个或多个处理器配置为：

使用第一渲染质量渲染第一声音信号，所述第一声音信号与中央视觉区域内的第一声音源相关联，所述第一渲染质量包括个体化的头部相关传递函数(HRTF)的复频域插值；以及

使用第二渲染质量渲染第二声音信号，所述第二声音信号与周边视觉区域内的第二声音源相关联，所述第二渲染质量包括具有对每个源计算的耳间时间差(ITD)的线性时域HRTF插值，其中所述第一渲染质量高于所述第二渲染质量。

2.根据权利要求1所述的***，其中：

所述中央视觉区域与中央视觉敏锐度相关联；

所述周边视觉区域与周边视觉敏锐度相关联；并且

所述中央视觉敏锐度大于所述周边视觉敏锐度。

3.根据权利要求2所述的***，其中：

所述中央视觉区域包括用户注视方向上的中央锥形区域；并且

所述周边视觉区域包括用户视场内且所述中央锥形区域外的周边锥形区域。

4.根据权利要求3所述的***，所述指令还将所述一个或多个处理器配置为使用过渡渲染质量渲染过渡声音信号，所述过渡声音信号与过渡边界区域内的过渡声音源相关联，所述过渡边界区域由所述中央锥形区域和沿着所述中央锥形区域的周界的周边锥形区域共享，其中所述过渡渲染质量提供所述第一渲染质量与所述第二渲染质量之间的无缝音频质量过渡。

5.根据权利要求4所述的***，其中所述过渡边界区域被选择以包括HRTF采样地点。

6.根据权利要求5所述的***，其中在所述过渡边界区域处应用公共的ITD。

7.根据权利要求1所述的***，所述指令还将所述一个或多个处理器配置为使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

8.根据权利要求7所述的***，其中所述第三渲染质量包括虚拟扩音器渲染。

9.根据权利要求1所述的***，所述指令还将所述一个或多个处理器配置为：

基于所述第一声音信号和第二声音信号生成混合输出信号；以及

将所述混合输出信号输出到可听声音再现设备。

10.根据权利要求9所述的***，其中：

所述可听声音再现设备包括双耳声音再现设备；

使用所述第一渲染质量渲染所述第一声音信号包括使用个体化的头部相关传递函数(HRTF)的复频域插值将所述第一声音信号渲染为第一双耳音频信号；以及

使用所述第二渲染质量渲染所述第二声音信号包括使用具有对每个源计算的耳间时间差(ITD)的线性时域HRTF插值将所述第二声音信号渲染为第二双耳音频信号。

11.一种声音渲染方法，包括：

12.根据权利要求11所述的方法，其中：

所述中央视觉区域与中央视觉敏锐度相关联；

所述周边视觉区域与周边视觉敏锐度相关联；并且

所述中央视觉敏锐度大于所述周边视觉敏锐度。

13.根据权利要求12所述的方法，其中：

14.根据权利要求13所述的方法，还包括使用过渡渲染质量渲染过渡声音信号，所述过渡声音信号与过渡边界区域内的过渡声音源相关联，所述过渡边界区域由所述中央锥形区域和沿着所述中央锥形区域的周界的周边锥形区域共享，其中所述过渡渲染质量提供所述第一渲染质量与所述第二渲染质量之间的无缝音频质量过渡。

15.根据权利要求14所述的方法，其中所述过渡边界区域被选择以包括HRTF采样地点。

16.根据权利要求14所述的方法，其中在所述过渡边界区域处应用公共的ITD。

17.根据权利要求11所述的方法，还包括使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

18.根据权利要求17所述的方法，其中所述第三渲染质量包括虚拟扩音器渲染。

19.根据权利要求11所述的方法，还包括：

将所述混合输出信号输出到可听声音再现设备。

20.根据权利要求19所述的方法，其中：

所述可听声音再现设备包括双耳声音再现设备；

使用所述第一渲染质量进行所述第一声音信号的渲染包括使用个体化的头部相关传递函数(HRTF)的复频域插值将所述第一声音信号渲染为第一双耳音频信号；以及

使用所述第二渲染质量进行所述第二声音信号的渲染包括使用具有对每个源计算的耳间时间差(ITD)的线性时域HRTF插值将所述第二声音信号渲染为第二双耳音频信号。

21.一种包括多个指令的机器可读存储介质，所述指令在利用设备的处理器执行时使所述设备执行包括以下的操作：

22.根据权利要求21所述的机器可读存储介质，所述指令还使所述设备使用第三渲染质量渲染第三声音信号，所述第三声音信号与所述周边视觉区域外的非可视区域内的第三声音源相关联，其中所述第二渲染质量高于所述第三渲染质量。

23.根据权利要求21所述的机器可读存储介质，所述指令还使所述设备：

将所述混合输出信号输出到可听声音再现设备。