CN115334366A

CN115334366A - 一种交互沉浸式声场漫游的建模方法

Info

Publication number: CN115334366A
Application number: CN202210978930.9A
Authority: CN
Inventors: 刘京宇; 蒋鉴; 任鹏昊
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-11-11

Abstract

本发明提供了一种交互沉浸式声场漫游的建模方法、声场漫游方法和声场漫游***。该声场漫游方法包括：确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在所述虚拟声场空间中的第二位置，其中，所述虚拟人物用于被用户操作以在所述虚拟声场空间中停止或移动，所述N种虚拟乐器、所述虚拟声场空间和所述虚拟人物通过虚拟现实技术实现；确定所述N个第一位置和所述第二位置之间的相对位置信息，其中，所述N个第一位置为N个虚拟声源位置，所述第二位置为虚拟收听位置；根据所述相对位置信息，利用声场空间模型处理N种第一音频信号，获得第二音频信号；响应于所述用户的播放操作，向所述用户播放所述第二音频信号。

Description

一种交互沉浸式声场漫游的建模方法

技术领域

本发明涉及演艺科技领域，更具体地涉及一种交互沉浸式声场漫游的建模方法、声场漫游方法和声场漫游***。

背景技术

在虚拟***中重现真实声场空间(例如音乐厅)的听觉效果对观众和音乐欣赏者的体验至关重要。对于演出行业的音乐人来说，基于虚拟平台的排练和演出模拟***的开发，可以帮助艺术家将舞台从线下转移到线上，帮助解决目前巡演困难、人才流失、文化艺术品牌难以建立的现状。

在实现本发明实施例的过程中，发明人从音乐表演领域出发，结合了观众、音乐家、指挥家和音频工程师的使用需求，发现还存在以下问题：

(1)对于乐团指挥和音乐家而言，现有技术乐队声部位置不能改变，无法实现乐队声部位置音响效果的实时切换，影响乐团演出效果评价的效率。

(2)对于录音师而言，现有技术无法实现不同录音制式音响效果的实时对比与切换，也无法实现不同声部音量平衡的实时调控，音乐混音效率很低。

(3)对于音乐会的听觉效果而言，现有技术无法模拟音乐厅中任一位置的音响效果的实时呈现，也无法模拟不同声场空间(例如不同音乐厅、不同自然场景和生活环境)的听觉效果。

因此，如何再现不同声场空间的声学效果是当前亟待解决的问题。

发明内容

鉴于上述问题，本发明提供了一种交互沉浸式声场漫游的建模方法、声场漫游方法和声场漫游***。

本发明实施例的一个方面提供了一种基于可听化的交互沉浸式声场漫游方法，包括：确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在所述虚拟声场空间中的第二位置，其中，所述虚拟人物用于被用户操作以在所述虚拟声场空间中停止或移动；确定所述N个第一位置和所述第二位置之间的相对位置信息，其中，所述N个第一位置为N个虚拟声源位置，所述第二位置为虚拟收听位置，N为大于或等于1的整数；根据所述相对位置信息，利用声场空间模型处理N种第一音频信号，获得第二音频信号，其中，所述声场空间模型用于模拟所述N种第一音频信号在物理空间中的传播，所述N种第一音频信号与所述N种虚拟乐器一一对应；响应于所述用户的播放操作，向所述用户播放所述第二音频信号。

根据本发明的实施例，所述声场空间模型包括直达声处理模型、早期反射声模型和后期混响声模型，所述利用声场空间模型处理N种第一音频信号，获得第二音频信号包括：利用所述直达声处理模型对所述N种第一音频信号进行衰减处理，获得第一输出结果；将所述第一输出结果输入所述早期反射声模型进行反射处理，获得第二输出结果；将所述第一输出结果输入所述后期混响声模型进行混响处理，获得第三输出结果；根据所述第二输出结果和所述第三输出结果，获得所述第二音频信号。

根据本发明的实施例，所述相对位置信息包括距离信息，所述利用所述直达声处理模型对所述N种第一音频信号进行衰减处理包括：利用N个距离衰减曲线根据所述距离信息来处理所述N种第一音频信号，其中，所述N个距离衰减曲线与所述N种第一音频信号一一对应，所述N个距离衰减曲线中任两个曲线之间相同或不同。

根据本发明的实施例，所述利用N个距离衰减曲线根据所述距离信息来处理所述N种第一音频信号包括对于所述N种第一音频信号中的至少一种音频信号进行锥形衰减处理，具体包括：对所述至少一种音频信号中的任一种音频信号，基于所述虚拟声场空间的内部空间信息获得传播距离；将该种音频信号对应的虚拟声源位置作为球心位置，将所述传播距离作为半径，获得该种音频信号的球形传播区域；将所述球形传播区域划分为内角区域、外角区域、所述内角区域与所述外角区域之间的过渡区域；根据所述第二位置所属的实际区域，对该种音频信号进行对应的衰减处理，获得所述第一输出结果，其中，所述实际区域包括所述内角区域类别、所述外角区域和所述过渡区域中的任一区域。

根据本发明的实施例，根据所述N个虚拟声源位置和所述虚拟声场空间的几何形态，计算得到M个虚声源；根据所述第二位置和所述几何形态，计算得到S个声音反射路径，M和S分别为大于或等于1的整数；其中，所述将所述第一输出结果输入所述早期反射声模型进行反射处理，获得第二输出结果包括：根据所述M个虚声源和所述S个声音反射路径对所述第一输出结果进行反射处理，获得所述第二输出结果。

根据本发明的实施例，在所述计算得到S个声音反射路径之前，所述方法还包括：将所述虚拟人物作为射线源头，从所述第二位置发出虚拟射线；通过所述虚拟射线检测听觉交互信息，其中，所述听觉交互信息包括所述虚拟人物与所述虚拟声场空间中墙体之间的距离和所述虚拟声场空间中墙体的材质信息。

根据本发明的实施例，所述后期混响声模型包括从K个物理环境中录制获得的K个脉冲响应信号，所述将所述第一输出结果输入所述后期混响声模型进行混响处理，获得第三输出结果包括：响应于所述用户从K个所述虚拟声场空间中选择的第一虚拟声场空间，调用第一脉冲响应信号，其中，所述第一虚拟声场空间根据所述K个物理环境中的第一物理环境构建获得，K为大于或等于1 的整数；将所述第一输出结果和所述第一脉冲响应信号进行卷积计算，获得所述第三输出结果。

根据本发明的实施例，所述方法还包括：响应于所述用户移动所述虚拟人物的第一指令，令所述虚拟人物移动至第三位置；将所述虚拟收听位置更新为所述第三位置；重新执行确定所述相对位置信息、获得所述第二音频信号以及向所述用户播放所述第二音频信号的操作。

根据本发明的实施例，所述方法还包括：响应于所述用户移动至少一个虚拟乐器的第二指令，令所述至少一个虚拟乐器移动至第四位置；将所述至少一个虚拟乐器在所述N个虚拟声源位置中对应的位置更新为所述第四位置；重新执行确定所述相对位置信息、获得所述第二音频信号以及向所述用户播放所述第二音频信号的操作。

本发明实施例的另一方面提供了一种基于可听化的交互沉浸式声场漫游***，包括：位置确定单元，用于确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在所述虚拟声场空间中的第二位置，其中，所述虚拟人物用于被用户操作以在所述虚拟声场空间中停止或移动；相对位置单元，用于确定所述N个第一位置和所述第二位置之间的相对位置信息，其中，所述N个第一位置为N个虚拟声源位置，所述第二位置为虚拟收听位置，N为大于或等于1 的整数；信号处理单元，用于根据所述相对位置信息，利用声场空间模型处理N 种第一音频信号，获得第二音频信号，其中，所述声场空间模型用于模拟所述N 种第一音频信号在物理空间中的传播，所述N种第一音频信号与所述N种虚拟乐器一一对应；音频播放单元，用于响应于所述用户的播放操作，向所述用户播放所述第二音频信号。

本发明实施例的另一方面提供了一种交互沉浸式声场漫游的建模方法，包括：获得直达声处理模型，所述直达声处理模型用于对N种第一音频信号进行衰减处理以获得第一输出结果，所述N种第一音频信号分别从N个虚拟声源位置传播至虚拟收听位置，N为大于或等于1的整数；获得早期反射声模型，所述早期反射声模型用于对所述第一输出结果进行反射处理以获得第二输出结果；获得后期混响声模型，所述后期混响声模型用于对所述第一输出结果行混响处理以获得第三输出结果；设置主输出总线，所述主输出总线用于根据所述第二输出结果和所述第三输出结果获得第二音频信号，其中，所述第二音频信号为模拟所述 N种第一音频信号在物理空间中的传播所得到的音频信号。

本发明实施例的另一方面提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得一个或多个处理器执行如上所述的方法。

本发明实施例的另一方面还提供了一种计算机可读存储介质，其上存储有可执行指令，该指令被处理器执行时使处理器执行如上所述的方法。

本发明的一个或多个实施例能够提供可听化的虚拟声场空间，并有可供用户操作的虚拟人物，随着虚拟人物的移动，模拟现实环境中的声音传播现象来为用户播放音频。分别确定N种虚拟乐器和虚拟人物的位置，并作为N个虚拟声源位置和虚拟收听位置。然后，确定N个虚拟声源位置和虚拟收听位置之间的相对位置信息。接着，利用声场空间模型处理N种第一音频信号，以模拟物理环境中N中第一音频信号基于该相对位置的传播效果，获得第二音频信号。最后向用户播放第二音频信号。从而实现了演艺表演的可实时交互的沉浸式声场漫游功能。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过以下参照附图对本发明实施例的描述，本发明的上述内容以及其他目的、特征和优点将更为清楚，在附图中：

图1示意性示出了根据本发明实施例的基于可听化的交互沉浸式声场漫游方法的流程图；

图2示意性示出了根据本发明实施例的获得第二音频信号的流程图；

图3示意性示出了根据本发明实施例的处理第一音频信号的流程图；

图4示意性示出了根据本发明实施例的锥形衰减处理的流程图；

图5示意性示出了根据本发明实施例的反射处理的流程图；

图6示意性示出了根据本发明实施例的检测听觉交互信息的流程图；

图7示意性示出了根据本发明实施例的获得第三输出结果的流程图；

图8示意性示出了根据本发明实施例的更新虚拟收听位置的流程图；

图9示意性示出了根据本发明实施例的更新虚拟声源位置的流程图；

图10示意性示出了根据本发明实施例的适于实现交互沉浸式声场漫游的建模方法的技术架构图；

图11示意性示出了根据本发明实施例的适于实现交互沉浸式声场漫游的建模方法的***开发架构图；

图12示意性示出了根据本发明实施例的基于可听化的交互沉浸式声场漫游***的结构框图；以及

图13示出了根据本发明实施例的计算设备的结构示意图。

具体实施方式

首先对本发明实施例涉及的相关术语进行说明，以便能够更好的理解本发明。

可听化：从数字(模拟、测量或合成)数据创建可听声音文件的技术。

交互式：使用户可以通过一些操作，与本发明实施例提供的虚拟对象进行交互，以向用户提供实时的声场漫游、声场切换、声部位置切换和音频处理等功能。

沉浸感：模拟现实音乐表演中的实时声学环境，令用户在声场空间具有身临其境的听觉体验，从而产生沉浸感的效果。

声场漫游：虚拟人物在虚拟声场空间中至少部分区域移动位置的过程。

反射声：房间内从天花板和墙面传来的有助于形成较高声压级的声波。

直达声：指从声源不经过任何的反射而以直线的形式直接传播到接受者的声音。

早期反射声：也称初始反射声。紧随着直达声到达、在音质上有益的那部分反射声。

混响声：在房间内声音到达稳态或者声源连续发声时在同一时刻所有一次和多次反射声的叠加。

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明的实施例提供了一种交互沉浸式声场漫游的建模方法、声场漫游方法和声场漫游***。以虚拟音乐厅为例，能够从音乐表演领域出发，结合了观众、音乐家、指挥家和音频工程师等角色的使用需求，基于提供多功能的可定制的交互式沉浸式音乐厅的构思，通过几何声学的模拟算法、多引擎跨平台协同作业，解决音乐会声场声学效果实时模拟与仿真的技术问题。对于乐团指挥和音乐家而言，解决了乐队声部位置音响效果不能实时切换的技术问题，可以作为虚拟排练厅，模拟不同安排和体裁的音乐表演，提高了乐团演出效果评价的效率。对于音频工程师(如录音师)而言，解决了不同录音位置音响效果的实时对比与切换的技术问题，实现了不同声部音量平衡的实时调控，提高了录音师的工作效率。对于音乐会的听觉效果而言，解决了实时模拟音乐厅中任一位置的音响效果的技术问题，并且能够实时模拟不同声场空间的听觉效果。

图1示意性示出了根据本发明实施例的基于可听化的交互沉浸式声场漫游方法的流程图。

如图1所示，该实施例的基于可听化的交互沉浸式声场漫游方法包括操作 S110～操作S140。

在操作S110，确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在虚拟声场空间中的第二位置，其中，虚拟人物用于被用户操作以在虚拟声场空间中停止或移动。

示例性地，在虚拟的数字空间中模拟真实世界中的事物，以建立起一种逼真的、虚拟的、交互式的三维空间环境，如N种虚拟乐器模型、虚拟声场空间模型和虚拟人物模型。虚拟人物可以在虚拟声场空间中漫游(在至少部分区域内任意移动)。换言之，虚拟声场空间为虚拟的三维空间，其可以包括现实中的三维空间环境信息。

在一些实施例中，以中国民族管弦乐团(仅为示例)对象和音乐厅场景构建***场景模型，包括1个音乐厅模型，1个场景漫游人物模型和11个中国民族管弦乐团乐器模型，乐器模型包括弹拨乐器组的琵琶、大阮、中阮、三弦、扬琴，吹管乐器组的梆笛、南箫、笙，拉弦乐器组的二胡、中胡以及打击乐器组的编钟。人物漫游、乐器移动功能脚本的撰写通过Unity支持的编程语言C#完成。素材源被转换为fbx文件格式导入进Unity***场景中，并在导入之后将材质贴图赋给物理模型。

示例性地，由于音乐厅场景并没有显眼突出的灯具，而是将光源隐藏在建筑中，实现温暖融合的照明效果，采用光照贴图烘焙作为场景灯光渲染的主要方法。***场景使用了平行光作为主光源，同时使用数几十个包括点光源、面积光在内的模拟灯光类型补充照亮音乐厅舞台区以及观众席区域的各处阴暗。除此之外，多个灯光探针组成的照明网络也应用于***场景，以及动态地照亮音乐厅中包括人物、乐器模型在内的多个运动物体。

在操作S120，确定N个第一位置和第二位置之间的相对位置信息，其中， N个第一位置为N个虚拟声源位置，第二位置为虚拟收听位置，N为大于或等于1的整数。

示例性地，N个第一位置和第二位置映射为现实(物理)空间中的位置信息，从而将N个虚拟声源位置与虚拟收听位置映射为现实位置后模拟音频信号的传播，相对位置信息可以反映出现实空间中用户与乐器之间的相对位置。

在操作S130，根据相对位置信息，利用声场空间模型处理N种第一音频信号，获得第二音频信号，其中，声场空间模型用于模拟N种第一音频信号在物理空间中的传播，N种第一音频信号与N种虚拟乐器一一对应。

示例性地，声场空间模型可以具有基于声音的物理传播原理的沉浸空间声场模拟框架，从声音的发出、传播路径、接收者三个角度进行信号处理。例如11 种第一音频信号为11个中国民族管弦乐团乐器模型一一对应的音频文件，该音频文件可以是提前录制好的一首音乐中现实乐器演奏的全部音频信号。

在操作S140，响应于用户的播放操作，向用户播放第二音频信号。

示例性地，用户何时进行播放操作，本发明不进行限定，可以在操作S140 之外的其他操作执行前、执行中或执行后，例如可以在操作S110中点击播放按钮，也可以在操作S110之前点击播放按钮。

根据本发明的实施例，能够提供可听化的虚拟声场空间，并有可供用户交互以操作虚拟人物和播放音频，模拟现实环境(如音乐厅)中的声音传播现象来为用户播放音频。分别确定N种虚拟乐器和虚拟人物的位置，并作为N个虚拟声源位置和虚拟收听位置。然后，确定N个虚拟声源位置和虚拟收听位置之间的相对位置信息。接着，利用声场空间模型处理N种第一音频信号，以模拟物理环境中N中第一音频信号基于该相对位置的传播效果，获得第二音频信号。最后向用户播放第二音频信号。从而实现了演艺表演的可实时交互的沉浸式声场漫游功能。

图2示意性示出了根据本发明实施例的获得第二音频信号的流程图。图3 示意性示出了根据本发明实施例的处理第一音频信号的流程图。

如图2所示，操作S130中利用声场空间模型处理N种第一音频信号，获得第二音频信号包括操作S210～操作S240。其中，声场空间模型包括直达声处理模型、早期反射声模型和后期混响声模型。

在操作S210，利用直达声处理模型对N种第一音频信号进行衰减处理，获得第一输出结果。

示例性地，在虚拟声场空间中，声音(第一音频信号)被设置为点声源，其位置坐标被赋予给场景中的N种虚拟乐器模型。直达声是指在自由场条件下声源不经过任何反射，直接传输到接收器(虚拟人物)的那一部分能量，在传播过程中声音能量受到其周遭环境影响而衰减。在物理传播理论中，点声源能量的衰减遵循平方反比定律，振幅与传播距离的倒数成正比，即距离每增加一倍，振幅会降低6dB。这使得能量在向外辐射时，随着距离增加，散布的范围会越来越大，散布的能量会越来越小。

参照图3，播放虚拟乐器的第一音频信号可以称之为播放事件，在直达声处理模型的结构层级中，每个第一音频信号对应一个音轨，经过直达声处理和早期反射声处理的称之为干音轨，经过直达声处理和后期混响声处理的称之为湿音轨。

图3所示的两个播放事件为同一个。一些实施例中，可以将直达声处理模型的输出分别作为早期反射声模型和后期混响声模型的输入。也可以设置两个直达声处理模型分别对应早期反射声模型和后期混响声模型。

在操作S220，将第一输出结果输入早期反射声模型进行反射处理，获得第二输出结果。

示例性地，声波(音频信号)在从声源继续传播过程中会与周遭介质发生碰撞，在这个过程中，一部分能量被介质材料吸收，一部分能量继续向前传播，另一部分能量则会发生反射。声波最初的几次碰撞反射被定义为早期反射，早期反射声相对于直达声存在一定的时间延迟，并且它的传播方向是多种多样的。早期反射体现出的时间差、方向性以及声音能量信息经过听音者(即虚拟人物)的识别，形成了其对自身在所处空间内的方向感以及定位的初步判断，并且进一步揭示了房间的尺寸、形状，并且随墙面材质的变化产生不同的声学效果。

在操作S230，将第一输出结果输入后期混响声模型进行混响处理，获得第三输出结果。

示例性地，声波在现实音乐厅中持续传播，每遇到一次障碍物就经过一次反射和吸收，剩余的声波能量继续传播，经过大量、多次的反射和吸收之后，房间内剩余的声波能量之和被称之为混响声。在声源停止发声后，混响声持续地发出，并随着反射和吸收缓缓消弭。通过听辨不同空间的后期混响声，该空间的体量以及它独特的建筑声学信息将被直观地感受到。混响声中低频声音的含量总是高于高频声音，衰减时间也比高频声音长，这是因为低频声音波长较长，更容易绕过障碍物而不被反射，也更不易被障碍物所吸收。并且声音在空气中传播都会发生衰减，但在相同的传播条件下，低频声音相较于高频声音衰减程度更低。

在操作S240，根据第二输出结果和第三输出结果，获得第二音频信号。

参照图3，将第二输出结果和第三输出结果汇总到主输出总线中，由主输出总线输出第二音频信号。总线是音频信号的一条路线，它既可以到另一条总线，也可以直接到输出。

在一些实施例中，主输出总线最终的输出包括11干音轨乐器直达声、早期反射声以及湿声混响声。即第一输出结果分别进入了主输出总线、早期反射声模型和后期混响声模型。

根据本发明的实施例，将音频干声与湿声分开处理。音频干声经过早期反射处理可以包含丰富的距离以及方位信息，直接被送入主输出总线。混响声不包含干声。根据实际的声音传播规律，纯混响声随传播距离增大而能量增大，听音者与声源的距离差将辅助形成空间位置信息，随着声源在虚拟空间的传播，干声与湿声将在传播到听音者的过程中被平滑地渲染为一个携带有综合信息的混响音效。

根据本发明的实施例，上述相对位置信息包括距离信息，操作S210中利用直达声处理模型对N种第一音频信号进行衰减处理，获得第一输出结果包括：利用N个距离衰减曲线根据距离信息来处理N种第一音频信号，获得第一输出结果，其中，N个距离衰减曲线与N种第一音频信号一一对应，N个距离衰减曲线中任两个曲线之间相同或不同。

用于模拟声音自然衰减情况的距离建模工作在这一步完成，N中第一音频信号可以被分类，根据分类结果创建相应的距离衰减曲线来构建距离衰减模型。最大衰减点由在最大衰减距离值决定，以最大距离值为半径在每个声源周围形成一个球形衰减范围。衰减曲线可以自定义设置，可以增加控制点以细致化调整。距离衰减曲线包括线性曲线、恒定曲线、对数曲线、幂数曲线和S曲线。例如在这里选择对数曲线，并通过插值的方法模拟出一条听感更为真实的曲线。

在一些实施例中，为模拟空气吸收效果，针对部分高频、低频频率选用递归滤波器。

图4示意性示出了根据本发明实施例的锥形衰减处理的流程图。

如图4所示，该实施例包括对于N种第一音频信号中的至少一种音频信号进行锥形衰减处理，具体包括：对至少一种音频信号中的任一种音频信号执行操作S410～操作S440。

在操作S410，基于虚拟声场空间的内部空间信息获得传播距离。

示例性地，内部空间信息可以是虚拟声场空间的三维空间参数，例如内部空间的尺寸、建筑布局或音乐会各方(如舞台、观众席和乐队等)布局等。传播距离可以是虚拟声场空间内部从声源到某个墙体的距离。

在操作S420，将该种音频信号对应的虚拟声源位置作为球心位置，将传播距离作为半径，获得该种音频信号的球形传播区域。

在操作S430，将球形传播区域划分为内角区域、外角区域、内角区域与外角区域之间的过渡区域。

在操作S440，根据第二位置所属的实际区域，对该种音频信号进行对应的衰减处理，获得第一输出结果，其中，实际区域包括内角区域类别、外角区域和过渡区域中的任一区域。

根据本发明的实施例，点声源的直达声揭示了虚拟声场空间最初的虚拟声源位置信息，部分强调指向性的乐器被设置声锥衰减模式，以携带更多与听音者朝向方位变化产生交互的舞台声学信息。在锥形衰减中，以乐器模型几何中心为圆心，传播距离为半径的球体被划分为内角、外角和过渡区域。在内角区域中，输出总线音量不衰减，外角区域中输出音量发生衰减，滤波效果达到***设置的最高水平。在内角外角之间的过渡区域，使用线性插值法以使总线输出音量发生下降。空间音频中乐器传播的方向性通过锥形衰减完成，最终在***运行中，随着听音者的朝向变化(例如正向、侧向以及背向)，不同程度的音量衰减以及滤波效果得以呈现，听音者可以直接感受到声音随方向的变化过程。

在一些实施例中，可以综合使用插件算法、几何建模、滤波器设计等方法，计算并模拟了音乐厅模型的空间化早期反射声，初步还原音乐厅模型的空间声场信息。

图5示意性示出了根据本发明实施例的反射处理的流程图。

如图5所示，该实施例的反射处理包括操作S510～操作S530。其中，操作 S530为操作S220的其中一个实施例。

在虚拟声场空间中，漫游的听音者的位置信息(虚拟收听位置)是处理音频信号所考虑的因素。听音者在音乐厅中被允许绕各处漫游，同时接收到来自四面八方的早期反射声波信息，而早期反射声信息的接收情况与各种反射墙体(即声波传播过程中的障碍物)的距离信息、方向信息、材质信息等直接相关，共同构成了听音者的听觉感知，影响到其对空间感、沉浸感的判断，这一部分可以被实时检测并计算反馈。

在操作S510，根据N个虚拟声源位置和虚拟声场空间的几何形态，计算得到M个虚声源。

示例性地，可以进行声反射几何建模。例如基于多抽头时变延迟线的虚源技术计算空间化早期反射声，它的前提是将反射表面视为无限大且理想刚性的，此时反射模型达到了物理上的准确性。在虚源法的模拟中，每个反射表面之后与声源等距离处都形成一个镜像声源，其与发声体的连线与反射面正交。早期反射阶数随房间几何反射表面的复杂程度而增加，原始声源反射到房间几何结构中的每个表面，从而首先产生一阶反射，之后由前一级反射递归地获得所有高阶反射。这里模拟的早期反射最高阶数是四阶，各阶反射可以称之为各个虚声源。

示例性地，几何形态包括虚拟声场空间的三维几何空间信息，如尺寸、形状等信息。

在操作S520，根据第二位置和几何形态，计算得到S个声音反射路径，M 和S分别为大于或等于1的整数。

虚声源和声源与虚拟声场空间几何形态有关，意味着如果这两者保持静止不动，所有虚声源的信息不变，因此可以预先计算出所有的虚声源，但与移动的听音者有关的实时声音反射路径计算随听音者位置变化而被反复单独执行。

示例性地，可以预先设置虚拟声场空间中的空间表面材质。墙体材质决定了声波在穿透障碍物时被过滤掉的能量的具体情况。在本音乐厅***中，对墙体材质吸声现象的模拟通过频率分段滤波器设计完成。空间表面材质模型基于四频段滤波衰减完成，吸收频段被分为低、中低、中高、高，其默认映射区间如表1 所示。

表1吸收频段映射区间

类型名称	频率区间
		低频	<250Hz
中低频	>250Hz且<1，000Hz
		中高频	>1，000Hz且<4，000Hz
高频	>4，000Hz

声反射几何建模得到的模型中的每一个反射表面都被赋予一个空间表面材质，模拟信号被连续滤波的过程，在虚拟声场空间实际运行中所有材质吸声效果将随着声波的逐次到达而叠加。虚拟声场空间内部墙体、反射板、座椅被分别设置了不同的滤波参数，这些数值与可以查到的实际材料吸收系数相符，从而确保真实物理材质的声学属性被准确地复制进虚拟场景中。

在操作S530，根据M个虚声源和S个声音反射路径对第一输出结果进行反射处理，获得第二输出结果。

根据本发明的实施例，第二输出结果揭示了房间的大小和形状，与传播路径中各种反射障碍物的距离、方向和材料信息直接相关，共同构成了听音者对空间位置的判断，这部分应该被实时检测和计算。

图6示意性示出了根据本发明实施例的检测听觉交互信息的流程图。

在操作S520之前，如图6所示，该实施例检测听觉交互信息包括操作S610～操作S620。

在操作S610，将虚拟人物作为射线源头，从第二位置发出虚拟射线。

示例性地，虚拟射线可以模拟光线的照射，来根据虚拟射线的传播和反馈来检测周边环境。

在操作S620，通过虚拟射线检测听觉交互信息，其中，听觉交互信息包括虚拟人物与虚拟声场空间中墙体之间的距离和虚拟声场空间中墙体的材质信息。

示例性地，射线探测的方法被用于***检测声源与接收器之间的方位信息以及传播路径周围的环境信息。在声反射几何模型的基础上，在虚拟声场空间运行时，虚拟人物漫游时会向四周发送射线，与听觉交互有关的信息例如人物到墙体的距离、人物周围墙体的声反射材质等将被实时探测，并进入算法流程。***的每次变动发生时，例如声源的激活与禁用时、漫游人物位置变化时或者声源及接收器四周的建筑几何形态变化时，射线都会被重新发送。

根据本发明的实施例，根据人物到墙体的距离、人物周围墙体的声反射材质等能够准确计算出声音反射路径。

在一些实施例中，考虑到实际的房间几何表面并不会完全是理想状态下的无限刚体，而是具有边界，因此除了声表面早期反射外，在边界处发生的更多的物理传播现象，例如衍射、透射等也需要被考虑在内。衍射的定义是声波遇到障碍物时偏离原来直线传播的物理现象，具体表现为声波在绕过障碍物边缘时发生弯曲的现象。衍射的大小与声音的波长与障碍物尺寸有关，当障碍物相对于波长的尺寸过大，则声波发生衍射的程度也相对较大。基于射线法的衍射模型结合了均匀衍射理论，定义出可视区、反射区和阴影区，声波从反射区的方向传播而来，经过反射面发生反射，然后声波弯曲，经过可视区传播到阴影区，在阴影区中声波可听但声源不可见。透射具体地描述了声源传播过程中受到发出端与听音者之间的障碍物的阻碍作用。滤波器被应用于模拟透射的程度，即设置数组关联声反射材质与透射损失值。

图7示意性示出了根据本发明实施例的获得第三输出结果的流程图。

如图7所示，操作S630中将第一输出结果输入后期混响声模型进行混响处理，获得第三输出结果包括操作S710～操作S720。

在操作S710，响应于用户从K个虚拟声场空间中选择的第一虚拟声场空间，调用第一脉冲响应信号，其中，第一虚拟声场空间根据K个物理环境中的第一物理环境构建获得，K为大于或等于1的整数。

示例性地，可以为用户提供与K个物理环境一一对应构建的K个虚拟声场空间模型。物理环境包括三维空间信息。

此时的房间可以被类比为信号处理领域中“***”这一概念，更具体地，可以将它视为一个线性时不变***。在这里可以将音频干声信号看作***的输入，经过房间的效果之后产生的带有混响的声音被看作***的输出，输入多个不同的音频干声信号时，获得的输出是单独输入这些音频干声信号的输出结果的叠加之和，并且输入的时间不影响输出的结果。进一步地，如果输入的信号覆盖全频率，那么获得的输出信号就自然而然地包括了***对所有频率的响应。在数字信号中，这个输入的信号被称为脉冲，***输出的信号被称为脉冲响应，在特定的房间输入脉冲，所获得的脉冲响应也就包含了房间的所有空间信息。

示例性地，在构建K个虚拟声场空间模型时，可以复制世界各大著名音乐厅和自然场景和生活环境的三维空间信息和立体场景。并且该K个虚拟声场空间模型可以被用户选择以实时切换。

虚拟声场空间可以模拟如阿姆斯特丹音乐厅、柏林音乐厅、波士顿音乐厅、芝加哥音乐厅、冰川、桥洞、溶洞和室内球场等空间。在信号预处理阶段，例如选用的脉冲响应信号包括在阿姆斯特丹音乐厅、柏林音乐厅、波士顿音乐厅、芝加哥音乐厅录制采集的脉冲响应信号，每个音乐厅都包括单声道格式的一个左声道信号和一个右声道信号，共同构成立体声。又例如脉冲响应信号包括一些自然和生活环境场景，旨在为使用者提供研究实验性音乐作品适用环境的机会，例如冰川、桥洞、溶洞和室内球场等，音频制式皆为立体声。

在操作S720，将第一输出结果和第一脉冲响应信号进行卷积计算，获得第三输出结果。

基于多种原因，混响声中低频声音的比例更高，并且由于低频声波的辐射指向性不如高频声波明显，可以说混响声相对于早期反射声，其方向感特征并不明显。因此在模拟音乐厅***的后期混响声时，获得音乐厅空间的采样信息，并采用声学参数使用卷积算法控制混响效果器，可以降低计算机中心处理器消耗成本。

示例性地，通过设定不同的带有空间信息的脉冲响应信号，并与输入的音频干声信号进行卷积运算，从而真实的再现不同声场环境的空间感。

在使用卷积算法之前，一个必要的步骤是将两个单声道音频上混为一个立体声制式的脉冲信号。经处理过的所有立体声脉冲响应信号与同为立体声的音乐干声信号卷积，输出为具有空间感音乐信号。

参照图3，和早期反射声模拟的工作相似，多个挂载着卷积混响效果器的辅助总线被添加至项目工程中，每一个脉冲响应信号被应用为卷积数据，形成一个音乐厅的混响效果。脉冲响应信号转码以离线的方式完成，在音乐厅***运行时，经过预处理的脉冲响应信号直接与输入的音频干声卷积，更多涉及实时反馈的数字信号处理工作也同时被完成，在本***中它们具体为音频交互事件“状态”的调用与切换。每一个实际音乐厅的空间混响效果预定义为一个全局状态，在***运行时全局状态将跟随操作者的指令被触发，随后被分配给相应的音频对象，在状态中预设的音频参数变化将被作用于音频对象。

当用户选择了某个音乐厅场景，***将响应它所对应的音频状态，这个音乐厅的卷积混响所挂载的音频辅助总线将被激活，并被送入音频链路的主输出总线。在每个挂载着卷积混响效果器的辅助总线内部，脉冲响应信号的输入电平、声道配置、平衡控制以及卷积混响运算时干声电平、混响电平、频率均衡、滤波、延迟时间等技术参数都被恰当地调试了，以确保混响声不失真并且平衡，可以被平滑自然地切换。

参照图3，整体层级结构中包含11条乐器干声轨道和11条乐器纯混响声轨道。其中干声轨道可以直接送入主输出总线作为直达声，同时被送入挂载了早期反射模拟插件的早期反射辅助总线形成音乐厅***早期反射声。11条乐器纯混响声轨道被直接送入挂载了卷积混响效果器插件的卷积混响辅助总线，经算法处理和参数调整形成多个著名音乐厅的纯湿声混响。

卷积混响在还原建筑声场时存在连续性问题，具体而言，鉴于卷积混响单次应用时只能将一个脉冲响应信号与干声卷积，而脉冲响应信号实则是基于音乐厅中的某一个点而录制或仿真计算形成的。因此严格意义上，此时被听到的是站在音乐厅中的某一个点感受到的空间音频信息。当听觉环境从扁平的2D转变为3D 场景，即增加了场景人物在环境中漫游的功能体验时，随着听音位置的实时改变，听音者此时所体验到的卷积混响声将不再能准确地反应出真实的空间听感，也就是说离线渲染好的卷积混响效果是静态的，不具备实时变化的空间位置信息，也不支持呈现涉及头部旋转的声音动态变化。更多的与场景漫游人物运动状态有关的声音交互信息应当被加入混响声场模拟中。

参照图3和操作S210～操作S240，将音频干声与卷积混响处理得到的湿声分开处理。音频干声对应具有距离衰减模型以及锥形衰减模型的原始乐器音轨，它们的物理传播模型包含丰富的距离以及方位信息，直接被送入主输出总线。卷积混响辅助总线输出的只有混响声，而不包含任何干声。根据实际的声音传播规律，纯混响声随传播距离增大而能量增大，听音者与声源的距离差将辅助形成空间位置信息，随着声源在虚拟空间的传播，干声与湿声将在传播到听音者的过程中被平滑地渲染为一个携带有综合信息的混响音效。

图8示意性示出了根据本发明实施例的更新虚拟收听位置的流程图。

如图8所示，该实施例的更新虚拟收听位置包括操作S810～操作S830。

在操作S810，响应于用户移动虚拟人物的第一指令，令虚拟人物移动至第三位置。

示例性地，用户可以操作虚拟人物在虚拟声场空间中漫游。多个用户可以各自操作对应的虚拟人物漫游，各个虚拟人物相互独立。

示例性地，摄像机被特别设置为第一人称视角。虚拟人物可以***纵在音乐厅的不同位置漫游，站立和聆听。为了更好地还原现实世界中识别聆听位置的体验，***增加了头部转动功能，观众可以通过键盘方向键控制虚拟漫游人物的头部转动，从而在这个过程中感知到声源方位的变化。通过视听感官结合为音乐厅观众带来身临其境的体验。

在操作S820，将虚拟收听位置更新为第三位置。

在操作S830，重新执行确定相对位置信息、获得第二音频信号以及向用户播放第二音频信号的操作。即重新执行操作S120～操作S140。

考虑到比较不同部位的坐席是观众最迫切的需求，该音乐厅***通过实时听觉模拟实现了听众与声场的互动。在漫游过程中，随着人物位置的变化，人物与附近建筑和声源之间的相互作用被计算机实时计算出来，并作为携带声音信息的射线反馈。可能发生的情况是，听众在不同的位置漫游感受音乐会的效果，他们还可以走到舞台上体验乐团指挥的工作视角，近距离站在每件乐器旁，了解其声学特性。

需要说明的是，上述以虚拟空间(虚拟声场空间)中的位置信息、几何形态或内部空间与现实空间具有映射关系，所描述虚拟空间中音频信号的处理、传播和播放通过模拟具有现实空间中的效果。

图9示意性示出了根据本发明实施例的更新虚拟声源位置的流程图。

如图9所示，该实施例的更新虚拟声源位置包括操作S910～操作S930。

在操作S910，响应于用户移动至少一个虚拟乐器的第二指令，令至少一个虚拟乐器移动至第四位置。

在操作S920，将至少一个虚拟乐器在N个虚拟声源位置中对应的位置更新为第四位置。

示例性地，每种虚拟乐器可以包括多个该种类下的虚拟乐器。可以在虚拟声场空间中移动一个或多个虚拟乐器，实现声部摆位调整。虚拟声源位置坐标被赋予给场景中的N种虚拟乐器模型，并且随着运行时乐器模型的移动而改变。

在操作S930，重新执行确定相对位置信息、获得第二音频信号以及向用户播放第二音频信号的操作。即重新执行操作S120～操作S140。

示例性地，乐队、指挥和音乐家可以在线排练(第一音频信号可以预先录制，也可以在实时演奏中获取并处理)，而不需要在现实世界中亲身体验。可以预设各种经典的乐团位置模式，供操作者一键切换，并能在演出时拖拽调整乐器位置。这个功能可以用来研究古典乐器、改良乐器和创新乐器在不同位置情况下的舞台声学效果。

根据本发明的实施例，对于乐团和指挥，可以通过移动至少一个虚拟乐器后重新播放音频，来实现线上模拟排练。在模拟排练中，实现乐器声学模拟、声部摆位调整、音乐厅声场实时切换等功能。

图10示意性示出了根据本发明实施例的适于实现交互沉浸式声场漫游的建模方法的技术架构图。图11示意性示出了根据本发明实施例的适于实现交互沉浸式声场漫游的建模方法的***开发架构图。

参照图10和图11，该实施例基于数字孪生、虚拟现实、声场仿真、交互沉浸等技术手段构建的可以漫游定制化交互沉浸的虚拟声场空间，例如N种虚拟乐器、虚拟声场空间和虚拟人物通过数字孪生和虚拟现实技术实现。

为了再现现实音乐厅的建筑声学效果，使用了虚拟现实技术和双耳房间脉冲响应，根据声音传播原理、几何特征模型和声学材料模拟出一个声学环境(即交互式沉浸声场)。

参照图10和图11，并结合图1～图9所描述的一个或多个实施例，该实施例可以提供基于可听化的交互沉浸式声场漫游的建模方法，为了实现用户的声场漫游目的，通过建模方法，能够实现用户的声场漫游。该方法包括：获得直达声处理模型，直达声处理模型用于对N种第一音频信号进行衰减处理以获得第一输出结果，N种第一音频信号分别从N个虚拟声源位置传播至虚拟收听位置，N 为大于或等于1的整数；获得早期反射声模型，早期反射声模型用于对第一输出结果进行反射处理以获得第二输出结果；获得后期混响声模型，后期混响声模型用于对第一输出结果行混响处理以获得第三输出结果；设置主输出总线，主输出总线用于根据第二输出结果和第三输出结果获得第二音频信号，其中，第二音频信号为模拟N种第一音频信号在物理空间中的传播所得到的音频信号。

需要说明的是，参照图10和图11，并结合图1～图9所描述的一个或多个实施例，本公开的声场漫游方法的一个或多个步骤基于对应的建模方法中的一个或多个步骤来实现，在此不进行赘述。

三维开发引擎Unity作为场景渲染平台，与专业建模软件和交互式音频引擎Wwise集成，同时开发的UI***也搭载在Unity上，最终将上述内容集成到一个应用***，获得实现交互沉浸式声场漫游方法的音乐厅***。如图11所示， Wwise和Unity之间的通信是基于音频事件打包的逻辑，所有的音频素材、事件和状态属性都被打包成声音库。通过API，它可以被发送到Unity，在那里可以用C#脚本调用一系列的事件命令。

示例性地，当前定义的同步器逻辑可以包括两个状态组，分别用于控制乐器音轨的分组播放以及卷积混响辅助总线的动态调用和旁通。乐器音轨播放状态的定义规则是：对于吹管乐器组的静音状态，梆笛、南箫和笙的干声/湿声设置为负无穷，其他乐器的干声/湿声设置为0；对于弹拨乐器组的静音状态，琵琶、中阮、大阮、三弦和扬琴的干声/湿声设置为负无穷，其他乐器的干声/湿声设置为 0，依次类推。卷积混响动态控制状态的定义规则是：5个音乐厅混响、4个自然场景和生活环境的当前卷积混响辅助总线设置为0，其余卷积混响辅助总线设置为负无穷，早期反射辅助总线设置为0，各辅助总线的旁通混响设置为负无穷。

对于专业音频工程师，设计了一系列音频功能，供专业人士在虚拟工作场所练习技能，也供音乐爱好者体验和探索。鉴于数字音频工作站是音频专业人士最熟悉的工作环境，数字音频工作站形式的互动控制***是核心要求。这个音乐厅***创建了几个全面的控制面板，支持自定义调整，所有的参数变量变化都会在虚拟管弦乐队演出时产生效果，不会造成暂停或卡顿。

对于混音工程师和音乐声学研究人员来说，允许调整乐团中每个乐器轨道的音量，在混合特定乐器组或调整作品的整体声级时，***支持选择性播放和静音。该***还支持混响效果的切换和旁路。

录音工程师和舞台技术人员的主要工作是处理各种话筒，多个话筒之间的选择和匹配需要特别分析和设计。录音工程师的任务是传递第一手的音乐，但如果不在现场亲身学习，就很难快速成长，一个解决办法是在线模拟录音，做好充分准备。因此，该***支持切换和批判性地聆听用不同拾音类型和频率响应的麦克风录制的音频文件。该功能还可以为建立数字传声器库作出贡献。

在一些实施例中，可以针对应用体验端提出监听***搭建方法，即将头部追踪器用于***，它可以实时跟踪人在听音时头部的转动方向和角度，以模拟头部在转动时所产生的声源方向变化效果。用户在使用耳机重放时，将头部***置于头戴式耳机正上方的横梁中间，通过蓝牙连接并配对至电脑即可。

头部跟踪技术基于双耳效应，通过头部***获取准确的头部位置信息，对滤波和延迟、声音反射、声场位移等信息进行处理，在不添加声染色的情况下完成了实际空间声场的双耳化实现。头部跟踪技术还包括的一个实用性功能是个性化定制头部建模，它的核心技术原理是对头部相关传输函数建模，HRTF函数描述了声波从空间声源方位传播到双耳的物理过程，包括生理结构(头部、躯干和耳廓等)对声波的绕射、散射和衍射等作用。也可以说，HRTF反映了声波从声源到双耳的传输过程中幅度和相位的改变。通过同步***获取听音者头部围度以及双耳距离等数据，双耳间延迟和每只耳朵所需的滤波以及增益量被计算和模拟出来，以弥补真实声场中的躯体滤波影响。

根据本发明的实施例，一方面通过虚拟现实手段搭建出音乐厅场景，并且实现交互功能，另一方面通过声音传输、声音传播的模拟实现从声源经过空间再到接收者的可听化流程，最终以双耳音频的形式呈现。音乐厅***的功能设计以面向音乐演出的不同群体需求为核心。对于音乐会听众，以实现沉浸感、真实感以及模拟真实空间双耳定位为需求，设计了声场探索、声像定位、虚拟空间模拟等一系列功能。对于乐团和指挥，以解决面向全球巡演的乐团困境、帮助线下-线上演出形式转变以及实现线上模拟排练为需求，设计了乐器声学模拟、声部摆位调整、音乐厅声场实时切换等功能。对于音频工程师，本***以模拟数字音频工作站、便于混音师和录音师线上工作以及技能练习为需求，设计了一个可以实时调音的用户交互控制***。

基于上述基于可听化的交互沉浸式声场漫游方法，本发明还提供了一种基于可听化的交互沉浸式声场漫游***。以下将结合图12对该装置进行详细描述。

图12示意性示出了根据本发明实施例的基于可听化的交互沉浸式声场漫游***1200的结构框图。

如图12，基于可听化的交互沉浸式声场漫游***1200可以包括位置确定单元1210、相对位置单元1220、信号处理单元1230和音频播放单元1240。

位置确定单元1210可以执行操作S110，用于确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在虚拟声场空间中的第二位置，其中，虚拟人物用于被用户操作以在虚拟声场空间中停止或移动。

位置确定单元1210可以执行操作S810～操作820，操作S910～操作920在此不做赘述。

相对位置单元1220可以执行操作S120，用于确定N个第一位置和第二位置之间的相对位置信息，其中，N个第一位置为N个虚拟声源位置，第二位置为虚拟收听位置，N为大于或等于1的整数。

信号处理单元1230可以执行操作S130，用于根据相对位置信息，利用声场空间模型处理N种第一音频信号，获得第二音频信号，其中，声场空间模型用于模拟N种第一音频信号在物理空间中的传播，N种第一音频信号与N种虚拟乐器一一对应。

信号处理单元1230还可以执行操作S210～操作240，操作S410～操作440，操作S510～操作530，操作S610～操作620，操作S710～操作720，在此不做赘述。

音频播放单元1240可以执行操作S140，用于响应于用户的播放操作，向用户播放第二音频信号。

图13示出了根据本发明实施例的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图13所示，该计算设备可以包括：处理器(processor)1302、通信接口(Communications Interface)1304、存储器(memory)1306、以及通信总线1308。

其中：

处理器1302、通信接口1304、以及存储器1306通过通信总线1308完成相互间的通信。

通信接口1304，用于与其它设备比如客户端或其它服务器等的网元通信。

处理器1302，用于执行程序1310，具体可以执行上述物体抓取方法实施例中的相关步骤。

具体地，程序1310可以包括程序代码，该程序代码包括计算机操作指令。

处理器1302可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU。也可以是不同类型的处理器，如一个或多个CPU以及一个或多个 ASIC。

存储器1306，用于存放程序1310。存储器1306可能包含高速RAM存储器，也可能还包括非易失性存储器(nonvolatile memory)，例如至少一个磁盘存储器。

程序1310具体可以用于使得处理器1302执行上述任意方法实施例中的物体抓取方法。程序1310中各步骤的具体实现可以参见上述物体抓取实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述

本发明还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/***中所包含的。也可以是单独存在，而未装配入该设备/装置/***中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本发明实施例的方法。

在此提供的算法或显示不与任何特定计算机、虚拟***或者其它设备固有相关。

各种通用***也可以与基于在此的示教一起使用。根据上面的描述，构造这类***所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。

因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种基于可听化的交互沉浸式声场漫游方法，包括：

确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在所述虚拟声场空间中的第二位置，其中，所述虚拟人物用于被用户操作以在所述虚拟声场空间中停止或移动；

确定所述N个第一位置和所述第二位置之间的相对位置信息，其中，所述N个第一位置为N个虚拟声源位置，所述第二位置为虚拟收听位置，N为大于或等于1的整数；

根据所述相对位置信息，利用声场空间模型处理N种第一音频信号，获得第二音频信号，其中，所述声场空间模型用于模拟所述N种第一音频信号在物理空间中的传播，所述N种第一音频信号与所述N种虚拟乐器一一对应；

响应于所述用户的播放操作，向所述用户播放所述第二音频信号。

2.根据权利要求1所述的方法，其中，所述声场空间模型包括直达声处理模型、早期反射声模型和后期混响声模型，所述利用声场空间模型处理N种第一音频信号，获得第二音频信号包括：

利用所述直达声处理模型对所述N种第一音频信号进行衰减处理，获得第一输出结果；

将所述第一输出结果输入所述早期反射声模型进行反射处理，获得第二输出结果；

将所述第一输出结果输入所述后期混响声模型进行混响处理，获得第三输出结果；

根据所述第二输出结果和所述第三输出结果，获得所述第二音频信号。

3.根据权利要求2所述的方法，其中，所述相对位置信息包括距离信息，所述利用所述直达声处理模型对所述N种第一音频信号进行衰减处理包括：

利用N个距离衰减曲线根据所述距离信息来处理所述N种第一音频信号，其中，所述N个距离衰减曲线与所述N种第一音频信号一一对应，所述N个距离衰减曲线中任两个曲线之间相同或不同。

4.根据权利要求3所述的方法，其中，所述利用N个距离衰减曲线根据所述距离信息来处理所述N种第一音频信号包括对于所述N种第一音频信号中的至少一种音频信号进行锥形衰减处理，具体包括：对所述至少一种音频信号中的任一种音频信号，

基于所述虚拟声场空间的内部空间信息获得传播距离；

将该种音频信号对应的虚拟声源位置作为球心位置，将所述传播距离作为半径，获得该种音频信号的球形传播区域；

将所述球形传播区域划分为内角区域、外角区域、所述内角区域与所述外角区域之间的过渡区域；

根据所述第二位置所属的实际区域，对该种音频信号进行对应的衰减处理，获得所述第一输出结果，其中，所述实际区域包括所述内角区域类别、所述外角区域和所述过渡区域中的任一区域。

5.根据权利要求2所述的方法，其中：

根据所述N个虚拟声源位置和所述虚拟声场空间的几何形态，计算得到M个虚声源；

根据所述第二位置和所述几何形态，计算得到S个声音反射路径，M和S分别为大于或等于1的整数；

其中，所述将所述第一输出结果输入所述早期反射声模型进行反射处理，获得第二输出结果包括：

根据所述M个虚声源和所述S个声音反射路径对所述第一输出结果进行反射处理，获得所述第二输出结果。

6.根据权利要求5所述的方法，其中，在所述计算得到S个声音反射路径之前，所述方法还包括：

将所述虚拟人物作为射线源头，从所述第二位置发出虚拟射线；

通过所述虚拟射线检测听觉交互信息，其中，所述听觉交互信息包括所述虚拟人物与所述虚拟声场空间中墙体之间的距离和所述虚拟声场空间中墙体的材质信息。

7.根据权利要求2所述的方法，其中，所述后期混响声模型包括从K个物理环境中录制获得的K个脉冲响应信号，所述将所述第一输出结果输入所述后期混响声模型进行混响处理，获得第三输出结果包括：

响应于所述用户从K个所述虚拟声场空间中选择的第一虚拟声场空间，调用第一脉冲响应信号，其中，所述第一虚拟声场空间根据所述K个物理环境中的第一物理环境构建获得，K为大于或等于1的整数；

将所述第一输出结果和所述第一脉冲响应信号进行卷积计算，获得所述第三输出结果。

8.根据权利要求1所述的方法，其中，所述方法还包括：

响应于所述用户移动所述虚拟人物的第一指令，令所述虚拟人物移动至第三位置；

将所述虚拟收听位置更新为所述第三位置；

重新执行确定所述相对位置信息、获得所述第二音频信号以及向所述用户播放所述第二音频信号的操作。

9.根据权利要求1所述的方法，其中，所述方法还包括：

响应于所述用户移动至少一个虚拟乐器的第二指令，令所述至少一个虚拟乐器移动至第四位置；

将所述至少一个虚拟乐器在所述N个虚拟声源位置中对应的位置更新为所述第四位置；

10.一种基于可听化的交互沉浸式声场漫游***，包括：

位置确定单元，用于确定N种虚拟乐器在虚拟声场空间中的N个第一位置，以及虚拟人物在所述虚拟声场空间中的第二位置，其中，所述虚拟人物用于被用户操作以在所述虚拟声场空间中停止或移动；

相对位置单元，用于确定所述N个第一位置和所述第二位置之间的相对位置信息，其中，所述N个第一位置为N个虚拟声源位置，所述第二位置为虚拟收听位置，N为大于或等于1的整数；

信号处理单元，用于根据所述相对位置信息，利用声场空间模型处理N种第一音频信号，获得第二音频信号，其中，所述声场空间模型用于模拟所述N种第一音频信号在物理空间中的传播，所述N种第一音频信号与所述N种虚拟乐器一一对应；

音频播放单元，用于响应于所述用户的播放操作，向所述用户播放所述第二音频信号。

11.一种交互沉浸式声场漫游的建模方法，包括：

获得直达声处理模型，所述直达声处理模型用于对N种第一音频信号进行衰减处理以获得第一输出结果，所述N种第一音频信号分别从N个虚拟声源位置传播至虚拟收听位置，N为大于或等于1的整数；

获得早期反射声模型，所述早期反射声模型用于对所述第一输出结果进行反射处理以获得第二输出结果；

获得后期混响声模型，所述后期混响声模型用于对所述第一输出结果行混响处理以获得第三输出结果；

设置主输出总线，所述主输出总线用于根据所述第二输出结果和所述第三输出结果获得第二音频信号，其中，所述第二音频信号为模拟所述N种第一音频信号在物理空间中的传播所得到的音频信号。