CN105959905B

CN105959905B - 混合模式空间声生成***与方法

Info

Publication number: CN105959905B
Application number: CN201610268371.7A
Authority: CN
Inventors: 孙学京; 张晨
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Inc
Priority date: 2016-04-27
Filing date: 2016-04-27
Publication date: 2017-10-24
Anticipated expiration: 2036-04-27
Also published as: CN105959905A

Abstract

本发明公开了一种混合模式空间声生成***与方法，所述混合模式空间声生成方法包括输入一路或多路音频对象；检测音频对象的个数，当音频对象的个数大于第一阈值A时，激活ambisonic域分支，采用ambisonic方法处理音频对象，得到虚拟环绕空间声；否则激活单独对象渲染分支，使用单独对象渲染方法处理音频对象，得到虚拟环绕空间声。所述混合模式空间声生成***与方法增加了渲染控制模块来对音频对象渲染进行控制，能够有效且高质量地生成虚拟环绕声音，可以在产生高品质的3D音效的同时保持低复杂度。

Description

混合模式空间声生成***与方法

技术领域

本发明涉及信号处理技术领域，具体涉及一种混合模式空间声生成***与方法。

背景技术

在用虚拟现实头戴设备(Head-Mounted Display，HMD)向用户呈现内容时，采用虚拟3D音频技术，通过立体声耳机向用户播放音频内容，这时需要面临提高虚拟环绕声效果的问题。在虚拟现实应用中，当通过立体声耳机播放音频内容时，虚拟3D音频的目的是想要达到一种效果让用户就像用扬声器阵列(如5.1或7.1)听一样。

在制作虚拟现实音频内容时，通常需要几种声音元素。一种提高临场感的方法是跟踪用户的头部动作(head tracking)，对声音进行相应的处理。比如，如果原始声音被用户感知为来自正前方，当用户向左转头90度后，声音应被处理使得用户感知声音来自正右方90度。

在这里虚拟现实设备可以有很多种类，比如带头部跟踪的显示设备，或者只是一部带头部跟踪传感器的立体声耳机。

实现头部跟踪也有多种方法。比较常见的是使用多种传感器。运动传感器套件通常包括加速度计、陀螺仪和磁力传感器。在运动跟踪和绝对方向方面每种传感器都有自己固有的强项和弱点。因此常用做法是采用传感器“融合”(sensor fusion)将来自各传感器的信号组合在一起，产生一个更加精确的运动检测结果。

在得到头部旋转角度后，需要对声音进行相应的变化。

对于音频对象通常的做法是使用HRTF(Head Related Transfer Function，头相关变换函数)滤波器进行滤波，得到虚拟环绕声。HRTF在时间域所对应的名称是HRIR(HeadRelated Impulse Response，与头部相关联的冲激响应)，或者将音源与双耳房间脉冲响应(Binaural Room Impulse Response，BRIR)做卷积。双耳房间脉冲响应由三个部分组成：直达声、一些离散的早期反射声和晚期混响(混响尾)。

直接将音频对象和BRIR卷积这种做法的缺点是如果场景复杂，含有大量的音频对象，则复杂度会变得非常高，对于很多音频播放终端，这将导致功耗过大，甚至无法播放。在虚拟现实设备上，还需要根据头部的动作对音频对象位置实时调整，这更极大地加大了运算量，使得在移动虚拟现实设备上应用传统做法变的不切实际。

另一种方式是将声音转到ambisonic域，然后再通过使用旋转矩阵对信号做变换。具体做法是将音频转为B格式信号，将该B格式信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF滤波器进行滤波，得到虚拟环绕声。但这种方法在声音渲染灵活性有所欠缺，而且无法对单独音源进行精准的控制。

可以看到，以上两种方法在效率以及效果上各有优缺点。

有鉴于此，在本领域需要一种有效且高质量生成虚拟环绕声音的解决方案。

发明内容

本发明的目的在于提供一种混合模式空间声生成***与方法，用以解决现有技术中在产生高品质的3D音效的同时无法保持低运算复杂度的问题。

为实现上述目的，本发明所述的混合模式空间声生成***包括渲染控制模块、ambisonic编码器、双耳转码器和耳机与头部跟踪装置，所述渲染控制模块分别与ambisonic编码器和双耳转码器连接，所述ambisonic编码器与双耳转码器连接，所述耳机与头部跟踪装置分别与ambisonic编码器和双耳转码器连接；所述渲染控制模块用于接收一路或多路音频对象，检测音频对象的个数，当音频对象的个数大于第一阈值A时，激活ambisonic编码器构成的ambisonic域分支，采用ambisonic方法处理音频对象，得到虚拟环绕空间声并传输到ambisonic编码器，由ambisonic编码器输出虚拟环绕空间声的双耳输出虚拟环绕声信号；否则激活双耳转码器构成的单独对象渲染分支，使用单独对象渲染方法处理音频对象，得到虚拟环绕空间声并输出虚拟环绕空间声的双耳输出虚拟环绕声信号。

所述渲染控制模块还进一步用于检测音频对象的元数据(metadata)，所述元数据包括时间和对应的音频对象在三维空间的位置，还包括发散度；所述渲染控制模块根据音频对象的发散度决定该音频对象的处理方式，如果音频对象的发散度大于第二阈值B，则将该音频对象暂时分配到ambisonic域分支；暂时分配结束后，根据音频对象处理设备的当前状况，计算运算复杂度，根据运算复杂度确定是否重新分配音频对象；运算复杂度通过统计音频对象处理设备的运算周期得出；当运算复杂度允许N个音频对象的时候，如果当前音频对象有M个，单独对象渲染分支能够处理0至N-T个音频对象，ambisonic域分支能够处理M-N+T个音频对象，如果分配给单独对象渲染分支的音频对象的个数H小于N-T个，则将ambisonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象渲染分支；所述N大于T，M大于0，H大于或等于0；如果N小于T，则全部使用单独对象渲染分支；如果N等于T，则全部使用ambisonic域分支，或者全部使用单独对象渲染分支。

所述渲染控制模块根据音源的发散度确定音频对象的分配；如果音源的发散度高于X，则在满足复杂度情况下，把音频对象分配到ambisonic域分支，反之，把音频对象分配到单独对象渲染分支；其中X由用户指定。

本发明还提供一种混合模式空间声生成方法，包括以下步骤：

输入一路或多路音频对象；

检测音频对象的个数，当音频对象的个数大于第一阈值A时，激活ambisonic域分支，采用ambisonic方法处理音频对象，得到虚拟环绕空间声；否则激活单独对象渲染分支，使用单独对象渲染方法处理音频对象，得到虚拟环绕空间声。

所述混合模式空间声生成方法进一步包括检测音频对象的元数据，所述元数据包括时间和对应的音频对象在三维空间的位置，还包括音频对象的发散度。

所述混合模式空间声生成方法进一步包括根据音频对象的发散度决定该音频对象的处理方式，如果音频对象的发散度大于第二阈值B，则将该音频对象暂时分配到ambisonic域分支。

暂时分配结束后，根据音频对象处理设备的当前状况，计算运算复杂度，根据运算复杂度确定是否重新分配音频对象。

运算复杂度通过统计音频对象处理设备的运算周期得出；1个ambisonic域分支相当于T个单独音频分支的复杂度；当运算复杂度允许N个音频对象的时候，如果当前音频对象有M个，单独对象渲染分支能够处理0至N-T个音频对象，ambisonic域分支能够处理M-N+T个音频对象，如果分配给单独对象渲染分支的音频对象的个数H小于N-T个，则将ambisonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象渲染分支；所述N大于T，M大于0，H大于或等于0。如果N小于T，则全部使用单独对象渲染分支；如果N等于T，则全部使用ambisonic域分支，或全部使用单独对象渲染分支。

在另一个优选实施例中，根据音源的发散度确定音频对象的分配，如果音源的发散度高于X，则在满足复杂度情况下，把音频对象分配到ambisonic分支，反之，把音频对象分配到单独音源渲染分支；其中X由用户指定。

所述混合模式空间声生成方法采用静态模式或者动态模式检测音频对象的个数和检测音频对象的元数据；所述静态模式是指仅在最开始检测一次音频对象的个数和音频对象的元数据；所述动态模式是指随着时间的推移，动态地调整如何将音频对象分配到单独对象渲染分支和ambisonic域分支这两路分支。

所述动态模式的具体做法是采用固定时间间隔采样或非固定时间采样；所述固定时间间隔采样是指每间隔固定的时间段；检测一次音频对象的个数和音频对象的元数据；所述非固定时间采样是指基于音频对象的起始时间，在每个新的音频对象开始和结束的时刻检测一次音频对象的个数和音频对象的元数据。

本发明具有如下优点：本发明所述混合模式空间声生成***与方法增加了渲染控制模块来对音频对象渲染进行控制，可以在产生高品质的3D音效的同时保持低复杂度。

附图说明

图1是本发明所述混合模式空间声生成***的结构示意图。

具体实施方式

以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，本发明提供一种混合模式空间声生成***，包括渲染控制模块、ambisonic编码器、双耳转码器和耳机与头部跟踪装置，所述渲染控制模块分别与ambisonic编码器和双耳转码器连接，所述ambisonic编码器与双耳转码器连接，所述耳机与头部跟踪装置分别与ambisonic编码器和双耳转码器连接；所述渲染控制模块用于接收一路或多路音频对象，检测音频对象的个数，当音频对象的个数大于第一阈值A时，激活ambisonic编码器构成的ambisonic域分支，采用ambisonic方法处理音频对象，得到虚拟环绕空间声并传输到ambisonic编码器，由ambisonic编码器输出虚拟环绕空间声的双耳输出虚拟环绕声信号；否则激活双耳转码器构成的单独对象渲染分支，使用单独对象渲染方法处理音频对象，得到虚拟环绕空间声并输出虚拟环绕空间声的双耳输出虚拟环绕声信号。

所述耳机与头部跟踪装置用于获取用户的头部旋转角度并将用户的头部旋转角度分别传输给ambisonic编码器和双耳转码器；所述ambisonic编码器和双耳转码器分别根据用户的头部旋转角度处理音频对象，得到虚拟环绕空间声。

根据用户的头部旋转角度处理音频对象是指根据用户的头部旋转角度，将音频对象的B-格式信号旋转得到旋转后的B-格式信号；具体来说，是根据旋转角度生成旋转矩阵，再根据所述旋转矩阵，对音频对象的所述B-格式信号(即待调整信号)进行旋转。所谓旋转，即将旋转矩阵与待调整信号矩阵相乘，旋转不改变音频信号矩阵分量的大小，只改变分量的方向。旋转矩阵的阶数与音频信号矩阵相适应。例如，当待调整信号矩阵为[W₂X₂Y₂]^T时，旋转矩阵为当待调整信号矩阵为[W₂X₂Y₂Z₂]^T时，旋转矩阵为

所述渲染控制模块还进一步用于检测音频对象的元数据，所述元数据包括时间和对应的音频对象在三维空间的位置，还包括音频对象的发散度；所述渲染控制模块根据音频对象的发散度决定该音频对象的处理方式，如果音频对象的发散度大于第二阈值B，则将该音频对象暂时分配到ambisonic域分支；暂时分配结束后，根据音频对象处理设备的当前状况，计算运算复杂度，根据运算复杂度确定是否重新分配音频对象；运算复杂度通过统计音频对象处理设备的运算周期得出。

发散度(diffusivity)在这里表示声音是否在空间里是有明确的空间方位(如某一点声源)，还是比较发散如趋于环境声。发散度的范围是[0，1]，如果是0，则代表音频对象的发散度低，趋近于点声源。如果是1，则代表无方向的环境声。

1个ambisonic域分支相当于T个单独音频分支的复杂度，而且无论1个ambisonic域分支中分配了多少个音频对象，1个ambisonic域分支都相当于T个单独音频分支的复杂度。通常情况下，T＝8，即1个ambisonic域分支相当于8个单独音频分支的复杂度。但是T的具体取值需要根据实际的音频对象处理设备确定，不同的音频对象处理设备的T值取值有可能不同。

当运算复杂度允许N个音频对象的时候，如果当前音频对象有M个，单独对象渲染分支能够处理0至N-T个音频对象，ambisonic域分支能够处理M-N+T个音频对象，如果分配给单独对象渲染分支的音频对象的个数H小于N-T个，则将ambisonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象渲染分支；所述N大于T，M大于0，H大于或等于0。如果N小于T，则全部使用单独对象渲染分支；如果N等于T，则全部使用ambisonic域分支，或全部使用单独对象渲染分支。

例如，当运算复杂度允许8个音频对象的时候，如果当前音频对象有8个，暂时分配到单独对象渲染分支的音频对象的个数为3个，暂时分配到ambisonic域分支中的音频对象的个数为5个，由于1个ambisonic域分支相当于T(T＝8)个单独音频分支的复杂度，而且无论1个ambisonic域分支中分配了多少个音频对象，1个ambisonic域分支都相当于T(T＝8)个单独音频分支的复杂度，因此“暂时分配到单独对象渲染分支的音频对象的个数为3个，暂时分配到ambisonic域分支中的音频对象的个数为5个”表示运算复杂度需要允许3+8＝11个音频对象，而实际情况是这个示例中运算复杂度只允许8个音频对象。因此需要将ambisonic域分支中的5个音频对象重新分配给单独对象渲染分支(这样相当于8个音频对象全部分给单独对象渲染分支，满足运算复杂度允许8个音频对象的要求)，或者将单独对象渲染分支中的3个音频对象重新分配给ambisonic域分支(这样相当于将8个音频对象全部分给ambisonic域分支，由于1个ambisonic域分支都相当于T(T＝8)个单独音频分支的复杂度，因此也满足运算复杂度允许8个音频对象的要求)。

当运算复杂度允许8个音频对象的时候，如果当前音频对象有14个，暂时分配到单独对象渲染分支的音频对象的个数为3个，暂时分配到ambisonic域分支中的音频对象的个数为11个，由于“暂时分配到单独对象渲染分支的音频对象的个数为3个，暂时分配到ambisonic域分支中的音频对象的个数为11个”表示运算复杂度需要允许3+T个音频对象(通常情况下T＝8，即3+T＝11个音频对象，实际运算复杂度只允许8个音频对象)，因此需要重新分配。将0至N-T个音频对象(N指运算复杂度允许N个音频对象，这个示例中N＝8，通常情况下T＝8)分配给单独对象渲染分支，由于这里的N-T＝8-8＝0，即将0个音频对象分配给单独对象渲染分支，因此需要将暂时分配到单独对象渲染分支的3个音频对象重新分配给ambisonic域分支，实际分配给ambisonic域分支的音频对象的个数为M-N+T个(M指当前音频对象的个数，这个示例中M＝14，M-N+T即14-8+8＝14个)，即实际分配给ambisonic域分支的音频对象的个数为14个。也就是说，重新分配的结果是将暂时分配到单独对象渲染分支的3个音频对象重新分配给ambisonic域分支，使得当前14个音频对象都分配到ambisonic域分支。

当运算复杂度允许12个音频对象的时候，如果当前音频对象有20个(即M＝20)，暂时分配到单独对象渲染分支的音频对象的个数为3个，暂时分配到ambisonic域分支中的音频对象的个数为17个，由于“暂时分配到单独对象渲染分支的音频对象的个数为3个，暂时分配到ambisonic域分支中的音频对象的个数为17个”表示运算复杂度需要允许3+T个音频对象(通常情况下T＝8，即3+T＝11个音频对象，实际运算复杂度允许12个音频对象)，因此可以进行重新分配。由于分配给单独对象渲染分支的音频对象的个数为3个(即H＝3)，小于N-T即12-8＝4个，因此可以将ambisonic域分支中的1至N-T-H即12-8-3＝1个音频对象中的任意多个音频对象重新分配给单独对象渲染分支，即可以将ambisonic域分支中的1个音频对象重新分配给单独对象渲染分支。

在另一个实施例中，根据发散度确定音频对象的分配。

如果音频对象的发散度高于X(0≤X≤1)，则在满足复杂度情况下，把音源分配到ambisonic分支，反之，把音频对象分配到单独音频对象渲染分支。

在一个优选实施例中，X＝0.5，即如果音源的发散度高于0.5(实际上并不限于这个值，X可以在0-1之间取值，或者X由用户指定)，则在满足复杂度情况下，把音源分配到ambisonic分支，反之，把音源分配到单独音源渲染分支。

输入一路或多路音频对象；

在一个优选实施例中，所述第一阈值A等于8。在其他的实施例中，第一阈值A可以由技术人员根据实际需求任意指定。

在一个优选实施例中，所述第二阈值B等于0.5。在其他的实施例中，第二阈值B可以由技术人员根据实际需求任意指定。

运算复杂度通过统计音频对象处理设备的运算周期可以得出。当运算复杂度允许N个音频对象的时候，如果当前音频对象有M个，单独对象渲染分支能够处理0至N-T个音频对象，ambisonic域分支能够处理M-N+T个音频对象，如果分配给单独对象渲染分支的音频对象的个数H小于N-T个，则将ambisonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象渲染分支；所述N大于或等于T，M大于0，H大于或等于0。如果N小于T，则全部使用单独对象渲染分支；如果N等于T，则根据音频对象发散度，全部使用ambisonic域分支，或全部使用单独对象渲染分支。

在另一个优选实施例中，根据音源的发散度确定音频对象的分配，如果音源的发散度高于X，则在满足复杂度情况下，把音源分配到ambisonic分支，反之，把音源分配到单独音源渲染分支；其中X由用户指定。

根据前面的描述，单独对象渲染方法和ambisonic方法处理音频对象在效率以及效果上各有优缺点。单独对象渲染方法的优点是定位准确；单独对象渲染方法的缺点是如果场景复杂，含有大量的音频对象，则复杂度会变得非常高，对于很多音频播放终端，这将导致功耗过大，甚至无法播放。ambisonic方法的优点是运算复杂度基本保持稳定，ambisonic方法的缺点是在声音渲染灵活性有所欠缺，及无法对单独音源进行精准的控制。

因此本发明所述混合模式空间声生成方法需要在单独对象渲染方法和ambisonic方法之间做出选择，确定将多少个音频对象分配给单独对象渲染分支，将多少个音频对象分配给ambisonic域分支。比如在需要定位准确的时候，在满足运算复杂度要求的前提下，将尽可能多的音频对象分配给单独对象渲染分支。在运算量非常大的时候，则将更多的音频对象分配给ambisonic域分支。

本发明所述混合模式空间声生成方法采用静态模式或者动态模式检测音频对象的个数和检测音频对象的元数据。所述静态模式是指仅在最开始检测一次音频对象的个数和音频对象的元数据。但是由于在空间声生成的过程中，每个时刻音频对象的个数是不一样的，环境因素也在发生变化，因此静态模式并不是最优的解决方案，但是优点是比较简单。

所述动态模式是指随着时间的推移，动态地调整如何将音频对象分配到单独对象渲染分支和ambisonic域分支这两路分支。具体的做法可以采用固定时间间隔采样或非固定时间采样。所述固定时间间隔采样是指每间隔固定的时间段(例如每间隔一秒钟)检测一次音频对象的个数和音频对象的元数据。所述非固定时间采样是指基于音频对象的起始时间，在每个新的音频对象开始和结束的时刻检测一次音频对象的个数和音频对象的元数据。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.一种混合模式空间声生成***，其特征在于，所述混合模式空间声生成***包括渲染控制模块、ambisonic编码器、双耳转码器和耳机与头部跟踪装置，所述渲染控制模块分别与ambisonic编码器和双耳转码器连接，所述ambisonic编码器与双耳转码器连接，所述耳机与头部跟踪装置分别与ambisonic编码器和双耳转码器连接；所述渲染控制模块用于接收一路或多路音频对象，检测音频对象的个数，当音频对象的个数大于第一阈值A时，激活ambisonic编码器构成的ambisonic域分支，采用ambisonic方法处理音频对象，得到虚拟环绕空间声并传输到ambisonic编码器，由ambisonic编码器输出虚拟环绕空间声的双耳输出虚拟环绕声信号；否则激活双耳转码器构成的单独对象渲染分支，使用单独对象渲染方法处理音频对象，得到虚拟环绕空间声并输出虚拟环绕空间声的双耳输出虚拟环绕声信号；所述渲染控制模块还进一步用于检测音频对象的元数据，所述元数据包括时间和对应的音频对象在三维空间的位置，还包括发散度；所述渲染控制模块根据音频对象的发散度决定该音频对象的处理方式，如果音频对象的发散度大于第二阈值B，则将该音频对象暂时分配到ambisonic域分支；暂时分配结束后，根据音频对象处理设备的当前状况，计算运算复杂度，根据运算复杂度确定是否重新分配音频对象；运算复杂度通过统计音频对象处理设备的运算周期得出。

2.如权利要求1所述混合模式空间声生成***，其特征在于，1个ambisonic域分支相当于T个单独音频分支的复杂度；当运算复杂度允许N个音频对象的时候，如果当前音频对象有M个，单独对象渲染分支能够处理0至N-T个音频对象，ambisonic域分支能够处理M-N+T个音频对象，如果分配给单独对象渲染分支的音频对象的个数H小于N-T个，则将ambisonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象渲染分支；所述N大于T，M大于0，H大于或等于0；如果N小于T，则全部使用单独对象渲染分支；如果N等于T，则根据音频对象发散度，全部使用ambisonic域分支，或全部使用单独对象渲染分支。

3.如权利要求1所述混合模式空间声生成***，其特征在于，所述渲染控制模块根据音频对象的发散度确定音频对象的分配；如果音频对象的发散度高于X，则在满足复杂度的情况下，把音频对象分配到ambisonic域分支，反之，把音频对象分配到单独对象渲染分支；其中X由用户指定。

4.一种混合模式空间声生成方法，其特征在于，所述混合模式空间声生成方法包括以下步骤：

输入一路或多路音频对象；

检测音频对象的个数，当音频对象的个数大于第一阈值A时，激活ambisonic域分支，采用ambisonic方法处理音频对象，得到虚拟环绕空间声；否则激活单独对象渲染分支，使用单独对象渲染方法处理音频对象，得到虚拟环绕空间声；

暂时分配结束后，根据音频对象处理设备的当前状况，计算运算复杂度，根据运算复杂度确定是否重新分配音频对象；运算复杂度通过统计音频对象处理设备的运算周期得出；当运算复杂度允许N个音频对象的时候，如果当前音频对象有M个，单独对象渲染分支能够处理0至N-T个音频对象，ambisonic域分支能够处理M-N+T个音频对象，如果分配给单独对象渲染分支的音频对象的个数H小于N-T个，则将ambisonic域分支中的1至N-T-H个音频对象中的任意多个音频对象重新分配给单独对象渲染分支；所述N大于T，M大于0，H大于或等于0；如果N小于T，则全部使用单独对象渲染分支；如果N等于T，则根据音频对象发散度，全部使用ambisonic域分支，或全部使用单独对象渲染分支；

所述混合模式空间声生成方法进一步包括检测音频对象的元数据，所述元数据包括时间和对应的音频对象在三维空间的位置，还包括音频对象发散度；

5.如权利要求4所述混合模式空间声生成方法，其特征在于，根据音源的发散度确定音频对象的分配，如果音源的发散度高于X，则在满足复杂度情况下，把音频对象分配到ambisonic分支，反之，把音频对象分配到单独音源渲染分支；其中X由用户指定。

6.如权利要求4或5所述混合模式空间声生成方法，其特征在于，所述混合模式空间声生成方法采用静态模式或者动态模式检测音频对象的个数和检测音频对象的元数据；所述静态模式是指仅在最开始检测一次音频对象的个数和音频对象的元数据；所述动态模式是指随着时间的推移，动态地调整如何将音频对象分配到单独对象渲染分支和ambisonic域分支这两路分支；所述动态模式的具体做法是采用固定时间间隔采样或非固定时间采样；所述固定时间间隔采样是指每间隔固定的时间段；检测一次音频对象的个数和音频对象的元数据；所述非固定时间采样是指基于音频对象的起始时间，在每个新的音频对象开始和结束的时刻检测一次音频对象的个数和音频对象的元数据。