CN105120421A

CN105120421A - 一种生成虚拟环绕声的方法和装置

Info

Publication number: CN105120421A
Application number: CN201510519948.2A
Authority: CN
Inventors: 孙学京
Original assignee: Beijing Tuoling Inc
Current assignee: Beijing Tuoling Inc
Priority date: 2015-08-21
Filing date: 2015-08-21
Publication date: 2015-12-02
Anticipated expiration: 2035-08-21
Also published as: CN105120421B

Abstract

本发明公开了一种生成虚拟环绕声的方法和装置，属于信号处理领域。方法包括：获取音频文件的第一音频信号和用户头部旋转的旋转角度；根据所述旋转角度，生成旋转矩阵；根据所述第一音频信号，获取所述第一音频信号的调整参数；根据所述调整参数，对所述第一音频信号进行调整得到第二音频信号；根据所述第二音频信号和所述旋转矩阵，生成虚拟环绕声。装置包括：第一获取模块，第一生成模块，第二获取模块，调整模块和第二生成模块。本发明根据用户头部旋转的旋转角度旋转虚拟环绕声，从而可以提高虚拟环绕声的真实性。

Description

一种生成虚拟环绕声的方法和装置

技术领域

本发明涉及信号处理领域，特别涉及一种生成虚拟环绕声的方法和装置。

背景技术

目前，用户使用手机或者电脑等终端收听音乐时，如果想要感受演唱会现场的虚拟环绕声的效果时，就需要终端连接多个音箱，通过多个音箱播放该音乐；但由于价格及空间方面的原因，一般用户都没有足够的音箱，这时终端需要生产虚拟环绕声，让用户感受到在演唱会现场的效果。

现有技术提供了一种生成虚拟环绕声的方法，可以为：终端获取音频文件中包括的B格式信号，将该B格式信号转换为虚拟扬声器阵列信号，将虚拟扬声器阵列信号通过HRTF(HeadRelatedTransferFunction，头相关变换函数)滤波器进行滤波，得到虚拟环绕声。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

用户戴着耳机听虚拟环绕声时，当用户头部旋转时，耳机里的虚拟环绕声会跟着用户的头部旋转，这样导致人在现场听音乐的感觉不同，也即生成的虚拟环绕声不够真实。

发明内容

为了解决现有技术的问题，本发明提供了一种生成虚拟环绕声的方法和装置。技术方案如下：

一种生成虚拟环绕声的方法，所述方法包括：

获取音频文件的第一音频信号和用户头部旋转的旋转角度；

根据所述旋转角度，生成旋转矩阵；

根据所述第一音频信号，获取所述第一音频信号的调整参数；

根据所述调整参数，对所述第一音频信号进行调整得到第二音频信号；

根据所述第二音频信号和所述旋转矩阵，生成虚拟环绕声。

进一步地，所述根据所述第二音频信号和所述旋转矩阵，生成虚拟环绕声，包括：

根据所述旋转矩阵，将所述第二音频信号进行旋转得到第三音频信号；

根据所述第三音频信号，将所述第三音频信号转换为虚拟扬声器阵列信号；

将所述虚拟扬声器阵列信号通过头相关变换函数滤波器进行滤波，得到虚拟环绕声。

进一步地，所述根据所述第一音频信号，获取所述第一音频信号的调整参数，包括：

根据所述第一音频信号，获取所述第一音频信号的录制场景，根据所述录制场景，从录制场景和调整参数的对应关系中获取所述第一音频信号的调整参数；或者，

根据所述第一音频信号，从音频信号和调整参数的对应关系中获取所述第一音频信号的调整参数。

进一步地，所述根据所述第一音频信号，获取所述第一音频信号的录制场景，包括：

分析所述第一音频信号，得到所述第一音频信号的内容，根据所述内容，确定所述第一音频信号的录制场景；或者，

根据所述第一音频信号，从音频信号和录制场景的对应关系中获取所述第一音频信号的录制场景。

进一步地，所述调整参数包括上混阶数和虚拟扬声器的拓扑结构；

所述根据所述调整参数，对所述第一音频信号进行调整得到第二音频信号，包括：

根据所述上混阶数，将所述第一音频信号进行上混处理得到第四音频信号；

根据所述虚拟扬声器的拓扑结构，将所述第四音频信号进行环绕处理得到第二音频信号。

一种生成虚拟环绕声的装置，所述装置包括：

第一获取模块，用于获取音频文件的第一音频信号和用户头部旋转的旋转角度；

第一生成模块，用于根据所述旋转角度，生成旋转矩阵；

第二获取模块，用于根据所述第一音频信号，获取所述第一音频信号的调整参数；

调整模块，用于根据所述调整参数，对所述第一音频信号进行调整得到第二音频信号；

第二生成模块，用于根据所述第二音频信号和所述旋转矩阵，生成虚拟环绕声。

进一步地，所述第二生成模块，包括：

旋转单元，用于根据所述旋转矩阵，将所述第二音频信号进行旋转得到第三音频信号；

转换单元，用于根据所述第三音频信号，将所述第三音频信号转换为虚拟扬声器阵列信号；

滤波单元，用于将所述虚拟扬声器阵列信号通过头相关变换函数滤波器进行滤波，得到虚拟环绕声。

进一步地，所述第二获取模块，包括：

第一获取单元，用于根据所述第一音频信号，获取所述第一音频信号的录制场景；

第二获取单元，用于根据所述录制场景，从录制场景和调整参数的对应关系中获取所述第一音频信号的调整参数；

或者，所述第二获取模块，包括：

第三获取单元，用于根据所述第一音频信号，从音频信号和调整参数的对应关系中获取所述第一音频信号的调整参数。

进一步地，所述第一获取单元，包括：

分析子单元，用于分析所述第一音频信号，得到所述第一音频信号的内容；

确定子单元，用于根据所述内容，确定所述第一音频信号的录制场景；

或者，所述第一获取单元，包括：

获取子单元，用于根据所述第一音频信号，从音频信号和录制场景的对应关系中获取所述第一音频信号的录制场景。

所述调整模块，包括：

第一处理单元，用于根据所述上混阶数，将所述第一音频信号进行上混处理得到第四音频信号；

第二处理单元，用于根据所述虚拟扬声器的拓扑结构，将所述第四音频信号进行环绕处理得到第二音频信号。

在本发明实施例中，通过头部***获取用户头部旋转的旋转角度，根据该旋转角度，生成旋转矩阵，根据第一音频信号，获取第一音频信号的调整参数，根据该调整参数，对第一音频信号进行调整得到第二音频信号，根据第二音频信号和该旋转矩阵，生成虚拟环绕声，从而可以提高虚拟环绕声的真实性。

附图说明

图1是本发明实施例1提供的一种生成虚拟环绕声的方法流程图；

图2-1是本发明实施例2提供的一种生成虚拟环绕声的方法流程图；

图2-2是本发明实施例2提供的一种虚拟扬声器的拓扑结构的示意图；

图2-3是本发明实施例2提供的另一种虚拟扬声器的拓扑结构的示意图；

图3是本发明实施例3提供的一种生成虚拟环绕声的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

本发明实施例提供了一种生成虚拟环绕声的方法，该方法的执行主体可以为终端，参见图1，其中，该方法包括：

步骤101：获取音频文件的第一音频信号和用户头部旋转的旋转角度；

步骤102：根据该旋转角度，生成旋转矩阵；

步骤103：根据第一音频信号，获取第一音频信号的调整参数；

步骤104：根据该调整参数，对第一音频信号进行调整得到第二音频信号；

步骤105：根据第二音频信号和该旋转矩阵，生成虚拟环绕声。

进一步地，根据第二音频信号和该旋转矩阵，生成虚拟环绕声，包括：

根据该旋转矩阵，将第二音频信号进行旋转得到第三音频信号；

根据第三音频信号，将第三音频信号转换为虚拟扬声器阵列信号；

将虚拟扬声器阵列信号通过头相关变换函数滤波器进行滤波，得到虚拟环绕声。

进一步地，根据第一音频信号，获取第一音频信号的调整参数，包括：

根据第一音频信号，获取第一音频信号的录制场景，根据录制场景，从录制场景和调整参数的对应关系中获取第一音频信号的调整参数；或者，

根据第一音频信号，从音频信号和调整参数的对应关系中获取第一音频信号的调整参数。

进一步地，根据第一音频信号，获取第一音频信号的录制场景，包括：

分析第一音频信号，得到第一音频信号的内容，根据内容，确定第一音频信号的录制场景；或者，

根据第一音频信号，从音频信号和录制场景的对应关系中获取第一音频信号的录制场景。

进一步地，调整参数包括上混阶数和虚拟扬声器的拓扑结构；

根据调整参数，对第一音频信号进行调整得到第二音频信号，包括：

根据上混阶数，将第一音频信号进行上混处理得到第四音频信号；

根据虚拟扬声器的拓扑结构，将第四音频信号进行环绕处理得到第二音频信号。

实施例2

本发明实施例提供了一种生成虚拟环绕声的方法，该方法的执行主体可以为终端，参见图2-1，其中，该方法包括：

步骤201：获取音频文件的第一音频信号和用户头部旋转的旋转角度；

当用户通过耳机播放云端或者服务器端存储的音频文件时，终端获取音频文件的第一音频信号和用户头部旋转的旋转角度。

其中，终端获取用户头部旋转的旋转角度的步骤可以为：

在耳机上设置头部***或者在用户头部佩戴有头部***的设备，如虚拟现实显示设备，通过头部***实时检测用户头部是否进行旋转，如果用户头部进行旋转，则获取用户头部旋转的旋转角度，向终端发送该旋转角度；终端接收头部***发送的旋转角度。

其中，第一音频信号可以为一阶B格式信号，B格式信号可以为三声道信号，也可以为四声道信号；如果B格式信号为三声道信号，则B格式信号包括W、X和Y；如果B格式信号为四声道信号，则B格式信号包括W、X、Y和Z。终端可以为手机、平板电脑或者PC(personalcomputer，个人电脑)终端等。

W声道信号表示全方向声波，X声道信号、Y声道信号和Z声道信号表示沿三个互相垂直取向的声波；X声道信号表示听着从后至前水平布置，Y声道信号表示听着从右至左水平布置，Z声道信号表示听着向上垂直布置。

步骤202：根据该旋转角度，生成旋转矩阵；

旋转矩阵用于旋转虚拟环绕声，从而使得当用户头部旋转时，虚拟环绕声不根据用户头部的旋转而旋转，实现在现实生活中听音乐的效果。

例如，虚拟环绕声的方向在前方，当用户头部向左旋转30度，则将该虚拟环绕声从用户头部旋转后的位置处向右旋转30度，从而实现虚拟环绕声的方向还是在原来的方向上。

如果B格式信号为三声道信号，则旋转矩阵为

[\begin{matrix} 1 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) \\ 0 & s i n (θ) & \cos (θ) \end{matrix}];

如果B格式信号为四声道信号，则旋转矩阵为

[\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) & 0 \\ 0 & s i n (θ) & c o s (θ) & 0 \\ 0 & 0 & 0 & 1 \end{matrix}],

θ为该旋转角度。

步骤203：根据第一音频信号，获取第一音频信号的调整参数；

调整参数包括上混阶数和虚拟扬声器的拓扑结构，虚拟扬声器的拓扑结构包括虚拟扬声器的个数和每个虚拟扬声器的位置等。

本步骤可以通过以下第一种方式或者第二种方式实现，对于第一种实现方式，本步骤可以通过以下步骤(1)和(2)实现，包括：

(1)：根据第一音频信号，获取第一音频信号的录制场景；

录制场景包括演唱会场景、商务会议场景或者自然环境场景等。

本步骤可以通过以下步骤(1-1)和(1-2)实现，包括：

(1-1)：分析第一音频信号，得到第一音频信号的内容；

第一音频信号的内容至少包括指向性信号比重，还可以包括属性信息和/或主要声源的方向等；属性信息包括第一音频信号包括的对象、乐器类别和声音类别等。

其中，分析第一音频信号，得到第一音频信号包括的指向性信号比重的步骤可以为：

通过Direct-ambiencesignaldecomposition(指向-环境信号分析)算法分析第一音频信号，得到第一音频信号包括的指向性信号的比重，也可以得到第一音频信号包括的非指向性信号的比重。

例如，第一音频信号中只包含说话的声音，则第一音频信号听起来就会有很强的方向性，则通过Direct-ambiencesignaldecomposition算法分析第一音频信号，得到第一音频信号中的指向性信号的比重较大；再如，第一音频信号中包含噪音或者大量混响，则第一音频信号听起来方向性就不强，则通过Direct-ambiencesignaldecomposition算法分析第一音频信号，得到第一音频信号中的指向性信号的比重较小。

其中，分析第一音频信号，得到第一音频信号包括的指向性信号比重的步骤还可以通过以下步骤(A)至(C)实现，包括：

(A)：对第一音频信号建立协方差矩阵；

协方差矩阵cov(ω_i,n)＝αcov(ω_i,n－1)+(1-α)*S(ω_i,n)*S^H(ω_i,n)。

如果第一音频信号包括W、X和Y，则S(ω_i,n)＝[W(ω_i,n)X(ω_i,n)Y(ω_i,n)]^T，如果第一音频信号包括W、X、Y和Z，则S(ω_i,n)＝[W(ω_i,n)X(ω_i,n)Y(ω_i,n)Z(ω_i,n)]^T。

其中，ω_i为第一音频信号的频率，n为对时间轴上帧数的索引，[]^H代表向量共轭转置；α是平滑因子，且α可以事先设定或者根据第一音频信号的信号特性动态调整，例如，α可以0.92。ω_i包括了所有感兴趣的频率并且ω_i可以根据需要进行设置并更改；例如，ω_i为100-16000HZ。

并且，在本发明实施例中，可以设置每个ω_i的权重，则对第一音频信号建立协方差矩阵时，可以根据每个ω_i的权重计算第一音频信号的协方差矩阵，则协方差矩阵

cov (n) = Σ cov (ω_{i}, n) * ρ,

ρ为ω_i的权重。

(B)：对协方差矩阵进行特征分析，得到特征值；

通过Matlab函数对协方差矩阵进行特征分析，得到[V,Λ]＝eigs(cov(n))。

其中，V是3*3的矩阵或者4*4的矩阵，该矩阵的每列代表cov(n)的特征向量；Λ包含了以降序排列的相应特征值。

(C)：根据特征值，计算指向信号的比重。

从特征值中选择最大特征值作为第一特征值，从除最大特征值之外的特征值中选择最大特征值作为第二特征值，根据第一特征值和第二特征值，通过以下公式(1)计算指向性信号的比重。

D R R = 1 -^{\frac{λ_{2}}{λ_{1}}}

公式(1)；

其中，DRR为指向性信号的比重；λ₁为第一特征值，且λ₁对应于直达声能量；λ₂为第二特征值，且λ₂对应反射，回声，环境声等。DRR的值在[0,1]之间，DRR的值越小代表直达声比重越低，声场方向性越弱，也即指向性信号比重越低；DRR的值越大代表直达声比重越高，声场方向性越强，也即指向性信号比重越高。

进一步地，通过directionofarrival(声源到达方向)算法分析第一音频信号，得到第一音频信号主要声源的方向。

进一步地，通过Instrumentclassification(乐器分类)算法分析第一音频信号，得到第一音频信号的乐器类别；通过Speechmusicclassification(语音音乐分类)算法分析第一音频信号，得到第一音频信号的声音类别。

进一步地，通过Objectextraction(对象提取)算法提取第一音频信号包括的对象。

例如，第一音频信号为一段语音，则通过Objectextraction算法提取第一音频信号的对象为语音；再如，第一音频信号为一段雷声，则通过Objectextraction算法提取第一音频信号的对象为雷声等；再如，第一音频信号为一段音乐，则通过Objectextraction算法提取第一音频信号的对象为音乐等。

进一步地，服务器可以事先分析第一音频信号，得到第一音频信号的内容，将第一音频信号和第一音频信号的内容存储在音频信号和内容的对应关系中，则本步骤可以为：

根据第一音频信号，从服务器中存储的音频信号和内容的对应关系中获取第一音频信号的内容。

其中，服务器中存储的音频信号和内容的对应关系可以以元数据的形式存储在服务器中，并且服务器可以直接将第一音频信号的内容嵌入第一音频信号中，也可以将第一音频信号的内容单独存放，建立内容文件夹，将第一音频信号的内容存储在该内容文件夹中，并建立第一音频信号和该内容文件夹的对应关系。

终端可以在获取音频文件的第一音频时，获取第一音频信号的内容，也可以在本步骤中获取第一音频文件的内容。并且，终端从服务器中存储的音频信号和内容的对应关系中获取第一音频信号的内容，能够减轻终端的运算负担，并且提高终端生成虚拟环绕声的效率。

(1-2)：根据第一音频信号的内容，确定第一音频信号的录制场景。

服务器中存储内容和录制场景的对应关系，相应的，本步骤可以为：

终端根据第一音频信号的内容，从服务器中存储的内容和录制场景的对应关系中获取第一音频信号的录制场景。

在本步骤中，终端也可以从服务器中获取内容和录制场景的对应关系，存储内容和录制场景的对应关系；相应的，本步骤可以为：

根据第一音频信号的内容，从终端中存储的内容和录制场景的对应关系中获取第一音频信号的录制场景。

其中，内容和录制场景的对应关系可以以元数据的形式存储在终端或服务器中，并且终端或服务器可以直接将第一音频信号的录制场景嵌入第一音频信号的内容中，也可以将第一音频信号的录制场景单独存放，建立录制场景文件夹，将第一音频信号的录制场景存储在该录制场景文件夹中，并建立第一音频信号的内容和该录制场景的对应关系。

进一步地，终端将第一音频信号和第一音频信号的录制场景存储在音频信号和录制场景的对应关系中；从而终端再次再播放第一音频信号时，不用通过以上方法确定第一音频信号的录制场景，直接从音频信号和录制场景的对应关系中获取第一音频信号的录制场景。

例如，终端存储的指向性信号的比重大于0.5时，确定第一音频信号的录制场景为商务会议；指向性信号的比重小于0.5时，确定第一音频信号的录制场景为演唱会。

(2)：根据录制场景，从录制场景和调整参数的对应关系中获取第一音频信号的调整参数。

服务器中存储录制场景和调整参数的对应关系，则本步骤可以为：

根据录制场景，从服务器中存储的录制场景和调整参数的对应关系中获取第一音频信号的调整参数。

在本步骤中，终端也可以从服务器中获取录制场景和调整参数的对应关系，存储录制场景和调整参数的对应关系；相应的，本步骤可以为：

根据录制场景，从终端中存储的录制场景和调整参数的对应关系中获取第一音频信号的调整参数。

进一步地，终端将第一音频信号和第一音频信号的调整参数存储在音频信号和调整参数的对应关系中，从而终端再次播放第一音频信号时，不用通过以上方法确定第一音频信号的录制场景，在根据录制场景获取调整参数，而是直接从音频信号和调整参数的对应关系中获取第一音频信号的调整参数，从而缩短了获取第一音频信号的调整参数的获取时间，提高了获取效率。

进一步地，对于第二种实现方式，本步骤可以为：

服务器中存储音频信号和调整参数的对应关系，终端根据第一音频信号，从服务器中存储的音频信号和调整参数的对应关系中获取第一音频信号的调整参数。

进一步地，音频信号和调整参数的对应关系可以以元数据的形式存储在服务器中，并且服务器可以直接将第一音频信号的调整参数嵌入第一音频信号中，也可以将第一音频信号的调整参数单独存放，建立调整参数文件夹，将第一音频信号的调整参数存储在调整参数文件中，并建立第一音频信号和该调整参数文件夹的对应关系。

例如，第一音频信号中指向性信号的比重大于0.5，则上混阶数为3，且虚拟扬声器的拓扑结构包括6个虚拟扬声器，参见图2-2；再如，第一音频信号中指向性信号的比重小于0.5，则上混阶数为1，且虚拟扬声器的拓扑结构包括4个虚拟扬声器，参见图2-3。

例如，第一音频信号的方向性声源分布在某一方向，比如声场内容为音乐会，声场集中在舞台方向也即正前方，则将虚拟扬声器的拓扑结构中的左前方和右前方扬声器的距离变大。

进一步地，在本发明实施例中还可以设置不同的终端类型对应不同的调整参数，则本步骤可以为：

获取终端的终端类型，根据终端类型和第一音频信号，获取第一音频信号的调整参数。

服务器中事先存储终端类型、音频信号和调整参数的对应关系；相应的，根据终端类型和第一音频信号，获取第一音频信号的调整参数的步骤可以为：

根据终端类型和第一音频信号，从服务器中存储的终端类型、音频信号和调整参数的对应关系中获取第一音频信号的调整参数。

虚拟扬声器的拓扑结构对虚拟环绕声的质量有重大的影响，并且对虚拟环绕声的影响根据第一音频信号的内容的不同而不同；例如，第一音频信号大部分都来自前方，则虚拟扬声器的拓扑结构会选择矩形结构，而不是方形结构。因此，本发明实施例中，能够实现根据第一音频信号的内容自适应调整调整参数，从而能够保证虚拟环绕声的播放音质。并且，不同终端具有不同的运算能力和功耗，根据终端类型和第一音频信号，获取第一音频信号的调整参数能够节省终端的功耗。

步骤204：根据该调整参数，对第一音频信号进行调整得到第二音频信号；

调整参数包括上混阶数和虚拟扬声器的拓扑结构，则本步骤可以通过以下步骤(1)和(2)实现，包括：

(1)：根据上混阶数，将第一音频信号进行上混处理得到第四音频信号；

其中，本步骤为现有技术，在此不再详细说明。

(2)：根据虚拟扬声器的拓扑结构，将第四音频信号进行环绕处理得到第二音频信号。

将第四音频信号依次经过虚拟扬声器的拓扑结构中包括的虚拟扬声器，从而实现将第四音频信号进行环绕处理，得到第二音频信号。

例如，第一音频信号为

[\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \end{matrix}],

则调整后的第二音频信号为

[\begin{matrix} W_{2} \\ X_{2} \\ Y_{2} \end{matrix}];

再如，第一音频信号为

[\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}],

则调整后的第二音频信号为

[\begin{matrix} W_{2} \\ X_{2} \\ Y_{2} \\ Z_{2} \end{matrix}] .

步骤205：根据旋转矩阵，将第二音频信号进行旋转得到第三音频信号；

将旋转矩阵和第二音频信号进行乘法运算，得到第三音频信号。

例如，第二音频信号为

[\begin{matrix} W_{2} \\ X_{2} \\ Y_{2} \end{matrix}],

旋转矩阵为

[\begin{matrix} 1 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) \\ 0 & s i n (θ) & \cos (θ) \end{matrix}],

则第三音频信号为

[\begin{matrix} W_{3} \\ X_{3} \\ Y_{3} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 \\ 0 & \cos (θ) & - s i n (θ) \\ 0 & \sin (θ) & \cos (θ) \end{matrix}] [\begin{matrix} W_{2} \\ X_{2} \\ Y_{2} \end{matrix}];

再如，第二音频信号为

[\begin{matrix} W_{2} \\ X_{2} \\ Y_{2} \\ Z_{2} \end{matrix}],

旋转矩阵为

[\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) & 0 \\ 0 & s i n (θ) & \cos (θ) & 0 \\ 0 & 0 & 0 & 1 \end{matrix}],

则第三音频信号为

[\begin{matrix} W_{3} \\ X_{3} \\ Y_{3} \\ Z_{3} \end{matrix}] = [\begin{matrix} 1 & 0 & 0 & 0 \\ 0 & c o s (θ) & - s i n (θ) & 0 \\ 0 & s i n (θ) & \cos (θ) & 0 \\ 0 & 0 & 0 & 1 \end{matrix}] [\begin{matrix} W_{2} \\ X_{2} \\ Y_{2} \\ Z_{2} \end{matrix}] .

步骤206：根据第三音频信号，将第三音频信号转换为虚拟扬声器阵列信号；

获取虚拟扬声器矩阵，将虚拟扬声器矩阵和第三音频信号进行矩阵乘法，得到虚拟扬声器阵列信号。

例如，虚拟扬声器阵列为

[\begin{matrix} G_{w 1} & G_{x 1} & G_{y 1} \\ G_{w 2} & G_{x 2} & G_{y 2} \\ . & . & . \\ . & . & . \\ G_{w N} & G_{x N} & G_{y N} \end{matrix}],

则虚拟扬声器阵列信号为

[\begin{matrix} L_{1} \\ L_{2} \\ .. \\ L_{N} \end{matrix}]

= [\begin{matrix} G_{w 1} & G_{x 1} & G_{y 1} \\ G_{w 2} & G_{x 2} & G_{y 2} \\ . & . & . \\ . & . & . \\ G_{w N} & G_{x N} & G_{y N} \end{matrix}] [\begin{matrix} W_{3} \\ X_{3} \\ Y_{3} \end{matrix}];

再如，虚拟扬声器阵列为

[\begin{matrix} G_{w 1} & G_{x 1} & G_{y 1} & G_{z 1} \\ G_{w 2} & G_{x 2} & G_{y 2} & G_{z 2} \\ . & . & . & . \\ . & . & . & . \\ G_{w N} & G_{x N} & G_{y N} & G_{z N} \end{matrix}],

则虚拟扬声器阵列信号为

[\begin{matrix} L_{1} \\ L_{2} \\ .. \\ L_{N} \end{matrix}] = [\begin{matrix} G_{w 1} & G_{x 1} & G_{y 1} & G_{z 1} \\ G_{w 2} & G_{x 2} & G_{y 2} & G_{z 2} \\ . & . & . & . \\ . & . & . & . \\ G_{w N} & G_{x N} & G_{y N} & G_{z N} \end{matrix}] [\begin{matrix} W_{3} \\ X_{3} \\ Y_{3} \\ Z_{3} \end{matrix}] .

其中，N为虚拟扬声器拓扑结构中包括的虚拟扬声器的数目。

步骤207：将虚拟扬声器阵列信号通过头相关变换函数滤波器进行滤波，得到虚拟环绕声。

头相关变换函数滤波器用于将虚拟扬声器阵列信号转换为二路立体声，也即双耳信号，则本步骤可以为：

获取头相关函数变换函数滤波器对应的二路立体声矩阵，将该二路立体矩阵和虚拟扬声器阵列信号进行矩阵乘法，得到虚拟环绕声。

例如，二路立体声矩阵为

[\begin{matrix} H_{1 L} & H_{2 L} & .. & H_{N L} \\ H_{1 R} & H_{2 R} & .. & H_{N R} \end{matrix}]

则虚拟环绕声为

[\begin{matrix} L \\ R \end{matrix}] = [\begin{matrix} H_{1 L} & H_{2 L} & .. \\ H_{1 R} & H_{2 R} & .. \end{matrix}

\begin{matrix} H_{N L} \\ H_{N R} \end{matrix}] [\begin{matrix} L_{1} \\ L_{2} \\ .. \\ L_{N} \end{matrix}] = [\begin{matrix} F_{W L} & F_{X L} & F_{Y L} \\ F_{W R} & F_{X R} & F_{Y R} \end{matrix}] [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \end{matrix}];

或者虚拟环绕声为

[\begin{matrix} L \\ R \end{matrix}] = [\begin{matrix} H_{1 L} & H_{2 L} & .. & H_{N L} \\ H_{1 R} & H_{2 R} & .. & H_{N R} \end{matrix}] [\begin{matrix} L_{1} \\ L_{2} \\ .. \\ L_{N} \end{matrix}] = [\begin{matrix} F_{W L} \\ F_{W R} \end{matrix} .

\begin{matrix} F_{X L} & F_{Y L} & F_{Z L} \\ F_{X R} & F_{Y R} & F_{Z R} \end{matrix}] [\begin{matrix} W_{1} \\ X_{1} \\ Y_{1} \\ Z_{1} \end{matrix}] .

实施例3

本发明实施例提供了一种生成虚拟环绕声的装置，该装置可以为终端，参见图3，装置包括：

第一获取模块301，用于获取音频文件的第一音频信号和用户头部旋转的旋转角度；

第一生成模块302，用于根据旋转角度，生成旋转矩阵；

第二获取模块303，用于根据第一音频信号，获取第一音频信号的调整参数；

调整模块304，用于根据调整参数，对第一音频信号进行调整得到第二音频信号；

第二生成模块305，用于根据第二音频信号和旋转矩阵，生成虚拟环绕声。

进一步地，第二生成模块305，包括：

旋转单元，用于根据旋转矩阵，将第二音频信号进行旋转得到第三音频信号；

转换单元，用于根据第三音频信号，将第三音频信号转换为虚拟扬声器阵列信号；

滤波单元，用于将虚拟扬声器阵列信号通过头相关变换函数滤波器进行滤波，得到虚拟环绕声。

进一步地，第二获取模块303，包括：

第一获取单元，用于根据第一音频信号，获取第一音频信号的录制场景；

第二获取单元，用于根据录制场景，从录制场景和调整参数的对应关系中获取第一音频信号的调整参数；

或者，第二获取模块303，包括：

第三获取单元，用于根据第一音频信号，从音频信号和调整参数的对应关系中获取第一音频信号的调整参数。

进一步地，第一获取单元，包括：

分析子单元，用于分析第一音频信号，得到第一音频信号的内容；

确定子单元，用于根据内容，确定第一音频信号的录制场景；

或者，第一获取单元，包括：

获取子单元，用于根据第一音频信号，从音频信号和录制场景的对应关系中获取第一音频信号的录制场景。

调整模块304，包括：

第一处理单元，用于根据上混阶数，将第一音频信号进行上混处理得到第四音频信号；

第二处理单元，用于根据虚拟扬声器的拓扑结构，将第四音频信号进行环绕处理得到第二音频信号。

需要说明的是：上述实施例提供的生成虚拟环绕声的装置在生成虚拟环绕声时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的生成虚拟环绕声的装置与生成虚拟环绕声的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生成虚拟环绕声的方法，其特征在于，所述方法包括：

获取音频文件的第一音频信号和用户头部旋转的旋转角度；

根据所述旋转角度，生成旋转矩阵；

根据所述第二音频信号和所述旋转矩阵，生成虚拟环绕声。

2.如权利要求1所述的方法，其特征在于，所述根据所述第二音频信号和所述旋转矩阵，生成虚拟环绕声，包括：

3.如权利要求1所述的方法，其特征在于，所述根据所述第一音频信号，获取所述第一音频信号的调整参数，包括：

4.如权利要求3所述的方法，其特征在于，所述根据所述第一音频信号，获取所述第一音频信号的录制场景，包括：

5.如权利要求1所述的方法，其特征在于，所述调整参数包括上混阶数和虚拟扬声器的拓扑结构；

6.一种生成虚拟环绕声的装置，其特征在于，所述装置包括：

第一生成模块，用于根据所述旋转角度，生成旋转矩阵；

7.如权利要求6所述的装置，其特征在于，所述第二生成模块，包括：

8.如权利要求6所述的装置，其特征在于，所述第二获取模块，包括：

或者，所述第二获取模块，包括：

9.如权利要求8所述的装置，其特征在于，所述第一获取单元，包括：

或者，所述第一获取单元，包括：

10.如权利要求6所述的装置，其特征在于，所述调整参数包括上混阶数和虚拟扬声器的拓扑结构；

所述调整模块，包括：