CN106162499A

CN106162499A - 一种头相关传递函数的个性化方法及***

Info

Publication number: CN106162499A
Application number: CN201610514079.9A
Authority: CN
Inventors: 陈喆; 殷福亮; 张古强; 袁康
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2016-07-04
Filing date: 2016-07-04
Publication date: 2016-11-23
Anticipated expiration: 2036-07-04
Also published as: CN106162499B

Abstract

本发明属于信号处理技术领域，提供了一种头相关传递函数的个性化方法及***。该方法及***首先建立距离模型，得到与距离相关的声源信号，之后利用PCA分别给水平角和高度角建模，在HRTF的个性化调节过程中，利用与距离相关的声源信号对模型参数进行个性化调节，以感受到声源的正确方位，继而获得个性化的HRTF，实现了结构化HRTF模型与PCA系数调节的结合，由于建立的距离模型考虑到了声源与双耳之间的距离因素，使得测量者可以感受到距离的变化，因而获得的HRTF的个性化效果好、精确度高。

Description

一种头相关传递函数的个性化方法及***

技术领域

本发明属于信号处理领域，尤其涉及一种基于结构模型和主成分分析的头相关传递函数的个性化方法、***。

背景技术

随着虚拟现实技术的快速发展，3D音频以其“临场感”、“沉浸感”受到追捧。双耳听觉技术利用头相关传递函数(Head-Related Transfer Function，HRTF)还原三维声场。

HRTF为耳膜处的声压与自由空间(当没有观察者时，头的中心点处)的声压之比，它是方向、距离、频率的函数，它的时域表示是头相关冲击响应(Head-Related ImpulseResponse，HRIR)，左右耳有各自的HRTF。双耳听觉技术将声源与给定空间位置左右耳的HRIR卷积，用耳机播放给双耳听，得到虚拟的空间位置，从而还原三维声场。

由于每个人的生理结构不同，HRTF也不同，为了更好的还原三维声场，需要得到个性化的HRTF。现有技术中，HRTF的个性化方法主要有：

一、结构模型法。该方法将不同的生理结构用各种滤波器结构进行表示，每个生理结构单独考虑将每个部分的贡献用一子滤波器结构代表，所有子滤波器的组合效果代表完整的HRTF。该方法中的滤波器***较多，获得个性化HRTF时，需要调节的滤波器***多；并且，该方法没有考虑声源与双耳之间的距离因素，而在HRTF的个性化调节过程中，人耳的听觉反馈是调节的依据，为了还原真实的三维声场，有必要考虑距离因素，否则，获得的HRTF的个性化效果较差、精确度较差。

二、主成分分析(Principal Components Analysis，PCA)法。该方法用PCA给HRTF或HRIR建模，选取标准差最大的3～5个基向量(Principal Component，PC)，测试者通过调节界面不断调整基向量系数(Principal Component Weight，PCW)来获得较为准确的空间感。同样地，该方法没有考虑声源与双耳之间的距离因素，致使获得的HRTF的个性化效果较差、精确度较差。

发明内容

本发明实施例的目的在于提供一种头相关传递函数的个性化方法及***，旨在解决现有技术提供的HRTF的个性化方法没有考虑声源与双耳之间的距离因素，致使获得的HRTF的个性化效果较差、精确度较差的问题。

本发明实施例是这样实现的，一种头相关传递函数的个性化方法，所述方法包括以下步骤：

S1：对单声道声源输入信号进行与距离相关的增益滤波处理，得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号；

S2：基于HRTF数据库的测量数据，对双耳极坐标系下的水平角进行主成分分析，以重构HRIR，并结合所述左耳声源输出信号和所述右耳声源输出信号，调整HRIR，得到个性化的HRIR；

S3：基于HRTF数据库的测量数据，对双耳极坐标系下的高度角进行主成分分析，以重构PRIR，并结合所述左耳声源输出信号和所述右耳声源输出信号，调整PRIR，得到个性化的PRIR。

本发明实施例的另一目的在于提供一种头相关传递函数的个性化***，所述***包括：

增益滤波模块，用于对单声道声源输入信号进行与距离相关的增益滤波处理，得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号；

水平角个性化模块，用于基于HRTF数据库的测量数据，对双耳极坐标系下的水平角进行主成分分析，以重构HRIR，并结合所述增益滤波模块得到的所述左耳声源输出信号和所述右耳声源输出信号，调整HRIR，得到个性化的HRIR；

高度角个性化模块，用于基于HRTF数据库的测量数据，对双耳极坐标系下的高度角进行主成分分析，以重构PRIR，并结合所述增益滤波模块得到的所述左耳声源输出信号和所述右耳声源输出信号，调整PRIR，得到个性化的PRIR。

本发明提供的头相关传递函数的个性化方法及***首先建立距离模型，得到与距离相关的声源信号，之后利用PCA分别给水平角和高度角建模，在HRTF的个性化调节过程中，利用与距离相关的声源信号对模型参数进行个性化调节，以感受到声源的正确方位，继而获得个性化的HRTF，实现了结构化HRTF模型与PCA系数调节的结合，由于建立的距离模型考虑到了声源与双耳之间的距离因素，使得测量者可以感受到距离的变化，因而获得的HRTF的个性化效果好、精确度高。

附图说明

图1是是双耳极坐标系示意图；

图2是本发明实施例一提供的头相关传递函数的个性化方法的流程图；

图3是本发明实施例一中，增益滤波处理步骤的详细流程图；

图4是本发明实施例一中，水平角个性化步骤的详细流程图；

图5是本发明实施例一中，高度角个性化步骤的详细流程图；

图6是本发明实施例二中，水平角个性化步骤的详细流程图；

图7是本发明实施例三提供的头相关传递函数的个性化***的结构图；

图8是本发明实施例三中，增益滤波模块的结构图；

图9是本发明实施例三中，水平角个性化模块的结构图；

图10是本发明实施例三中，高度角个性化模块的结构图；

图11是本发明实施例四中，水平角个性化模块的结构图。

具体实施方式

以下结合技术方案和附图详细叙述本发明的具体实施方式。

为解决现有技术存在的问题，本发明首先建立距离模型，得到与距离相关的声源信号，之后利用PCA分别给水平角和高度角建模，在HRTF的个性化调节过程中，利用与距离相关的声源信号对模型参数进行个性化调节，以感受到声源的正确方位，继而获得个性化的HRTF。

本发明采用双耳极坐标系来描述声源与人体的相对位置。如图1所示，双耳极坐标系以双耳连线中点作为坐标原点，定义了：水平面，即穿过原点与地面平行的平面；中垂面，即穿过原点将人体左右两侧平分的平面；前平面，即穿过原点及双耳连线、与地面垂直将人体认为前后两部分的平面；水平角θ，即声源与原点连线与中垂面之间的夹角；高度角即声源与双耳连线所构成半平面与前半水平面之间的夹角；左耳的入射角θ_linc，即原点到声源的射线与原点到左耳的射线之间的夹角；右耳的入射角θ_rinc，即原点到声源的射线与原点到右耳的射线之间的夹角；距离r，即声源到原点的距离。在测试者的正前方，水平角θ和高度角都为0°；当水平角θ为0°时，高度角在中垂面变化，上方的为90°，后方的为180°，下方的为270°；当高度角为0°时，水平角θ在水平面变化，右耳为90°，后方为180°，左耳为270°。

以下将结合实施例详细说明本发明的实现方式：

实施例一

本发明实施例一提供了一种头相关传递函数的个性化方法，如图2所示，包括以下步骤：

S1：对单声道声源输入信号进行与距离相关的增益滤波处理，得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号。

进一步地，如图3所示，步骤S1包括以下步骤：

S11：计算左耳的直流增益估计值和右耳的直流增益估计值其中，左耳的直流增益估计值可表示为：

{\tilde{G}}_{l 0} (θ_{l i n c}, ρ) = \frac{p_{11} (θ_{l i n c}) ρ + p_{21} (θ_{l i n c})}{ρ^{2} + q_{11} (θ_{l i n c}) ρ + q_{21} (θ_{l i n c})}

右耳的直流增益估计值可表示为：

{\tilde{G}}_{r 0} (θ_{r i n c}, ρ) = \frac{p_{11} (θ_{r i n c}) ρ + p_{21} (θ_{r i n c})}{ρ^{2} + q_{11} (θ_{r i n c}) ρ + q_{21} (θ_{r i n c})}

其中，θ_linc为左耳的入射角，θ_rinc为右耳的入射角，ρ为声源与头中心的距离r与头半径的比值，p₁₁、p₂₁、q₁₁、q₂₁分别为多项式的系数，可通过查如下表一得到：

表一

在表一中，左耳的入射角θ_linc或右耳的入射角θ_rinc的取值范围为0°，10°，…，180°，若实际测得的左耳的入射角θ_linc或右耳的入射角θ_rinc的取值不在此范围，则可对邻近角度的计算结果进行线性插值而得到。举例来说，若实际测得的左耳的入射角θ_linc＝5°，则分别计算左耳的入射角θ_linc＝0°和左耳的入射角θ_linc＝10°时的左耳的直流增益估计值之后对得到的二个值取平均值，作为左耳的入射角θ_linc＝5°时的左耳的直流增益估计值即可。

S12：计算左耳的一阶IIR滤波器系数h_lsh和右耳的一阶IIR滤波器系数h_rsh。

近场转移函数G_l0(或G_r0)的幅频响应的特点是：当左耳的入射角θ_linc(或右耳的入射角θ_rinc)较小时，幅频响应类似倾斜型滤波器的频响，随着左耳的入射角θ_linc(或右耳的入射角θ_rinc)增加，幅频响应逐渐呈现低通特性。本发明中，采用左耳的一阶IIR滤波器H_lsh描述幅频响应随左耳的入射角θ_linc的变化特性，采用右耳的一阶IIR滤波器H_rsh描述幅频响应随右耳的入射角θ_rinc的变化特性。

本发明中，左耳的一阶IIR滤波器系数h_lsh的z域表达式为：

H_{l s h} (z) = 1 + \frac{H_{l 0}}{2} (1 - \frac{z^{- 1} + a_{l c}}{1 + a_{l c} z^{- 1}})

其中，

a_{l c} = \frac{V_{l 0} t a n (π \frac{{\tilde{f}}_{l c}}{f_{s}}) - 1}{V_{l 0} \tan (π \frac{{\tilde{f}}_{l c}}{f_{s}}) + 1}

V_{l 0} = 10^{\frac{{\tilde{G}}_{l \infty}}{20}}

H_l0＝V_l0-1

其中，f_s为采样频率，为左耳的高频增益，为左耳的截断频率，和可分别表示为：

{\tilde{G}}_{l \infty} (θ_{l i n c}, ρ) = \frac{p_{12} (θ_{l i n c}) ρ + p_{22} (θ_{l i n c})}{ρ^{2} + q_{12} (θ_{l i n c}) ρ + q_{22} (θ_{l i n c})}

{\tilde{f}}_{l c} (θ_{l i n c}, ρ) = \frac{p_{13} ρ^{2} + p_{23} (θ_{l i n c}) ρ + p_{33} (θ_{l i n c})}{ρ^{2} + q_{13} (θ_{l i n c}) ρ + q_{23} (θ_{l i n c})}

其中，p₁₂、p₂₂、q₁₂、q₂₂分别为多项式的系数，可通过查如下表二得到：

表二

其中，p₁₃、p₂₃、p₃₃、q₁₃、q₂₃分别为多项式的系数，可通过查如下表三得到：

表三

类似地，本发明中，右耳的一阶IIR滤波器系数h_rsh的z域表达式为：

H_{r s h} (z) = 1 + \frac{H_{r 0}}{2} (1 - \frac{z^{- 1} + a_{r c}}{1 + a_{r c} z^{- 1}})

其中，

a_{r c} = \frac{V_{r 0} t a n (π \frac{{\tilde{f}}_{r c}}{f_{s}}) - 1}{V_{r 0} \tan (π \frac{{\tilde{f}}_{r c}}{f_{s}}) + 1}

V_{r 0} = 10^{\frac{{\tilde{G}}_{r \infty}}{20}}

H_r0＝V_r0-1

其中，f_s为采样频率，为右耳的高频增益，为右耳的截断频率，和可分别表示为：

{\tilde{G}}_{r \infty} (θ_{r i n c}, ρ) = \frac{p_{12} (θ_{r i n c}) ρ + p_{22} (θ_{r i n c})}{ρ^{2} + q_{12} (θ_{r i n c}) ρ + q_{22} (θ_{r i n c})}

{\tilde{f}}_{r c} (θ_{r i n c}, ρ) = \frac{p_{13} ρ^{2} + p_{23} (θ_{r i n c}) ρ + p_{33} (θ_{r i n c})}{ρ^{2} + q_{13} (θ_{r i n c}) ρ + q_{23} (θ_{r i n c})}

其中，p₁₂、p₂₂、q₁₂、q₂₂分别为多项式的系数，可通过查如上表二得到。其中，p₁₃、p₂₃、p₃₃、q₁₃、q₂₃分别为多项式的系数，可通过查如上表三得到。

S13：计算左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，使得：

y_{l} (t) = {\tilde{G}}_{l 0} \cdot x (t) * h_{l s h}

y_{r} (t) = {\tilde{G}}_{r 0} \cdot x (t) * h_{r s h}

其中，x(t)为输入的单声道声源信号，“·”表示相乘，“*”表示卷积。

S2：基于HRTF数据库的测量数据，对双耳极坐标系下的水平角进行主成分分析，以重构HRIR，并结合左耳声源输出信号和右耳声源输出信号，调整HRIR，得到个性化的HRIR。

其中，HRTF数据库可以是KEMER-MIT数据库、LISTEN数据库、CIPIC数据库等，为便于描述，本发明仅以CIPIC为例进行说明。CIPIC数据库的测量对象包括43名真人和2个平均人工头，高度角50个，从-45°变化到230.625°，水平角25个，从-80°变化到80°，一共1250个空间测量方位，每个HRIR有200个采样数据，长度为4.5ms。特别地，CIPIC数据库水平面有50个水平角(高度角为0°和180°各25个水平角，也即测量者的正前、正后方各25个水平角)，本文设定高度角的范围是-40°到90°，步长为10°。同时，CIPIC数据库还收录了被测者的头宽、头长等一些生理尺寸的测量结果。

进一步地，如图4所示，步骤S2可包括以下步骤：

S201：构建N_h行、M_h列的源数据矩阵X_h。

在实施例一中，基于HRTF数据库的测量数据，构建源数据矩阵X_h。由于每一HRIR有200个采样数据，左耳和右耳一共是400个，故N_h＝400。由于CIPIC数据库共45个被测者，每一被测者在水平面50个角度测量HRTF，故M_h＝45×50＝2250。

S202：对源数据矩阵X_h去均值，得到去均值后的矩阵B_h。

具体地，步骤S202又包括以下步骤：

首先，对源数据矩阵X_h的每一行元素求均值，得到一个维度为N_h×1的列向量μ_h，表示为：

μ_{h} [n] = \frac{1}{M_{h}} Σ_{m = 1}^{M_{h}} X [n, m]

其中，n表示采样点数，n＝1,2,...,N_h。之后，对源数据矩阵X_h去均值，设一维度为1×M_h的行向量h_h，行向量h_h中的每一元素均为1，则去均值后的矩阵B_h表示为：

B_h＝X_h-μ_hh_h

S203：利用去均值后的矩阵B_h，计算协方差矩阵C_h，表示为：

C_{h} = E [B_{h} &CircleTimes; B_{h}] = \frac{1}{M_{h} - 1} B_{h} {B_{h}}^{H}

其中，表示外积，“H”表示共轭转置，得到的协方差矩阵C_h的维度为N_h×N_h。

S204：对协方差矩阵C_h进行奇异值分解，构建基向量矩阵V_h，并得到基向量系数矩阵W_h。

本发明中，对协方差矩阵C_h进行奇异值分解，与q_h个最大奇异值对应的向量是N_h×1维的基向量v_hi，i＝1,2,...,q_h，q_h个基向量构成基向量矩阵V_h，表示为：

V_h＝[v₁,v₂,…,v_qh]

基向量系数矩阵W_h表示为：

W_h＝V_h ^TB_h

基向量系数矩阵W_h中的维度为q_h×M_h，其每一元素表示每个基向量对矩阵B_h的贡献，矩阵B_h可以由q_h个基向量的线性组合进行重构，如果q_h＝N_h，则可完全重构矩阵B_h，实际中q_h小于N_h，仍可获得较高的重构精度。

S205：计算重构的HRIR矩阵表示为：

{\tilde{X}}_{h} = V_{h} W_{h} + μ_{h} h_{h}

重构误差e_h表示为：

e_{h} = \frac{1}{M_{h}} Σ_{i = 1}^{M_{h}} \frac{| | x_{h i} - {\tilde{x}}_{h i} | |_{2}^{2}}{| | x_{h i} | |_{2}^{2}} \times 100 (%)

其中的x_hi是X_h的列向量。本发明中，q_h优选为25，则e_h<5％。

S206：对每一水平角的每一基向量，计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足：

m_w_{θ, i_{h}} = \frac{1}{45} Σ_{j = 1}^{45} w_{j, θ, i_{h}}

s_w_{θ, i_{h}} = \sqrt{\frac{1}{45} Σ_{j = 1}^{45} {(w_{j, θ, i_{h}} - m_w_{θ, i_{h}})}^{2}}

其中，θ表示水平角，取值是0°，5°，…，45°，55°，65°，80°，100°，115°，125°，135°，140°，…，225°，235°，245°，260°，280°，295°，305°，315°，320°，…，355°，i_h取值1,2,...,q_h，表示第j个被测者在水平角θ第i_h个基函数的主成分系数。

S207：对每一水平角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳。

由于前5个基向量系数的均值随水平角变化的幅度较大，标准差也较大，而其它基向量系数的均值基本无变换，标准差较小，故本发明仅调节前5个标准差最大时对应的基向量系数的均值，其它的基向量系数的均值不调节。

具体来说，结合左耳声源输出信号和右耳声源输出信号，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳的步骤可详述为：在每一水平角下，按照标准差从大到小的顺序，顺次调整5个对应的基向量系数的均值，对于每一基向量系数的均值，调节范围为±3σ，调节步长0.2σ，首先对当前调节的基向量系数的均值增加ΔPCW，其它基向量系数的均值保持不变，比较调节前后分别合成的HRIR滤波后的声源方位角是否变化，若无变化，则增加ΔPCW，若有变化，则减小ΔPCW，直到找到可以感受到声源方位角变化的最小ΔPCW，完成第一轮调节。如此反复完成对5个基向量系数的均值的三轮调节。

S208：根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的HRIR，即为得到的个性化的HRIR。具体的计算过程如前述步骤S205所述，不赘述。

S3：基于HRTF数据库的测量数据，对双耳极坐标系下的高度角进行主成分分析，以重构与耳廓相关冲击响应(Pinna-Related Impulse Response，PRIR)，并结合左耳声源输出信号和右耳声源输出信号，调整PRIR，得到个性化的PRIR。

进一步地，如图5所示，步骤S3可包括以下步骤：

S300：将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉，并加1.5ms汉宁窗，得到PRIR。

S301：构建N_v行、M_v列的源数据矩阵X_v。

其中，由于CIPIC数据库的HRTF的采样频率是44.1KHZ，加1.5ms汉宁窗后，只取1.5ms数据，故N_v＝44.1×1.5＝66。由于CIPIC数据库共45个被测者，每一被测者14个高度角，故M_v＝45×14＝630。

S302：对源数据矩阵X_v去均值，得到去均值后的矩阵B_v。

具体地，步骤S302又包括以下步骤：

首先，对源数据矩阵X_v的每一行元素求均值，得到一个维度为N_v×1的列向量μ_v，表示为：

μ_{v} [n] = \frac{1}{M_{v}} Σ_{m = 1}^{M_{v}} X [n, m]

其中，n表示采样点数，n＝1,2,...,N_v。之后，对源数据矩阵X_v去均值，设一维度为1×M_v的行向量h_v，行向量h_v中的每一元素均为1，则去均值后的矩阵B_v表示为：

B_v＝X_v-μ_vh_v

S303：利用去均值后的矩阵B_v，计算协方差矩阵C_v，表示为：

C_{v} = E [B_{v} &CircleTimes; B_{v}] = \frac{1}{M_{v} - 1} B_{v} {B_{v}}^{H}

其中，表示外积，“H”表示共轭转置，得到的协方差矩阵C_v的维度为N_v×N_v。

S304：对协方差矩阵C_v进行奇异值分解，构建基向量矩阵V_v，并得到基向量系数矩阵W_v。

本发明中，对协方差矩阵C_v进行奇异值分解，与q_v个最大奇异值对应的向量是N_v×1维的基向量v_vi，i＝1,2,...,q_v，q_v个基向量构成基向量矩阵V_v，表示为：

V_{v} = [v_{1}, v_{2}, ..., v_{q_{v}}]

基向量系数矩阵W_v表示为：

W_v＝V_v ^TB_v

基向量系数矩阵W_v中的维度为q_v×M_v，其每一元素表示每个基向量对矩阵B_v的贡献，矩阵B_v可以由q_v个基向量的线性组合进行重构，如果q_v＝N_v，则可完全重构矩阵B_v，实际中q_v小于N_v，仍可获得较高的重构精度。

S305：计算重构的PRIR矩阵表示为：

{\tilde{X}}_{v} = V_{v} W_{v} + μ_{v} h_{v}

重构误差e_v表示为：

e_{v} = \frac{1}{M_{v}} Σ_{i = 1}^{M_{v}} \frac{| | x_{v i} - {\tilde{x}}_{v i} | |_{2}^{2}}{| | x_{v i} | |_{2}^{2}} \times 100 (%)

其中的x_vi是X_v的列向量。本发明中，q_v优选为12，则e_v<5％。

S306：对每一高度角的每一基向量，计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足：

其中，表示高度角，取值是-40°,-30°,…,90°，i_v取值1,2,...,q_v，表示第j个被测者在高度角第i_v个基函数的主成分系数。

S307：对每一高度角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳。

类似地，结合左耳声源输出信号和右耳声源输出信号，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳的步骤可详述为：在每一高度角下，按照标准差从大到小的顺序，顺次调整5个对应的基向量系数的均值，对于每一基向量系数的均值，调节范围为±3σ，调节步长0.2σ，首先对当前调节的基向量系数的均值增加ΔPCW，其它基向量系数的均值保持不变，比较调节前后分别合成的PRIR滤波后的声源方位角是否变化，若无变化，则增加ΔPCW，若有变化，则减小ΔPCW，直到找到可以感受到声源方位角变化的最小ΔPCW，完成第一轮调节。如此反复完成对5个基向量系数的均值的三轮调节。

S308：根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的PRIR，即为得到的个性化的PRIR。具体的计算过程如前述步骤S305所述，不赘述。

实施例二

本发明实施例二提供了一种头相关传递函数的个性化方法。与实施例一不同，为了改善水平角定位，进一步优化个性化效果，如图6所示，在步骤S201之前，还可包括以下步骤：

S200：对HRTF数据库中每个测量者在每一水平角下的左耳HRIR和右耳HRIR去除初始时延，之后将每一HRIR末尾补零至200个采样点。

此时，在步骤S208之后，还包括以下步骤：

S209：调节HRTF数据库中每一HRIR的初始时延，当测量者感受不到水平角变化时，将此时的时延值加到调整后的对应的HRIR上。

其中，初始时延的调节初始值为声源到全部测量者左右耳的时延平均值，表示为：

其中，为高度角，为第j个测量者在高度角的时延。调节的范围为±3倍标准差，标准差满足：

实施例二的其它方法步骤描述与实施例一相同，不赘述。以下以一主观听觉实验说明经实施例二个性化后的HRTF的定位效果：

假设4个测量者(包括2男性、2女性)分别用CIPIC数据库的平均人工头(subject_165)的HRTF和经实施例二个性化得到的HRTF进行方位角定位实验，用个性化的HRTF进行距离定位实验，实验设置如下：

距离定位实验，θ＝90°，距离为20cm，40cm，75cm，130cm；

水平角定位实验，距离为50cm，θ＝0°，30°，…，330°；

高度角定位实验，距离为50cm，θ＝0°，0°，…，90°。

每组实验重复5次，随机打乱顺序，4个测量者分别完成20组距离定位实验，60组水平角定位实验，25组高度角定位实验。实验在一台笔记本电脑上进行，用一小段语音做声源，所用耳机为森海塞尔HD201。实验前，测量者分别试听两个HRTF数据库在上述给定方位的声音，对距离，水平角，高度角有感知。

实验结果如下表四所示：

表四

由表四可见，距离定位实验的平均准确率为80％。使用subject_165的HRTF，四个测量者的水平角平均定位准确度为35％，包含前后混淆的定位准确度为52％。经过个性化调节，定位准确度提高了12.5％，前后混淆误差减小。经过个性化调节，高度角平均定位准确度提高了14％。

实施例三

本发明实施例三提供了一种头相关传递函数的个性化***。如图7所示，包括：增益滤波模块1，用于对单声道声源输入信号进行与距离相关的增益滤波处理，得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号；水平角个性化模块2，用于基于HRTF数据库的测量数据，对双耳极坐标系下的水平角进行主成分分析，以重构HRIR，并结合增益滤波模块1得到的左耳声源输出信号和右耳声源输出信号，调整HRIR，得到个性化的HRIR；高度角个性化模块3，用于基于HRTF数据库的测量数据，对双耳极坐标系下的高度角进行主成分分析，以重构PRIR，并结合增益滤波模块1得到的左耳声源输出信号和右耳声源输出信号，调整PRIR，得到个性化的PRIR。

进一步地，如图8所示，增益滤波模块1可包括：第一计算子模块11，用于计算左耳的直流增益估计值和右耳的直流增益估计值其计算公式如实施例一所述，不赘述；第二计算子模块12，用于计算左耳的一阶IIR滤波器系数h_lsh和右耳的一阶IIR滤波器系数h_rsh，其计算公式如实施例一所述，不赘述；第三计算子模块13，用于计算左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，其计算公式如实施例一所述，不赘述。

进一步地，如图9所示，水平角个性化模块2可包括：第一矩阵构建子模块201，用于构建N_h行、M_h列的源数据矩阵X_h，对源数据矩阵X_h的描述如实施例一所述，不赘述；第一去均值子模块202，用于对源数据矩阵X_h去均值，得到去均值后的矩阵B_h，该执行过程如实施例一中的步骤S202所述，不赘述；第四计算子模块203，用于利用去均值后的矩阵B_h，计算协方差矩阵C_h，计算公式如实施例一所述，不赘述；第二矩阵构建子模块204，用于对协方差矩阵C_h进行奇异值分解，构建基向量矩阵V_h，并得到基向量系数矩阵W_h，计算公式如实施例一所述，不赘述；第五计算子模块205，用于计算重构的HRIR矩阵计算公式如实施例一所述，不赘述；第六计算子模块206，用于对每一水平角的每一基向量，计算HRTF数据库中全部测量者的基向量系数的均值和标准差计算公式如实施例一所述，不赘述；第一调节子模块207，用于对每一水平角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳，具体的调节过程如实施例一中的步骤S207所述，不赘述；第一调整子模块208，用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的HRIR，即为得到的个性化的HRIR。具体的计算过程如前述步骤S205所述，不赘述。

进一步地，如图10所示，高度角个性化模块3可包括：PRIR获取子模块300，用于将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉，并加1.5ms汉宁窗，得到PRIR；第三矩阵构建子模块301，用于构建N_v行、M_v列的源数据矩阵X_v，对源数据矩阵X_v的描述如实施例一所述，不赘述；第二去均值子模块302，用于对源数据矩阵X_v去均值，得到去均值后的矩阵B_v，其执行过程如实施例一所述，不赘述；第七计算子模块303，用于利用去均值后的矩阵B_v，计算协方差矩阵C_v，计算公式如实施例一所述，不赘述；第四矩阵构建子模块304，用于对协方差矩阵C_v进行奇异值分解，构建基向量矩阵V_v，并得到基向量系数矩阵W_v，计算公式如实施例一所述，不赘述；第八计算子模块305，用于计算重构的PRIR矩阵计算公式如实施例一所述，不赘述；第九计算子模块306，用于对每一高度角的每一基向量，计算HRTF数据库中全部测量者的基向量系数的均值和标准差计算公式如实施例一所述，不赘述；第二调节子模块307，用于对每一高度角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳，具体的调节过程如实施例一中的步骤S307所述，不赘述；第二调整子模块308，用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的PRIR，即为得到的个性化的PRIR。具体的计算过程如前述步骤S305所述，不赘述。

实施例四

本发明实施例四提供了一种头相关传递函数的个性化***。与实施例三不同，为了改善水平角定位，进一步优化个性化效果，如图11所示，水平角个性化模块2还包括：去时延子模块200，用于对HRTF数据库中每个测量者在每一水平角下的左耳HRIR和右耳HRIR去除初始时延，之后将每一HRIR末尾补零至200个采样点，之后由第一矩阵构建子模块201根据去时延子模块200的执行结果继续执行；初始时延调节及附加子模块209，用于在第一调整子模块208执行完毕后，调节HRTF数据库中每一HRIR的初始时延，当测量者感受不到水平角变化时，将此时的时延值加到调整后的对应的HRIR上，对初始时延的调节过程如实施例二所述，不赘述。

实施例四的其它***结构与实施例三相同，不赘述。

综上所述，本发明提供的头相关传递函数的个性化方法及***首先建立距离模型，得到与距离相关的声源信号，之后利用PCA分别给水平角和高度角建模，在HRTF的个性化调节过程中，利用与距离相关的声源信号对模型参数进行个性化调节，以感受到声源的正确方位，继而获得个性化的HRTF，实现了结构化HRTF模型与PCA系数调节的结合，由于建立的距离模型考虑到了声源与双耳之间的距离因素，使得测量者可以感受到距离的变化，因而获得的HRTF的个性化效果好、精确度高。再有，距离模型、水平角个性化调节模型与高度角个性化调节模块采用级联方式，简化了HRTF的个性化过程，执行效率高。再有，对于每一水平角或高度角，只需调节5个主成分系数即可，调节的系数少。最后，在水平角个性化调节中，在调节前，将HRTF数据库中的HRIR的初始时延去掉，并在HRIR调节后，调节初始时延以改变声源到左右耳的时延之差，之后将调节后的初始时延附加到所得到的HRIR上，从而改善了水平角定位，进一步优化了个性化效果。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种头相关传递函数的个性化方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的头相关传递函数的个性化方法，其特征在于，所述步骤S1包括以下步骤：

S11：计算左耳的直流增益估计值和右耳的直流增益估计值满足：

{\tilde{G}}_{l 0} (θ_{l i n c}, ρ) = \frac{p_{11} (θ_{l i n c}) ρ + p_{21} (θ_{l i n c})}{ρ^{2} + q_{11} (θ_{l i n c}) ρ + q_{21} (θ_{l i n c})}

{\tilde{G}}_{r 0} (θ_{r i n c}, ρ) = \frac{p_{11} (θ_{r i n c}) ρ + p_{21} (θ_{r i n c})}{ρ^{2} + q_{11} (θ_{r i n c}) ρ + q_{21} (θ_{r i n c})}

其中，θ_linc为左耳的入射角，θ_rinc为右耳的入射角，ρ为声源与头中心的距离r与头半径的比值，p₁₁、p₂₁、q₁₁、q₂₁分别为多项式的系数；

S12：计算左耳的一阶IIR滤波器系数h_lsh和右耳的一阶IIR滤波器系数h_rsh；

y_{l} (t) = {\tilde{G}}_{l 0} \cdot x (t) * h_{l s h}

y_{r} (t) = {\tilde{G}}_{r 0} \cdot x (t) * h_{r s h}

3.如权利要求2所述的头相关传递函数的个性化方法，其特征在于，所述左耳的一阶IIR滤波器系数h_lsh的z域表达式为：

H_{l s h} (z) = 1 + \frac{H_{l 0}}{2} (1 - \frac{z^{- 1} + a_{l c}}{1 + a_{l c} z^{- 1}})

其中，

a_{l c} = \frac{V_{l 0} t a n (π \frac{{\tilde{f}}_{l c}}{f_{s}}) - 1}{V_{l 0} \tan (π \frac{{\tilde{f}}_{l c}}{f_{s}}) + 1}

V_{l 0} = 10^{\frac{{\tilde{G}}_{l \infty}}{20}}

H_l0＝V_l0-1

{\tilde{G}}_{l \infty} (θ_{l i n c}, ρ) = \frac{p_{12} (θ_{l i n c}) ρ + p_{22} (θ_{l i n c})}{ρ^{2} + q_{12} (θ_{l i n c}) ρ + q_{22} (θ_{l i n c})}

{\tilde{f}}_{l c} (θ_{l i n c}, ρ) = \frac{p_{13} ρ^{2} + p_{23} (θ_{l i n c}) ρ + p_{33} (θ_{l i n c})}{ρ^{2} + q_{13} (θ_{l i n c}) ρ + q_{23} (θ_{l i n c})}

其中，p₁₂、p₂₂、q₁₂、q₂₂分别为多项式的系数，p₁₃、p₂₃、p₃₃、q₁₃、q₂₃分别为多项式的系数；

所述右耳的一阶IIR滤波器系数h_rsh的z域表达式为：

H_{r s h} (z) = 1 + \frac{H_{r 0}}{2} (1 - \frac{z^{- 1} + a_{r c}}{1 + a_{r c} z^{- 1}})

其中，

a_{r c} = \frac{V_{r 0} t a n (π \frac{{\tilde{f}}_{r c}}{f_{s}}) - 1}{V_{r 0} \tan (π \frac{{\tilde{f}}_{r c}}{f_{s}}) + 1}

V_{r 0} = 10^{\frac{{\tilde{G}}_{r \infty}}{20}}

H_r0＝V_r0-1

{\tilde{G}}_{r \infty} (θ_{r i n c}, ρ) = \frac{p_{12} (θ_{r i n c}) ρ + p_{22} (θ_{r i n c})}{ρ^{2} + q_{12} (θ_{r i n c}) ρ + q_{22} (θ_{r i n c})}

{\tilde{f}}_{r c} (θ_{r i n c}, ρ) = \frac{p_{13} ρ^{2} + p_{23} (θ_{r i n c}) ρ + p_{33} (θ_{r i n c})}{ρ^{2} + q_{13} (θ_{r i n c}) ρ + q_{23} (θ_{r i n c})} .

4.如权利要求1所述的头相关传递函数的个性化方法，其特征在于，所述步骤S2包括以下步骤：

S201：构建N_h行、M_h列的源数据矩阵X_h；

S202：对所述源数据矩阵X_h去均值，得到去均值后的矩阵B_h；

S203：利用去均值后的所述矩阵B_h，计算协方差矩阵C_h，表示为：

C_{h} = E [B_{h} &CircleTimes; B_{h}] = \frac{1}{M_{h} - 1} B_{h} {B_{h}}^{H};

S204：对所述协方差矩阵C_h进行奇异值分解，构建基向量矩阵V_h，并得到基向量系数矩阵W_h，表示为：

V_{h} = [v_{1}, v_{2}, ..., v_{q_{h}}]

W_h＝V_h ^TB_h；

S205：计算重构的HRIR矩阵表示为：

{\tilde{X}}_{h} = V_{h} W_{h} + μ_{h} h_{h}

其中，μ_h为对所述源数据矩阵X_h的每一行元素求均值而得到的一维度为N_h×1的列向量，h_h为一维度为1×M_h的行向量，行向量h_h中的每一元素均为1；

m_w_{θ, i_{h}} = \frac{1}{45} Σ_{j = 1}^{45} w_{j, θ, i_{h}}

s_w_{θ, i_{h}} = \sqrt{\frac{1}{45} Σ_{j = 1}^{45} {(w_{j, θ, i_{h}} - m_w_{θ, i_{h}})}^{2}}

其中，θ表示水平角，取值是0°，5°，…，45°，55°，65°，80°，100°，115°，125°，135°，140°，…，225°，235°，245°，260°，280°，295°，305°，315°，320°，…，355°，i_h取值1,2,...,q_h，表示第j个被测者在水平角θ第i_h个基函数的主成分系数；

S207：对每一水平角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳；

S208：根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的HRIR，即为得到的个性化的HRIR。

5.如权利要求4所述的头相关传递函数的个性化方法，其特征在于，在所述步骤S201之前，所述方法还包括以下步骤：

S200：对HRTF数据库中每个测量者在每一水平角下的左耳HRIR和右耳HRIR去除初始时延，之后将每一HRIR末尾补零至200个采样点；

在所述步骤S209之后，所述方法还包括以下步骤：

6.如权利要求1所述的头相关传递函数的个性化方法，其特征在于，所述步骤S3包括以下步骤：

S300：将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉，并加1.5ms汉宁窗，得到PRIR；

S301：构建N_v行、M_v列的源数据矩阵X_v；

S302：对所述源数据矩阵X_v去均值，得到去均值后的矩阵B_v；

S303：利用去均值后的矩阵B_v，计算协方差矩阵C_v，表示为：

C_{v} = E [B_{v} &CircleTimes; B_{v}] = \frac{1}{M_{v} - 1} B_{v} {B_{v}}^{H};

S304：对协方差矩阵C_v进行奇异值分解，构建基向量矩阵V_v，并得到基向量系数矩阵W_v，表示为：

V_{v} = [v_{1}, v_{2}, ..., v_{q_{v}}]

W_v＝V_v ^TB_v；

S305：计算重构的PRIR矩阵表示为：

{\tilde{X}}_{v} = V_{v} W_{v} + μ_{v} h_{v}

其中，μ_v为对所述源数据矩阵X_v的每一行元素求均值而得到的一维度为N_v×1的列向量，h_v为一维度为1×M_v的行向量，行向量h_v中的每一元素均为1；

其中，表示高度角，取值是-40°,-30°,…,90°，i_v取值1,2,...,q_v，表示第j个被测者在高度角第i_v个基函数的主成分系数；

S307：对每一高度角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳；

S308：根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的PRIR，即为得到的个性化的PRIR。

7.一种头相关传递函数的个性化***，其特征在于，所述***包括：

8.如权利要求7所述的头相关传递函数的个性化***，其特征在于，所述增益滤波模块包括：

第一计算子模块，用于计算左耳的直流增益估计值和右耳的直流增益估计值满足：

{\tilde{G}}_{l 0} (θ_{l i n c}, ρ) = \frac{p_{11} (θ_{l i n c}) ρ + p_{21} (θ_{l i n c})}{ρ^{2} + q_{11} (θ_{l i n c}) ρ + q_{21} (θ_{l i n c})}

{\tilde{G}}_{r 0} (θ_{r i n c}, ρ) = \frac{p_{11} (θ_{r i n c}) ρ + p_{21} (θ_{r i n c})}{ρ^{2} + q_{11} (θ_{r i n c}) ρ + q_{21} (θ_{r i n c})}

第二计算子模块，用于计算左耳的一阶IIR滤波器系数h_lsh和右耳的一阶IIR滤波器系数h_rsh；

第三计算子模块，用于计算左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，使得：

y_{l} (t) = {\tilde{G}}_{l 0} \cdot x (t) * h_{l s h}

y_{r} (t) = {\tilde{G}}_{r 0} \cdot x (t) * h_{r s h}

9.如权利要求7所述的头相关传递函数的个性化***，其特征在于，所述水平角个性化模块包括：

第一矩阵构建子模块，用于构建N_h行、M_h列的源数据矩阵X_h；

第一去均值子模块，用于对所述源数据矩阵X_h去均值，得到去均值后的矩阵B_h；

第四计算子模块，用于利用去均值后的所述矩阵B_h，计算协方差矩阵C_h，表示为：

C_{h} = E [B_{h} &CircleTimes; B_{h}] = \frac{1}{M_{h} - 1} B_{h} {B_{h}}^{H};

第二矩阵构建子模块，用于对所述协方差矩阵C_h进行奇异值分解，构建基向量矩阵V_h，并得到基向量系数矩阵W_h，表示为：

V_{h} = [v_{1}, ..., v_{q_{h}}]

W_h＝V_h ^TB_h；

第五计算子模块，用于计算重构的HRIR矩阵表示为：

{\tilde{X}}_{h} = V_{h} W_{h} + μ_{h} h_{h}

第六计算子模块，用于对每一水平角的每一基向量，计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足：

m_w_{θ, i_{h}} = \frac{1}{45} Σ_{j = 1}^{45} w_{j, θ, i_{h}}

s_w_{θ, i_{h}} = \sqrt{\frac{1}{45} Σ_{j = 1}^{45} {(w_{j, θ, i_{h}} - m_w_{θ, i_{h}})}^{2}}

第一调节子模块，用于对每一水平角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳；

第一调整子模块，用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的HRIR，即为得到的个性化的HRIR。

10.如权利要求7所述的头相关传递函数的个性化***，其特征在于，所述高度角个性化模块包括：

PRIR获取子模块、，用于将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉，并加1.5ms汉宁窗，得到PRIR；

第三矩阵构建子模块，用于构建N_v行、M_v列的源数据矩阵X_v；

第二去均值子模块，用于对所述源数据矩阵X_v去均值，得到去均值后的矩阵B_v；

第七计算子模块，用于利用去均值后的矩阵B_v，计算协方差矩阵C_v，表示为：

C_{v} = E [B_{v} &CircleTimes; B_{v}] = \frac{1}{M_{v} - 1} B_{v} {B_{v}}^{H};

第四矩阵构建子模块，用于对协方差矩阵C_v进行奇异值分解，构建基向量矩阵V_v，并得到基向量系数矩阵W_v，表示为：

V_{v} = [v_{1}, v_{2}, ..., v_{q_{v}}]

W_v＝V_v ^TB_v；

第八计算子模块，用于计算重构的PRIR矩阵表示为：

{\tilde{X}}_{v} = V_{v} W_{v} + μ_{v} h_{v}

第九计算子模块，用于对每一高度角的每一基向量，计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足：

第二调节子模块，用于对每一高度角，提取前5个标准差最大时对应的基向量系数的均值，并结合左耳声源输出信号y_l(t)和右耳声源输出信号y_r(t)，对提取的基向量系数的均值进行调节，以使得主观感受到的声源方位角最佳；

第二调整子模块，用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵，得到调整后的PRIR，即为得到的个性化的PRIR。