CN106162499A - 一种头相关传递函数的个性化方法及*** - Google Patents
一种头相关传递函数的个性化方法及*** Download PDFInfo
- Publication number
- CN106162499A CN106162499A CN201610514079.9A CN201610514079A CN106162499A CN 106162499 A CN106162499 A CN 106162499A CN 201610514079 A CN201610514079 A CN 201610514079A CN 106162499 A CN106162499 A CN 106162499A
- Authority
- CN
- China
- Prior art keywords
- theta
- matrix
- rho
- average
- base vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/002—Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
- H04S1/005—For headphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2420/00—Techniques used stereophonic systems covered by H04S but not provided for in its groups
- H04S2420/01—Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
Landscapes
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Stereophonic System (AREA)
Abstract
本发明属于信号处理技术领域,提供了一种头相关传递函数的个性化方法及***。该方法及***首先建立距离模型,得到与距离相关的声源信号,之后利用PCA分别给水平角和高度角建模,在HRTF的个性化调节过程中,利用与距离相关的声源信号对模型参数进行个性化调节,以感受到声源的正确方位,继而获得个性化的HRTF,实现了结构化HRTF模型与PCA系数调节的结合,由于建立的距离模型考虑到了声源与双耳之间的距离因素,使得测量者可以感受到距离的变化,因而获得的HRTF的个性化效果好、精确度高。
Description
技术领域
本发明属于信号处理领域,尤其涉及一种基于结构模型和主成分分析的头相关传递函数的个性化方法、***。
背景技术
随着虚拟现实技术的快速发展,3D音频以其“临场感”、“沉浸感”受到追捧。双耳听觉技术利用头相关传递函数(Head-Related Transfer Function,HRTF)还原三维声场。
HRTF为耳膜处的声压与自由空间(当没有观察者时,头的中心点处)的声压之比,它是方向、距离、频率的函数,它的时域表示是头相关冲击响应(Head-Related ImpulseResponse,HRIR),左右耳有各自的HRTF。双耳听觉技术将声源与给定空间位置左右耳的HRIR卷积,用耳机播放给双耳听,得到虚拟的空间位置,从而还原三维声场。
由于每个人的生理结构不同,HRTF也不同,为了更好的还原三维声场,需要得到个性化的HRTF。现有技术中,HRTF的个性化方法主要有:
一、结构模型法。该方法将不同的生理结构用各种滤波器结构进行表示,每个生理结构单独考虑将每个部分的贡献用一子滤波器结构代表,所有子滤波器的组合效果代表完整的HRTF。该方法中的滤波器***较多,获得个性化HRTF时,需要调节的滤波器***多;并且,该方法没有考虑声源与双耳之间的距离因素,而在HRTF的个性化调节过程中,人耳的听觉反馈是调节的依据,为了还原真实的三维声场,有必要考虑距离因素,否则,获得的HRTF的个性化效果较差、精确度较差。
二、主成分分析(Principal Components Analysis,PCA)法。该方法用PCA给HRTF或HRIR建模,选取标准差最大的3~5个基向量(Principal Component,PC),测试者通过调节界面不断调整基向量系数(Principal Component Weight,PCW)来获得较为准确的空间感。同样地,该方法没有考虑声源与双耳之间的距离因素,致使获得的HRTF的个性化效果较差、精确度较差。
发明内容
本发明实施例的目的在于提供一种头相关传递函数的个性化方法及***,旨在解决现有技术提供的HRTF的个性化方法没有考虑声源与双耳之间的距离因素,致使获得的HRTF的个性化效果较差、精确度较差的问题。
本发明实施例是这样实现的,一种头相关传递函数的个性化方法,所述方法包括以下步骤:
S1:对单声道声源输入信号进行与距离相关的增益滤波处理,得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号;
S2:基于HRTF数据库的测量数据,对双耳极坐标系下的水平角进行主成分分析,以重构HRIR,并结合所述左耳声源输出信号和所述右耳声源输出信号,调整HRIR,得到个性化的HRIR;
S3:基于HRTF数据库的测量数据,对双耳极坐标系下的高度角进行主成分分析,以重构PRIR,并结合所述左耳声源输出信号和所述右耳声源输出信号,调整PRIR,得到个性化的PRIR。
本发明实施例的另一目的在于提供一种头相关传递函数的个性化***,所述***包括:
增益滤波模块,用于对单声道声源输入信号进行与距离相关的增益滤波处理,得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号;
水平角个性化模块,用于基于HRTF数据库的测量数据,对双耳极坐标系下的水平角进行主成分分析,以重构HRIR,并结合所述增益滤波模块得到的所述左耳声源输出信号和所述右耳声源输出信号,调整HRIR,得到个性化的HRIR;
高度角个性化模块,用于基于HRTF数据库的测量数据,对双耳极坐标系下的高度角进行主成分分析,以重构PRIR,并结合所述增益滤波模块得到的所述左耳声源输出信号和所述右耳声源输出信号,调整PRIR,得到个性化的PRIR。
本发明提供的头相关传递函数的个性化方法及***首先建立距离模型,得到与距离相关的声源信号,之后利用PCA分别给水平角和高度角建模,在HRTF的个性化调节过程中,利用与距离相关的声源信号对模型参数进行个性化调节,以感受到声源的正确方位,继而获得个性化的HRTF,实现了结构化HRTF模型与PCA系数调节的结合,由于建立的距离模型考虑到了声源与双耳之间的距离因素,使得测量者可以感受到距离的变化,因而获得的HRTF的个性化效果好、精确度高。
附图说明
图1是是双耳极坐标系示意图;
图2是本发明实施例一提供的头相关传递函数的个性化方法的流程图;
图3是本发明实施例一中,增益滤波处理步骤的详细流程图;
图4是本发明实施例一中,水平角个性化步骤的详细流程图;
图5是本发明实施例一中,高度角个性化步骤的详细流程图;
图6是本发明实施例二中,水平角个性化步骤的详细流程图;
图7是本发明实施例三提供的头相关传递函数的个性化***的结构图;
图8是本发明实施例三中,增益滤波模块的结构图;
图9是本发明实施例三中,水平角个性化模块的结构图;
图10是本发明实施例三中,高度角个性化模块的结构图;
图11是本发明实施例四中,水平角个性化模块的结构图。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施方式。
为解决现有技术存在的问题,本发明首先建立距离模型,得到与距离相关的声源信号,之后利用PCA分别给水平角和高度角建模,在HRTF的个性化调节过程中,利用与距离相关的声源信号对模型参数进行个性化调节,以感受到声源的正确方位,继而获得个性化的HRTF。
本发明采用双耳极坐标系来描述声源与人体的相对位置。如图1所示,双耳极坐标系以双耳连线中点作为坐标原点,定义了:水平面,即穿过原点与地面平行的平面;中垂面,即穿过原点将人体左右两侧平分的平面;前平面,即穿过原点及双耳连线、与地面垂直将人体认为前后两部分的平面;水平角θ,即声源与原点连线与中垂面之间的夹角;高度角即声源与双耳连线所构成半平面与前半水平面之间的夹角;左耳的入射角θlinc,即原点到声源的射线与原点到左耳的射线之间的夹角;右耳的入射角θrinc,即原点到声源的射线与原点到右耳的射线之间的夹角;距离r,即声源到原点的距离。在测试者的正前方,水平角θ和高度角都为0°;当水平角θ为0°时,高度角在中垂面变化,上方的为90°,后方的为180°,下方的为270°;当高度角为0°时,水平角θ在水平面变化,右耳为90°,后方为180°,左耳为270°。
以下将结合实施例详细说明本发明的实现方式:
实施例一
本发明实施例一提供了一种头相关传递函数的个性化方法,如图2所示,包括以下步骤:
S1:对单声道声源输入信号进行与距离相关的增益滤波处理,得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号。
进一步地,如图3所示,步骤S1包括以下步骤:
S11:计算左耳的直流增益估计值和右耳的直流增益估计值其中,左耳的直流增益估计值可表示为:
右耳的直流增益估计值可表示为:
其中,θlinc为左耳的入射角,θrinc为右耳的入射角,ρ为声源与头中心的距离r与头半径的比值,p11、p21、q11、q21分别为多项式的系数,可通过查如下表一得到:
表一
在表一中,左耳的入射角θlinc或右耳的入射角θrinc的取值范围为0°,10°,…,180°,若实际测得的左耳的入射角θlinc或右耳的入射角θrinc的取值不在此范围,则可对邻近角度的计算结果进行线性插值而得到。举例来说,若实际测得的左耳的入射角θlinc=5°,则分别计算左耳的入射角θlinc=0°和左耳的入射角θlinc=10°时的左耳的直流增益估计值之后对得到的二个值取平均值,作为左耳的入射角θlinc=5°时的左耳的直流增益估计值即可。
S12:计算左耳的一阶IIR滤波器系数hlsh和右耳的一阶IIR滤波器系数hrsh。
近场转移函数Gl0(或Gr0)的幅频响应的特点是:当左耳的入射角θlinc(或右耳的入射角θrinc)较小时,幅频响应类似倾斜型滤波器的频响,随着左耳的入射角θlinc(或右耳的入射角θrinc)增加,幅频响应逐渐呈现低通特性。本发明中,采用左耳的一阶IIR滤波器Hlsh描述幅频响应随左耳的入射角θlinc的变化特性,采用右耳的一阶IIR滤波器Hrsh描述幅频响应随右耳的入射角θrinc的变化特性。
本发明中,左耳的一阶IIR滤波器系数hlsh的z域表达式为:
其中,
Hl0=Vl0-1
其中,fs为采样频率,为左耳的高频增益,为左耳的截断频率,和可分别表示为:
其中,p12、p22、q12、q22分别为多项式的系数,可通过查如下表二得到:
表二
其中,p13、p23、p33、q13、q23分别为多项式的系数,可通过查如下表三得到:
表三
类似地,本发明中,右耳的一阶IIR滤波器系数hrsh的z域表达式为:
其中,
Hr0=Vr0-1
其中,fs为采样频率,为右耳的高频增益,为右耳的截断频率,和可分别表示为:
其中,p12、p22、q12、q22分别为多项式的系数,可通过查如上表二得到。其中,p13、p23、p33、q13、q23分别为多项式的系数,可通过查如上表三得到。
S13:计算左耳声源输出信号yl(t)和右耳声源输出信号yr(t),使得:
其中,x(t)为输入的单声道声源信号,“·”表示相乘,“*”表示卷积。
S2:基于HRTF数据库的测量数据,对双耳极坐标系下的水平角进行主成分分析,以重构HRIR,并结合左耳声源输出信号和右耳声源输出信号,调整HRIR,得到个性化的HRIR。
其中,HRTF数据库可以是KEMER-MIT数据库、LISTEN数据库、CIPIC数据库等,为便于描述,本发明仅以CIPIC为例进行说明。CIPIC数据库的测量对象包括43名真人和2个平均人工头,高度角50个,从-45°变化到230.625°,水平角25个,从-80°变化到80°,一共1250个空间测量方位,每个HRIR有200个采样数据,长度为4.5ms。特别地,CIPIC数据库水平面有50个水平角(高度角为0°和180°各25个水平角,也即测量者的正前、正后方各25个水平角),本文设定高度角的范围是-40°到90°,步长为10°。同时,CIPIC数据库还收录了被测者的头宽、头长等一些生理尺寸的测量结果。
进一步地,如图4所示,步骤S2可包括以下步骤:
S201:构建Nh行、Mh列的源数据矩阵Xh。
在实施例一中,基于HRTF数据库的测量数据,构建源数据矩阵Xh。由于每一HRIR有200个采样数据,左耳和右耳一共是400个,故Nh=400。由于CIPIC数据库共45个被测者,每一被测者在水平面50个角度测量HRTF,故Mh=45×50=2250。
S202:对源数据矩阵Xh去均值,得到去均值后的矩阵Bh。
具体地,步骤S202又包括以下步骤:
首先,对源数据矩阵Xh的每一行元素求均值,得到一个维度为Nh×1的列向量μh,表示为:
其中,n表示采样点数,n=1,2,...,Nh。之后,对源数据矩阵Xh去均值,设一维度为1×Mh的行向量hh,行向量hh中的每一元素均为1,则去均值后的矩阵Bh表示为:
Bh=Xh-μhhh
S203:利用去均值后的矩阵Bh,计算协方差矩阵Ch,表示为:
其中,表示外积,“H”表示共轭转置,得到的协方差矩阵Ch的维度为Nh×Nh。
S204:对协方差矩阵Ch进行奇异值分解,构建基向量矩阵Vh,并得到基向量系数矩阵Wh。
本发明中,对协方差矩阵Ch进行奇异值分解,与qh个最大奇异值对应的向量是Nh×1维的基向量vhi,i=1,2,...,qh,qh个基向量构成基向量矩阵Vh,表示为:
Vh=[v1,v2,…,vqh]
基向量系数矩阵Wh表示为:
Wh=Vh TBh
基向量系数矩阵Wh中的维度为qh×Mh,其每一元素表示每个基向量对矩阵Bh的贡献,矩阵Bh可以由qh个基向量的线性组合进行重构,如果qh=Nh,则可完全重构矩阵Bh,实际中qh小于Nh,仍可获得较高的重构精度。
S205:计算重构的HRIR矩阵表示为:
重构误差eh表示为:
其中的xhi是Xh的列向量。本发明中,qh优选为25,则eh<5%。
S206:对每一水平角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足:
其中,θ表示水平角,取值是0°,5°,…,45°,55°,65°,80°,100°,115°,125°,135°,140°,…,225°,235°,245°,260°,280°,295°,305°,315°,320°,…,355°,ih取值1,2,...,qh,表示第j个被测者在水平角θ第ih个基函数的主成分系数。
S207:对每一水平角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳。
由于前5个基向量系数的均值随水平角变化的幅度较大,标准差也较大,而其它基向量系数的均值基本无变换,标准差较小,故本发明仅调节前5个标准差最大时对应的基向量系数的均值,其它的基向量系数的均值不调节。
具体来说,结合左耳声源输出信号和右耳声源输出信号,对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳的步骤可详述为:在每一水平角下,按照标准差从大到小的顺序,顺次调整5个对应的基向量系数的均值,对于每一基向量系数的均值,调节范围为±3σ,调节步长0.2σ,首先对当前调节的基向量系数的均值增加ΔPCW,其它基向量系数的均值保持不变,比较调节前后分别合成的HRIR滤波后的声源方位角是否变化,若无变化,则增加ΔPCW,若有变化,则减小ΔPCW,直到找到可以感受到声源方位角变化的最小ΔPCW,完成第一轮调节。如此反复完成对5个基向量系数的均值的三轮调节。
S208:根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的HRIR,即为得到的个性化的HRIR。具体的计算过程如前述步骤S205所述,不赘述。
S3:基于HRTF数据库的测量数据,对双耳极坐标系下的高度角进行主成分分析,以重构与耳廓相关冲击响应(Pinna-Related Impulse Response,PRIR),并结合左耳声源输出信号和右耳声源输出信号,调整PRIR,得到个性化的PRIR。
进一步地,如图5所示,步骤S3可包括以下步骤:
S300:将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉,并加1.5ms汉宁窗,得到PRIR。
S301:构建Nv行、Mv列的源数据矩阵Xv。
其中,由于CIPIC数据库的HRTF的采样频率是44.1KHZ,加1.5ms汉宁窗后,只取1.5ms数据,故Nv=44.1×1.5=66。由于CIPIC数据库共45个被测者,每一被测者14个高度角,故Mv=45×14=630。
S302:对源数据矩阵Xv去均值,得到去均值后的矩阵Bv。
具体地,步骤S302又包括以下步骤:
首先,对源数据矩阵Xv的每一行元素求均值,得到一个维度为Nv×1的列向量μv,表示为:
其中,n表示采样点数,n=1,2,...,Nv。之后,对源数据矩阵Xv去均值,设一维度为1×Mv的行向量hv,行向量hv中的每一元素均为1,则去均值后的矩阵Bv表示为:
Bv=Xv-μvhv
S303:利用去均值后的矩阵Bv,计算协方差矩阵Cv,表示为:
其中,表示外积,“H”表示共轭转置,得到的协方差矩阵Cv的维度为Nv×Nv。
S304:对协方差矩阵Cv进行奇异值分解,构建基向量矩阵Vv,并得到基向量系数矩阵Wv。
本发明中,对协方差矩阵Cv进行奇异值分解,与qv个最大奇异值对应的向量是Nv×1维的基向量vvi,i=1,2,...,qv,qv个基向量构成基向量矩阵Vv,表示为:
基向量系数矩阵Wv表示为:
Wv=Vv TBv
基向量系数矩阵Wv中的维度为qv×Mv,其每一元素表示每个基向量对矩阵Bv的贡献,矩阵Bv可以由qv个基向量的线性组合进行重构,如果qv=Nv,则可完全重构矩阵Bv,实际中qv小于Nv,仍可获得较高的重构精度。
S305:计算重构的PRIR矩阵表示为:
重构误差ev表示为:
其中的xvi是Xv的列向量。本发明中,qv优选为12,则ev<5%。
S306:对每一高度角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足:
其中,表示高度角,取值是-40°,-30°,…,90°,iv取值1,2,...,qv,表示第j个被测者在高度角第iv个基函数的主成分系数。
S307:对每一高度角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳。
类似地,结合左耳声源输出信号和右耳声源输出信号,对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳的步骤可详述为:在每一高度角下,按照标准差从大到小的顺序,顺次调整5个对应的基向量系数的均值,对于每一基向量系数的均值,调节范围为±3σ,调节步长0.2σ,首先对当前调节的基向量系数的均值增加ΔPCW,其它基向量系数的均值保持不变,比较调节前后分别合成的PRIR滤波后的声源方位角是否变化,若无变化,则增加ΔPCW,若有变化,则减小ΔPCW,直到找到可以感受到声源方位角变化的最小ΔPCW,完成第一轮调节。如此反复完成对5个基向量系数的均值的三轮调节。
S308:根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的PRIR,即为得到的个性化的PRIR。具体的计算过程如前述步骤S305所述,不赘述。
实施例二
本发明实施例二提供了一种头相关传递函数的个性化方法。与实施例一不同,为了改善水平角定位,进一步优化个性化效果,如图6所示,在步骤S201之前,还可包括以下步骤:
S200:对HRTF数据库中每个测量者在每一水平角下的左耳HRIR和右耳HRIR去除初始时延,之后将每一HRIR末尾补零至200个采样点。
此时,在步骤S208之后,还包括以下步骤:
S209:调节HRTF数据库中每一HRIR的初始时延,当测量者感受不到水平角变化时,将此时的时延值加到调整后的对应的HRIR上。
其中,初始时延的调节初始值为声源到全部测量者左右耳的时延平均值,表示为:
其中,为高度角,为第j个测量者在高度角的时延。调节的范围为±3倍标准差,标准差满足:
实施例二的其它方法步骤描述与实施例一相同,不赘述。以下以一主观听觉实验说明经实施例二个性化后的HRTF的定位效果:
假设4个测量者(包括2男性、2女性)分别用CIPIC数据库的平均人工头(subject_165)的HRTF和经实施例二个性化得到的HRTF进行方位角定位实验,用个性化的HRTF进行距离定位实验,实验设置如下:
距离定位实验,θ=90°,距离为20cm,40cm,75cm,130cm;
水平角定位实验,距离为50cm,θ=0°,30°,…,330°;
高度角定位实验,距离为50cm,θ=0°,0°,…,90°。
每组实验重复5次,随机打乱顺序,4个测量者分别完成20组距离定位实验,60组水平角定位实验,25组高度角定位实验。实验在一台笔记本电脑上进行,用一小段语音做声源,所用耳机为森海塞尔HD201。实验前,测量者分别试听两个HRTF数据库在上述给定方位的声音,对距离,水平角,高度角有感知。
实验结果如下表四所示:
表四
由表四可见,距离定位实验的平均准确率为80%。使用subject_165的HRTF,四个测量者的水平角平均定位准确度为35%,包含前后混淆的定位准确度为52%。经过个性化调节,定位准确度提高了12.5%,前后混淆误差减小。经过个性化调节,高度角平均定位准确度提高了14%。
实施例三
本发明实施例三提供了一种头相关传递函数的个性化***。如图7所示,包括:增益滤波模块1,用于对单声道声源输入信号进行与距离相关的增益滤波处理,得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号;水平角个性化模块2,用于基于HRTF数据库的测量数据,对双耳极坐标系下的水平角进行主成分分析,以重构HRIR,并结合增益滤波模块1得到的左耳声源输出信号和右耳声源输出信号,调整HRIR,得到个性化的HRIR;高度角个性化模块3,用于基于HRTF数据库的测量数据,对双耳极坐标系下的高度角进行主成分分析,以重构PRIR,并结合增益滤波模块1得到的左耳声源输出信号和右耳声源输出信号,调整PRIR,得到个性化的PRIR。
进一步地,如图8所示,增益滤波模块1可包括:第一计算子模块11,用于计算左耳的直流增益估计值和右耳的直流增益估计值其计算公式如实施例一所述,不赘述;第二计算子模块12,用于计算左耳的一阶IIR滤波器系数hlsh和右耳的一阶IIR滤波器系数hrsh,其计算公式如实施例一所述,不赘述;第三计算子模块13,用于计算左耳声源输出信号yl(t)和右耳声源输出信号yr(t),其计算公式如实施例一所述,不赘述。
进一步地,如图9所示,水平角个性化模块2可包括:第一矩阵构建子模块201,用于构建Nh行、Mh列的源数据矩阵Xh,对源数据矩阵Xh的描述如实施例一所述,不赘述;第一去均值子模块202,用于对源数据矩阵Xh去均值,得到去均值后的矩阵Bh,该执行过程如实施例一中的步骤S202所述,不赘述;第四计算子模块203,用于利用去均值后的矩阵Bh,计算协方差矩阵Ch,计算公式如实施例一所述,不赘述;第二矩阵构建子模块204,用于对协方差矩阵Ch进行奇异值分解,构建基向量矩阵Vh,并得到基向量系数矩阵Wh,计算公式如实施例一所述,不赘述;第五计算子模块205,用于计算重构的HRIR矩阵计算公式如实施例一所述,不赘述;第六计算子模块206,用于对每一水平角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差计算公式如实施例一所述,不赘述;第一调节子模块207,用于对每一水平角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳,具体的调节过程如实施例一中的步骤S207所述,不赘述;第一调整子模块208,用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的HRIR,即为得到的个性化的HRIR。具体的计算过程如前述步骤S205所述,不赘述。
进一步地,如图10所示,高度角个性化模块3可包括:PRIR获取子模块300,用于将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉,并加1.5ms汉宁窗,得到PRIR;第三矩阵构建子模块301,用于构建Nv行、Mv列的源数据矩阵Xv,对源数据矩阵Xv的描述如实施例一所述,不赘述;第二去均值子模块302,用于对源数据矩阵Xv去均值,得到去均值后的矩阵Bv,其执行过程如实施例一所述,不赘述;第七计算子模块303,用于利用去均值后的矩阵Bv,计算协方差矩阵Cv,计算公式如实施例一所述,不赘述;第四矩阵构建子模块304,用于对协方差矩阵Cv进行奇异值分解,构建基向量矩阵Vv,并得到基向量系数矩阵Wv,计算公式如实施例一所述,不赘述;第八计算子模块305,用于计算重构的PRIR矩阵计算公式如实施例一所述,不赘述;第九计算子模块306,用于对每一高度角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差计算公式如实施例一所述,不赘述;第二调节子模块307,用于对每一高度角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳,具体的调节过程如实施例一中的步骤S307所述,不赘述;第二调整子模块308,用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的PRIR,即为得到的个性化的PRIR。具体的计算过程如前述步骤S305所述,不赘述。
实施例四
本发明实施例四提供了一种头相关传递函数的个性化***。与实施例三不同,为了改善水平角定位,进一步优化个性化效果,如图11所示,水平角个性化模块2还包括:去时延子模块200,用于对HRTF数据库中每个测量者在每一水平角下的左耳HRIR和右耳HRIR去除初始时延,之后将每一HRIR末尾补零至200个采样点,之后由第一矩阵构建子模块201根据去时延子模块200的执行结果继续执行;初始时延调节及附加子模块209,用于在第一调整子模块208执行完毕后,调节HRTF数据库中每一HRIR的初始时延,当测量者感受不到水平角变化时,将此时的时延值加到调整后的对应的HRIR上,对初始时延的调节过程如实施例二所述,不赘述。
实施例四的其它***结构与实施例三相同,不赘述。
综上所述,本发明提供的头相关传递函数的个性化方法及***首先建立距离模型,得到与距离相关的声源信号,之后利用PCA分别给水平角和高度角建模,在HRTF的个性化调节过程中,利用与距离相关的声源信号对模型参数进行个性化调节,以感受到声源的正确方位,继而获得个性化的HRTF,实现了结构化HRTF模型与PCA系数调节的结合,由于建立的距离模型考虑到了声源与双耳之间的距离因素,使得测量者可以感受到距离的变化,因而获得的HRTF的个性化效果好、精确度高。再有,距离模型、水平角个性化调节模型与高度角个性化调节模块采用级联方式,简化了HRTF的个性化过程,执行效率高。再有,对于每一水平角或高度角,只需调节5个主成分系数即可,调节的系数少。最后,在水平角个性化调节中,在调节前,将HRTF数据库中的HRIR的初始时延去掉,并在HRIR调节后,调节初始时延以改变声源到左右耳的时延之差,之后将调节后的初始时延附加到所得到的HRIR上,从而改善了水平角定位,进一步优化了个性化效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种头相关传递函数的个性化方法,其特征在于,所述方法包括以下步骤:
S1:对单声道声源输入信号进行与距离相关的增益滤波处理,得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号;
S2:基于HRTF数据库的测量数据,对双耳极坐标系下的水平角进行主成分分析,以重构HRIR,并结合所述左耳声源输出信号和所述右耳声源输出信号,调整HRIR,得到个性化的HRIR;
S3:基于HRTF数据库的测量数据,对双耳极坐标系下的高度角进行主成分分析,以重构PRIR,并结合所述左耳声源输出信号和所述右耳声源输出信号,调整PRIR,得到个性化的PRIR。
2.如权利要求1所述的头相关传递函数的个性化方法,其特征在于,所述步骤S1包括以下步骤:
S11:计算左耳的直流增益估计值和右耳的直流增益估计值满足:
其中,θlinc为左耳的入射角,θrinc为右耳的入射角,ρ为声源与头中心的距离r与头半径的比值,p11、p21、q11、q21分别为多项式的系数;
S12:计算左耳的一阶IIR滤波器系数hlsh和右耳的一阶IIR滤波器系数hrsh;
S13:计算左耳声源输出信号yl(t)和右耳声源输出信号yr(t),使得:
其中,x(t)为输入的单声道声源信号,“·”表示相乘,“*”表示卷积。
3.如权利要求2所述的头相关传递函数的个性化方法,其特征在于,所述左耳的一阶IIR滤波器系数hlsh的z域表达式为:
其中,
Hl0=Vl0-1
其中,fs为采样频率,为左耳的高频增益,为左耳的截断频率,和可分别表示为:
其中,p12、p22、q12、q22分别为多项式的系数,p13、p23、p33、q13、q23分别为多项式的系数;
所述右耳的一阶IIR滤波器系数hrsh的z域表达式为:
其中,
Hr0=Vr0-1
其中,fs为采样频率,为右耳的高频增益,为右耳的截断频率,和可分别表示为:
4.如权利要求1所述的头相关传递函数的个性化方法,其特征在于,所述步骤S2包括以下步骤:
S201:构建Nh行、Mh列的源数据矩阵Xh;
S202:对所述源数据矩阵Xh去均值,得到去均值后的矩阵Bh;
S203:利用去均值后的所述矩阵Bh,计算协方差矩阵Ch,表示为:
S204:对所述协方差矩阵Ch进行奇异值分解,构建基向量矩阵Vh,并得到基向量系数矩阵Wh,表示为:
Wh=Vh TBh;
S205:计算重构的HRIR矩阵表示为:
其中,μh为对所述源数据矩阵Xh的每一行元素求均值而得到的一维度为Nh×1的列向量,hh为一维度为1×Mh的行向量,行向量hh中的每一元素均为1;
S206:对每一水平角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足:
其中,θ表示水平角,取值是0°,5°,…,45°,55°,65°,80°,100°,115°,125°,135°,140°,…,225°,235°,245°,260°,280°,295°,305°,315°,320°,…,355°,ih取值1,2,...,qh,表示第j个被测者在水平角θ第ih个基函数的主成分系数;
S207:对每一水平角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳;
S208:根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的HRIR,即为得到的个性化的HRIR。
5.如权利要求4所述的头相关传递函数的个性化方法,其特征在于,在所述步骤S201之前,所述方法还包括以下步骤:
S200:对HRTF数据库中每个测量者在每一水平角下的左耳HRIR和右耳HRIR去除初始时延,之后将每一HRIR末尾补零至200个采样点;
在所述步骤S209之后,所述方法还包括以下步骤:
S209:调节HRTF数据库中每一HRIR的初始时延,当测量者感受不到水平角变化时,将此时的时延值加到调整后的对应的HRIR上。
6.如权利要求1所述的头相关传递函数的个性化方法,其特征在于,所述步骤S3包括以下步骤:
S300:将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉,并加1.5ms汉宁窗,得到PRIR;
S301:构建Nv行、Mv列的源数据矩阵Xv;
S302:对所述源数据矩阵Xv去均值,得到去均值后的矩阵Bv;
S303:利用去均值后的矩阵Bv,计算协方差矩阵Cv,表示为:
S304:对协方差矩阵Cv进行奇异值分解,构建基向量矩阵Vv,并得到基向量系数矩阵Wv,表示为:
Wv=Vv TBv;
S305:计算重构的PRIR矩阵表示为:
其中,μv为对所述源数据矩阵Xv的每一行元素求均值而得到的一维度为Nv×1的列向量,hv为一维度为1×Mv的行向量,行向量hv中的每一元素均为1;
S306:对每一高度角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足:
其中,表示高度角,取值是-40°,-30°,…,90°,iv取值1,2,...,qv,表示第j个被测者在高度角第iv个基函数的主成分系数;
S307:对每一高度角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳;
S308:根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的PRIR,即为得到的个性化的PRIR。
7.一种头相关传递函数的个性化***,其特征在于,所述***包括:
增益滤波模块,用于对单声道声源输入信号进行与距离相关的增益滤波处理,得到与距离相关的左耳声源输出信号以及与距离相关的右耳声源输出信号;
水平角个性化模块,用于基于HRTF数据库的测量数据,对双耳极坐标系下的水平角进行主成分分析,以重构HRIR,并结合所述增益滤波模块得到的所述左耳声源输出信号和所述右耳声源输出信号,调整HRIR,得到个性化的HRIR;
高度角个性化模块,用于基于HRTF数据库的测量数据,对双耳极坐标系下的高度角进行主成分分析,以重构PRIR,并结合所述增益滤波模块得到的所述左耳声源输出信号和所述右耳声源输出信号,调整PRIR,得到个性化的PRIR。
8.如权利要求7所述的头相关传递函数的个性化***,其特征在于,所述增益滤波模块包括:
第一计算子模块,用于计算左耳的直流增益估计值和右耳的直流增益估计值满足:
其中,θlinc为左耳的入射角,θrinc为右耳的入射角,ρ为声源与头中心的距离r与头半径的比值,p11、p21、q11、q21分别为多项式的系数;
第二计算子模块,用于计算左耳的一阶IIR滤波器系数hlsh和右耳的一阶IIR滤波器系数hrsh;
第三计算子模块,用于计算左耳声源输出信号yl(t)和右耳声源输出信号yr(t),使得:
其中,x(t)为输入的单声道声源信号,“·”表示相乘,“*”表示卷积。
9.如权利要求7所述的头相关传递函数的个性化***,其特征在于,所述水平角个性化模块包括:
第一矩阵构建子模块,用于构建Nh行、Mh列的源数据矩阵Xh;
第一去均值子模块,用于对所述源数据矩阵Xh去均值,得到去均值后的矩阵Bh;
第四计算子模块,用于利用去均值后的所述矩阵Bh,计算协方差矩阵Ch,表示为:
第二矩阵构建子模块,用于对所述协方差矩阵Ch进行奇异值分解,构建基向量矩阵Vh,并得到基向量系数矩阵Wh,表示为:
Wh=Vh TBh;
第五计算子模块,用于计算重构的HRIR矩阵表示为:
其中,μh为对所述源数据矩阵Xh的每一行元素求均值而得到的一维度为Nh×1的列向量,hh为一维度为1×Mh的行向量,行向量hh中的每一元素均为1;
第六计算子模块,用于对每一水平角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足:
其中,θ表示水平角,取值是0°,5°,…,45°,55°,65°,80°,100°,115°,125°,135°,140°,…,225°,235°,245°,260°,280°,295°,305°,315°,320°,…,355°,ih取值1,2,...,qh,表示第j个被测者在水平角θ第ih个基函数的主成分系数;
第一调节子模块,用于对每一水平角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳;
第一调整子模块,用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的HRIR,即为得到的个性化的HRIR。
10.如权利要求7所述的头相关传递函数的个性化***,其特征在于,所述高度角个性化模块包括:
PRIR获取子模块、,用于将HRTF数据库中中垂面上14个高度角的左耳的HRIR的初始时延去掉,并加1.5ms汉宁窗,得到PRIR;
第三矩阵构建子模块,用于构建Nv行、Mv列的源数据矩阵Xv;
第二去均值子模块,用于对所述源数据矩阵Xv去均值,得到去均值后的矩阵Bv;
第七计算子模块,用于利用去均值后的矩阵Bv,计算协方差矩阵Cv,表示为:
第四矩阵构建子模块,用于对协方差矩阵Cv进行奇异值分解,构建基向量矩阵Vv,并得到基向量系数矩阵Wv,表示为:
Wv=Vv TBv;
第八计算子模块,用于计算重构的PRIR矩阵表示为:
其中,μv为对所述源数据矩阵Xv的每一行元素求均值而得到的一维度为Nv×1的列向量,hv为一维度为1×Mv的行向量,行向量hv中的每一元素均为1;
第九计算子模块,用于对每一高度角的每一基向量,计算HRTF数据库中全部测量者的基向量系数的均值和标准差满足:
其中,表示高度角,取值是-40°,-30°,…,90°,iv取值1,2,...,qv,表示第j个被测者在高度角第iv个基函数的主成分系数;
第二调节子模块,用于对每一高度角,提取前5个标准差最大时对应的基向量系数的均值,并结合左耳声源输出信号yl(t)和右耳声源输出信号yr(t),对提取的基向量系数的均值进行调节,以使得主观感受到的声源方位角最佳;
第二调整子模块,用于根据调整后的基向量系数构成的矩阵和对应的基向量矩阵,得到调整后的PRIR,即为得到的个性化的PRIR。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610514079.9A CN106162499B (zh) | 2016-07-04 | 2016-07-04 | 一种头相关传递函数的个性化方法及*** |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610514079.9A CN106162499B (zh) | 2016-07-04 | 2016-07-04 | 一种头相关传递函数的个性化方法及*** |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106162499A true CN106162499A (zh) | 2016-11-23 |
CN106162499B CN106162499B (zh) | 2018-02-23 |
Family
ID=57350927
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610514079.9A Active CN106162499B (zh) | 2016-07-04 | 2016-07-04 | 一种头相关传递函数的个性化方法及*** |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106162499B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874592A (zh) * | 2017-02-13 | 2017-06-20 | 深圳大学 | 虚拟听觉重放方法及*** |
CN107820158A (zh) * | 2017-07-07 | 2018-03-20 | 大连理工大学 | 一种基于头相关脉冲响应的三维音频生成装置 |
CN108038291A (zh) * | 2017-12-05 | 2018-05-15 | 武汉大学 | 一种基于人体参数适配算法的个性化头相关传递函数生成***及方法 |
CN109166592A (zh) * | 2018-08-08 | 2019-01-08 | 西北工业大学 | 基于生理参数的hrtf分频段线性回归方法 |
CN109637550A (zh) * | 2018-12-27 | 2019-04-16 | 中国科学院声学研究所 | 一种声源高度角控制方法和*** |
CN110741657A (zh) * | 2017-05-16 | 2020-01-31 | 大北欧听力公司 | 用于确定声音生成物体的佩戴者的耳部之间的距离的方法以及耳戴式声音生成物体 |
CN111385728A (zh) * | 2018-12-29 | 2020-07-07 | 华为技术有限公司 | 一种音频信号处理方法及装置 |
-
2016
- 2016-07-04 CN CN201610514079.9A patent/CN106162499B/zh active Active
Non-Patent Citations (3)
Title |
---|
KI HOON SHIN等: "Enhanced Vertical Perception through Head-Related Impulse Response Customization Based on Pinna Response Tunning in the Median Plane", 《IEICE TRANSACTIONS ON FUNDAMENTALS OF ELECTRONICS COMMUNICATIONS & COMPUTER SCIENCES》 * |
KJ FINK等: "Individualization of head related transfer functions using principal", 《APPLIED ACOUSTICS》 * |
SIMONE SPAGNOL等: "HEARING DISTANCE: A LOW-COST MODEL FOR NEAR-FIELD BINAURAL EFFECTS", 《SIGNAL PROCESSING CONFERENCE (EUSIPCO), 2012 PROCEEDINGS OF THE 20TH EUROPEAN》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874592B (zh) * | 2017-02-13 | 2020-05-19 | 深圳大学 | 虚拟听觉重放方法及*** |
CN106874592A (zh) * | 2017-02-13 | 2017-06-20 | 深圳大学 | 虚拟听觉重放方法及*** |
US10911886B2 (en) | 2017-05-16 | 2021-02-02 | Gn Hearing A/S | Method for determining distance between ears of a wearer of a sound generating object and an ear-worn, sound generating object |
CN110741657A (zh) * | 2017-05-16 | 2020-01-31 | 大北欧听力公司 | 用于确定声音生成物体的佩戴者的耳部之间的距离的方法以及耳戴式声音生成物体 |
CN110741657B (zh) * | 2017-05-16 | 2021-06-29 | 大北欧听力公司 | 用于确定声音生成物体的佩戴者的耳部之间的距离的方法以及耳戴式声音生成物体 |
US11330390B2 (en) | 2017-05-16 | 2022-05-10 | Gn Hearing A/S | Method for determining distance between ears of a wearer of a sound generating object and an ear-worn, sound generating object |
CN107820158A (zh) * | 2017-07-07 | 2018-03-20 | 大连理工大学 | 一种基于头相关脉冲响应的三维音频生成装置 |
CN108038291A (zh) * | 2017-12-05 | 2018-05-15 | 武汉大学 | 一种基于人体参数适配算法的个性化头相关传递函数生成***及方法 |
CN108038291B (zh) * | 2017-12-05 | 2021-09-03 | 武汉大学 | 一种基于人体参数适配算法的个性化头相关传递函数生成***及方法 |
CN109166592A (zh) * | 2018-08-08 | 2019-01-08 | 西北工业大学 | 基于生理参数的hrtf分频段线性回归方法 |
CN109637550A (zh) * | 2018-12-27 | 2019-04-16 | 中国科学院声学研究所 | 一种声源高度角控制方法和*** |
CN109637550B (zh) * | 2018-12-27 | 2020-11-24 | 中国科学院声学研究所 | 一种声源高度角控制方法和*** |
CN111385728A (zh) * | 2018-12-29 | 2020-07-07 | 华为技术有限公司 | 一种音频信号处理方法及装置 |
CN111385728B (zh) * | 2018-12-29 | 2022-01-11 | 华为技术有限公司 | 一种音频信号处理方法及装置 |
US11917391B2 (en) | 2018-12-29 | 2024-02-27 | Huawei Technologies Co., Ltd. | Audio signal processing method and apparatus |
Also Published As
Publication number | Publication date |
---|---|
CN106162499B (zh) | 2018-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106162499A (zh) | 一种头相关传递函数的个性化方法及*** | |
CN102572676B (zh) | 一种虚拟听觉环境实时绘制方法 | |
Pollow et al. | Calculation of head-related transfer functions for arbitrary field points using spherical harmonics decomposition | |
CN104205879B (zh) | 从高阶立体混响声音频信号解码立体声扬声器信号的方法和装置 | |
Xie et al. | Head-related transfer function database and its analyses | |
Pörschmann et al. | Directional equalization of sparse head-related transfer function sets for spatial upsampling | |
US7085393B1 (en) | Method and apparatus for regularizing measured HRTF for smooth 3D digital audio | |
US20170094440A1 (en) | Structural Modeling of the Head Related Impulse Response | |
JPH10508169A (ja) | 高品質3次元音声の効率的再生方法及び装置 | |
JP2001016697A (ja) | 原頭部関連伝達関数を修正する方法および装置 | |
CN107005778A (zh) | 用于双耳渲染的音频信号处理设备和方法 | |
CN107820158B (zh) | 一种基于头相关脉冲响应的三维音频生成装置 | |
CN104581610A (zh) | 一种虚拟立体声合成方法及装置 | |
Salvador et al. | Design theory for binaural synthesis: Combining microphone array recordings and head-related transfer function datasets | |
Epain et al. | Objective evaluation of a three-dimensional sound field reproduction system | |
CN106297817A (zh) | 一种基于双耳信息的语音增强方法 | |
Richter et al. | Spherical harmonics based HRTF datasets: Implementation and evaluation for real-time auralization | |
Yu et al. | Effect of individualized head-related transfer functions on distance perception in virtual reproduction for a nearby sound source | |
Romigh et al. | The role of spatial detail in sound-source localization: Impact on HRTF modeling and personalization. | |
Avni et al. | Sound localization in a sound field represented by spherical harmonics | |
Susnik et al. | Spatial sound generation using HRTF created by the use of recursive filters | |
Yuan et al. | Externalization improvement in a real-time binaural sound image rendering system | |
Masterson et al. | HRIR order reduction using approximate factorization | |
Takane et al. | Elementary real-time implementation of a virtual acoustic display based on ADVISE | |
Wang et al. | An “out of head” sound field enhancement system for headphone |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |