CN117630818A - 一种面向多通道音频定位的特征预处理和提取方法 - Google Patents
一种面向多通道音频定位的特征预处理和提取方法 Download PDFInfo
- Publication number
- CN117630818A CN117630818A CN202311601140.XA CN202311601140A CN117630818A CN 117630818 A CN117630818 A CN 117630818A CN 202311601140 A CN202311601140 A CN 202311601140A CN 117630818 A CN117630818 A CN 117630818A
- Authority
- CN
- China
- Prior art keywords
- dsb
- channel
- audio
- delay
- mel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 238000007781 pre-processing Methods 0.000 title claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 17
- 230000001133 acceleration Effects 0.000 claims abstract description 15
- 102100032202 Cornulin Human genes 0.000 claims abstract description 11
- 101000920981 Homo sapiens Cornulin Proteins 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 238000010606 normalization Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims abstract description 7
- 238000012360 testing method Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000001228 spectrum Methods 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 13
- 230000003111 delayed effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000005236 sound signal Effects 0.000 claims description 9
- 230000001934 delay Effects 0.000 claims description 7
- 238000005070 sampling Methods 0.000 claims description 7
- 238000012546 transfer Methods 0.000 claims description 5
- 230000036961 partial effect Effects 0.000 claims description 4
- 238000003860 storage Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 2
- 230000004807 localization Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 10
- 230000003595 spectral effect Effects 0.000 description 7
- 238000001514 detection method Methods 0.000 description 5
- 238000003745 diagnosis Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000003491 array Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 208000001992 Autosomal Dominant Optic Atrophy Diseases 0.000 description 1
- 206010011906 Death Diseases 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Landscapes
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
Abstract
本发明是一种面向多通道音频定位的特征预处理和提取方法。本发明涉及音频预处理技术领域,本发明进行DSB特征提取LogMel特征和IV特征,提取后的特征进行全局归一化,归一化的数据在深度学习上进行训练和测试;通过DSB边缘端加速方法进行加速处理,将提取的特征用于训练一个CRNN模型,用于声源方向的估计。本发明对经过DSB处理的音频进行LogMel特征和IV特征的提取。在特征提取过程中,本发明利用边缘端GPU在Nano上加速处理。最后使用提取的特征训练一个CRNN。与使用不进行DSB的特征相比,使用DSB方法训练的CRNN可以有效的降低DoA误差,并且依然可以在边缘端实时的运行。
Description
技术领域
本发明涉及音频预处理技术领域,是一种面向多通道音频定位的特征预处理和提取方法。
背景技术
随着计算能力的不断增强和网络连接的普及,基于人工智能(Artificialintelligence,AI)的算法越来越广泛地应用于工业环境。在现代工厂中,产品的制造在很大程度上依赖于机器和工具的正确和可靠操作。然而,机器和工具发生故障时,维修和生产中断的成本会导致巨大的收入损失。因此,基于状态的维护和早期故障检测在当今的工厂中至关重要。传感器在设备故障检测中得到了广泛研究和应用。虽然图像在故障检测方面非常有效,但它容易引发信息泄漏问题,从而限制了在国防工业等敏感领域的使用。因此,非图像传感数据,如电流和电压信息,通常是首选选择。然而,这些数据通常要么依赖于机器自带的传感器,要么需要昂贵的仪器来获取。与之相比,使用麦克风的声学方法为机器诊断提供了一种低成本的数据收集方式。这些麦克风可以安装在机器附近或放置在工厂车间。故障的声源可能来自各个方向,因此声源的位置确定变得至关重要。声源定位(Soundsource localization,SSL)通常使用多个麦克风音频通道来分析一个或多个声源相对于麦克风的位置。在许多情况下,SSL问题被简化为对声源到达方向(Directions ofarrival,DOA)的估计。解决DOA问题的方法主要是使用深度神经网络来学习多通道音频之间的相关性。然而,现有的基于机器学习的DOA估计解决方案通常使用时间和频谱特征作为输入。这些特征仅隐式地捕捉了空间信息,例如使用间时差,这使得卷积神经网络(Convolutional Neural Networks,CNN)很难有效地提取DOA的有效信息。
发明内容
本发明针对多源声音定位可以在许多领域找到应用,包括听觉场景分析,制造中的故障检测和诊断,增强现实等。在远场中,三维声源定位相当于求出声源的DOA,即声源的方位角和仰角。最近的DOA估计管道采用多通道音频输入,从每个通道提取频谱特征,然后将其馈送到深度神经网络中。不幸的是,频谱特征仅包含音频信号的时频信息,而空间信息仅隐含地捕获在不同通道的信号中,这高度依赖于声阵列的几何形状。为了将声源的空间信息嵌入到频谱特征表示中,提出了一种基于延迟求和(Delay and Sum Beamforing,DSB)的空间映射方法对声源位置信息进行编码。它可以与不同的特征提取方法和机器学习模型相结合进行DOA估计。在此基础上,提出了一种冗余消除方法,以加快DSB计算速度,使流水线能够在NVidia Jeston Nano等嵌入式gpu上实时运行。本发明使用两个神经网络模型和DSB方法在两个数据集上进行了广泛的实验。实验表明,采用DSB方法可以有效地减小DOA误差。结合DSB进行特征提取时,DOA误差可降低19.24%。此外,应用冗余去除后,特征提取过程的速度提高了30.42%。基于此,本发明提出一种面向多通道音频定位的特征预处理和提取方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本发明提供了一种面向多通道音频定位的特征预处理和提取方法,本发明提供了以下技术方案:
一种面向多通道音频定位的特征预处理和提取方法,所述方法包括以下步骤:
步骤1:进行DSB特征提取LogMel特征和IV特征,提取后的特征进行全局归一化,归一化的数据在深度学习上进行训练和测试;
步骤2:通过DSB边缘端加速方法进行加速处理,将提取的特征用于训练一个CRNN模型,用于声源方向的估计。
优选地,所述步骤1具体为:
设为以阵列中心为中心的单位球面上H位置的集合。对于极坐标系(θh,φh)处的假定声源,其在阵列上的延迟由下式给出,给定接收信号ym(t),m=1,2,…,M,第h个通道的DSB通过下式表示:
优选地,当Ph与源i重合,则xi(t)在阵列输出中一致累加。
优选地,基于DSB的空间映射的步骤如下:
在监测区域中选择H虚拟声源位置,记为P1,P2,…,PH,这些点均匀分布在一个单位球面上;
对于每个虚拟源Ph在(θh,φh)计算它的数组向量
给定数组输入ym(k),m=1,2,…M,k=0,1,…,T·fs计算其中fs为采样频率,k样本指数,T是样本的数量在每个(视窗化)段和分数延迟四舍五入为最接近的样本;
基于DSB的空间映射为中的虚拟声源位置集合输出H-channel时间序列,称为H通道,针对每个信道中的数据可以进一步提取频域音频特征。
优选地,确定幅度和相位谱图,离散短时傅里叶变换STFT应用于加窗数据来计算幅度和相位谱,给出了h信道中数据的离散STFT通过下式表示:
其中,w(·)是一个窗函数。在实现中,本发明使用长度为2048的汉明窗口。
确定Log-Mel语谱图,Mel语谱图是通过一组模拟人类音频前端的滤波器组将传入信号Yh(k,ω)传递得到的,通过对梅尔谱图取对数来计算对数梅尔谱图,h频道的l-th logMel谱图为:
其中,Wmel(ω,l)为梅尔滤波器组。
确定强度向量IV,多声道音频信号的强度向量是通过计算每个声道中的信号与参考声道之间的相关性得到的,对于DSB后的多路信号,直接对接收信号进行无延迟累加得到参考信道音频,对于任何信道h,DSB后音频的初始强度向量通过下式表示:
其中,是频道h的STFT特征,/>是参考音频的STFT特征,*是元素返回的复数共轭,Re是元素返回的复数的实部;提取到的强度向量特征可以通过每个元素除以所有DSB后音频平方和的平方根进一步归一化;DSB后的音频平方和的平方根为:
通过与Mel滤波器组相乘,将亮度向量特征变换到Mel域,在DSB之后,任意通道h的音频强度向量为:
其中,在wmel(ω,l)为梅尔滤波器组。
优选地,所述步骤2具体为:
在GPU上计算延迟求和、SFTF和LogMel特征,使用Cupy库;在delay和sum中,当求和延迟相同的时间量时,得到的求和也延迟相同的时间量,考虑位于和/>的两个麦克风接收到的信号y1(t)和y2(t),对于单位球与满足的双曲线相交处的任意位置Ph,延迟和的形式为:
对于不同的Ph,延迟和移动了在不同的位置存储和重用这些部分和,以进一步加速DSB的计算。
优选地,当空间中有四个麦克风和两个点Ph和Pj(1≤i≤j≤H),经过延时计算,两点对应的延时分别为[Δi1,Δi2,Δi3,Δi4]和[Δj1,Δj2,Δj3,Δj4],在以下情况下存在冗余:
情况1:当为[…,Δix,…,Δiy,…]=[…,Δjx,…,Δjy,…],计算Pi点的x和y麦克风的延迟和并将其存储在内存中,然后将其他麦克风的延迟结果相加;在计算点Pj时,直接调用Pi处的x和y麦克风之和的结果,然后将其他麦克风的延迟结果相加;
情况2:当[…,Δix,…,Δiy,…,Δiz,…]=[…,Δjx,…,Δjy,…,Δjz,…],则计算过程与情况1类似,在整体计算过程中优先考虑计算情况1,而情况2也可以直接调用情况1中的结果。
一种面向多通道音频定位的特征预处理和提取***,所述***包括:
特征提取模块,所述特征提取模块进行DSB特征提取LogMel特征和IV特征,提取后的特征进行全局归一化,归一化的数据在深度学习上进行训练和测试;
声源估计模块,所述声源估计模块通过DSB边缘端加速方法进行加速处理,将提取的特征用于训练一个CRNN模型,用于声源方向的估计。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种风洞应变天平的应变传感器故障诊断方法。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种风洞应变天平的应变传感器故障诊断方法。
本发明具有以下有益效果:
本发明与现有技术相比:
本发明提出了一种用于多声源定位的音频特征预处理和提取方法。这一方法使用DSB算法在空间中的多个点上对多通道音频进行波束形成。同时,为了加快波束形成过程,本发明采用了DSB边缘加速算法中的冗余去除算法,从而减少波束形成中的不必要计算。随后,本发明对经过DSB处理的音频进行LogMel特征和IV特征的提取。在特征提取过程中,本发明利用边缘端GPU在Nano上加速处理。最后使用提取的特征训练一个CRNN。与使用不进行DSB的特征相比,使用DSB方法训练的CRNN可以有效的降低DoA误差,并且依然可以在边缘端实时的运行。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为空间中声源定位的示例。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
以下结合具体实施例,对本发明进行了详细说明。
具体实施例一:
根据图1所示,本发明为解决上述技术问题采取的具体优化技术方案是:本发明涉及一种面向多通道音频定位的特征预处理和提取方法。
步骤1:进行DSB特征提取LogMel特征和IV特征,提取后的特征进行全局归一化,归一化的数据在深度学习上进行训练和测试;
步骤2:通过DSB边缘端加速方法进行加速处理,将提取的特征用于训练一个CRNN模型,用于声源方向的估计。
所述步骤1具体为:
设为以阵列中心为中心的单位球面上H位置的集合。对于极坐标系(θh,φh)处的假定声源,其在阵列上的延迟由下式给出,给定接收信号ym(t),m=1,2,…,M,第h个通道的DSB通过下式表示:
当Ph与源i重合,则xi(t)在阵列输出中一致累加。
基于DSB的空间映射的步骤如下:
在监测区域中选择H虚拟声源位置,记为P1,P2,…,PH,这些点均匀分布在一个单位球面上;
对于每个虚拟源Ph在(θh,φh)计算它的数组向量
给定数组输入ym(k),m=1,2,…M,k=0,1,…,T·fs计算其中fs为采样频率,k样本指数,T是样本的数量在每个(视窗化)段和分数延迟四舍五入为最接近的样本;
基于DSB的空间映射为中的虚拟声源位置集合输出H-channel时间序列,称为H通道,针对每个信道中的数据可以进一步提取频域音频特征。
确定幅度和相位谱图,离散短时傅里叶变换STFT应用于加窗数据来计算幅度和相位谱,给出了h信道中数据的离散STFT通过下式表示:
其中,w(·)是一个窗函数。在实现中,本发明使用长度为2048的汉明窗口。
确定Log-Mel语谱图,Mel语谱图是通过一组模拟人类音频前端的滤波器组将传入信号Yh(k,ω)传递得到的,通过对梅尔谱图取对数来计算对数梅尔谱图,h频道的l-th logMel谱图为:
其中,Wmel(ω,l)为梅尔滤波器组。
确定强度向量IV,多声道音频信号的强度向量是通过计算每个声道中的信号与参考声道之间的相关性得到的,对于DSB后的多路信号,直接对接收信号进行无延迟累加得到参考信道音频,对于任何信道h,DSB后音频的初始强度向量通过下式表示:
其中,是频道h的STFT特征,/>是参考音频的STFT特征,*是元素返回的复数共轭,Re是元素返回的复数的实部;提取到的强度向量特征可以通过每个元素除以所有DSB后音频平方和的平方根进一步归一化;DSB后的音频平方和的平方根为:
通过与Mel滤波器组相乘,将亮度向量特征变换到Mel域,在DSB之后,任意通道h的音频强度向量为:
其中,在Wmel(ω,l)为梅尔滤波器组。
所述步骤2具体为:
在GPU上计算延迟求和、SFTF和LogMel特征,使用Cupy库;在delay和sum中,当求和延迟相同的时间量时,得到的求和也延迟相同的时间量,考虑位于和/>的两个麦克风接收到的信号y1(t)和y2(t),对于单位球与满足的双曲线相交处的任意位置Ph,延迟和的形式为:
对于不同的Ph,延迟和移动了在不同的位置存储和重用这些部分和,以进一步加速DSB的计算。
当空间中有四个麦克风和两个点Ph和Pj(1≤i≤j≤H),经过延时计算,两点对应的延时分别为[Δi1,Δi2,Δi3,Δi4]和[Δj1,Δj2,Δj3,Δj4],在以下情况下存在冗余:
情况1:当为[…,Δix,…,Δiy,…]=[…,Δjx,…,Δjy,…],计算Pi点的x和y麦克风的延迟和并将其存储在内存中,然后将其他麦克风的延迟结果相加;在计算点Pj时,直接调用Pi处的x和y麦克风之和的结果,然后将其他麦克风的延迟结果相加;
情况2:当[…,Δix,…,Δiy,…,Δiz,…]=[…,Δjx,…,Δjy,…,Δjz,…],则计算过程与情况1类似,在整体计算过程中优先考虑计算情况1,而情况2也可以直接调用情况1中的结果。
具体实施例二:
本申请实施例二与实施例一的区别仅在于:
DoA问题的描述
假设M个麦克风位于为了不失一般性,本发明假设麦克风的质心位于3D坐标空间的原点,即/>设n≤N为时间[0,T]内活跃声源的(未知)个数。声源集合表示为S={S1,S2,…,Sn}。由于商业上现成的扬声器麦克风阵列的孔径,它们的孔径通常在几个中心米的量级上。距离阵列中心几米远的声源可视为处于远场。因此,到达阵列的声波近似为平面波。换句话说,来自单个声源的声波在每个麦克风上的DOA是相同的。在远场环境下,只能估计声源的DOA,而其范围仍然不可确定。
因此,用来表示声源在极坐标中的方位角和仰角就足够了。设xi(t)为声源i传播的波,ym(t)为麦克风m接收的波,即有
其中在τi,m是传播延迟从源i到麦克风m的时间,即c是声音在空气中传播的速度。注意,在平面波假设和时不变信道下,来自i的声波在所有麦克风上被Ai衰减。设Δi为从源i到阵列中心的延迟。当源i在远场时有
最后一项是由极坐标到笛卡尔坐标的变换得到的。上式的一个重要含义是,不同麦克风的延迟差异仅取决于声源的DOA和阵列的几何形状(即's),而不是声源的范围,该范围在Δi中被吸收且不可判定。因此,本发明可以定义一个向量/>其中第m元素是由和下面的向量形式,
如图1所示,在t∈[0,T]的时间区间内,四个麦克风捕获来自三个不同空间方向的声信号。然后使用嵌入式设备对获取的声学数据进行实时特征提取,然后使用神经网络进行预测。最后,嵌入式设备提供一个输出,表明检测到的声音数量以及它们对应的方向定位。鉴于ym(t),t∈[0,T],m=1,2,…,M,听起来多源定位问题是确定n个声音来源的数量和他们的DOAs(θi,φi),i=1,2,…,n。
音频特征提取
传统的声音预处理主要是去除音频的噪声和混响,其中噪声是指不需要的、干扰原始声音信号的额外声音成分。噪声可能是由环境、设备或其他电磁干扰产生的,常见的噪声包括背景噪声、电源噪声、电磁干扰等。噪声的去除可以由静态噪声去除、自适应滤波和频谱减法滤波。混响是由声音在封闭空间内的反射和衍射所导致的延迟和频率响应改变,通常会给声音增加尾音或使其听起来空洞。混响的去除可以通过对音频信号进行傅里叶变换,可以将时域信号转换为频域信号,这样有助于对混响成分进行分析和处理。也可以用数字滤波器来补偿混响对声音频谱的影响,使其尽可能恢复原始信号的特性。随着深度学习的发展,目前的声音预处理通常用于特征提取之前,而不对其单独的进行处理。以对数梅尔频谱特征(LogMel spectrum)为例,首先,将原始音频信号进行预处理,以便在后续步骤中提取更有意义的特征。预处理通常包括去除静音段、降噪、消除直流分量、标准化音频幅度等。将预处理后的音频信号切分成短帧,一般情况下,每帧的时长为20-30毫秒。这样做是为了假设在每个时间段内声音的特性是稳定的,并且能够捕获语音中的短时变化。对每一帧应用窗函数,常见的窗函数有汉明窗、汉宁窗等。这一步骤有助于减少频谱泄漏的影响。对加窗后的音频帧进行快速傅里叶变换(FFT),将时域信号转换为频域信号。这将产生每帧的频谱图。在频域信号上应用一组梅尔滤波器。梅尔滤波器组是一组三角形滤波器,其在低频区域密集而在高频区域稀疏。这样做是因为人耳对低频声音更敏感,而高频声音变化较快,需要更高的分辨率。对滤波器组滤波得到的结果取对数。这是因为人类的听觉感知更接近于对频率的对数响应,使用对数可以更好地模拟人耳的感知。
DSB特征提取
DSB是一种著名的阵列处理技术,它将接收信号的延迟对齐到一个目标方向,然后对阵列上相应的延迟信号求和。来自目标方向的信号是相干叠加的,而来自其他方向的信号则具有畸变和非相干聚集。DSB算法可以直接用于声源定位,搜索所有可能的候选声源方向,找到最大功率的声源方向。尽管DSB算法简单,但其计算量随着搜索区域的增大呈线性增长。本发明使用DSB在一组固定的方向上生成信号的空间表示。这些方向通常与实际的源位置不对齐,但通过引入原始信号的不同延迟版本,将空间信息直接嵌入到产生的表示中。
具体来说,设为以阵列中心为中心的单位球面上H位置的集合。对于极坐标系(θh,φh)处的假定声源,其在阵列上的延迟由下式给出。给定接收信号ym(t),m=1,2,…,M,第h个通道的DSB计算的方式如下
DSB的效果很明显:如果Ph与源i重合,则xi(t)在阵列输出中一致累加。
在使用离散样本的DSB实现中出现了轻微的复杂情况。为了处理不是采样间隔倍数的分数延迟,一种方法是插值接收到的波形。然而,在48KHz采样频率下,将产生的延迟舍入到最近的采样间隔就足够了,而不会对最终性能造成重大损害。作为包络背面检查,对于位于线性阵列同侧方向的声源,1/48000秒的到达时间差大致对应0.0071rad或0.41°的DOA差。基于dsb的空间映射的步骤如下:
·在监测区域中选择H虚拟声源位置,记为P1,P2,…,PH,这些点均匀分布在一个单位球面上。
·对于每个虚拟源Ph在(θh,φh)计算它的数组向量
·给定数组输入ym(k),m=1,2,…M,k=0,1,…,T·fs计算其中fs为采样频率,k样本指数,T是样本的数量在每个(视窗化)段和分数延迟四舍五入为最接近的样本。
基于DSB的空间映射为中的虚拟声源位置集合输出H-channel时间序列(称为H通道)。针对每个信道中的数据可以进一步提取频域音频特征。
(1)幅度和相位谱图:离散短时傅里叶变换(STFT)可以应用于加窗数据来计算幅度和相位谱。给出了h信道中数据的离散STFT
其中w(·)是一个窗函数。在实现中,本发明使用长度为2048的汉明窗口。
(2)Log-Mel语谱图:Mel语谱图是通过一组模拟人类音频前端的滤波器组将传入信号Yh(k,ω)传递得到的。然后通过对梅尔谱图取对数来计算对数梅尔谱图。具体来说,h频道的l-th log Mel谱图为
其中在Wmel(ω,l)为梅尔滤波器组。
(3)强度向量(IV):多声道音频信号的强度向量是通过计算每个声道中的信号与参考声道之间的相关性得到的。对于DSB后的多路信号,直接对接收信号进行无延迟累加得到参考信道音频。对于任何信道h,DSB后音频的初始强度向量为:
其中是频道h的STFT特征,/>是参考音频的STFT特征,*是元素返回的复数共轭,Re是元素返回的复数的实部。提取到的强度向量特征可以通过每个元素除以所有DSB后音频平方和的平方根进一步归一化。DSB后的音频平方和的平方根为:
最后,通过与Mel滤波器组相乘,将亮度向量特征变换到Mel域。在DSB之后,任意通道h的音频强度向量为:
其中在Wmel(ω,l)为梅尔滤波器组。
在对多通道音频进行DSB之后可以提取LogMel特征和IV特征。提取后的特征需要进行全局归一化,归一化的数据在深度学习上进行训练和测试。实验结果表明,在同样大小的数据规模和模型下,DSB和IV特征都可以有效的降低DOA误差。
DSB边缘端加速算法
为了使DoA在嵌入式设备上实时或接近实时地运行,本发明利用NVidia JetsonNano GPU加速空间映射和特征提取,并提出了一种冗余去除算法。
首先,为了加快Nano设备上的计算速度,本发明在其GPU上计算延迟求和、SFTF和LogMel特征,使用Cupy库。Cupy是一个用于gpu加速计算的开源数组库。其次,在delay和sum中,当求和延迟相同的时间量时,得到的求和也延迟相同的时间量(假设衰减差可以忽略不计)。考虑位于和/>的两个麦克风接收到的信号y1(t)和y2(t)。对于单位球与满足
的双曲线相交处的任意位置Ph,延迟和的形式为
对于不同的Ph,延迟和移动了因此,本发明可以在不同的位置存储和重用这些部分和,以进一步加速DSB的计算。
例如,假设空间中有四个麦克风和两个点Ph和Pj(1≤i≤j≤H)。经过延时计算,两点对应的延时分别为[Δi1,Δi2,Δi3,Δi4]和[Δj1,Δj2,Δj3,Δj4]。在以下情况下存在冗余:
(1)如果为[…,Δix,…,Δiy,…]=[…,Δjx,…,Δjy,…],计算Pi点的x和y麦克风的延迟和并将其存储在内存中,然后将其他麦克风的延迟结果相加。在计算点Pj时,直接调用Pi处的x和y麦克风之和的结果,然后将其他麦克风的延迟结果相加。
(2)若[…,Δix,…,Δiy,…,Δiz,…]=[…,Δjx,…,Δjy,…,Δjz,…],则计算过程与(1)类似,在整体计算过程中优先考虑计算(1),而(2)也可以直接调用(1)中的结果。
具体实施例三:
本申请实施例三与实施例二的区别仅在于:
本发明使用麦克风采集多通道音频数据。随后,本发明应用DSB算法对这些多通道音频数据进行波束形成,从而提高声源定位的精确度。为了加快波束形成的速度,本发明引入DSB边缘加速算法,它有效去除冗余计算,优化了计算效率。接下来,本发明对经过DSB处理的音频数据进行特征提取,其中包括LogMel特征和IV特征的计算。这个特征提取过程利用了边缘端GPU来保证实时性,特别适用于嵌入式设备,如Nano。最后,本发明将这些提取的特征用于训练一个CRNN模型,用于声源方向的估计。这一创新方法相对于不使用DSB的方法,能够显著减小DoA误差,从而提高声源定位的准确性。更重要的是,本发明的方法具有边缘端实时运行的能力,适用于需要快速响应的音频处理场景,如工业环境中的故障检测。这一综合性方法通过优化多声源定位的预处理、特征提取和模型训练,实现了高效和高质量的声源定位。
具体实施例四:
本申请实施例四与实施例三的区别仅在于:
本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行,以用于实现一种风洞应变天平的应变传感器故障诊断方法。
具体实施例五:
本申请实施例五与实施例四的区别仅在于:
本发明提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种风洞应变天平的应变传感器故障诊断方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“N个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行***、装置或设备(如基于计算机的***、包括处理器的***或其他可以从指令执行***、装置或设备取指令并执行指令的***)使用,或结合这些指令执行***、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行***、装置或设备或结合这些指令执行***、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或N个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,N个步骤或方法可以用存储在存储器中且由合适的指令执行***执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
以上所述仅是一种面向多通道音频定位的特征预处理和提取方法的优选实施方式,一种面向多通道音频定位的特征预处理和提取方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。
Claims (10)
1.一种面向多通道音频定位的特征预处理和提取方法,其特征是:所述方法包括以下步骤:
步骤1:进行DSB特征提取LogMel特征和IV特征,提取后的特征进行全局归一化,归一化的数据在深度学习上进行训练和测试;
步骤2:通过DSB边缘端加速方法进行加速处理,将提取的特征用于训练一个CRNN模型,用于声源方向的估计。
2.根据权利要求1所述的方法,其特征是:所述步骤1具体为:
设为以阵列中心为中心的单位球面上H位置的集合,对于极坐标系(θh,φh)处的假定声源,其在阵列上的延迟由下式给出,给定接收信号ym(t),m=1,2,…,M,第h个通道的DSB通过下式表示:
。
3.根据权利要求2所述的方法,其特征是:
当Ph与源i重合,则xi(t)在阵列输出中一致累加。
4.根据权利要求3所述的方法,其特征是
基于DSB的空间映射的步骤如下:
在监测区域中选择H虚拟声源位置,记为P1,P2,…,PH,这些点均匀分布在一个单位球面上;
对于每个虚拟源ph在(θh,φh)计算它的数组向量
给定数组输入ym(k),m=1,2,…M,k=0,1,…,T·fs计算其中fs为采样频率,k样本指数,T是样本的数量在每个(视窗化)段和分数延迟四舍五入为最接近的样本;
基于DSB的空间映射为中的虚拟声源位置集合输出H-channel时间序列,称为H通道,针对每个信道中的数据可以进一步提取频域音频特征。
5.根据权利要求4所述的方法,其特征是:
确定幅度和相位谱图,离散短时傅里叶变换STFT应用于加窗数据来计算幅度和相位谱,给出了h信道中数据的离散STFT通过下式表示:
其中,w(·)是一个窗函数,在实现中,我们使用长度为2048的汉明窗口;
确定Log-Mel语谱图,Mel语谱图是通过一组模拟人类音频前端的滤波器组将传入信号Yh(k,ω)传递得到的,通过对梅尔谱图取对数来计算对数梅尔谱图,h频道的l-th log Mel谱图为:
其中,Wmel(ω,l)为梅尔滤波器组;
确定强度向量IV,多声道音频信号的强度向量是通过计算每个声道中的信号与参考声道之间的相关性得到的,对于DSB后的多路信号,直接对接收信号进行无延迟累加得到参考信道音频,对于任何信道h,DSB后音频的初始强度向量通过下式表示:
其中,是频道h的STFT特征,/>是参考音频的STFT特征,*是元素返回的复数共轭,Re是元素返回的复数的实部;提取到的强度向量特征可以通过每个元素除以所有DSB后音频平方和的平方根进一步归一化;DSB后的音频平方和的平方根为:
通过与Mel滤波器组相乘,将亮度向量特征变换到Mel域,在DSB之后,任意通道h的音频强度向量为:
其中,在Wmel(ω,l)为梅尔滤波器组。
6.根据权利要求5所述的方法,其特征是:所述步骤2具体为:
在GPU上计算延迟求和、SFTF和LogMel特征,使用Cupy库;在delay和sum中,当求和延迟相同的时间量时,得到的求和也延迟相同的时间量,考虑位于和/>的两个麦克风接收到的信号y1(t)和y2(t),对于单位球与满足的双曲线相交处的任意位置Ph,延迟和的形式为:
对于不同的Ph,延迟和移动了在不同的位置存储和重用这些部分和,以进一步加速DSB的计算。
7.根据权利要求6所述的方法,其特征是:
当空间中有四个麦克风和两个点Ph和Pj(1≤i≤j≤H),经过延时计算,两点对应的延时分别为[Δi1,Δi2,Δi3,Δi4]和[Δj1,Δj2,Δj3,Δj4],在以下情况下存在冗余:
情况1:当为[…,Δix,…,Δiy,…]=[…,Δjx,…,Δjy,…],计算Pi点的x和y麦克风的延迟和并将其存储在内存中,然后将其他麦克风的延迟结果相加;在计算点Pj时,直接调用Pi处的x和y麦克风之和的结果,然后将其他麦克风的延迟结果相加;
情况2:当[…,Δix,…,Δiy,…,Δiz,…]=[…,Δjx,…,Δjy,…,Δjz,…],则计算过程与情况1类似,在整体计算过程中优先考虑计算情况1,而情况2也可以直接调用情况1中的结果。
8.一种面向多通道音频定位的特征预处理和提取***,其特征是:所述***包括:
特征提取模块,所述特征提取模块进行DSB特征提取LogMel特征和IV特征,提取后的特征进行全局归一化,归一化的数据在深度学习上进行训练和测试;
声源估计模块,所述声源估计模块通过DSB边缘端加速方法进行加速处理,将提取的特征用于训练一个CRNN模型,用于声源方向的估计。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行,以用于实现如权利要求1-7任意一项所述的方法。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征是:所述处理器执行所述计算机程序时实现权利要求1-7任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311601140.XA CN117630818A (zh) | 2023-11-28 | 2023-11-28 | 一种面向多通道音频定位的特征预处理和提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311601140.XA CN117630818A (zh) | 2023-11-28 | 2023-11-28 | 一种面向多通道音频定位的特征预处理和提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117630818A true CN117630818A (zh) | 2024-03-01 |
Family
ID=90029811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311601140.XA Pending CN117630818A (zh) | 2023-11-28 | 2023-11-28 | 一种面向多通道音频定位的特征预处理和提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117630818A (zh) |
-
2023
- 2023-11-28 CN CN202311601140.XA patent/CN117630818A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vecchiotti et al. | End-to-end binaural sound localisation from the raw waveform | |
Yegnanarayana et al. | Processing of reverberant speech for time-delay estimation | |
Pavlidi et al. | 3D localization of multiple sound sources with intensity vector estimates in single source zones | |
Moore et al. | Direction of arrival estimation using pseudo-intensity vectors with direct-path dominance test | |
MX2014006499A (es) | Aparato y metodo para posicionar microfonos basado en la densidad de potencia espacial. | |
JP6225245B2 (ja) | 信号処理装置、方法及びプログラム | |
CN109188362A (zh) | 一种麦克风阵列声源定位信号处理方法 | |
Di Carlo et al. | Mirage: 2d source localization using microphone pair augmentation with echoes | |
JP2022533300A (ja) | キューのクラスター化を使用した音声強化 | |
Bologni et al. | Acoustic reflectors localization from stereo recordings using neural networks | |
Traa et al. | Blind multi-channel source separation by circular-linear statistical modeling of phase differences | |
Dumortier et al. | Blind RT60 estimation robust across room sizes and source distances | |
Pfeifenberger et al. | Multi-channel speech processing architectures for noise robust speech recognition: 3rd CHiME challenge results | |
Hu et al. | Closed-form single source direction-of-arrival estimator using first-order relative harmonic coefficients | |
KR20090128221A (ko) | 음원 위치 추정 방법 및 그 방법에 따른 시스템 | |
Deppisch et al. | Spatial subtraction of reflections from room impulse responses measured with a spherical microphone array | |
Maazaoui et al. | Adaptive blind source separation with HRTFs beamforming preprocessing | |
Hu et al. | Evaluation and comparison of three source direction-of-arrival estimators using relative harmonic coefficients | |
CN117630818A (zh) | 一种面向多通道音频定位的特征预处理和提取方法 | |
Nakano et al. | Automatic estimation of position and orientation of an acoustic source by a microphone array network | |
Hu et al. | Robust binaural sound localisation with temporal attention | |
Dwivedi et al. | Far-field source localization in spherical harmonics domain using acoustic intensity vector | |
Peng et al. | Sound Source Localization Based on Convolutional Neural Network | |
SongGong et al. | Multi-Speaker Localization in the Circular Harmonic Domain on Small Aperture Microphone Arrays Using Deep Convolutional Networks | |
Wang | Speech enhancement using fiber acoustic sensor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |