CN117169812A - 一种基于深度学习和波束形成的声源定位方法 - Google Patents

一种基于深度学习和波束形成的声源定位方法 Download PDF

Info

Publication number
CN117169812A
CN117169812A CN202311134116.XA CN202311134116A CN117169812A CN 117169812 A CN117169812 A CN 117169812A CN 202311134116 A CN202311134116 A CN 202311134116A CN 117169812 A CN117169812 A CN 117169812A
Authority
CN
China
Prior art keywords
audio signal
sound source
beam forming
microphone array
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311134116.XA
Other languages
English (en)
Inventor
董明荣
杨宜璇
沈韬
曾凯
蔡云麒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202311134116.XA priority Critical patent/CN117169812A/zh
Publication of CN117169812A publication Critical patent/CN117169812A/zh
Pending legal-status Critical Current

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种基于深度学习和波束形成的声源定位方法,属于声源定位技术领域。首先根据需求将4个麦克风以固定间距组成一个麦克风阵列,利用麦克风阵列获取音频,再将原始音频转换为梅尔频谱进行特征提取,然后利用TDNN网络对音频进行分类,最后根据音频分类结果进一步利用波束形成方法对多通道音频进行声源定位。本发明将深度学习与波束形成方法结合起来,降低了所需数据标注成本,并可灵活改变所需声源定位的目标。

Description

一种基于深度学习和波束形成的声源定位方法
技术领域
本发明涉及一种基于深度学习和波束形成的声源定位方法,属于声源定位技术领域。
背景技术
声源定位是指确定声音的来源位置。在许多应用中,比如智能音频监控、机器人导航和语音增强,准确地定位声源位置对于提供更好的用户体验和性能至关重要。波束形成是一种通过合理组合传感器接收到的信号来增强特定方向信号的技术。它通常应用于麦克风阵列,通过加权和相位调整来增强感兴趣方向上的声源信号,同时抑制其他方向的干扰。传统的声源定位方法使用信号处理技术和传感器阵列,比如交叉相关函数、波达束差、最小二乘法等,来估计声源的方向。然而,这些方法可能受到噪声、多径效应和信号强度变化等问题的影响,导致定位精度受限。
深度学习是一种机器学习技术,其核心是通过构建和训练深层神经网络来学习数据的表示和特征。在声源定位问题中,深度学习可以帮助自动学习复杂的声源特征,提高对声源位置的准确估计。近年来,研究人员开始将深度学习应用于声源定位问题。通过使用深度学习算法,可以从大量数据中学习到更有效的声源特征表示,从而提高声源定位的准确性和鲁棒性。将深度学习应用于声源定位问题。通过使用深度学习算法,可以从大量数据中学习到更有效的声源特征表示,从而提高声源定位的准确性和鲁棒性。基于深度学习和波束形成的声源定位方法通过将深度学习的强大特征学习能力与波束形成的定向增强能力相结合,为解决声源定位问题提供了一种有效的解决方案。
发明内容
本发明要解决的技术问题是提供一种基于深度学习和波束形成的声源定位方法,以用于解决用于声源定位数据集标注成本高,特定场景需要标注特定数据集等现象,增加声源定位应用的灵活性,并降低了成本。
本发明的技术方案是:一种基于深度学习和波束形成的声源定位方法,具体步骤为:
Step1:根据需求将4个麦克风以固定间距组成一个麦克风阵列,利用麦克风阵列获取原始音频信号。
所述Step1具体为:
Step1.1:在三维直角坐标系下选择四个特定位置来摆放麦克风。
所述特定位置分别是(a,a,0),(-a,a,0),(-a,-a,0),(a,-a,0)。
这些麦克风的位置构成了一个以(0,0,0)为中心的麦克风阵列,参数a在此处被视为固定值。
Step1.2:利用麦克风阵列采集4通道原始音频信号。
Step1.3:利用自适应滤波算法去除环境中的杂音和干扰,从原始音频信号中提取出纯净的音频信号。
Step1.4:对降噪后的原始音频信号进行放大,增强原始音频信号的能量,使得信号更加明显和易于区分。
Step2:将获取的原始音频信号转换为梅尔频谱进行特征提取。
所述Step2具体为:
Step2.1:将获取的原始音频信号加载并对音频信号进行重采样,以确保其采样率为16000Hz。
Step2.2:对重采样后的音频信号进行分贝归一化处理,使其音量范围在一致的标准下。
Step2.3:进行重叠加窗技术,利用汉明窗加窗函数将音频信号进行分帧处理,使得相邻帧之间存在一定的重叠,具体为:
式(1)中,0≤n≤N-1,N是窗口的长度。
Step2.4:对输入的音频信号进行快速傅立叶变换,将其从时域映射到频域:
Step2.5:经过快速傅立叶变换和重叠加窗处理后,得到音频信号的频率谱。
Step2.6:将频率谱转化为梅尔刻度,得到梅尔频谱,频率转换为梅尔刻度的公式为:
Step3:利用TDNN网络对提取后的音频信号进行分类。
所述Step3具体为:
Step3.1:利用TDNN网络对提取特征后的音频信号进行分类。
Step3.2:判断分类结果是否为需要定位的类别,以进行下一步定位操作。
Step4:根据音频信号分类结果进一步利用波束形成方法对多通道音频信号进行声音定位。
所述Step4具体为:
Step4.1:基于acoular库中RectGrid函数,创建声场网格,用于表示声源位置的可能范围。
Step4.2:从指定路径读取麦克风阵列获取的多通道音频信号,并得到音频信号的采样率等信息。
Step4.3:将麦克风阵列获取的多通道音频信号转化为h5格式。
Step4.4:将音频信号进行分帧,并对每一帧进行加窗操作,然后对每一帧进行快速傅里叶变换,最后计算得每一帧的功率谱具体为:
式(4)中,xi是信号x的第i帧。
Step4.5:绘制麦克风位置,将麦克风阵列的位置信息绘制在图上。
Step4.6:基于acoular库中的Environment函数,得到声场环境。
Step4.7:利用声场环境、麦克风阵列信息和声场网格,创建声源定位的转向矢量。
Step4.8:基于频谱数据和转向矢量实现波束形成,得到波束形成结果。
Step4.9:计算波束形成结果的声压级,并将结果显示在热力图上,具体为:
SPL=20*log10 (P/Pref) (5)
式(5)中,P为待计算声压,Pref为基准参考声压。
Step4.10:根据Step4.9中的热力图得到声源位置信息。
本发明的有益效果是:本发明利用麦克风阵列获取声源信息,利用TDNN网络对声源进行识别是否为需要定位的目标,然后给出声源的位置信息。本发明与现有技术相比,主要解决了用于声源定位数据集标注成本高,特定场景需要标注特定数据集等现象,增加了声源定位应用的灵活性,并降低了成本。
附图说明
图1是本发明的流程图;
图2是本发明的麦克风阵列位置图;
图3是本发明声源定位的位置信息图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种基于深度学习和波束形成的声源定位方法,其特征在于:
Step1:根据需求将4个麦克风以固定间距组成一个麦克风阵列,利用麦克风阵列获取原始音频信号。
Step2:将获取的原始音频信号转换为梅尔频谱进行特征提取。
Step3:利用TDNN网络对提取后的音频信号进行分类。
Step4:根据音频信号分类结果进一步利用波束形成方法对多通道音频信号进行声音定位。
由于在实际应用中,所需声源定位的场景不同,需要根据具体需求构造适合的麦克风阵列,麦克风具***置如图2所示,因此本实施例在中,所述Step1具体为:
Step1.1:在三维直角坐标系下选择四个特定位置来摆放麦克风。
所述特定位置分别是(a,a,0),(-a,a,0),(-a,-a,0),(a,-a,0)。
这些麦克风的位置构成了一个以(0,0,0)为中心的麦克风阵列,参数a在此处被视为固定值。
Step1.2:利用麦克风阵列采集4通道原始音频信号。
Step1.3:利用自适应滤波算法去除环境中的杂音和干扰,从原始音频信号中提取出纯净的音频信号。
Step1.4:对降噪后的原始音频信号进行放大,增强原始音频信号的能量,使得信号更加明显和易于区分。
由于原始音频信号是一个时域的波形,包含了大量的细节和噪音,不利于直接输入到神经网络中进行处理。梅尔频谱通过将音频信号转换到频域,能够更好地表示音频中的语音特征。它在频域上将音频分解成一系列特定频率的能量谱,并且与人耳的感知更接近。因此本实施例中,所述Step2具体为:
Step2.1:将获取的原始音频信号加载并对音频信号进行重采样,以确保其采样率为16000Hz。
Step2.2:对重采样后的音频信号进行分贝归一化处理,使其音量范围在一致的标准下。
Step2.3:进行重叠加窗技术,利用汉明窗加窗函数将音频信号进行分帧处理,使得相邻帧之间存在一定的重叠,具体为:
式(1)中,0≤n≤N-1,N是窗口的长度。
Step2.4:对输入的音频信号进行快速傅立叶变换,将其从时域映射到频域:
Step2.5:经过快速傅立叶变换和重叠加窗处理后,得到音频信号的频率谱。
Step2.6:将频率谱转化为梅尔刻度,得到梅尔频谱,频率转换为梅尔刻度的公式为:
由于音频信号是一个时域信号,具有时间上的顺序性。TDNN网络在设计中考虑了时间延迟,通过不同时间步的卷积核捕获不同时间范围内的特征,从而能够有效地处理时序信息。这使得TDNN网络能够更好地理解和利用音频中的上下文信息,对音频分类任务非常有用。因此本实施例中,所述Step3具体为:
Step3.1:利用TDNN网络对提取特征后的音频信号进行分类。
Step3.2:判断分类结果是否为需要定位的类别,以进行下一步定位操作。
所述Step4具体为:
Step4.1:基于acoular库中RectGrid函数,创建声场网格,用于表示声源位置的可能范围。
Step4.2:从指定路径读取麦克风阵列获取的多通道音频信号,并得到音频信号的采样率等信息。
Step4.3:将麦克风阵列获取的多通道音频信号转化为h5格式。
Step4.4:将音频信号进行分帧,并对每一帧进行加窗操作,然后对每一帧进行快速傅里叶变换,最后计算得每一帧的功率谱具体为:
式(4)中,xi是信号x的第i帧。
Step4.5:绘制麦克风位置,将麦克风阵列的位置信息绘制在图上。
Step4.6:基于acoular库中的Environment函数,得到声场环境。
Step4.7:利用声场环境、麦克风阵列信息和声场网格,创建声源定位的转向矢量。
Step4.8:基于频谱数据和转向矢量实现波束形成,得到波束形成结果。
Step4.9:计算波束形成结果的声压级,并将结果显示在热力图上,具体为:
SPL=20*log10 (P/Pref) (5)
式(5)中,P为待计算声压,Pref为基准参考声压。
Step4.10:根据Step4.9中的热力图得到声源位置信息。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Step2.5:经过快速傅立叶变换和重叠加窗处理后,得到音频信号的频率谱;
Step2.6:将频率谱转化为梅尔刻度,得到梅尔频谱,频率转换为梅尔刻度的公式为:
4、根据权利要求1所述的基于深度学习和波束形成的声源定位方法,其特征在于,所述Step3具体为:
Step3.1:利用TDNN网络对提取特征后的音频信号进行分类;
Step3.2:判断分类结果是否为需要定位的类别,以进行下一步定位操作。
5、根据权利要求1所述的基于深度学习和波束形成的声源定位方法,其特征在于,所述Step4具体为:
Step4.1:基于acoular库中RectGrid函数,创建声场网格,用于表示声源位置的可能范围;
Step4.2:从指定路径读取麦克风阵列获取的多通道音频信号,并得到音频信号的采样率;
Step4.3:将麦克风阵列获取的多通道音频信号转化为h5格式;
Step4.4:将音频信号进行分帧,并对每一帧进行加窗操作,然后对每一帧进行快速傅里叶变换,最后计算得每一帧的功率谱具体为:
式(4)中,xi是信号x的第i帧;
Step4.5:绘制麦克风位置,将麦克风阵列的位置信息绘制在图上;
Step4.6:基于acoular库中的Environment函数,得到声场环境;
Step4.7:利用声场环境、麦克风阵列信息和声场网格,创建声源定位的转向矢量。
Step4.8:基于频谱数据和转向矢量实现波束形成,得到波束形成结果。
Step4.9:计算波束形成结果的声压级,并将结果显示在热力图上,具体为:
SPL=20*log10 (P/Pref) (5)
式(5)中,P为待计算声压,Pref为基准参考声压;
Step4.10:根据Step4.9中的热力图得到声源位置信息。

Claims (5)

1.一种基于深度学习和波束形成的声源定位方法,其特征在于:
Step1:根据需求将4个麦克风以固定间距组成一个麦克风阵列,利用麦克风阵列获取原始音频信号;
Step2:将获取的原始音频信号转换为梅尔频谱进行特征提取;
Step3:利用TDNN网络对提取后的音频信号进行分类;
Step4:根据音频信号分类结果进一步利用波束形成方法对多通道音频信号进行声音定位。
2.根据权利要求1所述的基于深度学习和波束形成的声源定位方法,其特征在于,所述Step1具体为:
Step1.1:在三维直角坐标系下选择四个特定位置来摆放麦克风;
所述特定位置分别是(a,a,0),(-a,a,0),(-a,-a,0),(a,-a,0);
这些麦克风的位置构成了一个以(0,0,0)为中心的麦克风阵列,参数a在此处被视为固定值;
Step1.2:利用麦克风阵列采集4通道原始音频信号;
Step1.3:利用自适应滤波算法去除环境中的杂音和干扰,从原始音频信号中提取出纯净的音频信号;
Step1.4:对降噪后的原始音频信号进行放大,增强原始音频信号的能量。
3.根据权利要求1所述的基于深度学习和波束形成的声源定位方法,其特征在于,所述Step2具体为:
Step2.1:将获取的原始音频信号加载并对音频信号进行重采样,以确保其采样率为16000Hz;
Step2.2:对重采样后的音频信号进行分贝归一化处理,使其音量范围在一致的标准下;
Step2.3:进行重叠加窗技术,利用汉明窗加窗函数将音频信号进行分帧处理,使得相邻帧之间存在一定的重叠,具体为:
式(1)中,0≤n≤N-1,N是窗口的长度;
Step2.4:对输入的音频信号进行快速傅立叶变换,将其从时域映射到频域:
Step2.5:经过快速傅立叶变换和重叠加窗处理后,得到音频信号的频率谱;
Step2.6:将频率谱转化为梅尔刻度,得到梅尔频谱,频率转换为梅尔刻度的公式为:
4.根据权利要求1所述的基于深度学习和波束形成的声源定位方法,其特征在于,所述Step3具体为:
Step3.1:利用TDNN网络对提取特征后的音频信号进行分类;
Step3.2:判断分类结果是否为需要定位的类别,以进行下一步定位操作。
5.根据权利要求1所述的基于深度学习和波束形成的声源定位方法,其特征在于,所述Step4具体为:
Step4.1:基于acoular库中RectGrid函数,创建声场网格,用于表示声源位置的可能范围;
Step4.2:从指定路径读取麦克风阵列获取的多通道音频信号,并得到音频信号的采样率;
Step4.3:将麦克风阵列获取的多通道音频信号转化为h5格式;
Step4.4:将音频信号进行分帧,并对每一帧进行加窗操作,然后对每一帧进行快速傅里叶变换,最后计算得每一帧的功率谱具体为:
式(4)中,xi是信号x的第i帧;
Step4.5:绘制麦克风位置,将麦克风阵列的位置信息绘制在图上;
Step4.6:基于acoular库中的Environment函数,得到声场环境;
Step4.7:利用声场环境、麦克风阵列信息和声场网格,创建声源定位的转向矢量。
Step4.8:基于频谱数据和转向矢量实现波束形成,得到波束形成结果。
Step4.9:计算波束形成结果的声压级,并将结果显示在热力图上,具体为:
SPL=20*log10 (P/Pref) (5)
式(5)中,P为待计算声压,Pref为基准参考声压;
Step4.10:根据Step4.9中的热力图得到声源位置信息。
CN202311134116.XA 2023-09-05 2023-09-05 一种基于深度学习和波束形成的声源定位方法 Pending CN117169812A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311134116.XA CN117169812A (zh) 2023-09-05 2023-09-05 一种基于深度学习和波束形成的声源定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311134116.XA CN117169812A (zh) 2023-09-05 2023-09-05 一种基于深度学习和波束形成的声源定位方法

Publications (1)

Publication Number Publication Date
CN117169812A true CN117169812A (zh) 2023-12-05

Family

ID=88940642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311134116.XA Pending CN117169812A (zh) 2023-09-05 2023-09-05 一种基于深度学习和波束形成的声源定位方法

Country Status (1)

Country Link
CN (1) CN117169812A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117368847A (zh) * 2023-12-07 2024-01-09 深圳市好兄弟电子有限公司 基于麦克风射频通信网络的定位方法及***

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117368847A (zh) * 2023-12-07 2024-01-09 深圳市好兄弟电子有限公司 基于麦克风射频通信网络的定位方法及***
CN117368847B (zh) * 2023-12-07 2024-03-15 深圳市好兄弟电子有限公司 基于麦克风射频通信网络的定位方法及***

Similar Documents

Publication Publication Date Title
CN109597022B (zh) 声源方位角运算、定位目标音频的方法、装置和设备
US10127922B2 (en) Sound source identification apparatus and sound source identification method
JP4248445B2 (ja) マイクロホンアレイ方法及びシステム、並びにこれを用いた音声認識方法及び装置
CN111445920B (zh) 一种多声源的语音信号实时分离方法、装置和拾音器
CN109427328B (zh) 一种基于滤波网络声学模型的多通道语音识别方法
CN112904279B (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
CN108109617A (zh) 一种远距离拾音方法
CN106872945B (zh) 声源定位方法、装置和电子设备
CN110875056B (zh) 语音转录设备、***、方法、及电子设备
CN110610718B (zh) 一种提取期望声源语音信号的方法及装置
CN117169812A (zh) 一种基于深度学习和波束形成的声源定位方法
CN111798869B (zh) 一种基于双麦克风阵列的声源定位方法
CN113314127B (zh) 基于空间方位的鸟鸣识别方法、***、计算机设备与介质
CN112394324A (zh) 一种基于麦克风阵列的远距离声源定位的方法及***
CN112485761A (zh) 一种基于双麦克风的声源定位方法
CN112363112A (zh) 一种基于线性麦克风阵列的声源定位方法及装置
CN112859000B (zh) 一种声源定位方法以及装置
CN116472471A (zh) 声源的改进定位
CN112037813B (zh) 一种针对大功率目标信号的语音提取方法
CN116559778B (zh) 一种基于深度学习的车辆鸣笛定位方法及***
CN113870893A (zh) 一种多通道双说话人分离方法及***
CN114927141B (zh) 异常水声信号的检测方法及***
CN116153324A (zh) 基于深度学习的虚拟阵列扩展的波束形成方法
CN113223552B (zh) 语音增强方法、装置、设备、存储介质及程序
CN113744752A (zh) 语音处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination