CN117275446A - 一种基于声音事件检测的交互式有源噪声控制***及方法 - Google Patents

一种基于声音事件检测的交互式有源噪声控制***及方法 Download PDF

Info

Publication number
CN117275446A
CN117275446A CN202311554080.0A CN202311554080A CN117275446A CN 117275446 A CN117275446 A CN 117275446A CN 202311554080 A CN202311554080 A CN 202311554080A CN 117275446 A CN117275446 A CN 117275446A
Authority
CN
China
Prior art keywords
sound
filter
noise
sound event
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311554080.0A
Other languages
English (en)
Other versions
CN117275446B (zh
Inventor
谢荣
涂安琦
李会勇
赖大坤
张乐
史创
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202311554080.0A priority Critical patent/CN117275446B/zh
Publication of CN117275446A publication Critical patent/CN117275446A/zh
Application granted granted Critical
Publication of CN117275446B publication Critical patent/CN117275446B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17813Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms
    • G10K11/17815Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms between the reference signals and the error signals, i.e. primary path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17813Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms
    • G10K11/17817Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the acoustic paths, e.g. estimating, calibrating or testing of transfer functions or cross-terms between the output signals and the error signals, i.e. secondary path
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1781Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions
    • G10K11/17821Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase characterised by the analysis of input or output signals, e.g. frequency range, modes, transfer functions characterised by the analysis of the input signals only
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1785Methods, e.g. algorithms; Devices
    • G10K11/17853Methods, e.g. algorithms; Devices of the filter
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K11/00Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/16Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
    • G10K11/175Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound
    • G10K11/178Methods or devices for protecting against, or for damping, noise or other acoustic waves in general using interference effects; Masking sound by electro-acoustically regenerating the original acoustic waves in anti-phase
    • G10K11/1787General system configurations
    • G10K11/17885General system configurations additionally using a desired external signal, e.g. pass-through audio such as music or speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T90/00Enabling technologies or technologies with a potential or indirect contribution to GHG emissions mitigation

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

本发明的目的在于提供一种基于声音事件检测的交互式有源噪声控制***及方法,属于有源噪声控制技术领域。本发明控制***包含新搭建的条件声音时间检测神经网络和子带噪声控制滤波器组;控制方法基于控制***实现,通过预选一种声音事件类别,然后经过条件声音事件检测神经网络输出预选类别声音事件的频谱掩码;通过频谱掩码实时的调节子带可调噪声控制滤波器输出的控制信号,使次级扬声器输出的控制声波中不包含预选类别的分量,从而不抑制预选类别声音事件的声波。

Description

一种基于声音事件检测的交互式有源噪声控制***及方法
技术领域
本发明属于有源噪声控制技术领域,具体涉及一种基于声音事件检测的交互式有源噪声控制***及方法。
背景技术
有源噪声控制技术利用声波干涉相消的原理达到抑制噪声的目的。然而在我们在日常的生活和工作中,噪声依赖于主观判断,即并不是所有的声音都是噪声,例如在公园中行走时,远处路边车辆行驶的声音是噪声,而公园中鸟语声便成为了人们亲近自然悦耳的声音;当行走在路上时,旁边嘈杂的谈话声音是噪声,身后自行车的铃声便是让人们躲避危险的声音;再如当与人交谈时,身后自行车的铃声便成为了噪声。
相对于传统的耳机,目前有一些耳机增加了主动降噪模式和通透模式,其中主动降噪模式是通过有源噪声控制技术实现的,而通透模式则是通过听感均衡器将外界的声音均衡,目的是让人们感觉没有带耳机一样。但是这两种模式一个是对外界声音进行全部抑制,另一个则是让外界的声音全部到达人耳膜处,均没有选择性,无法实现将想听的声音保留而抑制不想听的声音(噪声)的目的。
针对于噪声的选择性保留,有一些工作对此做过尝试,例如在“Comb-partitionedfrequency-domain constraint adaptive algorithm for active noise control”一文中,可以只抑制声音的低频段而保留声音的高频段,使有源噪声控制***保留一些高频警报声音,即使戴着耳机人们也能感受到周围的一些危险信号,但是这种方案能保留的声音频率特征单一。在“Design and Implementation of an Active Noise ControlHeadphone With Directional Hear-Through Capability”一文中,首先利用有源噪声控制技术抑制周围环境的所有声音,然后利用超波束形成技术将正前方的声音通过耳机播放,达到抑制其他方向的声音而保留一个方向声音的目的。这种方案会存在以下两个方面的问题:一方面噪声可能也会出现在同一方向;另一方面由于阵列大小的限制,在耳机上使用超波束形成技术达不到较为理想的效果。此外也可结合有源噪声控制和声音分离技术,但是目前效果较好的声音分离技术延迟较大,延迟较小的声音分离技术不能达到理想的分离效果。最重要的是,现有技术方案不具备声音事件的选择性,无法满足用户个性化的要求。
发明内容
针对背景技术所存在的现有噪声控制方法不具备对声音具有选择性控制的问题,本发明的目的在于提供一种基于声音事件检测的交互式有源噪声控制***及方法。本发明控制***包含新搭建的条件声音时间检测神经网络和子带噪声控制滤波器组;控制方法基于控制***实现,通过预选一种声音事件类别,然后经过条件声音事件检测神经网络输出预选类别声音事件的频谱掩码;通过频谱掩码实时的调节子带可调噪声控制滤波器输出的控制信号,使次级扬声器输出的控制声波中不包含预选类别的分量,从而不抑制预选类别声音事件的声波,实现对其余声音的控制。
为实现上述目的,本发明的技术方案如下:
一种基于声音事件检测的交互式有源噪声控制***,包括选择端口1、条件声音事件检测网络2、参考麦克风3、子带可控滤波器4和次级扬声器5;
所述选择端口1用于选择声音事件的类别,并将声音事件的类别序号传输至条件声音事件检测网络2;所述参考麦克风3用于实时的将环境中的声波信号传输至条件声音事件检测网络2和子带可控滤波器4;条件声音事件检测网络2用于基于声音事件的类别序号和参考信号实时获取预选类别的频谱掩码,并将频谱掩码传输至子带可控滤波器4;所述子带可控滤波器4用于基于频谱掩码和参考信号输出控制信号,使次级扬声器输出的控制声波中不包含预选类别的分量,从而不抑制预选类别声音事件的声波;次级扬声器5将控制信号转换为控制声波,与干扰声波在人耳处相互抵消,最后在人耳处只剩下了用户预选类别声音事件的声波。
进一步地,所述条件声音事件检测网络2包括条件特征生成模块、特征提取模块、局部特征分析模块、特征融合模块、序列特征分析模块和输出模块;
所述条件特征生成模块基于预选类别声音类型序号进行初步编码,得到高维条件特征,并将高维条件特征输出至特征融合模块;特征提取模块用于将参考信号进行分帧、加窗、特征变换,得到输入特征,并将输入特征输出至局部特征分析模块;局部特征分析模块将输入特征进行局部的特征分析,得到高维局部特征,并将高维局部特征输出至特征融合模块;特征融合模块将高维条件特征和高维局部特征进行融合,得到高维融合特征,并将高维融合特征输出至序列分析模块;序列分析模块将高维融合特征进行序列化分析,得到序列化融合特征,并将序列化融合特征输出至输出模块;输出模块将序列化融合特征进行维度变换,流式输出预选声音事件类别的活动状态和频谱分布/>,并基于活动状态和频谱分布/>得到频谱掩码/>m为一段音频的帧序号。
进一步地,所述条件声音事件检测网络2的损失函数为:
其中,m为一段音频的帧序号,M为一段音频分帧的总数,为预选声音事件活动状态的标签,/>为活动状态,/>为预选声音事件频谱分布的标签,/>为频谱分布;/>和/>为损失权重,且/>
进一步地,所述条件声音事件检测网络2训练所采用的数据集包括可以预选的单音事件声音数据和不可预选的背景噪声声音数据;所述可以预选的单音事件声音数据具体为“笑声”、“鸟鸣声”、“警报声”、“说话声”、“音乐声”等,不可预选的背景噪声声音数据具体为“交通噪声”、“发动机噪声”、“粉色噪声”、“地铁噪声”等。
进一步地,子带可控滤波器包括子带滤波器组和幅度调节数组/>
所述子带滤波器组包括G个子带滤波器/>,所述子带滤波器用于对参考信号进行滤波处理,即将参考信号和各个子滤波器进行线性卷积;所述幅度调节数组/>用于调节各个子滤波器的输出幅度,即滤波输出分别乘以向量/>中的元素,其中为1的元素表示抑制相应的子带,而为0的元素则表示保留响应的子带。
进一步地,子带滤波器组的获取过程为:
步骤1:运用FxLMS算法对白噪声训练,训练时的迭代公式为:
其中,为第n次采样时的全频带噪声控制滤波器,/>为步长,/>为误差信号,为滤波参考信号;
训练好后得到的全频带噪声控制滤波器记为
步骤2:利用滤波器重构技术将进行分解,
步骤2.1.对全频带噪声控制滤波器进行离散傅里叶变换,/>
其中, F L 为离散傅里叶变换矩阵,L表示控制滤波器的长度,为全频带噪声控制滤波器频域向量,
,其中,/>为噪声控制滤波器的第l个频域值,l=0,1,...,L-1;
步骤2.2. 将全频带噪声控制滤波器频域向量划分为G个子带滤波器频域向量,则G个子带滤波器频域系数分配具体过程为:
当g < G时:
当g =G时:
其中,I表示子带噪声控制滤波器的带宽;
则第g个子带噪声控制滤波器频域的向量形式为:
,其中,/>为第g个子带噪声控制滤波器的第l个频域值,l=0,1,...,L-1;
步骤2.3.对每个进行离散傅里叶逆变换,得到第g个子带滤波器/>g=1,2,...,G
则子带滤波器组,其中,G为子带的数量,/>为离散傅里叶变换矩阵F L 的逆矩阵。
进一步地,所述幅度调节数组由频谱掩码/>按位取反获得,即:,其中,/>,/>为第g个子带的幅度调节数组。
一种基于声音事件检测的交互式有源噪声控制方法,包括以下步骤:
步骤1.用户预选想要保留的声音事件类别;
步骤2. 实时获取参考信号
步骤3. 基于步骤1预选的声音事件类别序号和步骤2实时获取的参考信号,采用训练好的条件检测神经网络获得预选类别声音事件的活动状态/>和频谱分布/>,其中m表示帧序号,按阈值/>和/>对/>和/>二值化后将两者相乘得到频谱掩码/>
步骤4.基于步骤3得到的频谱掩码获得幅度调节数组/>,即:/>
步骤5.基于参考信号、幅度调节数组/>和子带滤波器组/>获得控制信号y(n),具体为,
其中,n表示采样序号,G为子带的数量,由预选声音事件的频谱分布确定,T为转秩;
步骤6. 控制信号控制次级扬声器发出控制声波,与干扰声波在人耳处相互抵消,最后在人耳处只剩下了用户预设类别声音事件的声波。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
1.本发明搭建的条件声音事件检测神经网络是一个流式的检测网络,不依赖于未来时刻的信息,可以使预选类别的声音事件的声音信号实时的传递到人耳处。
2.本发明所采用的子带可调噪声控制滤波器,是由全频带噪声控制滤波器分解而来,不会给***带来额外的时延或噪声抑制效果的下降。
3.本发明控制方法可以使得当用户处在一个嘈杂的声音环境中时,让用户自由的选择要听的声音事件,实现一种个性化的有源噪声控制。
附图说明
图1为本发明交互式有源噪声控制***的结构示意图。
图2为本发明条件声音事件检测网络的结构示意图。
图3 为本发明噪声控制方法的流程示意框图。
图4为本发明实施例1控制前的声波信号时域图。
图5为本发明实施例1控制后的声波信号时域图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合实施方式和附图,对本发明作进一步地详细描述。
一种基于声音事件检测的交互式有源噪声控制***,其结构示意图如图1所示,包括选择端口1、条件声音事件检测网络2、参考麦克风3、子带可控滤波器4和次级扬声器5;
所述选择端口用于选择声音事件的类别,并将声音事件的类别序号传输至条件声音事件检测网络2;所述参考麦克风3用于实时的将环境中的声波信号传输至条件声音事件检测网络2和子带可控滤波器4;条件声音事件检测网络2用于基于声音事件的类别序号和参考信号实时获取预选类别的频谱掩码,并将频谱掩码传输至子带可控滤波器4;所述子带可控滤波器4用于基于频谱掩码和参考信号输出控制信号,使次级扬声器输出的控制声波中不包含预选类别的分量,从而不抑制预选类别声音事件的声波;次级扬声器5将控制信号转换为控制声波,与干扰声波在人耳处相互抵消,最后在人耳处只剩下了用户预选类别声音事件的声波。
其中,条件声音事件检测网络2的结构示意图如图2所示,包括条件特征生成模块、特征提取模块、局部特征分析模块、特征融合模块、序列特征分析模块和输出模块;
条件特征生成模块基于预选类别声音类型编号进行初步编码,得到高维条件特征,并将高维条件特征输出至特征融合模块;特征提取模块用于将音频序列进行分帧、加窗、特征变换,得到输入特征,并将输入特征输出至局部特征分析模块;局部特征分析模块将输入特征进行局部的特征分析,得到高维局部特征,并将高维局部特征输出至特征融合模块;特征融合模块将高维条件特征和高维局部特征进行融合,得到高维融合特征,并将高维融合特征输出至序列分析模块;序列分析模块将高维融合特征进行序列化分析,得到序列化融合特征,并将序列化融合特征输出至输出模块;输出模块将序列化融合特征进行维度变换,流式输出预选类别声音事件的活动状态和频谱分布/>,并基于活动状态和频谱分布/>得到频谱掩码/>
本发明***应用过程中分为两个阶段,一是训练阶段,二是控制阶段。其中,训练阶段包括训练类别条件声音事件检测神经网络和子带可调噪声控制滤波器。
条件声音事件检测网络的具体训练过程为:
首先准备一个训练条件声音事件检测网络的数据集,数据集可以通过合成的方式获取,在合成数据集中,包含了可以选择的单音事件的声音数据和一些常见的背景噪声的声音数据,其中单音事件的数据的类别预先定义,例如将“笑声”、“鸟鸣声”、“警报声”、“说话声”、“音乐声”等定义为可以预选的声音事件,将“交通噪声”、“发动机噪声”、“粉色噪声”、“地铁噪声”等定义为背景噪声,背景噪声为不可预选的声音事件。
选择端口里包含可人为预选的声音事件类别,在预选之后,将其转换为初步的类别编码,如独热向量编码。
条件特征生成模块则将初步的类别编码转换为高维条件特征向量。特征提取模块将参考麦克风输入的声音波形进行分帧加窗,并且转换为神经网络的输入特征,输入特征可以采用符合人耳听觉特性的Log-梅尔能量谱:首先将声音波形进行短时傅里叶变换;然后用梅尔滤波器组与之相乘,并将其进行Log变换,便得到了Log-梅尔能量谱;然后将得到的Log-梅尔能量谱进行归一化,得到神经网络的输入特征。局部特征分析模块对输入特征进行局部的特征分析,得到高维局部特征。局部特征分析模块可以由卷积神经网络(CNN)构成,具体的可以使用如AlexNet、VGG、GoogLeNet、ResNet中的卷积部分作为局部特征分析模块,此外为了轻量化的应用和更快的推理速度,可以采用一些轻量级的CNN模型,例如MobileNet,SqueezeNet,ShuffleNet等。特征融合模块将高维条件特征向量和高维局部特征进行特征融合,条件特征可以使局部特征只保留预选声音事件的特征。特征融合模块具体的实施方式可以是拼接、相加、相乘、注意力交互等。序列分析模块将高维融合特征进行序列化分析,输出序列化融合特征。为捕捉各个局部特征的序列信息,需要使用序列特征分析模块,该模块需要有记忆性,需要将过去的特征进行综合现在的特征进行分析,同时不依赖未来的特征,其具体的实施方式可以采用单向的长短期记忆递归神经网络(LSTM)、单向的门控循环单元(GRU)、因果时间卷积网络(TCN)等。最后输出模块输出每个时刻的预选声音事件激活状态和预选声音事件频谱分布,其中频谱分布为二值向量。
类别条件声音事件检测网络的损失函数为:
其中,m为一段音频的帧序号,M为一段音频分帧的总数,为预选声音事件活动状态的标签,/>为预选声音事件的活动状态,/>为预选声音事件频谱分布的标签,可以采用理想二进制掩码(IBM);/>为频谱分布;/>和/>为损失权重,且/>
训练子带噪声控制滤波器,子带可调噪声控制滤波器包括子带噪声控制滤波器组和幅度调节数组/>
所述子带滤波器组包括G个子带滤波器/>,所述子带滤波器用于对参考信号进行滤波处理,即将参考信号和各个子滤波器进行线性卷积;所述幅度调节数组/>用于调节各个子滤波器的输出幅度,即滤波输出分别乘以向量/>中的元素,其中为1的元素表示抑制相应的子带,而为0的元素则表示保留响应的子带。
子带滤波器组的获取过程为:
步骤1:运用FxLMS算法对白噪声训练,训练时的迭代公式为:
其中,为全频带噪声控制滤波器,/>为步长,/>为误差信号,/>为滤波参考信号;
训练好后得到的全频带噪声控制滤波器记为
步骤2:利用滤波器重构技术将进行分解,
步骤2.1.对全频带噪声控制滤波器进行离散傅里叶变换,/>
其中, FL为离散傅里叶变换矩阵,L表示控制滤波器的长度,为全频带噪声控制滤波器频域向量,
步骤2.2. 将全频带噪声控制滤波器频域向量划分为G个子带滤波器频域向量,则G个子带滤波器频域系数分配具体过程为:
当g < G时:
当g =G时:
其中,I表示子带噪声控制滤波器的带宽;
则第g个子带噪声控制滤波器频域的向量形式为:
,其中,/>为第g个子带噪声控制滤波器的第l个频域值,l=0,1,...,L-1;
步骤2.3.对每个进行离散傅里叶逆变换,得到第g个子带滤波器/>
则子带滤波器组,其中,G为子带的数量。
本发明子带噪声控制滤波器包括初级通路和次级通路,其中初级通路表示从声源至人耳处的声学路径,而次级通路为次级扬声器到人耳处的声学路径。对本发明设计的全频带噪声控制滤波器进行训练,FxLMS算法所训练的全频带噪声控制滤波器使白噪声的能量下降了约10dB,意味该全频带噪声控制滤波器着可以有效的对环境噪声进行抑制。除此之外,本发明滤波器分解方法可以有效的将全频带的控制滤波器分解到各个子带,即可以通过控制子带滤波器的输出幅度来达到对预设声音事件的声波保留的目的;子带滤波器的数量越多,对预设声音事件选通的程度越精细。
将条件声音事件检测网络和子带噪声控制滤波器训练好后,便可直接使用,后续在使用过程中无需再次训练。
实施例1
一种基于声音事件检测的交互式有源噪声控制方法,其流程示意框图如图3所示,包括以下步骤:
步骤1. 参考麦克风实时获取参考信号,并将参考信号/>输入至条件检测神经网络和全频带噪声控制滤波器的G个子滤波器中;
步骤2. 条件检测神经网络基于预选的声音事件类别和步骤1实时获取的参考信号,获得预选类别声音事件的活动状态/>和频谱分布/>,其中m表示帧序号,按阈值/>和/>对/>和/>二值化后将两者相乘得到频谱掩码/>
步骤3. 基于步骤2得到的频谱掩码按位取反获得幅度调节数组/>,即:;向量/>中为1的元素表示抑制相应的子带,而为0的元素则表示保留响应的子带;
步骤4. 基于参考信号、幅度调节数组/>和子带滤波器组/>获得控制信号y(n),具体为,
其中,n表示采样序号,G为子带的数量,由预选声音事件的频谱分布确定,为第g个子带的幅度调节数组;
上述过程为子带滤波器对参考信号进行点到点处理,即将参考信号和各子滤波器进行线性卷积,而不需要声音事件检测的分帧操作;
步骤5. 控制信号控制次级扬声器发出控制声波,与干扰声波在人耳处相互抵消,最后在人耳处只剩下了用户预设类别声音事件的声波。
图4和图5分别为本发明实施例1控制前和控制后的声波信号时域图。如图4所示,声波信号共持续10秒,其中背景噪声为汽车驾驶舱噪声,在10秒音频中一直持续,3.3秒至3.5秒的声音事件为玻璃破碎声,5.1秒至5.7秒的声音事件为男人的说话声,5.9秒至6.9秒的声音事件为笑声。假设预选的声音事件为男人说话声,当使用本发明有源噪声控制方法对声波信号进行控制,其控制后的声波信号如图5所示。从图5可以看出,当预选的声音事件没有出现时,声波信号被抑制,而预选的声音事件出现时,选定的声音事件的声波信号未被抑制。
同时,本发明还对实施例1控制前后的声波信号的能量变化进行了验证,当预选声音时间为男人的说话声时,只有被选定声音事件的信号的能量被保留了下来,而其他时段或频段的信号则被抑制。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (8)

1.一种基于声音事件检测的交互式有源噪声控制***,其特征在于,包括选择端口、条件声音事件检测网络、参考麦克风、子带可控滤波器和次级扬声器;
所述选择端口用于选择声音事件的类别,并将声音事件的类别序号传输至条件声音事件检测网络;所述参考麦克风用于实时的将环境中的声波信号传输至条件声音事件检测网络和子带可控滤波器;条件声音事件检测网络用于基于声音事件的类别序号和参考信号实时获取预选类别的频谱掩码,并将频谱掩码传输至子带可控滤波器;所述子带可控滤波器用于基于频谱掩码和参考信号输出控制信号,使次级扬声器输出的控制声波中不包含预选类别的分量,从而不抑制预选类别声音事件的声波;次级扬声器将控制信号转换为控制声波,与干扰声波在人耳处相互抵消,最后在人耳处只剩下了用户预选类别声音事件的声波。
2.如权利要求1所述的交互式有源噪声控制***,其特征在于,所述条件声音事件检测网络包括条件特征生成模块、特征提取模块、局部特征分析模块、特征融合模块、序列特征分析模块和输出模块;
所述条件特征生成模块基于预选类别声音类型序号进行初步编码,得到高维条件特征,并将高维条件特征输出至特征融合模块;特征提取模块用于将参考信号进行分帧、加窗、特征变换,得到输入特征,并将输入特征输出至局部特征分析模块;局部特征分析模块将输入特征进行局部的特征分析,得到高维局部特征,并将高维局部特征输出至特征融合模块;特征融合模块将高维条件特征和高维局部特征进行融合,得到高维融合特征,并将高维融合特征输出至序列分析模块;序列分析模块将高维融合特征进行序列化分析,得到序列化融合特征,并将序列化融合特征输出至输出模块;输出模块将序列化融合特征进行维度变换,流式输出预选类别声音事件的活动状态和频谱分布/>,并基于活动状态和频谱分布/>得到频谱掩码/>m为一段音频的帧序号。
3.如权利要求2所述的交互式有源噪声控制***,其特征在于,所述条件声音事件检测网络的损失函数为:
其中,m为一段音频的帧序号,M为一段音频分帧的总数,为预选类别声音事件活动状态的标签,/>为活动状态,/>为预选类别声音事件频谱分布的标签,/>为频谱分布;/>和/>为损失权重,且/>
4.如权利要求1所述的交互式有源噪声控制***,其特征在于,所述条件声音事件检测网络训练所采用的数据集包括可预选的单音事件声音数据和不可预选的背景噪声声音数据;所述可预选的单音事件声音数据具体为“笑声”、“鸟鸣声”、“警报声”、“说话声”、“音乐声”,不可预选的背景噪声声音数据具体为“交通噪声”、“发动机噪声”、“粉色噪声”、“地铁噪声”。
5.如权利要求1所述的交互式有源噪声控制***,其特征在于,子带可控滤波器包括子带滤波器组和幅度调节数组/>
所述子带滤波器组包括G个子带滤波器,所述子带滤波器用于对参考信号进行滤波处理;所述幅度调节数组/>用于调节各个子滤波器的输出幅度,m为一段音频的帧序号。
6.如权利要求5所述的交互式有源噪声控制***,其特征在于,子带滤波器组的获取过程为:
步骤1:运用FxLMS算法对白噪声训练,训练时的迭代公式为:
其中, 为第n次采样时的全频带噪声控制滤波器,/>为步长,/>为误差信号,为滤波参考信号;
训练好后得到的全频带噪声控制滤波器记为
步骤2:利用滤波器重构技术将进行分解,
步骤2.1.对全频带噪声控制滤波器进行离散傅里叶变换,/>
其中, F L 为离散傅里叶变换矩阵,L表示控制滤波器的长度,为全频带噪声控制滤波器频域向量,
,其中,/>为噪声控制滤波器的第l个频域值,l=0,1,...,L-1;
步骤2.2. 将全频带噪声控制滤波器频域向量划分为G个子带滤波器频域向量,则G个子带滤波器频域系数分配具体过程为:
当g < G时:
当g =G时:
其中,I表示子带噪声控制滤波器的带宽;
则第g个子带噪声控制滤波器频域的向量形式为:
,其中,/>为第g个子带噪声控制滤波器的第l个频域值,l=0,1,...,L-1;
步骤2.3.对每个进行离散傅里叶逆变换,得到第g个子带滤波器/>g=1,2,...,G,:
则子带滤波器组,其中,G为子带的数量,/>为离散傅里叶变换矩阵F L 的逆矩阵。
7.如权利要求5所述的交互式有源噪声控制***,其特征在于,所述幅度调节数组由频谱掩码/>按位取反获得。
8.一种基于如权利要求1-7任一权利要求所述的交互式有源噪声控制***的控制方法,其特征在于,包括以下步骤:
步骤1.用户预选想要保留的声音事件类别;
步骤2. 实时获取参考信号
步骤3. 基于步骤1预选的声音事件类别序号和步骤2实时获取的参考信号,采用训练好的条件检测神经网络获得预选类别声音事件的活动状态/>和频谱分布/>,其中m表示帧序号,按阈值/>和/>对/>和/>二值化后将两者相乘得到频谱掩码/>
步骤4.基于步骤3得到的频谱掩码按位取反获得幅度调节数组/>
步骤5. 基于参考信号、幅度调节数组/>和子带滤波器组/>获得控制信号y(n),具体为,
其中,n表示采样序号,m为一段音频的帧序号,为第g个子带的幅度调节数组,T为转秩;
步骤6. 控制信号控制次级扬声器发出控制声波,与干扰声波在人耳处相互抵消,最后在人耳处只剩下了用户预设类别声音事件的声波。
CN202311554080.0A 2023-11-21 2023-11-21 一种基于声音事件检测的交互式有源噪声控制***及方法 Active CN117275446B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311554080.0A CN117275446B (zh) 2023-11-21 2023-11-21 一种基于声音事件检测的交互式有源噪声控制***及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311554080.0A CN117275446B (zh) 2023-11-21 2023-11-21 一种基于声音事件检测的交互式有源噪声控制***及方法

Publications (2)

Publication Number Publication Date
CN117275446A true CN117275446A (zh) 2023-12-22
CN117275446B CN117275446B (zh) 2024-01-23

Family

ID=89212782

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311554080.0A Active CN117275446B (zh) 2023-11-21 2023-11-21 一种基于声音事件检测的交互式有源噪声控制***及方法

Country Status (1)

Country Link
CN (1) CN117275446B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571993A (zh) * 2001-11-29 2005-01-26 编码技术股份公司 用于改善高频重建的方法
CN102158198A (zh) * 2006-01-27 2011-08-17 科丁技术公司 利用复调制滤波器组的高效滤波
CN109087625A (zh) * 2018-08-27 2018-12-25 电子科技大学 可变长度的多用途有源噪声控制装置及其方法
CN111385688A (zh) * 2018-12-29 2020-07-07 安克创新科技股份有限公司 一种基于深度学习的主动降噪方法、装置及***
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法
CN114141268A (zh) * 2021-12-06 2022-03-04 深圳市飞科笛***开发有限公司 语音处理方法、***、存储介质及终端语音设备
US20220201397A1 (en) * 2020-08-12 2022-06-23 Sigmasense, Llc. Noise canceling audio in/out device
EP4054209A1 (en) * 2021-03-03 2022-09-07 Oticon A/s A hearing device comprising an active emission canceller

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1571993A (zh) * 2001-11-29 2005-01-26 编码技术股份公司 用于改善高频重建的方法
CN102158198A (zh) * 2006-01-27 2011-08-17 科丁技术公司 利用复调制滤波器组的高效滤波
CN109087625A (zh) * 2018-08-27 2018-12-25 电子科技大学 可变长度的多用途有源噪声控制装置及其方法
CN111385688A (zh) * 2018-12-29 2020-07-07 安克创新科技股份有限公司 一种基于深度学习的主动降噪方法、装置及***
CN111883091A (zh) * 2020-07-09 2020-11-03 腾讯音乐娱乐科技(深圳)有限公司 音频降噪方法和音频降噪模型的训练方法
US20220201397A1 (en) * 2020-08-12 2022-06-23 Sigmasense, Llc. Noise canceling audio in/out device
EP4054209A1 (en) * 2021-03-03 2022-09-07 Oticon A/s A hearing device comprising an active emission canceller
CN114141268A (zh) * 2021-12-06 2022-03-04 深圳市飞科笛***开发有限公司 语音处理方法、***、存储介质及终端语音设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHUANG SHI,ET AL.: "Integration of Anomaly Machine Sound Detection into Active Noise Control to Shape the Residual Sound", 《ICASSP 2022 - 2022 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP)》 *
姜吉光: "基于噪声主动控制方法的车内声品质研究", 《中国优秀硕士学位论文全文库(工程科技Ⅱ辑)》, no. 2 *

Also Published As

Publication number Publication date
CN117275446B (zh) 2024-01-23

Similar Documents

Publication Publication Date Title
CN109121057B (zh) 一种智能助听的方法及其***
JP6017825B2 (ja) 特に「ハンズフリー」電話システム向けの近接音声信号を雑音除去するための手段を有するマイクロホンとイヤホンの組合せ型のオーディオ・ヘッドセット
US8880396B1 (en) Spectrum reconstruction for automatic speech recognition
CN112767963B (zh) 一种语音增强方法、装置、***及计算机可读存储介质
WO2017101067A1 (zh) 一种对周围环境音的处理方法及设备
CN109727604A (zh) 用于语音识别前端的频域回声消除方法及计算机储存介质
CN103219012B (zh) 一种基于声源距离的双麦克风噪声消除方法及装置
CN107564538A (zh) 一种实时语音通信的清晰度增强方法及***
US20060206320A1 (en) Apparatus and method for noise reduction and speech enhancement with microphones and loudspeakers
CN110708625A (zh) 基于智能终端的环境声抑制与增强可调节耳机***与方法
CN111833896A (zh) 融合反馈信号的语音增强方法、***、装置和存储介质
CN107533838A (zh) 使用多个麦克风的语音感测
CN101426058B (zh) 一种改善多通道音频通话质量的***及方法
CN109147808A (zh) 一种言语增强助听方法
WO2022105690A1 (zh) 耳机及降噪方法
CN110972007A (zh) 一种适用于舰船高噪音场景下的有源耳机降噪方法
CN114189781A (zh) 双麦神经网络降噪耳机的降噪方法及***
CN117275446B (zh) 一种基于声音事件检测的交互式有源噪声控制***及方法
US20230209283A1 (en) Method for audio signal processing on a hearing system, hearing system and neural network for audio signal processing
CN114023352B (zh) 一种基于能量谱深度调制的语音增强方法及装置
Lezzoum et al. Noise reduction of speech signals using time-varying and multi-band adaptive gain control for smart digital hearing protectors
CN116343756A (zh) 人声透传方法、装置、耳机、存储介质及程序产品
CN114822573A (zh) 语音增强方法、装置、耳机设备以及计算机可读存储介质
Sun et al. An RNN-based speech enhancement method for a binaural hearing aid system
CN113038315A (zh) 一种语音信号处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant