CN111048106A - 基于双麦克风的拾音方法、装置和计算机设备 - Google Patents

基于双麦克风的拾音方法、装置和计算机设备 Download PDF

Info

Publication number
CN111048106A
CN111048106A CN202010171449.XA CN202010171449A CN111048106A CN 111048106 A CN111048106 A CN 111048106A CN 202010171449 A CN202010171449 A CN 202010171449A CN 111048106 A CN111048106 A CN 111048106A
Authority
CN
China
Prior art keywords
channel frequency
frequency domain
domain signal
signal
dual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010171449.XA
Other languages
English (en)
Other versions
CN111048106B (zh
Inventor
王维
王广新
杨汉丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Youjie Zhixin Technology Co ltd
Original Assignee
Shenzhen Youjie Zhixin Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Youjie Zhixin Technology Co ltd filed Critical Shenzhen Youjie Zhixin Technology Co ltd
Priority to CN202010171449.XA priority Critical patent/CN111048106B/zh
Publication of CN111048106A publication Critical patent/CN111048106A/zh
Application granted granted Critical
Publication of CN111048106B publication Critical patent/CN111048106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供了一种基于双麦克风的拾音方法、装置、计算机设备和计算机可读存储介质,通过双麦克风接收声音信号,然后将声音信号转换为双通道频域信号,对双通道频域数据做固定波束,从而生成第一单通道频域信号。在按照预设算法对第一单通道频域信号进行降噪,得到第二单通道频域信号。最后,将第二单通道频域信号转换到时域,生成最终音频信号,完成双麦克风的整个拾音过程。本申请在实现拾音的过程中,只需要双麦克风就可以完成整个拾音过程,有效降低硬件生产成本。在降噪过程中,预设算法通过利用双麦相干函数进行语音存在概率的计算和噪声谱的更新,在计算量较小的情况下大幅度提高了对远场混响和噪声的鲁棒性,有效提高拾音效果。

Description

基于双麦克风的拾音方法、装置和计算机设备
技术领域
本申请涉及音频处理技术领域,特别涉及一种基于双麦克风的拾音方法、装置和计算机设备。
背景技术
随着智能语音的兴起,利用麦克风阵列技术实现远场语音拾音成为了当前热门的技术之一。现有的麦克风阵列拾音装置为了实现较好的远场交互效果,通常采用四个麦克风或六个麦克风。而由于麦克风数量较多,导致麦克风阵列拾音装置的***复杂,在进行拾音是需要声源位置信息等多种参数,计算量大,成本高,无法应用于翻译机等小型设备。
发明内容
本申请的主要目的为提供一种基于双麦克风的拾音方法、装置和计算机设备,旨在解决现有麦克风阵列拾音装置结构复杂、计算量大以及成本高的弊端。
为实现上述目的,本申请提供了一种基于双麦克风的拾音方法,包括:
获取声音信号,其中,所述声音信号为双通道时域信号;
将所述声音信号转换到频域,得到双通道频域信号;
对所述双通道频域信号做固定波束,生成第一单通道频域信号;
计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
将所述第二单通道频域信号转换到时域,生成最终音频信号。
进一步的,所述根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号的步骤,包括:
根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
进一步的,所述计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱的步骤,包括:
分别计算所述双通道频域信号的自谱密度和互谱密度;
根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
进一步的,所述根据所述复相干函数,计算得到所述第一单通道频域信号的语音存在概率的步骤,包括:
将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
对所述CDR比值做归一化处理,得到所述语音存在概率。
进一步的,所述根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数的步骤,包括:
将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
进一步的,所述根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比的步骤,包括:
将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
进一步的,所述将所述声音信号转换到频域,得到双通道频域信号的步骤,包括:
将所述声音信号进行分帧加窗,得到若干帧声音子信号;
分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
本申请还提供了一种基于双麦克风的拾音装置,包括:
获取模块,用于获取声音信号,其中,所述声音信号为双通道时域信号;
第一转换模块,用于将所述声音信号转换到频域,得到双通道频域信号;
生成模块,用于对所述双通道频域数据做固定波束,生成第一单通道频域信号;
计算模块,用于计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
更新模块,用于根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
降噪模块,用于根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
第二转换模块,用于将所述第二单通道频域信号转换到时域,生成最终音频信号。
进一步的,所述降噪模块,包括:
第一计算单元,用于根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
第二计算单元,用于根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
滤波单元,用于根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
进一步的,所述计算模块,包括:
第三计算单元,用于分别计算所述双通道频域信号的自谱密度和互谱密度;
第四计算单元,用于根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
第六计算单元,用于根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
进一步的,所述第六计算单元,包括:
第一计算子单元,用于将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
归一子单元,用于对所述CDR比值做归一化处理,得到所述语音存在概率。
进一步的,所述第四计算单元,包括:
第二计算子单元,用于将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
递归子单元,用于将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
滤波子单元,用于将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
进一步的,所述第一计算单元,包括:
第二计算子单元,用于将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
第三计算子单元,用于将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
进一步的,所述第一转换模块,包括:
分帧单元,用于将所述声音信号进行分帧加窗,得到若干帧声音子信号;
第一转换单元,用于分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的一种基于双麦克风的拾音方法、装置和计算机设备,通过双麦克风接收声音信号,然后将声音信号转换为双通道频域信号,对双通道频域数据做固定波束,从而生成第一单通道频域信号。在按照预设算法对第一单通道频域信号进行降噪,得到第二单通道频域信号。最后,将第二单通道频域信号转换到时域,生成最终音频信号,完成双麦克风的整个拾音过程。本申请在实现拾音的过程中,只需要双麦克风就可以完成整个拾音过程,有效降低硬件生产成本。在降噪过程中,预设算法通过利用双麦相干函数进行语音存在概率的计算和噪声谱的更新,在计算量较小的情况下大幅度提高了对远场混响和噪声的鲁棒性,有效提高拾音效果。
附图说明
图1是本申请一实施例中基于双麦克风的拾音方法的步骤示意图;
图2是本申请一实施例中基于双麦克风的拾音装置的整体结构框图;
图3是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例中提供了一种基于双麦克风的拾音方法,包括:
S1:获取声音信号,其中,所述声音信号为双通道时域信号;
S2:将所述声音信号转换到频域,得到双通道频域信号;
S3:对所述双通道频域信号做固定波束,生成第一单通道频域信号;
S4:计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
S5:根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
S6:根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
S7:将所述第二单通道频域信号转换到时域,生成最终音频信号。
本实施例中,拾音***通过双麦克风接收声音信号。其中,声音信号为双通道时域信号。***首先将双通道时域信号进行分帧加窗,得到若干帧双通道时域子信号。然后分别将各帧双通道时域子信号做快速傅里叶变换,将各帧双通道时域子信号变换到频域,得到各帧双通道时域子信号分别对应的双通道频域子信号,各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号。接着,***对双通道频域信号做固定波束,即将各帧双通道频域子信号分别输入第一公式中进行相应的计算,从而生成第一单通道频域信号。具体地,第一公式为:
Figure 801129DEST_PATH_IMAGE001
,其中,
Figure 311744DEST_PATH_IMAGE002
Figure 357061DEST_PATH_IMAGE003
分别为麦克风1和麦克风2在在
Figure 221112DEST_PATH_IMAGE004
帧、k频率点处的短时谱,
Figure 628959DEST_PATH_IMAGE005
为第一单通道频域信号。***在得到第一单通道频域信号后,按照预设算法对第一单通道频域信号进行降噪,从而得到第二单通道频域信号。具体过程为:***首先分别通过一阶递归平滑计算双通道频域信号,得到其对应的自谱密度和互谱密度。然后根据自谱密度和所述互谱密度,计算得到双通道频域信号的复相干函数,其中,复相干函数用于表征双通道信号之间各个频率之间的相关性。***根据复相干函数,分别计算得到第一单通道频域信号的语音存在概率和双通道频域信号的第一噪声功率谱。接着,根据第一单通道频域信号和语音存在概率对第一噪声功率谱进行更新计算,得到单通道频域信号的第二噪声功率谱。具体地,***利用语音存在概率作为平滑因子对第一噪声功率谱进行更新,将第一单通道频域信号和语音存在概率输入第四公式中,计算得到单通道频域信号的第二噪声功率谱。其中,第四公式为:
Figure 248159DEST_PATH_IMAGE006
Figure 984034DEST_PATH_IMAGE007
为更新后的第二噪声功率谱。具体地,第一噪声功率谱是基于双通道频域信号所计算得到的参数,第二噪声功率谱是基于单通道频域信号所计算得到的参数,双通道频域信号和单通道频域信号均为向量,比如单通道频域信号为256*1,而双通道就是256*2,第一噪声功率谱就是从256*2里面计算得到256*1,第二噪声功率谱就是从256*1得到256*1。***根据第一单通道频域信号和第二噪声功率谱,计算得到第一单通道频域信号的先验信噪比。再根据先验信噪比计算得到第一单通道频域信号的频域滤波器系数。最后,***根据频域滤波器系数将第一单通道频域信号进行滤波降噪,得到第二单通道频域信号。由于各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号,因此降噪后的第二通道信号实际上是各双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合。***分别对各第二单通道频域子信号做逆傅里叶变换,得到各第二单通道频域子信号分别对应的第二单通道时域子信号。然后将各第二单通道时域子信号做重叠相加,得到最终音频信号,完成整个拾音过程。
进一步的,所述根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号的步骤,包括:
S601:根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
S602:根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
S603:根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
本实施例中,***将第一单通道频域信号和第二噪声功率谱输入第二算法中,计算得到后验信噪比,然后将后验信噪比输入第三算法中,从而计算得到第一单通道频域信号的先验信噪比。***将先验信噪比输入第五公式中,计算得到第一单通道频域信号的频域滤波器系数。其中,第五公式为:
Figure 41989DEST_PATH_IMAGE008
Figure 507605DEST_PATH_IMAGE009
为频域滤波器系数。
***根据频域滤波器系数对第一单通道频域信号进行滤波,从而得到第二单通道频域信号。其中,降噪后的第二单通道频域信号为:
Figure 969811DEST_PATH_IMAGE010
进一步的,所述计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱的步骤,包括:
S401:分别计算所述双通道频域信号的自谱密度和互谱密度;
S402:根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
S403:根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
本实施例中,***分别通过一阶递归平滑对双通道频域信号进行相应的计算,得到双通道频域信号的自谱密度和互谱密度,其中,自谱密度所对应的计算公式为:
Figure 317615DEST_PATH_IMAGE011
互谱密度所对应的计算公式为:
Figure 523469DEST_PATH_IMAGE012
Figure 109171DEST_PATH_IMAGE013
表示功率谱密度函数,
Figure 866911DEST_PATH_IMAGE014
为平滑系数,
Figure 702012DEST_PATH_IMAGE015
为自谱密度,
Figure 180398DEST_PATH_IMAGE016
为互谱密度。
然后,***将自谱密度和互谱密度代入第二公式中,计算得到双通道频域信号的复相干函数,用于表示双通道信号之间各个频率之间的相关性。其中,第二公式为:
Figure 429063DEST_PATH_IMAGE017
Figure 826546DEST_PATH_IMAGE018
为复相干函数。
***将复相干函数代入第一算法中,计算得到第一单通道频域信号的CDR比值,然后对CDR比值做归一化处理,得到第一单通道频域信号的语音存在概率。并且将复相干函数代入第三公式中,计算得到双通道频域信号的第一噪声功率谱。其中,第三公式为:
Figure 289889DEST_PATH_IMAGE019
Figure 962178DEST_PATH_IMAGE020
为第一噪声功率谱。
进一步的,所述根据所述复相干函数,计算得到所述第一单通道频域信号的语音存在概率的步骤,包括:
S4031:将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
S4032:对所述CDR比值做归一化处理,得到所述语音存在概率。
本实施例中,***先将复相干函数代入到第六公式中,从而计算得到CDR比值。其中,第六公式为:
Figure 256894DEST_PATH_IMAGE021
Figure 90857DEST_PATH_IMAGE022
Figure 775917DEST_PATH_IMAGE023
为扩散噪声场的相干函数,f为信号频率,d为麦克风间距,c为声音在空气中的传播速度。在计算得到CDR比值后,***对其做归一化处理,将CDR比值代入第七公式,从而计算得到语音存在概率。其中,第七公式为:
Figure 251897DEST_PATH_IMAGE024
,P为语音存在概率。
进一步的,所述根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数的步骤,包括:
S4021:将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
S4022:将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
S4023:将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
本实施例中,***在根据自谱密度和互谱密度计算得到初始复相干函数后,此时的初始复相干函数可能会含有较多的噪音。为了能够得到更好的降噪效果,***可以对初始复相干函数做进一步的过滤处理。具体地,***先对初始复相干函数做时间维度一阶递归平滑,将其代入第八公式中,计算得到二次复相干函数。其中,第八公式为:
Figure 73223DEST_PATH_IMAGE025
Figure 812509DEST_PATH_IMAGE026
即为二次复相干函数。
然后,***将二次复相干函数做频率维度的5点中值滤波处理,按照第九公式进行相应的计算,从而得到过滤后的复相干函数,即复相干函数。其中,第九公式为:
Figure 109498DEST_PATH_IMAGE027
,其中,中值滤波点数由工作人员通过相关实验确定后输入***中,
Figure 998956DEST_PATH_IMAGE028
为过滤后的复相干函数,在后续的计算中,可以使用过滤后的复相干函数进行后续相应的计算。过滤后的复相干函数配合较小的平滑系数可以更快的跟踪环境噪声变化,从而有效提高降噪效果。
进一步的,所述根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比的步骤,包括:
S6011:将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
S6012:将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
本实施例中,***使用判决引导方法,首先将第一单通道频域信号和第二噪声功率谱代入第二算法中,从而计算得到后验信噪比。其中,第二算法为:
Figure 65001DEST_PATH_IMAGE029
Figure 975189DEST_PATH_IMAGE030
为后验信噪比。
接着,***将上一步骤中计算得到的后验信噪比代入第三算法中,从而计算得到先验信噪比。其中,第三算法为:
Figure 369261DEST_PATH_IMAGE031
Figure 452623DEST_PATH_IMAGE032
为上一时刻的权值。
进一步的,所述将所述声音信号转换到频域,得到双通道频域信号的步骤,包括:
S201:将所述声音信号进行分帧加窗,得到若干帧声音子信号;
S202:分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
本实施例中,***将双通道时域信号,即声音信号进行分帧加窗,从而得到若干帧双通道时域子信号,便于后续对各帧双通道时域子信号进行对应的降噪等处理,实现更好的拾音效果。***分别将各帧双通道时域子信号做快速傅里叶变换,将各帧双通道时域子信号变换到频域,从而得到各帧双通道时域子信号分别对应的双通道频域子信号,而各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号。
进一步的,所述第二单通道频域信号为各所述双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合,所述将所述第二单通道频域信号转换到时域,生成最终音频信号的步骤,包括:
S701:分别对各所述第二单通道频域子信号做逆傅里叶变换,得到各所述第二单通道频域子信号分别对应的第二单通道时域子信号;
S702:将各所述第二单通道时域子信号做重叠相加,得到所述最终音频信号。
本实施例中,由于各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号,因此降噪后的第二通道信号实际上是各双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合。***需要分别对各第二单通道频域子信号做逆傅里叶变换,将各个第二单通道频域子信号转换到时域,从而得到各第二单通道频域子信号分别对应的第二单通道时域子信号。然后,***将各第二单通道时域子信号做重叠相加,得到最终音频信号输出,完成整个拾音过程。
本实施例提供的一种基于双麦克风的拾音方法,通过双麦克风接收声音信号,然后将声音信号转换为双通道频域信号,对双通道频域数据做固定波束,从而生成第一单通道频域信号。在按照预设算法对第一单通道频域信号进行降噪,得到第二单通道频域信号。最后,将第二单通道频域信号转换到时域,生成最终音频信号,完成双麦克风的整个拾音过程。本申请在实现拾音的过程中,只需要双麦克风就可以完成整个拾音过程,有效降低硬件生产成本。在降噪过程中,预设算法通过利用双麦相干函数进行语音存在概率的计算和噪声谱的更新,在计算量较小的情况下大幅度提高了对远场混响和噪声的鲁棒性,有效提高拾音效果。
参照图2,本申请一实施例提供了一种基于双麦克风的拾音装置,包括:
获取模块1,用于获取声音信号,其中,所述声音信号为双通道时域信号;
第一转换模块2,用于将所述声音信号转换到频域,得到双通道频域信号;
生成模块3,用于对所述双通道频域数据做固定波束,生成第一单通道频域信号;
计算模块4,用于计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
更新模块5,用于根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
降噪模块6,用于根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
第二转换模块7,用于将所述第二单通道频域信号转换到时域,生成最终音频信号。
本实施例中,拾音***通过双麦克风接收声音信号。其中,声音信号为双通道时域信号。***首先将双通道时域信号进行分帧加窗,得到若干帧双通道时域子信号。然后分别将各帧双通道时域子信号做快速傅里叶变换,将各帧双通道时域子信号变换到频域,得到各帧双通道时域子信号分别对应的双通道频域子信号,各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号。接着,***对双通道频域信号做固定波束,即将各帧双通道频域子信号分别输入第一公式中进行相应的计算,从而生成第一单通道频域信号。具体地,第一公式为:
Figure 576437DEST_PATH_IMAGE033
,其中,
Figure 329630DEST_PATH_IMAGE034
Figure 460265DEST_PATH_IMAGE035
分别为麦克风1和麦克风2在在
Figure 957106DEST_PATH_IMAGE036
帧、k频率点处的短时谱,
Figure 732164DEST_PATH_IMAGE037
为第一单通道频域信号。***在得到第一单通道频域信号后,按照预设算法对第一单通道频域信号进行降噪,从而得到第二单通道频域信号。具体过程为:***首先分别通过一阶递归平滑计算双通道频域信号,得到其对应的自谱密度和互谱密度。然后根据自谱密度和所述互谱密度,计算得到双通道频域信号的复相干函数,其中,复相干函数用于表征双通道信号之间各个频率之间的相关性。***根据复相干函数,分别计算得到第一单通道频域信号的语音存在概率和双通道频域信号的第一噪声功率谱。接着,根据第一单通道频域信号和语音存在概率对第一噪声功率谱进行更新计算,得到单通道频域信号的第二噪声功率谱。具体地,***利用语音存在概率作为平滑因子对第一噪声功率谱进行更新,将第一单通道频域信号和语音存在概率输入第四公式中,计算得到单通道频域信号的第二噪声功率谱。其中,第四公式为:
Figure 718574DEST_PATH_IMAGE038
Figure 87239DEST_PATH_IMAGE039
为更新后的第二噪声功率谱。具体地,第一噪声功率谱是基于双通道频域信号所计算得到的参数,第二噪声功率谱是基于单通道频域信号所计算得到的参数,双通道频域信号和单通道频域信号均为向量,比如单通道频域信号为256*1,而双通道就是256*2,第一噪声功率谱就是从256*2里面计算得到256*1,第二噪声功率谱就是从256*1得到256*1。***根据第一单通道频域信号和第二噪声功率谱,计算得到第一单通道频域信号的先验信噪比。再根据先验信噪比计算得到第一单通道频域信号的频域滤波器系数。最后,***根据频域滤波器系数将第一单通道频域信号进行滤波降噪,得到第二单通道频域信号。由于各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号,因此降噪后的第二通道信号实际上是各双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合。***分别对各第二单通道频域子信号做逆傅里叶变换,得到各第二单通道频域子信号分别对应的第二单通道时域子信号。然后将各第二单通道时域子信号做重叠相加,得到最终音频信号,完成整个拾音过程。
进一步的,所述降噪模块6,包括:
第一计算单元,用于根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
第二计算单元,用于根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
滤波单元,用于根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
本实施例中,***将第一单通道频域信号和第二噪声功率谱输入第二算法中,计算得到后验信噪比,然后将后验信噪比输入第三算法中,从而计算得到第一单通道频域信号的先验信噪比。***将先验信噪比输入第五公式中,计算得到第一单通道频域信号的频域滤波器系数。其中,第五公式为:
Figure 246825DEST_PATH_IMAGE040
Figure 17335DEST_PATH_IMAGE041
为频域滤波器系数。
***根据频域滤波器系数对第一单通道频域信号进行滤波,从而得到第二单通道频域信号。其中,降噪后的第二单通道频域信号为:
Figure 971384DEST_PATH_IMAGE042
进一步的,所述计算模块4,包括:
第三计算单元,用于分别计算所述双通道频域信号的自谱密度和互谱密度;
第四计算单元,用于根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
第六计算单元,用于根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
本实施例中,***分别通过一阶递归平滑对双通道频域信号进行相应的计算,得到双通道频域信号的自谱密度和互谱密度,其中,自谱密度所对应的计算公式为:
Figure 624082DEST_PATH_IMAGE043
互谱密度所对应的计算公式为:
Figure 197146DEST_PATH_IMAGE044
Figure 681217DEST_PATH_IMAGE013
表示功率谱密度函数,
Figure 743851DEST_PATH_IMAGE014
为平滑系数,
Figure 555949DEST_PATH_IMAGE045
为自谱密度,
Figure 995021DEST_PATH_IMAGE046
为互谱密度。
然后,***将自谱密度和互谱密度代入第二公式中,计算得到双通道频域信号的复相干函数,用于表示双通道信号之间各个频率之间的相关性。其中,第二公式为:
Figure 333598DEST_PATH_IMAGE047
Figure 567134DEST_PATH_IMAGE048
为复相干函数。
***将复相干函数代入第一算法中,计算得到第一单通道频域信号的CDR比值,然后对CDR比值做归一化处理,得到第一单通道频域信号的语音存在概率。并且将复相干函数代入第三公式中,计算得到双通道频域信号的第一噪声功率谱。其中,第三公式为:
Figure 866528DEST_PATH_IMAGE049
Figure 843711DEST_PATH_IMAGE050
为第一噪声功率谱。
进一步的,所述第六计算单元,包括:
第一计算子单元,用于将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
归一子单元,用于对所述CDR比值做归一化处理,得到所述语音存在概率。
本实施例中,***先将复相干函数代入到第六公式中,从而计算得到CDR比值。其中,第六公式为:
Figure 302374DEST_PATH_IMAGE051
Figure 644494DEST_PATH_IMAGE052
Figure 821397DEST_PATH_IMAGE053
为扩散噪声场的相干函数,f为信号频率,d为麦克风间距,c为声音在空气中的传播速度。在计算得到CDR比值后,***对其做归一化处理,将CDR比值代入第七公式,从而计算得到语音存在概率。其中,第七公式为:
Figure 336692DEST_PATH_IMAGE054
,P为语音存在概率。
进一步的,所述第四计算单元,包括:
第二计算子单元,用于将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
递归子单元,用于将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
滤波子单元,用于将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
本实施例中,***在根据自谱密度和互谱密度计算得到初始复相干函数后,此时的初始复相干函数可能会含有较多的噪音。为了能够得到更好的降噪效果,***可以对初始复相干函数做进一步的过滤处理。具体地,***先对初始复相干函数做时间维度一阶递归平滑,将其代入第八公式中,计算得到二次复相干函数。其中,第八公式为:
Figure 525228DEST_PATH_IMAGE055
Figure 428462DEST_PATH_IMAGE056
即为二次复相干函数。
然后,***将二次复相干函数做频率维度的5点中值滤波处理,按照第九公式进行相应的计算,从而得到过滤后的复相干函数。其中,第九公式为:
Figure 764766DEST_PATH_IMAGE057
,其中,中值滤波点数由工作人员通过相关实验确定后输入***中,
Figure 21435DEST_PATH_IMAGE058
为过滤后的复相干函数,在后续的计算中,可以使用过滤后的复相干函数进行后续相应的计算。过滤后的复相干函数配合较小的平滑系数可以更快的跟踪环境噪声变化,从而有效提高降噪效果。
进一步的,所述第一计算单元,包括:
第二计算子单元,用于将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
第三计算子单元,用于将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
本实施例中,***使用判决引导方法,首先将第一单通道频域信号和第二噪声功率谱代入第二算法中,从而计算得到后验信噪比。其中,第二算法为:
Figure 454690DEST_PATH_IMAGE059
Figure 200929DEST_PATH_IMAGE060
为后验信噪比。
接着,***将上一步骤中计算得到的后验信噪比代入第三算法中,从而计算得到先验信噪比。其中,第三算法为:
Figure 696632DEST_PATH_IMAGE061
Figure 147205DEST_PATH_IMAGE062
为上一时刻的权值。
进一步的,所述第一转换模块2,包括:
分帧单元,用于将所述声音信号进行分帧加窗,得到若干帧声音子信号;
第一转换单元,用于分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
本实施例中,***将双通道时域信号,即声音信号进行分帧加窗,从而得到若干帧双通道时域子信号,便于后续对各帧双通道时域子信号进行对应的降噪等处理,实现更好的拾音效果。***分别将各帧双通道时域子信号做快速傅里叶变换,将各帧双通道时域子信号变换到频域,从而得到各帧双通道时域子信号分别对应的双通道频域子信号,而各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号。
进一步的,所述第二单通道频域信号为各所述双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合,所述第二转换模块7,包括:
第二转换单元,用于分别对各所述第二单通道频域子信号做逆傅里叶变换,得到各所述第二单通道频域子信号分别对应的第二单通道时域子信号;
叠加单元,用于将各所述第二单通道时域子信号做重叠相加,得到所述最终音频信号。
本实施例中,由于各帧双通道频域子信号的集合形成声音信号变换到频域后对应的双通道频域信号,因此降噪后的第二通道信号实际上是各双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合。***需要分别对各第二单通道频域子信号做逆傅里叶变换,将各个第二单通道频域子信号转换到时域,从而得到各第二单通道频域子信号分别对应的第二单通道时域子信号。然后,***将各第二单通道时域子信号做重叠相加,得到最终音频信号输出,完成整个拾音过程。
本申请中提供的一种基于双麦克风的拾音装置,通过双麦克风接收声音信号,然后将声音信号转换为双通道频域信号,对双通道频域数据做固定波束,从而生成第一单通道频域信号。在按照预设算法对第一单通道频域信号进行降噪,得到第二单通道频域信号。最后,将第二单通道频域信号转换到时域,生成最终音频信号,完成双麦克风的整个拾音过程。本申请在实现拾音的过程中,只需要双麦克风就可以完成整个拾音过程,有效降低硬件生产成本。在降噪过程中,预设算法通过利用双麦相干函数进行语音存在概率的计算和噪声谱的更新,在计算量较小的情况下大幅度提高了对远场混响和噪声的鲁棒性,有效提高拾音效果。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过***总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作***、计算机程序和数据库。该内存储器为非易失性存储介质中的操作***和计算机程序的运行提供环境。该计算机设备的数据库用于存储平滑系数等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于双麦克风的拾音方法。
上述处理器执行上述基于双麦克风的拾音方法的步骤:
S1:获取声音信号,其中,所述声音信号为双通道时域信号;
S2:将所述声音信号转换到频域,得到双通道频域信号;
S3:对所述双通道频域信号做固定波束,生成第一单通道频域信号;
S4:计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
S5:根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
S6:根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
S7:将所述第二单通道频域信号转换到时域,生成最终音频信号。
进一步的,所述根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号的步骤,包括:
S601:根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
S602:根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
S603:根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
进一步的,所述计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱的步骤,包括:
S401:分别计算所述双通道频域信号的自谱密度和互谱密度;
S402:根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
S403:根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
进一步的,所述根据所述复相干函数,计算得到所述第一单通道频域信号的语音存在概率的步骤,包括:
S4031:将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
S4032:对所述CDR比值做归一化处理,得到所述语音存在概率。
进一步的,所述根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数的步骤,包括:
S4021:将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
S4022:将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
S4023:将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
进一步的,所述根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比的步骤,包括:
S6011:将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
S6012:将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
进一步的,所述将所述声音信号转换到频域,得到双通道频域信号的步骤,包括:
S201:将所述声音信号进行分帧加窗,得到若干帧声音子信号;
S202:分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
进一步的,所述第二单通道频域信号为各所述双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合,所述将所述第二单通道频域信号转换到时域,生成最终音频信号的步骤,包括:
S701:分别对各所述第二单通道频域子信号做逆傅里叶变换,得到各所述第二单通道频域子信号分别对应的第二单通道时域子信号;
S702:将各所述第二单通道时域子信号做重叠相加,得到所述最终音频信号。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种基于双麦克风的拾音方法,具体为:
S1:获取声音信号,其中,所述声音信号为双通道时域信号;
S2:将所述声音信号转换到频域,得到双通道频域信号;
S3:对所述双通道频域信号做固定波束,生成第一单通道频域信号;
S4:计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
S5:根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
S6:根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
S7:将所述第二单通道频域信号转换到时域,生成最终音频信号。
进一步的,所述根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号的步骤,包括:
S601:根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
S602:根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
S603:根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
进一步的,所述计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱的步骤,包括:
S401:分别计算所述双通道频域信号的自谱密度和互谱密度;
S402:根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
S403:根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
进一步的,所述根据所述复相干函数,计算得到所述第一单通道频域信号的语音存在概率的步骤,包括:
S4031:将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
S4032:对所述CDR比值做归一化处理,得到所述语音存在概率。
进一步的,所述根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数的步骤,包括:
S4021:将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
S4022:将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
S4023:将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
进一步的,所述根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比的步骤,包括:
S6011:将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
S6012:将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
进一步的,所述将所述声音信号转换到频域,得到双通道频域信号的步骤,包括:
S201:将所述声音信号进行分帧加窗,得到若干帧声音子信号;
S202:分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
进一步的,所述第二单通道频域信号为各所述双通道频域子信号降噪后各自对应的第二单通道频域子信号的集合,所述将所述第二单通道频域信号转换到时域,生成最终音频信号的步骤,包括:
S701:分别对各所述第二单通道频域子信号做逆傅里叶变换,得到各所述第二单通道频域子信号分别对应的第二单通道时域子信号;
S702:将各所述第二单通道时域子信号做重叠相加,得到所述最终音频信号。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种基于双麦克风的拾音方法,其特征在于,包括:
获取声音信号,其中,所述声音信号为双通道时域信号;
将所述声音信号转换到频域,得到双通道频域信号;
对所述双通道频域信号做固定波束,生成第一单通道频域信号;
计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
将所述第二单通道频域信号转换到时域,生成最终音频信号。
2.根据权利要求1所述的基于双麦克风的拾音方法,其特征在于,所述根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号的步骤,包括:
根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比;
根据所述先验信噪比计算得到所述第一单通道频域信号的频域滤波器系数;
根据所述频域滤波器系数将所述第一单通道频域信号进行滤波,得到第二单通道频域信号。
3.根据权利要求1所述的基于双麦克风的拾音方法,其特征在于,所述计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱的步骤,包括:
分别计算所述双通道频域信号的自谱密度和互谱密度;
根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数;
根据所述复相干函数,分别计算得到所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱。
4.根据权利要求3所述的基于双麦克风的拾音方法,其特征在于,所述根据所述复相干函数,计算得到所述第一单通道频域信号的语音存在概率的步骤,包括:
将所述复相干函数代入第一算法中,计算得到所述第一单通道频域信号的CDR比值;
对所述CDR比值做归一化处理,得到所述语音存在概率。
5.根据权利要求3所述的基于双麦克风的拾音方法,其特征在于,所述根据所述自谱密度和所述互谱密度,计算得到所述双通道频域信号的复相干函数的步骤,包括:
将所述自谱密度和所述互谱密度代入预设公式中,计算得到初始复相干函数;
将所述初始复相干函数做时间维度一阶递归平滑,得到二次复相干函数;
将所述二次复相干函数做频率维度的5点中值滤波处理,得到所述复相干函数。
6.根据权利要求2所述的基于双麦克风的拾音方法,其特征在于,所述根据所述第一单通道频域信号和所述第二噪声功率谱,计算所述第一单通道频域信号的先验信噪比的步骤,包括:
将所述第一单通道频域信号和所述第二噪声功率谱代入第二算法中,计算得到后验信噪比;
将所述后验信噪比代入第三算法中,计算得到所述先验信噪比。
7.根据权利要求1所述的基于双麦克风的拾音方法,其特征在于,所述将所述声音信号转换到频域,得到双通道频域信号的步骤,包括:
将所述声音信号进行分帧加窗,得到若干帧声音子信号;
分别对各帧所述声音子信号做快速傅里叶变换,得到所述双通道频域信号,其中,所述双通道频域信号为各所述声音子信号分别对应的双通道频域子信号的集合。
8.一种基于双麦克风的拾音装置,其特征在于,包括:
获取模块,用于获取声音信号,其中,所述声音信号为双通道时域信号;
第一转换模块,用于将所述声音信号转换到频域,得到双通道频域信号;
生成模块,用于对所述双通道频域数据做固定波束,生成第一单通道频域信号;
计算模块,用于计算所述第一单通道频域信号的语音存在概率和所述双通道频域信号的第一噪声功率谱;
更新模块,用于根据所述第一单通道频域信号和所述语音存在概率对所述第一噪声功率谱进行更新计算,得到所述单通道频域信号的第二噪声功率谱;
降噪模块,用于根据所述第二噪声功率谱对所述第一单通道频域信号进行降噪处理,得到第二单通道频域信号;
第二转换模块,用于将所述第二单通道频域信号转换到时域,生成最终音频信号。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010171449.XA 2020-03-12 2020-03-12 基于双麦克风的拾音方法、装置和计算机设备 Active CN111048106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010171449.XA CN111048106B (zh) 2020-03-12 2020-03-12 基于双麦克风的拾音方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010171449.XA CN111048106B (zh) 2020-03-12 2020-03-12 基于双麦克风的拾音方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN111048106A true CN111048106A (zh) 2020-04-21
CN111048106B CN111048106B (zh) 2020-06-16

Family

ID=70231145

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010171449.XA Active CN111048106B (zh) 2020-03-12 2020-03-12 基于双麦克风的拾音方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN111048106B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489753A (zh) * 2020-06-24 2020-08-04 深圳市友杰智新科技有限公司 抗噪声的声源定位方法、装置和计算机设备
CN111986693A (zh) * 2020-08-10 2020-11-24 北京小米松果电子有限公司 音频信号的处理方法及装置、终端设备和存储介质
CN112946576A (zh) * 2020-12-10 2021-06-11 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
CN113160846A (zh) * 2021-04-22 2021-07-23 维沃移动通信有限公司 噪声抑制方法和电子设备
CN113362808A (zh) * 2021-06-02 2021-09-07 云知声智能科技股份有限公司 一种目标方向语音提取方法、装置、电子设备和存储介质
CN113380266A (zh) * 2021-05-28 2021-09-10 中国电子科技集团公司第三研究所 一种微型双麦克风语音增强方法及微型双麦克风
CN115132220A (zh) * 2022-08-25 2022-09-30 深圳市友杰智新科技有限公司 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质
CN115361617A (zh) * 2022-08-15 2022-11-18 音曼(北京)科技有限公司 无盲区的多麦克风环境噪声抑制方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
CN105206281A (zh) * 2015-09-14 2015-12-30 胡旻波 基于分布式麦克风阵列网络的语音增强方法
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及***
CN107301869A (zh) * 2017-08-17 2017-10-27 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
CN109817209A (zh) * 2019-01-16 2019-05-28 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互***

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8239196B1 (en) * 2011-07-28 2012-08-07 Google Inc. System and method for multi-channel multi-feature speech/noise classification for noise suppression
CN105206281A (zh) * 2015-09-14 2015-12-30 胡旻波 基于分布式麦克风阵列网络的语音增强方法
CN106448692A (zh) * 2016-07-04 2017-02-22 Tcl集团股份有限公司 应用语音存在概率优化的retf混响消除方法及***
CN107301869A (zh) * 2017-08-17 2017-10-27 珠海全志科技股份有限公司 麦克风阵列拾音方法、处理器及其存储介质
CN108922554A (zh) * 2018-06-04 2018-11-30 南京信息工程大学 基于对数谱估计的lcmv频率不变波束形成语音增强算法
CN109817209A (zh) * 2019-01-16 2019-05-28 深圳市友杰智新科技有限公司 一种基于双麦克风阵列的智能语音交互***

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111489753A (zh) * 2020-06-24 2020-08-04 深圳市友杰智新科技有限公司 抗噪声的声源定位方法、装置和计算机设备
CN111986693A (zh) * 2020-08-10 2020-11-24 北京小米松果电子有限公司 音频信号的处理方法及装置、终端设备和存储介质
CN112946576A (zh) * 2020-12-10 2021-06-11 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
CN112946576B (zh) * 2020-12-10 2023-04-14 北京有竹居网络技术有限公司 声源定位方法、装置和电子设备
CN113160846A (zh) * 2021-04-22 2021-07-23 维沃移动通信有限公司 噪声抑制方法和电子设备
CN113160846B (zh) * 2021-04-22 2024-05-17 维沃移动通信有限公司 噪声抑制方法和电子设备
CN113380266B (zh) * 2021-05-28 2022-06-28 中国电子科技集团公司第三研究所 一种微型双麦克风语音增强方法及微型双麦克风
CN113380266A (zh) * 2021-05-28 2021-09-10 中国电子科技集团公司第三研究所 一种微型双麦克风语音增强方法及微型双麦克风
CN113362808B (zh) * 2021-06-02 2023-03-21 云知声智能科技股份有限公司 一种目标方向语音提取方法、装置、电子设备和存储介质
CN113362808A (zh) * 2021-06-02 2021-09-07 云知声智能科技股份有限公司 一种目标方向语音提取方法、装置、电子设备和存储介质
CN115361617A (zh) * 2022-08-15 2022-11-18 音曼(北京)科技有限公司 无盲区的多麦克风环境噪声抑制方法
CN115132220A (zh) * 2022-08-25 2022-09-30 深圳市友杰智新科技有限公司 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质
CN115132220B (zh) * 2022-08-25 2023-02-28 深圳市友杰智新科技有限公司 抑制电视噪声的双麦唤醒的方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111048106B (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
CN111048106B (zh) 基于双麦克风的拾音方法、装置和计算机设备
Weninger et al. Discriminatively trained recurrent neural networks for single-channel speech separation
CN113270106B (zh) 双麦克风的风噪声抑制方法、装置、设备及存储介质
CN110931031A (zh) 一种融合骨振动传感器和麦克风信号的深度学习语音提取和降噪方法
KR20060086303A (ko) 음성 신호 분리 장치 및 방법
JP5195979B2 (ja) 信号分離装置、および信号分離方法、並びにコンピュータ・プログラム
CN112331226B (zh) 一种针对主动降噪***的语音增强***及方法
Mohammadiha et al. Joint acoustic and spectral modeling for speech dereverberation using non-negative representations
CN111681665A (zh) 一种全向降噪方法、设备及存储介质
CN112435685A (zh) 强混响环境的盲源分离方法、装置、语音设备和存储介质
US11647344B2 (en) Hearing device with end-to-end neural network
Qi et al. Exploring deep hybrid tensor-to-vector network architectures for regression based speech enhancement
Li et al. Online Directional Speech Enhancement Using Geometrically Constrained Independent Vector Analysis.
US11622208B2 (en) Apparatus and method for own voice suppression
Bernardi et al. An all-frequency-domain adaptive filter with PEM-based decorrelation for acoustic feedback control
CN111696573B (zh) 声源信号处理方法及装置、电子设备和存储介质
Albataineh et al. A RobustICA-based algorithmic system for blind separation of convolutive mixtures
Thien et al. Inter-frequency phase difference for phase reconstruction using deep neural networks and maximum likelihood
Hossain et al. Dual-transform source separation using sparse nonnegative matrix factorization
JP4946330B2 (ja) 信号分離装置及び方法
KR102316627B1 (ko) 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치
CN113724727A (zh) 基于波束形成的长短时记忆网络语音分离算法
Yang et al. Speech dereverberation using weighted prediction error with prior learnt from data
Itzhak et al. Quadratic beamforming for magnitude estimation
Bagekar et al. Dual channel coherence based speech enhancement with wavelet denoising

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant