CN110459236A - 音频信号的噪声估计方法、装置及存储介质 - Google Patents

音频信号的噪声估计方法、装置及存储介质 Download PDF

Info

Publication number
CN110459236A
CN110459236A CN201910755626.6A CN201910755626A CN110459236A CN 110459236 A CN110459236 A CN 110459236A CN 201910755626 A CN201910755626 A CN 201910755626A CN 110459236 A CN110459236 A CN 110459236A
Authority
CN
China
Prior art keywords
srp
noise
vector
present frame
default
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910755626.6A
Other languages
English (en)
Other versions
CN110459236B (zh
Inventor
龙韬臣
侯海宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Mobile Software Co Ltd
Original Assignee
Beijing Xiaomi Mobile Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Mobile Software Co Ltd filed Critical Beijing Xiaomi Mobile Software Co Ltd
Priority to CN201910755626.6A priority Critical patent/CN110459236B/zh
Publication of CN110459236A publication Critical patent/CN110459236A/zh
Priority to US16/694,543 priority patent/US10789969B1/en
Priority to EP19214646.2A priority patent/EP3779985B1/en
Application granted granted Critical
Publication of CN110459236B publication Critical patent/CN110459236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/403Linear arrays of transducers

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开涉及一种音频信号的噪声估计方法、装置及存储介质。所述方法包括:针对多个预设采样点,确定传感器阵列在每一预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;确定传感器阵列在每一预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。这样,利用SRP特征的变化实现噪声的识别,提升噪声识别的准确性,并能更准确地实现对多通道语音的噪声识别,且鲁棒性高。

Description

音频信号的噪声估计方法、装置及存储介质
技术领域
本公开涉及语音识别领域,尤其涉及音频信号的噪声估计方法、装置及存储介质。
背景技术
随着物联网及AI技术的发展,语音识别作为人机交互的一大部分,其重要性日益提升。目前智能设备的拾音功能一般利用传声器阵列实现,并利用波束形成技术提高音频信号的处理质量,在语音识别技术中,噪声估计是十分重要的,它是噪声抑制和干扰抑制的基础。目前,噪声估计技术一般在对单传声器采集的单通道音频信号进行处理时才较为准确,而在对实际场景中的多传声器采集的多通道音频信号进行处理时存在困难。
发明内容
为克服相关技术中存在的问题,本公开提供一种音频信号的噪声估计方法、装置及存储介质。
根据本公开实施例的第一方面,提供一种音频信号的噪声估计方法,应用于包含多个传声器的传声器阵列,所述方法包括:
针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
可选地,所述根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号,包括:
确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;
根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;
根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
可选地,所述确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,包括:
根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值。
可选地,所述确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,包括:
根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。
可选地,在所述确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号的步骤之后,所述方法还包括:
根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。
可选地,所述根据所述当前帧SRP多维向量更新所述噪声SRP多维向量,包括:
若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量;
若确定所述传声器阵列在所述当前帧所采集的音频信号为非噪声信号,则根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,其中,所述第二预设系数不同于所述第一预设系数。
可选地,所述根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量,包括:
按照如下公式(1)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ1)*SRP_noise(t)+γ1*SRP_cur (1)
其中,γ1为所述第一预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
可选地,所述根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,包括:
按照如下公式(2)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ2)*SRP_noise(t)+γ2*SRP_cur (2)
其中,γ2为所述第二预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
根据本公开实施例的第二方面,提供一种音频信号的噪声估计装置,应用于包含多个传声器的传声器阵列,所述装置包括:
第一确定模块,被配置为针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
第二确定模块,被配置为确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
第三确定模块,被配置为根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
可选地,所述第三确定模块包括:
第一确定子模块,被配置为确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;
第二确定子模块,被配置为根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;
第三确定子模块,被配置为根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
可选地,所述第二确定模块包括:
第一计算子模块,被配置为根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
第四确定子模块,被配置为根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值。
可选地,所述第一确定模块,包括:
第二计算子模块,被配置为根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
第五确定子模块,被配置为根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。
可选地,所述装置还包括:
更新模块,被配置为在所述第三确定模块确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号之后,根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。
可选地,所述更新模块包括:
第一更新子模块,被配置为若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量;
第二更新子模块,被配置为若确定所述传声器阵列在所述当前帧所采集的音频信号为非噪声信号,则根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,其中,所述第二预设系数不同于所述第一预设系数。
可选地,所述第一更新子模块被配置为按照如下公式(1)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ1)*SRP_noise(t)+γ1*SRP_cur (1)
其中,γ1为所述第一预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
可选地,所述第二更新子模块被配置为按照如下公式(2)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ2)*SRP_noise(t)+γ2*SRP_cur (2)
其中,γ2为所述第二预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
根据本公开实施例的第三方面,提供一种音频信号的噪声估计装置,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所提供的音频信号的噪声估计方法的步骤。
通过上述技术方案,针对多个预设采样点,确定传感器阵列在每一预设采样点处在预设噪声采样时段内的噪声SRP值,以获得噪声SRP多维向量,以及,确定传声器阵列在每一预设采样点处对音频信号的当前帧的当前帧SRP值,以获得当前帧SRP多维向量,并且,根据当前帧SRP多维向量和噪声SRP多维向量,确定传声器阵列在当前帧所采集的音频信号是否为噪声信号。通过计算传感器阵列采集到的音频信号的当前帧SRP多维向量,并将当前帧SRP多维向量与噪声SRP多维向量进行比较,利用SRP特征的变化实现噪声的识别,可以提升噪声识别的准确性,并且,可以更准确地实现对多通道语音的噪声识别,且鲁棒性高。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的音频信号的噪声估计方法的流程图;
图2A是根据本公开提供的音频信号的噪声估计方法中,确定噪声SRP值的步骤的一种示例性实现方式的流程图;
图2B是根据本公开提供的音频信号的噪声估计方法中,确定当前帧SRP值的步骤的一种示例性实现方式的流程图;
图3是根据本公开提供的音频信号的噪声估计方法中,根据当前帧SRP多维向量和噪声SRP多维向量,确定传声器阵列在当前帧所采集的音频信号是否为噪声信号的步骤的一种示例性实现方式的流程图;
图4是根据另一示例性实施例示出的音频信号的噪声估计方法的流程图;
图5是根据一示例性实施例示出的音频信号的噪声估计装置的框图;
图6是根据一示例性实施例示出的音频信号的噪声估计装置的框图;
图7是根据一示例性实施例示出的音频信号的噪声估计装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在介绍本公开提供的方法前,首先对本方法的应用场景进行简要说明。在本公开实施例中,噪声估计方法主要用于估计智能设备中的传声器阵列所采集的多通道音频信号是否为噪声信号。智能设备可以包括但不限于智能洗衣机、智能扫地机器人、智能空调、智能电视、智能音箱、智能闹钟、智能台灯、智能手表、智能可穿戴眼镜、智能手环、智能手机、智能平板电脑等。另一方面,以上智能设备的拾音功能可以由传声器阵列实现,该传声器阵列是一组位于空间不同位置的多个传声器按一定的形状规则布置形成的阵列,是对空间传播音频信号进行空间采样的一种装置,采集到的信号包含了其空间位置信息。根据传声器阵列的拓扑结构,该阵列可以是一维阵、二维平面阵、也可以是球状等三维阵。示例性地,智能设备中所包含的传声器阵列中的多个传声器可以例如呈现线性排列、圆形排列等。在语音识别技术中,噪声估计是十分重要的,它是噪声抑制和干扰抑制的基础。目前,噪声估计技术仅在对单通道音频信号进行处理时才较为准确,而在对实际场景中的多通道音频信号的进行处理时存在困难。本公开针对这一问题,提出了一种音频信号的噪声估计方法,用以实现音频处理中的噪声信号识别,特别是对多通道音频信号的噪声识别,提升噪声估计准确性。
图1是根据一示例性实施例示出的音频信号的噪声估计方法的流程图。该方法可以应用于包含多个传声器的传声器阵列,如图1所示,该方法可以包括以下步骤。
在步骤11中,针对多个预设采样点,确定传感器阵列在每一预设采样点处在预设噪声采样时段内的噪声SRP值,以获得包括与多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量。
其中,预设采样点可以预先确定。SRP(Steered Response Power,可控响应功率)值可以基于传感器阵列所采集到的音频信号确定。SRP多维向量是包括与多个预设采样点分别对应的SRP值的多维向量。
在介绍步骤11的具体实施方式之前,首先,对本公开所使用的预设采样点进行简单介绍。
预设采样点是空间中的虚拟点,它并非实际存在,而是作为音频信号处理中的辅助点。多个预设采样点中各个预设采样点的位置可以人为确定。其中,多个预设采样点可以呈一维阵列式排布、或者呈二维平面式排布、或者呈三维空间式排布等。
在一种可能的实施例中,多个预设采样点的位置可以随机在相对于传感器阵列的不同空间方向上确定。
在另一种可能的实施例中,各个预设采样点的位置可以基于传声器阵列中各个传声器(或者,传声器阵列)所在的位置确定。例如,将传声器阵列中各个传声器所在位置的中心作为中心位置,在该中心位置附近设置预设采样点。
示例地,可以对以传声器阵列为中心的空间进行栅格化处理,并以栅格化处理后得到的各栅格点所在位置为预设采样点的位置。例如,以传声器阵列几何中心为栅格中心,以不同长度(例如,随机选择的不同长度、距离栅格中心等间隔增加的长度)为半径进行二维空间内的圆形栅格化或三维空间内的球形栅格化。再例如,以传声器阵列几何中心为栅格中心,以该栅格中心为正方形中心,以不同长度(例如,随机选择的不同长度、距离栅格中心等间隔增加的长度)为该正方形边长进行二维空间内的正方形栅格化。再例如,以传声器阵列几何中心为栅格中心,以该栅格中心为正方体中心,以不同长度(例如,随机选择的不同长度、距离栅格中心等间隔增加的长度)为该正方体边长进行三维空间内的正方体栅格化。再例如,以传声器阵列几何中心为栅格中心,以该栅格中心为圆形中心,以一长度为该圆形半径进行二维空间内的圆形栅格化,使得多个预设采样点均匀分布在该圆形上。再例如,以传声器阵列几何中心为栅格中心,以该栅格中心为球体中心,以一长度为该球体半径进行三维空间内的球体栅格化,使得多个预设采样点均匀分布在该球体的球面上。
在一个示例中,可以根据如下公式(3)确定预设采样点的位置:
其中,为第k个预设采样点Sk在三维直角坐标系中的坐标,n为预设采样点的数量,r为预设距离。该三维直角坐标系可以基于传声器阵列中各个传声器的位置建立。在该示例中,预设采样点位于以三维直角坐标系原点为球心、以预设距离r为半径的球面上。示例地,预设距离r可以取值为1,则预设采样点位于以三维直角坐标系原点为球心的单位球面上。
基于上述示例,还可以通过进一步限定预设采样点Sk对应坐标中的数值,更加精确地选取预设采样点。示例地,在上述示例的基础上,若设置r=1,还可以进一步限定以减少预设采样点的个数,提升数据处理效率。
另外,除示例中所示出的方式外,预设采样点的位置还可以利用其他方式确定,本公开对此不进行限定。
基于确定的多个预设采样点,可以针对多个预设采样点,确定每一预设采样点在预设噪声采样时段内对应的噪声SRP值。由上所述,SRP(Steered Response Power,可控响应功率)值可以基于传感器阵列所采集到的音频信号确定。
下面将对本公开方案中如何确定SRP值进行说明。
在拾音过程中,传声器阵列中的每个传声器均会采集到音频信号,进而对各个传声器采集到的信号进行处理,综合后得到处理结果。音频信号整体上并不是平稳的,但是在局部上可以视为是相对平稳的。由于在音频信号处理时需要输入平稳信号,因此通常需要对时域中一段采集时间内的音频信号进行分帧处理,也就是在时域中切分成很多片段。一般认为在10ms~30ms范围内信号是相对稳定的,因此,一帧的长度可以设置在10ms~30ms范围内,例如20ms。然后,加窗处理则是为了使分帧后的信号连续,示例地,在音频信号处理中可以加汉明窗。此外,傅里叶变换处理则是为了将时域信号变换为对应的频域信号,示例地,在音频信号处理中可以使用短时傅里叶变换(STFT)得到频域信号。基于上文的原理,在得到传声器阵列采集到的音频信号时,首先对该音频信号进行预处理,以提升音频信号处理的准确性、稳定性。在音频信号的预处理阶段,可以对音频信号进行分帧、加窗、以及傅里叶变换处理,得到每一帧信号的频域信号。
在对传声器阵列采集的音频信号进行预处理后,可得到传声器阵列中各个传声器对应于各帧(分帧处理所得到的各帧)的频域信号。
针对得到的各个传声器对应于每一帧(分帧处理所得到的各帧)的频域信号,可以按照如下方式确定多个预设采样点对应于该帧的SRP值:
在第一步骤中,根据多个传声器的位置以及预设采样点的位置,分别计算每个预设采样点到多个传声器中的每两个传声器的时延差;
在第二步骤中,根据时延差和该帧的频域信号,确定每个预设采样点在该帧的SRP值。
示例地,对于第一步骤,可以按照如下公式(4)计算第k个预设采样点Sk到第i个传声器和第j个传声器的时延差
其中,fs为采样率,d为预设采样点Sk到第i个传声器和第j个传声器的距离差,c为声速,1≤i≠j≤M,M为传声器阵列中传声器的数量。以及,d可通过如下公式(5)得到:
示例地,对于第二步骤,可以按照如下公式(6)计算第k个预设采样点Sk对应的SRP值
其中,M为传声器阵列中传声器的数量。Rij(τ)可以通过如下公式(7)计算:
上述公式中,Xi(ω)表示第i个传声器对应于该帧的频域信号,Xj(ω)表示第j个传声器对应于该帧的频域信号,“*”表示取共轭。
结合上述公式将预设采样点Sk对应的各个时延差分别带入到Rij(τ)中,即可得到预设采样点Sk在该帧对应的SRP值并且,对于每个预设采样点,均可以利用上述方式计算该预设采样点在该帧对应的SRP值,从而可以得到多个预设采样点中每个预设采样点对应于该帧的SRP值。
下面开始对步骤11的具体实施方式进行说明。在步骤11中,针对多个预设采样点,确定传感器阵列在每一预设采样点处在预设噪声采样时段内的噪声SRP值,以获得包括与多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量。
其中,多个预设采样点可以参照前文的介绍进行选取。之后,针对多个预设采样点,确定传感器阵列在每一预设采样点处在预设噪声采样时段内对应的噪声SRP值。
传声器阵列会在预设噪声采样时段进行噪声采样,用于噪声估计。预设噪声采样时段可以是特定时段(例如,每天的8:00~9:00);或者,预设噪声采样时段可以是周期性循环的预定时长(例如,每隔1个小时采集1分钟);或者,预设噪声采样时段可以是与传声器阵列工作时间有关的时段(例如,传声器阵列开始工作后的前5分钟);或者,预设噪声采样时段可以是当前帧之前的预定个数的音频帧(例如,当前帧之前的200帧)。
由于预设噪声采样时段可能包括多个音频帧(在此,也称为噪声帧),因此,可以按照前文介绍的方式进行预处理,以得到传声器阵列中各个传声器对应于各噪声帧的频域信号。
在一种可能的实施方式中,可以按照前文介绍的SRP值的确定方式得到传感器阵列在多个预设采样点中的每一预设采样点处在预设噪声采样时段内的噪声SRP值,从而可以得到与预设噪声采样时段内的多个噪声帧分别对应的多个SRP值。由此,步骤11可以包括以下步骤,如图2A所示。
在步骤21中,根据多个传声器的位置以及预设采样点的位置,分别计算每个预设采样点到多个传声器中的每两个传声器的时延差。
示例地,可以根据上述公式(4)、(5)计算每个预设采样点到多个传声器中的每两个传声器的时延差。
在步骤22中,根据时延差和预设噪声采样时段内的多个帧的频域信号,确定预设噪声采样时段内的多个帧的平均SRP值,作为预设采样点在预设噪声采样时段内的噪声SRP值。
根据时延差和预设噪声采样时段内的多个帧的频域信号,可以确定在每一预设采样点处、在预设噪声采样时段内这多个帧各自的SRP值,并根据这多个帧各自的SRP值,确定每一预设采样点处的噪声SRP值。
示例地,在确定预设噪声采样时段内多个帧各自的SRP值时,可以根据上述公式(6)、(7)计算在每一预设采样点处、预设噪声采样时段内多个帧各自的SRP值。
根据步骤22,对于每一预设采样点,可以对在该预设采样点处、在预设噪声采样时段内的多个帧的SRP值取平均值,并将得到的平均SRP值作为该预设采样点在预设噪声采样时段内的噪声SRP值。
另外,确定噪声SRP值的方式并不仅限于步骤22中提供的取平均值的方式。在其他的可能的实施方式中,示例地,对于每一预设采样点,可以将该预设采样点处、在预设噪声采样时段内的多个帧的SRP值中的最大值作为该预设采样点在预设噪声采样时段内的噪声SRP值。再例如,对于每一预设采样点,可以将该预设采样点处、在预设噪声采样时段内的多个帧的SRP值中的最小值作为该预设采样点在预设噪声采样时段内的噪声SRP值。再例如,可以对该预设采样点处、在预设噪声采样时段内的多个帧的SRP值采用去掉最大值和最小值后求取平均值的方式确定噪声SRP值。
SRP多维向量是包括与多个预设采样点分别对应的SRP值的多维向量,可以表示为示例地,若共有120个预设采样点,则SRP多维向量为120维向量。
因而,根据上文中多个预设采样点中每一预设采样点在预设噪声采样时段内的噪声SRP值,可以确定噪声SRP多维向量。示例性地,若共有三个预设采样点,且预设采样点在预设噪声采样时段对应的噪声SRP值依次为value1、value2、value3,则噪声SRP多维向量SRP可以表示为:
SRP=[value1,value2,value3]。
在步骤12中,确定传感器阵列在每一预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量。
其中,当前帧就是欲进行噪声估计的一帧。对于传声器阵列采集到的音频信号,可以按照前文中描述的预处理方式进行处理,得到对应于多帧的音频信号。其中,若要对该音频信号中的哪一帧进行噪声估计,则可以将该帧作为当前帧。
在一种可能的实施方式中,可以参照上文中确定噪声SRP多维向量的方式确定当前帧SRP多维向量。则步骤12可以包括以下步骤,如图2B所示。
在步骤23中,根据多个传声器的位置以及预设采样点的位置,分别计算每个预设采样点到多个传声器中的每两个传声器的时延差。
示例地,可以根据上述公式(4)、(5)计算每个预设采样点到多个传声器中每两个传声器的时延差。
在步骤24中,根据时延差和当前帧的频域信号,确定每个预设采样点对应的当前帧SRP值。
示例地,可以根据上述公式(6)、(7)计算每个预设采样点对应的当前帧SRP值。
之后,根据每个预设采样点对应的当前帧SRP值,确定当前帧SRP多维向量。
回到图1,在步骤13中,根据当前帧SRP多维向量和噪声SRP多维向量,确定传声器阵列在当前帧所采集的音频信号是否为噪声信号。
SRP具有空间特性,代表空间中各点相关性大小。实际场景中,空间中目标声源和噪声源处于不同位置,噪声长时间存在,目标声源对应的非噪声信号则是间隔出现。因而空间中的音频信号可以认为存在两种情况:仅存在噪声信号,或者噪声信号和非噪声信号同时存在。然而,这两者对应的SRP存在不同。利用这一点,可以通过SRP的变化判定音频信号是否为噪声信号。因此,可以根据当前帧的SRP来确定传声器阵列在当前帧所采集的音频信号是否为噪声信号。
在一种可能的实施方式中,如图3所示,步骤13可以包括以下步骤。
在步骤31中,确定当前帧SRP多维向量与噪声SRP多维向量之间的相关系数。
示例地,可以通过如下公式(8)计算当前帧SRP多维向量与噪声SRP多维向量之间的相关系数feature_cur:
其中,SRP_noise为噪声SRP多维向量,SRP_cur为当前帧SRP多维向量。
在步骤32中,根据该相关系数,确定传声器阵列在当前帧所采集的音频信号为噪声信号的概率值。
步骤32可以视为将相关系数映射到数值区间[0,1]内。
示例地,可以预先建立相关系数与概率值之间的对应关系,根据相关系数以及该对应关系,即可得到上述概率值。
再例如,可以通过如下公式(9)计算传声器阵列在当前帧所采集的音频信号为噪声信号的概率值Prob_cur:
Prob_cur=0.5*(tanh(widthPrior*(feature_cur-featureThresh))+1.0) (9)
其中,widthPrior和featureThresh是可调参数,可以随实际需求进行调节。
在步骤33中,根据该概率值,确定传声器阵列在当前帧所采集的音频信号是否为噪声信号。
若传声器阵列在当前帧所采集的音频信号为噪声信号的概率值大于预设的概率阈值,确定传声器阵列在当前帧所采集的音频信号为噪声信号。
若传声器阵列在当前帧所采集的音频信号为噪声信号的概率值小于或等于预设的概率阈值,确定传声器阵列在当前帧所采集的音频信号为非噪声信号。
其中,预设的概率阈值可以由用户设定。示例地,预设的概率阈值可以为0.56。
在一实施例中,在得到当前帧SRP多维向量与噪声SRP多维向量之间的相关系数之后,还可以对得到的相关系数进行平滑操作,并将平滑后的相关系数用作步骤32中的概率值确定,以提升数据处理准确性。示例地,可以按照如下公式(10)实现对相关系数feature_cur的平滑:
feature_opt=(1-α)*feature0+α*feature_cur (10)
其中,feature_opt为平滑后的相关系数,feature0为第一初始值,α为第一平滑系数,0≤α≤1。第一初始值和第一平滑系数可以由用户设定。示例地,第一初始值可以取0.5。在上式(10)中,利用第一平滑系数α调整计算所得的相关系数(feature_cur)与第一初始值的权重,以得到平滑后的相关系数(feature_opt)。在上述示例中,直接将计算所得的相关系数作为最终的相关系数而不进行平滑操作,可以对应平滑计算式(10)中α=1的情况。
在一实施例中,在得到传声器阵列在当前帧所采集的音频信号为噪声信号的概率值之后,还可以对得到的概率值进行平滑操作,并将平滑后的概率值用作步骤33中的噪声估计,以提升数据处理准确性。示例地,可以按照如下公式(11)实现对概率值Prob_cur的平滑:
Prob_opt=(1-β)*Prob0+β*Prob_cur (11)
其中,Prob_opt为平滑后的概率值,Prob0为第二初始值,β为第二平滑系数,0≤β≤1。第二初始值和第二平滑系数可以由用户设定。示例地,第二初始值可以取1。在上式(11)中,利用第二平滑系数β调整计算所得的概率值(Prob_cur)与第二初始值的权重,以得到平滑后的概率值(Prob_opt)。在上述示例中,直接将计算所得的概率值作为最终的概率值而不进行平滑操作,可以对应平滑计算式(11)中β=1的情况。
通过上述技术方案,确定传感器阵列在每一预设采样点处在预设噪声采样时段内的噪声SRP值,以获得噪声SRP多维向量,以及,确定传声器阵列在每一预设采样点处对音频信号的当前帧的当前帧SRP值,以获得当前帧SRP多维向量,并且,根据当前帧SRP多维向量和噪声SRP多维向量,确定传声器阵列在当前帧所采集的音频信号是否为噪声信号。通过计算传感器阵列采集到的音频信号的当前帧SRP多维向量,并将当前帧SRP多维向量与噪声SRP多维向量进行比较,利用SRP特征的变化实现噪声的识别,可以提升噪声识别的准确性,并且,可以更准确地实现对多通道语音的噪声识别,且鲁棒性高。
图4是根据另一示例性实施例示出的音频信号的噪声估计方法的流程图。如图4所示,除图1中所示的步骤之外,该方法还可以包括以下步骤。
在步骤41中,根据当前帧SRP多维向量更新噪声SRP多维向量。
在一种可能的实施方式中,步骤41可以包括以下步骤:
若确定传声器阵列在当前帧所采集的音频信号为噪声信号,则根据当前帧SRP多维向量和第一预设系数,更新噪声SRP多维向量;
若确定传声器阵列在当前帧所采集的音频信号为非噪声信号,则根据当前帧SRP多维向量和第二预设系数,更新噪声SRP多维向量。
其中,第二预设系数不同于第一预设系数。
若经步骤13确定传声器阵列在当前帧所采集的音频信号为噪声信号,则根据当前帧SRP多维向量和第一预设系数,更新噪声SRP多维向量。
示例地,可以通过如下公式(1)更新噪声SRP多维向量:
SRP_noise(t+1)=(1-γ1)*SRP_noise(t)+γ1*SRP_cur (1)
其中,γ1为第一预设系数,可根据实际需求或者参考经验进行设定,0≤γ1≤1。SRP_cur为当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
若经步骤13确定传声器阵列在当前帧所采集的音频信号为非噪声信号,则根据当前帧SRP多维向量和第二预设系数,更新噪声SRP多维向量。
示例地,可以通过如下公式(2)更新噪声SRP多维向量:
SRP_noise(t+1)=(1-γ2)*SRP_noise(t)+γ2*SRP_cur (2)
其中,γ2为第二预设系数,可根据实际需求或者参考经验进行设定,0≤γ2≤1。SRP_cur为当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
在一种可能的情况中,这里,第一预设系数和第二预设系数都是表示平滑程度的系数,其不同取值意味着:在当前帧为噪声帧时,更新速度快一些;在当前帧为非噪声帧时,更新速度慢一些。
采用上述方式,可以结合实际的应用情况对噪声SRP多维向量进行更新,在后续识别过程中进一步提升对噪声信号识别的准确性。
图5是根据一示例性实施例示出的音频信号的噪声估计装置的框图。该装置可以应用于包含多个传声器的传声器阵列,如图5所示,该装置50可以包括:
第一确定模块51,被配置为针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
第二确定模块52,被配置为确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
第三确定模块53,被配置为根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
可选地,所述第三确定模块53包括:
第一确定子模块,被配置为确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;
第二确定子模块,被配置为根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;
第三确定子模块,被配置为根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
可选地,所述第二确定模块52包括:
第一计算子模块,被配置为根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
第四确定子模块,被配置为根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值,以确定所述当前帧SRP多维向量。
可选地,所述第一确定模块51包括:
第二计算子模块,被配置为根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
第五确定子模块,被配置为根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。
可选地,所述装置50还包括:
更新模块,被配置为在所述第三确定模块确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号之后,根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。
可选地,所述更新模块包括:
第一更新子模块,被配置为若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量;
第二更新子模块,被配置为若确定所述传声器阵列在所述当前帧所采集的音频信号为非噪声信号,则根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,其中,所述第二预设系数不同于所述第一预设系数。
可选地,所述第一更新子模块被配置为按照如下公式(1)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ1)*SRP_noise(t)+γ1*SRP_cur (1)
其中,γ1为所述第一预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
可选地,所述第二更新子模块被配置为按照如下公式(2)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ2)*SRP_noise(t)+γ2*SRP_cur (2)
其中,γ2为所述第二预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本公开还提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开提供的音频信号的噪声估计方法的步骤。
图6是根据一示例性实施例示出的音频信号的噪声估计装置的框图。例如,装置600可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,装置600可以包括以下一个或多个组件:处理组件602,存储器604,电力组件606,多媒体组件608,音频组件610,输入/输出(I/O)的接口612,传感器组件614,以及通信组件616。
处理组件602通常控制装置600的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件602可以包括一个或多个处理器620来执行指令,以完成上述的音频信号的噪声估计方法的全部或部分步骤。此外,处理组件602可以包括一个或多个模块,便于处理组件602和其他组件之间的交互。例如,处理组件602可以包括多媒体模块,以方便多媒体组件608和处理组件602之间的交互。
存储器604被配置为存储各种类型的数据以支持在装置600的操作。这些数据的示例包括用于在装置600上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器604可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件606为装置600的各种组件提供电力。电力组件606可以包括电源管理***,一个或多个电源,及其他与为装置600生成、管理和分配电力相关联的组件。
多媒体组件608包括在所述装置600和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件608包括一个前置摄像头和/或后置摄像头。当装置600处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜***或具有焦距和光学变焦能力。
音频组件610被配置为输出和/或输入音频信号。例如,音频组件610包括一个传声器(MIC),当装置600处于操作模式,如呼叫模式、记录模式和语音识别模式时,传声器被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器604或经由通信组件616发送。在一些实施例中,音频组件610还包括一个扬声器,用于输出音频信号。
I/O接口612为处理组件602和***接口模块之间提供接口,上述***接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件614包括一个或多个传感器,用于为装置600提供各个方面的状态评估。例如,传感器组件614可以检测到装置600的打开/关闭状态,组件的相对定位,例如所述组件为装置600的显示器和小键盘,传感器组件614还可以检测装置600或装置600一个组件的位置改变,用户与装置600接触的存在或不存在,装置600方位或加速/减速和装置600的温度变化。传感器组件614可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件614还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件614还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件616被配置为便于装置600和其他设备之间有线或无线方式的通信。装置600可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件616经由广播信道接收来自外部广播管理***的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件616还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置600可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述音频信号的噪声估计方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器604,上述指令可由装置600的处理器620执行以完成上述音频信号的噪声估计方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的音频信号的噪声估计方法的代码部分。
图7是根据一示例性实施例示出的音频信号的噪声估计装置的框图。例如,装置700可以被提供为一服务器。参照图7,装置700包括处理组件722,其进一步包括一个或多个处理器,以及由存储器732所代表的存储器资源,用于存储可由处理组件722的执行的指令,例如应用程序。存储器732中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件722被配置为执行指令,以执行上述音频信号的噪声估计方法。
装置700还可以包括一个电源组件726被配置为执行装置700的电源管理,一个有线或无线网络接口750被配置为将装置700连接到网络,和一个输入输出(I/O)接口758。装置700可以操作基于存储在存储器732的操作***,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践本公开后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (11)

1.一种音频信号的噪声估计方法,应用于包含多个传声器的传声器阵列,其特征在于,所述方法包括:
针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
2.根据权利要求1所述的方法,其特征在于,所述根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号,包括:
确定所述当前帧SRP多维向量与所述噪声SRP多维向量之间的相关系数;
根据所述相关系数,确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号的概率值;
根据所述概率值,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
3.根据权利要求1所述的方法,其特征在于,所述确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,包括:
根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
根据所述时延差和当前帧的频域信号,确定每一所述预设采样点对应的当前帧SRP值。
4.根据权利要求1所述的方法,其特征在于,所述确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,包括:
根据所述多个传声器的位置以及每一所述预设采样点的位置,分别计算每一所述预设采样点到所述多个传声器中的每两个传声器的时延差;
根据所述时延差和所述预设噪声采样时段内的多个帧的频域信号,确定所述预设噪声采样时段内的多个帧的平均SRP值,作为每一所述预设采样点在所述预设噪声采样时段内的噪声SRP值。
5.根据权利要求1-4中任一项所述的方法,其特征在于,在所述确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号的步骤之后,所述方法还包括:
根据所述当前帧SRP多维向量更新所述噪声SRP多维向量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述当前帧SRP多维向量更新所述噪声SRP多维向量,包括:
若确定所述传声器阵列在所述当前帧所采集的音频信号为噪声信号,则根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量;
若确定所述传声器阵列在所述当前帧所采集的音频信号为非噪声信号,则根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,其中,所述第二预设系数不同于所述第一预设系数。
7.根据权利要求6所述的方法,其特征在于,所述根据所述当前帧SRP多维向量和第一预设系数,更新所述噪声SRP多维向量,包括:
按照如下公式(1)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ1)*SRP_noise(t)+γ1*SRP_cur (1)
其中,γ1为所述第一预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
8.根据权利要求6所述的方法,其特征在于,所述根据所述当前帧SRP多维向量和第二预设系数,更新所述噪声SRP多维向量,包括:
按照如下公式(2)更新所述噪声SRP多维向量:
SRP_noise(t+1)=(1-γ2)*SRP_noise(t)+γ2*SRP_cur (2)
其中,γ2为所述第二预设系数,SRP_cur为所述当前帧SRP多维向量,SRP_noise(t)为更新前的噪声SRP多维向量,SRP_noise(t+1)为更新后的噪声SRP多维向量。
9.一种音频信号的噪声估计装置,应用于包含多个传声器的传声器阵列,所述装置包括:
第一确定模块,被配置为针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
第二确定模块,被配置为确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
第三确定模块,被配置为根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
10.一种音频信号的噪声估计装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
针对多个预设采样点,确定所述传感器阵列在每一所述预设采样点处在预设噪声采样时段内的噪声可控响应功率SRP值,以获得包括与所述多个预设采样点分别对应的多个噪声SRP值的噪声SRP多维向量;
确定所述传感器阵列在每一所述预设采样点处对音频信号的当前帧的当前帧SRP值,以获得包括与所述多个预设采样点分别对应的多个当前帧SRP值的当前帧SRP多维向量;
根据所述当前帧SRP多维向量和所述噪声SRP多维向量,确定所述传声器阵列在所述当前帧所采集的音频信号是否为噪声信号。
11.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~8中任一项所述方法的步骤。
CN201910755626.6A 2019-08-15 2019-08-15 音频信号的噪声估计方法、装置及存储介质 Active CN110459236B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201910755626.6A CN110459236B (zh) 2019-08-15 2019-08-15 音频信号的噪声估计方法、装置及存储介质
US16/694,543 US10789969B1 (en) 2019-08-15 2019-11-25 Audio signal noise estimation method and device, and storage medium
EP19214646.2A EP3779985B1 (en) 2019-08-15 2019-12-10 Audio signal noise estimation method and device and storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910755626.6A CN110459236B (zh) 2019-08-15 2019-08-15 音频信号的噪声估计方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN110459236A true CN110459236A (zh) 2019-11-15
CN110459236B CN110459236B (zh) 2021-11-30

Family

ID=68486896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910755626.6A Active CN110459236B (zh) 2019-08-15 2019-08-15 音频信号的噪声估计方法、装置及存储介质

Country Status (3)

Country Link
US (1) US10789969B1 (zh)
EP (1) EP3779985B1 (zh)
CN (1) CN110459236B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843514A (zh) * 2023-08-29 2023-10-03 北京城建置业有限公司 一种基于数据识别的物业综合管理***及方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114485916B (zh) * 2022-01-12 2023-01-17 广州声博士声学技术有限公司 一种环境噪声监测方法、***、计算机设备和存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102763160A (zh) * 2010-02-18 2012-10-31 高通股份有限公司 用于稳健噪声降低的麦克风阵列子组选择
US20150364137A1 (en) * 2014-06-11 2015-12-17 Honeywell International Inc. Spatial audio database based noise discrimination
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
US20170078791A1 (en) * 2011-02-10 2017-03-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
WO2017129239A1 (en) * 2016-01-27 2017-08-03 Nokia Technologies Oy System and apparatus for tracking moving audio sources
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位***
CN107393549A (zh) * 2017-07-21 2017-11-24 北京华捷艾米科技有限公司 时延估计方法及装置
US20180322896A1 (en) * 2017-05-08 2018-11-08 Olympus Corporation Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method
CN109192219A (zh) * 2018-09-11 2019-01-11 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
CN109308908A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种语音交互方法及装置
CN109616137A (zh) * 2019-01-28 2019-04-12 钟祥博谦信息科技有限公司 噪声处理方法及装置
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
US20190228790A1 (en) * 2018-01-25 2019-07-25 Sogang University Research Foundation Sound source localization method and sound source localization apparatus based coherence-to-diffuseness ratio mask

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2517690B (en) * 2013-08-26 2017-02-08 Canon Kk Method and device for localizing sound sources placed within a sound environment comprising ambient noise
US20170337932A1 (en) * 2016-05-19 2017-11-23 Apple Inc. Beam selection for noise suppression based on separation
US10482899B2 (en) * 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
WO2019005835A1 (en) * 2017-06-26 2019-01-03 Invictus Medical, Inc. MICROPHONE NETWORK WITH ACTIVE NOISE CONTROL
US11026019B2 (en) * 2018-09-27 2021-06-01 Qualcomm Incorporated Ambisonic signal noise reduction for microphone arrays

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102763160A (zh) * 2010-02-18 2012-10-31 高通股份有限公司 用于稳健噪声降低的麦克风阵列子组选择
US20170078791A1 (en) * 2011-02-10 2017-03-16 Dolby International Ab Spatial adaptation in multi-microphone sound capture
US20150364137A1 (en) * 2014-06-11 2015-12-17 Honeywell International Inc. Spatial audio database based noise discrimination
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
WO2017129239A1 (en) * 2016-01-27 2017-08-03 Nokia Technologies Oy System and apparatus for tracking moving audio sources
CN107102296A (zh) * 2017-04-27 2017-08-29 大连理工大学 一种基于分布式麦克风阵列的声源定位***
US20180322896A1 (en) * 2017-05-08 2018-11-08 Olympus Corporation Sound collection apparatus, sound collection method, recording medium recording sound collection program, and dictation method
CN107393549A (zh) * 2017-07-21 2017-11-24 北京华捷艾米科技有限公司 时延估计方法及装置
CN109308908A (zh) * 2017-07-27 2019-02-05 深圳市冠旭电子股份有限公司 一种语音交互方法及装置
US20190228790A1 (en) * 2018-01-25 2019-07-25 Sogang University Research Foundation Sound source localization method and sound source localization apparatus based coherence-to-diffuseness ratio mask
CN109192219A (zh) * 2018-09-11 2019-01-11 四川长虹电器股份有限公司 基于关键词改进麦克风阵列远场拾音的方法
CN109817225A (zh) * 2019-01-25 2019-05-28 广州富港万嘉智能科技有限公司 一种基于位置的会议自动记录方法、电子设备及存储介质
CN109616137A (zh) * 2019-01-28 2019-04-12 钟祥博谦信息科技有限公司 噪声处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANGRONG WANG等: ""Sparse Array Quiescent Beamformer Design Combining Adaptive and Deterministic Constraints"", 《IEEE TRANSACTIONS ON ANTENNAS AND PROPAGATION》 *
戴江安 等: ""基于检测前跟踪的声源跟踪算法"", 《通信学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116843514A (zh) * 2023-08-29 2023-10-03 北京城建置业有限公司 一种基于数据识别的物业综合管理***及方法
CN116843514B (zh) * 2023-08-29 2023-11-21 北京城建置业有限公司 一种基于数据识别的物业综合管理***及方法

Also Published As

Publication number Publication date
EP3779985B1 (en) 2023-05-10
CN110459236B (zh) 2021-11-30
US10789969B1 (en) 2020-09-29
EP3779985A1 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
CN108510987B (zh) 语音处理方法及装置
US20220165288A1 (en) Audio signal processing method and apparatus, electronic device, and storage medium
WO2021013230A1 (zh) 机器人的控制方法、机器人、终端、服务器及控制***
US11295740B2 (en) Voice signal response method, electronic device, storage medium and system
CN110808063A (zh) 一种语音处理方法、装置和用于处理语音的装置
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
CN105117111B (zh) 虚拟现实交互画面的渲染方法和装置
CN109840939A (zh) 三维重建方法、装置、电子设备及存储介质
CN110493690A (zh) 一种声音采集方法及装置
CN108803444A (zh) 智能设备的控制方法、装置及存储介质
CN109599104A (zh) 多波束选取方法及装置
CN111933167B (zh) 电子设备的降噪方法、装置、存储介质及电子设备
CN111863020A (zh) 语音信号处理方法、装置、设备及存储介质
CN110459236A (zh) 音频信号的噪声估计方法、装置及存储介质
CN111589138B (zh) 动作预测方法、装置、设备及存储介质
CN104573642B (zh) 人脸识别方法及装置
CN108984628A (zh) 内容描述生成模型的损失值获取方法及装置
CN113506582A (zh) 声音信号识别方法、装置及***
CN113642551A (zh) 指甲关键点检测方法、装置、电子设备及存储介质
CN115035187A (zh) 声源方向确定方法、装置、终端、存储介质及产品
CN109255839A (zh) 场景调整方法及装置
CN114299978A (zh) 音频信号的处理方法、装置、设备及存储介质
CN112750449A (zh) 回声消除方法、装置、终端、服务器及存储介质
CN110428828A (zh) 一种语音识别方法、装置和用于语音识别的装置
CN109543564A (zh) 提醒方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant