CN113539288A - 一种语音信号去噪方法及装置 - Google Patents

一种语音信号去噪方法及装置 Download PDF

Info

Publication number
CN113539288A
CN113539288A CN202110829968.5A CN202110829968A CN113539288A CN 113539288 A CN113539288 A CN 113539288A CN 202110829968 A CN202110829968 A CN 202110829968A CN 113539288 A CN113539288 A CN 113539288A
Authority
CN
China
Prior art keywords
azimuth
sound source
target
determining
azimuth angle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110829968.5A
Other languages
English (en)
Inventor
郝昊
李骊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Huajie Imi Technology Co ltd
Beijing HJIMI Technology Co Ltd
Original Assignee
Nanjing Huajie Imi Technology Co ltd
Beijing HJIMI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Huajie Imi Technology Co ltd, Beijing HJIMI Technology Co Ltd filed Critical Nanjing Huajie Imi Technology Co ltd
Priority to CN202110829968.5A priority Critical patent/CN113539288A/zh
Publication of CN113539288A publication Critical patent/CN113539288A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)

Abstract

本发明公开了一种语音信号去噪方法及装置,可以获得由麦克风阵列采集到的多路语音信号,多路语音信号中包括噪声,对多路语音信号进行声源定位,确定声源方位角,将位于目标方位角上的语音信号确定为噪声,目标方位角与声源方位角的角度偏差值不小于预设的角度偏差阈值,基于目标方位角与声源方位角的角度偏差值,确定相应的目标子带滤波器系数,基于目标子带滤波器系数,对位于目标方位角上的语音信号进行去噪处理。本发明可以在避免影响目标声源输出的语音信号的同时,实现对采集到的多路语音信号的有效去噪处理,有效提高音频去噪能力。

Description

一种语音信号去噪方法及装置
技术领域
本发明涉及信号处理技术领域,尤其涉及一种语音信号去噪方法及装置。
背景技术
随着信号处理技术的提高,语音信号去噪技术不断提高。
当前,现有技术可以利用语音采集设备,在特定场所内对目标声源输出的语音信号进行采集、去噪和记录等处理。
但是,现有技术无法对采集到的语音信号进行有效去噪。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的语音信号去噪方法及装置,技术方案如下:
一种语音信号去噪方法,包括:
获得由麦克风阵列采集到的多路语音信号,所述多路语音信号中包括噪声;
对所述多路语音信号进行声源定位,确定声源方位角;
将位于目标方位角上的所述语音信号确定为噪声,所述目标方位角与所述声源方位角的角度偏差值不小于预设的角度偏差阈值;
基于所述目标方位角与所述声源方位角的角度偏差值,确定相应的目标子带滤波器系数;
基于所述目标子带滤波器系数,对所述位于目标方位角上的所述语音信号进行去噪处理。
可选的,所述对所述多路语音信号进行声源定位,确定声源方位角,包括:
结合麦克风阵列声源定位技术和图像识别技术,对所述多路语音信号进行声源定位,确定所述声源方位角。
可选的,所述结合麦克风阵列声源定位技术和图像识别技术,对所述多路语音信号进行声源定位,确定所述声源方位角,包括:
获得由摄像头拍摄的包含有说话人的目标图像,利用图像识别技术对所述目标图像中的所述说话人进行人体关键点识别,确定所述说话人的人体关键点坐标,基于所述人体关键点坐标确定所述说话人的第一方位角;
利用麦克风阵列声源定位技术,对所述多路语音信号进行声源定位,确定目标声源的第二方位角;
判断所述第一方位角与所述第二方位角是否相匹配,如果是,则确定所述说话人为所述目标声源,基于所述第一方位角和所述第二方位角确定所述声源方位角。
可选的,所述获得由摄像头拍摄的包含有说话人的目标图像,利用图像识别技术对所述目标图像中的所述说话人进行人体关键点识别,确定所述说话人的人体关键点坐标,基于所述人体关键点坐标确定所述说话人的第一方位角,包括:
获得深度摄像头拍摄的包含有所述说话人的所述目标图像,在所述目标图像中确定所述说话人至所述深度摄像头的深度距离;
利用人体姿态估计技术,在所述目标图像中对所述说话人的人体区域进行人体关键点识别,确定所述说话人的头部坐标;
基于所述深度距离和所述头部坐标,确定所述第一方位角。
可选的,所述第一方位角是在摄像头坐标系中获得的,所述第二方位角是在麦克风阵列坐标系中获得的,所述判断所述第一方位角与所述第二方位角是否相匹配,包括:
对所述第一方位角进行坐标系变换,获得所述第一方位角在所述麦克风阵列坐标系中对应的第三方位角;
比较所述第三方位角与所述第二方位角的差值是否不大于预设的方位角偏差阈值,如果是,则确定所述第一方位角与所述第二方位角相匹配;
所述基于所述第一方位角和所述第二方位角确定所述声源方位角,包括:
基于所述第三方位角和所述第二方位角确定所述声源方位角。
可选的,所述基于所述目标方位角与所述声源方位角的角度偏差值,确定相应的目标子带滤波器系数,包括:
将所述目标方位角与所述声源方位角输入至子带滤波器系数计算模型中,将所述子带滤波器系数计算模型输出的子带滤波系数确定为所述目标子带滤波器系数;其中:
所述子带滤波器系数计算模型为:
hvoice(fi)=(0.5+0.5cos(θ(fi)-θvoice))10
其中,i为所述多路语音信号的频域中频率谱线的序号,fi是序号为i的频率谱线对应的频率,hvoice(fi)是频率fi对应的子带滤波器系数,θ(fi)是频率fi对应的所述目标方位角,θvoice为所述声源方位角。
可选的,所述基于所述目标子带滤波器系数,对所述位于目标方位角上的所述语音信号进行去噪处理,包括:
将所述目标子带滤波器系数和所述位于目标方位角上的所述语音信号,输入至去噪计算模型中,获得所述去噪计算模型输出的去噪后语音信号;其中,所述去噪计算模型为:
y(fi)=x(fi)·hvoice(fi);
其中,y(fi)为去噪后语音信号,x(fi)为位于所述目标方位角上的所述语音信号。
可选的,所述头部坐标包括头部横坐标,所述基于所述深度距离和所述头部坐标,确定所述第一方位角,包括:
将所述深度距离和所述头部横坐标输入至方位角计算模型中,将所述方位角计算模型输出的方位角确定为所述第一方位角;其中,所述方位角计算模型为:
Figure BDA0003175107130000031
其中,θ1为所述第一方位角,x1为所述头部横坐标,d为所述深度距离。
一种语音信号去噪装置,包括:第一获得单元、第一定位单元、第一确定单元、第二确定单元、第三确定单元和去噪处理单元,其中:
所述第一获得单元,被配置为执行:获得由麦克风阵列采集到的多路语音信号,所述多路语音信号中包括噪声;
所述第一定位单元,被配置为执行:对所述多路语音信号进行声源定位;
所述第一确定单元,被配置为执行:确定声源方位角;
所述第二确定单元,被配置为执行:将位于目标方位角上的所述语音信号确定为噪声,所述目标方位角与所述声源方位角的角度偏差值不小于预设的角度偏差阈值;
所述第三确定单元,被配置为执行:基于所述目标方位角与所述声源方位角的角度偏差值,确定相应的目标子带滤波器系数;
所述去噪处理单元,被配置为执行:基于所述目标子带滤波器系数,对所述位于目标方位角上的所述语音信号进行去噪处理。
可选的,所述第一定位单元,被配置为执行:
结合麦克风阵列声源定位技术和图像识别技术,对所述多路语音信号进行声源定位。
可选的,所述第一定位单元,包括:第二获得单元、第一识别单元、第四确定单元、第五确定单元、第二定位单元、第六确定单元、判断单元和第七确定单元,其中:
所述第二获得单元,被配置为执行:获得由摄像头拍摄的包含有说话人的目标图像;
所述第一识别单元,被配置为执行:利用图像识别技术对所述目标图像中的所述说话人进行人体关键点识别;
所述第四确定单元,被配置为执行:确定所述说话人的人体关键点坐标;
所述第五确定单元,被配置为执行:基于所述人体关键点坐标确定所述说话人的第一方位角;
所述第二定位单元,被配置为执行:利用麦克风阵列声源定位技术,对所述多路语音信号进行声源定位;
所述第六确定单元,被配置为执行:确定目标声源的第二方位角;
所述判断单元,被配置为执行:判断所述第一方位角与所述第二方位角是否相匹配,如果是,则触发所述第七确定单元;
所述第七确定单元,被配置为执行:确定所述说话人为所述目标声源;
所述第一确定单元,被配置为执行:基于所述第一方位角和所述第二方位角确定所述声源方位角。
可选的,所述第二获得单元,被配置为执行:获得深度摄像头拍摄的包含有所述说话人的所述目标图像;
所述第一识别单元,包括:第八确定单元和第二识别单元;
所述第八确定单元,被配置为执行:在所述目标图像中确定所述说话人至所述深度摄像头的深度距离;
所述第二识别单元,被配置为执行:利用人体姿态估计技术,在所述目标图像中对所述说话人的人体区域进行人体关键点识别;
所述第四确定单元,被配置为执行:确定所述说话人的头部坐标;
所述第五确定单元,被配置为执行:基于所述深度距离和所述头部坐标,确定所述第一方位角。
可选的,所述第一方位角是在摄像头坐标系中获得的,所述第二方位角是在麦克风阵列坐标系中获得的;
所述判断单元,包括:变换单元、第三获得单元、比较单元和第九确定单元;
所述变换单元,被配置为执行:对所述第一方位角进行坐标系变换;
所述第三获得单元,被配置为执行:获得所述第一方位角在所述麦克风阵列坐标系中对应的第三方位角;
所述比较单元,被配置为执行:比较所述第三方位角与所述第二方位角的差值是否不大于预设的方位角偏差阈值,如果是,则触发所述第九确定单元;
所述第九确定单元,被配置为执行:确定所述第一方位角与所述第二方位角相匹配;
所述第一确定单元,被配置为执行:基于所述第三方位角和所述第二方位角确定所述声源方位角。
可选的,所述第三确定单元,包括:第一输入单元和系数确定单元;
所述第一输入单元,被配置为执行:将所述目标方位角与所述声源方位角输入至子带滤波器系数计算模型中;
所述系数确定单元,被配置为执行:将所述子带滤波器系数计算模型输出的子带滤波系数确定为所述目标子带滤波器系数;其中:
所述子带滤波器系数计算模型为:
hvoice(fi)=(0.5+0.5cos(θ(fi)-θvoice))10
其中,i为所述多路语音信号的频域中频率谱线的序号,fi是序号为i的频率谱线对应的频率,hvoice(fi)是频率fi对应的子带滤波器系数,θ(fi)是频率fi对应的所述目标方位角,θvoice为所述声源方位角。
可选的,所述去噪处理单元,包括:第二输入单元和第四获得单元;
所述第二输入单元,被配置为执行:将所述目标子带滤波器系数和所述位于目标方位角上的所述语音信号,输入至去噪计算模型中;
所述第四获得单元,被配置为执行:获得所述去噪计算模型输出的去噪后语音信号;其中,所述去噪计算模型为:
y(fi)=x(fi)·hvoice(fi);
其中,y(fi)为去噪后语音信号,x(fi)为位于所述目标方位角上的所述语音信号。
可选的,所述头部坐标包括头部横坐标;
所述第五确定单元,包括:第三输入单元和方位角确定单元;
所述第三输入单元,被配置为执行:将所述深度距离和所述头部横坐标输入至方位角计算模型中;
所述方位角确定单元,被配置为执行:将所述方位角计算模型输出的方位角确定为所述第一方位角;其中,所述方位角计算模型为:
Figure BDA0003175107130000061
其中,θ1为所述第一方位角,x1为所述头部横坐标,d为所述深度距离。
本实施例提出的语音信号去噪方法及装置,可以获得由麦克风阵列采集到的多路语音信号,多路语音信号中包括噪声,对多路语音信号进行声源定位,确定声源方位角,将位于目标方位角上的语音信号确定为噪声,目标方位角与声源方位角的角度偏差值不小于预设的角度偏差阈值,基于目标方位角与声源方位角的角度偏差值,确定相应的目标子带滤波器系数,基于目标子带滤波器系数,对位于目标方位角上的语音信号进行去噪处理。本发明可以在避免影响目标声源输出的语音信号的同时,实现对采集到的多路语音信号的有效去噪处理,有效提高音频去噪能力。
上述说明仅是本发明技术方案的概述,为了能够更清楚地了解本发明的技术手段,可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1示出了本发明实施例提供的第一种语音信号去噪方法的流程图;
图2示出了本发明实施例提供的一种均匀圆形麦克风阵列;
图3示出了子带滤波器系数与方位角的变化关系示意图;
图4示出了本发明实施例提供的第二种语音信号去噪方法的流程图;
图5示出了本发明实施例提供的第一种语音信号去噪装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如图1所示,本实施例提出了第一种语音信号去噪方法,可以包括以下步骤:
S101、获得由麦克风阵列采集到的多路语音信号,多路语音信号中包括噪声;
其中,麦克风阵列可以由多个麦克风构成。麦克风阵列中的每个麦克风均可以采集到一路语音信号。
需要说明的是,麦克风阵列在采集目标声源(如某个说话人)输出的语音信号期间,可能会同时采集到非目标声源(如非其他说话人、空调或电视等)输出的语音信号。此时,麦克风阵列采集到的由非目标声源输出的语音信号属于噪声,本发明可以对采集到的整体语音信号进行去噪处理,提高语音信号采集质量。
可以理解的是,上述的多路语音信号即可以为麦克风阵列采集的由目标声源输出的语音信号。
S102、对多路语音信号进行声源定位,确定声源方位角;
其中,声源方位角可以为目标声源所在的方位角。
可选的,声源方位角可以为目标声源在以麦克风阵列的中心点作为原点所建立的第一空间坐标系中的方位角。
具体的,本发明可以在采集到多路语音信号后,在上述第一空间坐标系中,利用麦克风阵列声源定位技术对采集到的多路语音信号进行声源定位,确定声源方位角。之后,本发明可以利用声源方位角来识别多路语音信号中的噪声。
其中,本发明在利用麦克风阵列声源定位技术进行声源定位时,具体可以基于波束形成的方式进行声源定位。具体的,在基于波束形成的方式进行声源定位的过程中,本发明可以先行对采集到的多路语音信号进行时延补偿,在空间各个方向做固定波束形成,将波束输出功率最大的方向确定为声源方向,从而确定声源方位角。
为更好说明基于波束形成的声源定位技术,本发明以均匀圆阵为例对其进行介绍。如图2所示,麦克风阵列可以是由N个麦克风均匀分布在一个圆周上所形成的均匀圆形麦克风阵列,圆周半径为r,θ为语音信号与x的夹角即声源方位角(声源为说话人),
Figure BDA0003175107130000081
为语音信号与z轴正方向夹角即说话人所在的俯仰角,各麦克风的坐标可以记为(xn,yn)(n=1,2,…,N)。
其中,第n个麦克风的相对时延τn可以为:
Figure BDA0003175107130000091
其中,c可以是空气中的声速。
具体的,本发明可以基于相对时延计算各角度的波束输出功率,将最大波束输出功率所对应的角度确定为声源方位角。
可选的,本发明可以在采集到多路语音信号后,先行对采集到的多路语音信号进行预处理。具体的,本发明在进行预处理的过程中,可以先行对采集到的进行高通滤波处理,以去除多路语音信号中的直流分量,之后可以根据多路语音信号的频率带宽,确定相应的采样率,对多路语音信号进行降采样处理。
可选的,本发明可以对预处理后的多路语音信号进行子带分析,获得相应的频域信号。之后,本发明可以对频域信号进行回声消除,比如可以利用自适应滤波器模拟麦克风接收到的回声信号,采用谱减法获得回声消除后的频域信号。
可选的,本发明在获得进行回声消除后的频域信号后,可以通过计算其信噪比和对数谱偏差,来对其进行活动语音检测,以确定多路语音信号实际是属于噪声(即无效语音信号)还是有效语音信号。
可选的,本发明可以在确定多路语音信号实际属于有效语音信号时,再执行后续步骤;而本发明在确定多路语音信号实际属于噪声时,可以禁止执行后续步骤,减小资源消耗。
可选的,本发明可以在确定多路语音信号实际属于有效语音信号时,利用麦克风阵列声源定位技术对采集到的多路语音信号进行声源定位。
S103、将位于目标方位角上的语音信号确定为噪声,目标方位角与声源方位角的角度偏差值不小于预设的角度偏差阈值;
其中,角度偏差值可以为目标方位角与声源方位角相减所得到的值的绝对值。
其中,目标方位角可以是与声源方位角的角度偏差值不小于上述角度偏差阈值的方位角。
需要说明的是,角度偏差阈值可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。比如,角度偏差阈值可以设置为5度,也可以设置为10度。当然,角度偏差阈值也可以为0度。
具体的,本发明可以在上述的多路语音信号中,将处于目标方位角上的语音信号确定为非目标声源输出的语音信号,即确定为噪声。需要说明的是,当角度偏差阈值为0度时,本发明可以将非声源方位角上的语音信号均确定为噪声。
可以理解的是,当声源方位角和角度偏差阈值确定时,目标方位角可以包括多个方位角,不同目标方位角上的语音信号可以为不同的噪声。比如,当声源方位角为60度,角度偏差阈值为5度时,目标方位角可以为50度,也可以为70度,此时本发明可以在上述的多路语音信号中,将方位角在50度上的语音信号确定为第一噪声,将方位角在70度上的语音信号确定为第二噪声。
S104、基于目标方位角与声源方位角的角度偏差值,确定相应的目标子带滤波器系数;
其中,目标子带滤波器系数可以为与目标方位角相对应的子带滤波器系数。
具体的,本发明可以基于目标方位角与声源方位角的角度偏差值,确定与位于目标方位角上的噪声相对应的目标子带滤波器系数,并基于目标子带滤波器设计相应的子带滤波器,对位于目标方位角上的噪声进行去噪处理。
可选的,步骤S104可以包括:
将目标方位角与声源方位角输入至子带滤波器系数计算模型中,将子带滤波器系数计算模型输出的子带滤波系数确定为目标子带滤波器系数;其中:
子带滤波器系数计算模型为:
hvoice(fi)=(0.5+0.5cos(θ(fi)-θvoice))10
其中,i为上述多路语音信号的频域中频率谱线的序号,fi是序号为i的频率谱线对应的频率,hvoice(fi)是频率fi对应的子带滤波器系数,θ(fi)是频率fi对应的目标方位角,θvoice为声源方位角。
可以理解的是,子带滤波器系数计算模型可以基于目标方位角与声源方位角的角度偏差值,输出相应的子带滤波器系数。
S105、基于目标子带滤波器系数,对位于目标方位角上的语音信号进行去噪。
具体的,本发明可以基于与目标方位角相对应的目标子带滤波器系数,构造出相应的子带滤波器,之后利用构造出的子带滤波器对位于目标方位角上的噪声进行定向去噪处理。
可选的,在利用上述子带滤波器系数计算模型确定目标子带滤波器系数时,步骤S105可以包括:
将目标子带滤波器系数和位于目标方位角上的语音信号,输入至去噪计算模型中,获得去噪计算模型输出的去噪后语音信号;其中,去噪计算模型为:
y(fi)=x(fi)·hvoice(fi);
其中,y(fi)为去噪后语音信号,x(fi)为位于目标方位角上的语音信号。
可以理解的是,上述去噪计算模型即可以为与目标子带滤波器系数相对应的子带滤波器。
具体的,本发明可以在确定目标子带滤波器系数后,构造相应的子带滤波器,即上述去噪计算模型。之后,本发明可以将上述多路语音信号中的位于目标方位角上的语音信号,输入至构造出的子带滤波器中,由子带滤波器对位于目标方位角上的语音信号进行一定比例消除,即将其信号强度或频率等参数乘以目标子带滤波器系数,并获得子带滤波器输出的已完成去噪处理后的语音信号。目标子带滤波器系数与目标方位角的关系可以如图3所示。在图3中,横轴可以为方位角,纵轴可以为噪声衰减系数(可以用于表征目标子带滤波器系数),声源方位角为60度,当目标方位角与声源方位角的角度偏差值越大时,目标方位角所对应的噪声衰减系数越小,即目标子带滤波器系数越小,对噪声进行的去噪处理强度将越大。
还需要说明的是,本发明通过对目标方位角上的语音信号即噪声进行定向去噪处理,可以在避免影响目标声源输出的语音信号的同时,对采集到的多路语音信号进行有效去噪处理,有效提高音频去噪能力,提高语音信号采集质量和处理质量。
本实施例提出的语音信号去噪方法,可以获得由麦克风阵列采集到的多路语音信号,多路语音信号中包括噪声,对多路语音信号进行声源定位,确定声源方位角,将位于目标方位角上的语音信号确定为噪声,目标方位角与声源方位角的角度偏差值不小于预设的角度偏差阈值,基于目标方位角与声源方位角的角度偏差值,确定相应的目标子带滤波器系数,基于目标子带滤波器系数,对位于目标方位角上的语音信号进行去噪处理。本发明可以在避免影响目标声源输出的语音信号的同时,实现对采集到的多路语音信号的有效去噪处理,有效提高音频去噪能力,提高语音信号采集质量和处理质量。
基于图1所示步骤,如图4所示,本实施例提出第二种语音信号去噪方法。在该方法中,步骤S102可以具体为步骤S201。其中:
S201、结合麦克风阵列声源定位技术和图像识别技术,对多路语音信号进行声源定位,确定声源方位角。
需要说明的是,当声源为说话人时,本发明可以结合语音识别中的说话人定位技术(如上述麦克风阵列声源定位技术)和图像识别中的人体关键点识别技术,进行声源定位。
其中,本发明可以利用图像识别中的人体关键点识别技术作为上述麦克风阵列声源定位技术的辅助定位方式,对麦克风阵列采集到的多路语音信号进行声源定位。
可选的,本发明可以将通过麦克风阵列声源定位技术获得的方位角,与通过图像识别所获得的方位角进行对比拟合,提高声源方位角精准度。
可选的,步骤S201可以包括步骤S301、S302、S303、S304、S305、S306、S307和S308。其中:
S301、获得由摄像头拍摄的包含有说话人的目标图像;
S302、利用图像识别技术对目标图像中的说话人进行人体关键点识别;
S303、确定说话人的人体关键点坐标;
S304、基于人体关键点坐标确定说话人的第一方位角;
其中,第一方位角可以为通过图像识别技术对说话人进行声源定位所获得的方位角。
可选的,步骤S301、S302、S303和S304可以包括:
获得深度摄像头拍摄的包含有说话人的目标图像,在目标图像中确定说话人至深度摄像头的深度距离;
利用人体姿态估计技术,在目标图像中对说话人的人体区域进行人体关键点识别,确定说话人的头部坐标;
基于深度距离和头部坐标,确定第一方位角。
具体的,本发明在获得目标图像后,可以使用背景减除的方式对目标图像进行前景分割,从目标图像中提取出说话人的人体目标区域,之后本发明可以对说话人的人体目标区域进行人体姿态估计,使用如图5所示的骨架模型来显示人体骨骼的各关节点,从而可以确定各个人体关键点的坐标,获得说话人的头部坐标。
可选的,本发明在使用背景减除的方式对目标图像进行前景分割的过程中,可以通过下述公式(1),利用当前图像与目标图像的差分来检测说话人的运动区域。
Figure BDA0003175107130000131
其中,Ib(x)可以为当前背景图像,Ic(x)可以为当前帧图像,T为门限值,分割获得的前景X0为说话人的初始位置。
具体的,本发明可以在确定说话人的初始位置X0后,基于粒子滤波的目标跟踪方式,通过粒子集初始化、重要性采样、重采样、更新和循环等步骤完成对说话人的跟踪估计。
可选的,本发明可以在经前景分割以及粒子滤波处理所获得的人体图像块中,利用人体姿态估计来确定说话人的人体关键点坐标。具体的,本发明可以在人体图像块中,根据图像的轮廓、边缘和纹理等参数,将整个人体图像块划分成不同区域的图像块,比如头、躯干和四肢,之后可以根据人体骨架模型,从划分出的各个图像块中提取出人体关节点,作为当前时刻的人体姿态初始参数;之后,本发明可以根据初始参数,利用最优化理论和方式在每个关节点参数可存在的空间进行搜索,查找与观测的图像数据最匹配的关节点位置,获得更匹配的人体姿态参数;之后,本发明可以将匹配获得的最优关节点位置更新至初始参数中,后续的参数估计可以此参数作为参考。
需要说明的是,本发明为进一步提高姿态估计的准确性,可以利用人体运动的先验知识来约束人体姿态估计。
具体的,本发明可以深度摄像头中心作为原点,建立第二空间坐标系,在第二空间坐标系中基于说话人在目标图像中的深度距离和头部坐标,确定说话人所处的方位角,即第一方位角。
其中,本发明可以利用下述公式(2)来计算第一方位角。此时,所述头部坐标包括头部横坐标,上述基于深度距离和头部坐标,确定第一方位角,可以包括:
将所述深度距离和所述头部横坐标输入至方位角计算模型中,将所述方位角计算模型输出的方位角确定为所述第一方位角;其中,所述方位角计算模型为:
Figure BDA0003175107130000141
其中,θ1可以为第一方位角,x1可以为说话人的头部横坐标,d可以为说话人在目标图像中的深度距离。
需要说明的是,摄像头与麦克风阵列可以组合成一体式设备。在该一体式设备的安装位置确定时,摄像头与麦克风阵列的位置可以随之确定。
具体的,以摄像头为原点所建立的第二空间坐标系,与以麦克风阵列的中心为原点所建立的第一空间坐标系相比,原点可以是不同的,而其它各轴即x轴、y轴和z轴的方向均可以是相同的。
S305、利用麦克风阵列声源定位技术,对多路语音信号进行声源定位,确定目标声源的第二方位角;
其中,第二方位角可以为通过麦克风阵列声源定位技术对多路语音信号进行声源定位所获得的方位角。
S306、判断第一方位角与第二方位角是否相匹配,如果是,则执行步骤S307;否则执行步骤S308。
S307、确定所述说话人为所述目标声源,基于所述第一方位角和所述第二方位角确定所述声源方位角。
具体的,当确定第一方位角和第二方位角相匹配时,本发明则可以确定说话人即为目标声源,进而可以根据第一方位角和第二方位角来确定声源方位角。
S308、确定所述说话人为非目标声源,禁止基于第一方位角和第二方位角确定声源方位角,避免无谓的资源消耗。
具体的,当第一方位角和第二方位角未相匹配时,本发明可以确定说话人为非目标声源,禁止根据第一方位角和第二方位角来确定声源方位角,避免无谓的资源消耗。
需要说明的是,本发明在存在有多个人的某个场所中进行声源定位时,可以在该场所中利用麦克风阵列采集多路语音信号,同时可以使用摄像头分别对该场所中的每个人进行拍摄,获得多张图像(每张图像中可以包括一个人),分别将拍摄出的每张图像作为目标图像(每张目标图像中所包含的人即可以假定为说话人),并可以通过利用麦克风阵列声源定位技术和图像识别技术进行声源定位,即可以通过执行步骤S301、S302、S303、S304、S305、S306、S307和S308对麦克风阵列采集的多路语音信号进行声源定位。
比如,当A场所中存在有张三和李四两个人时,本发明可以在A场所中利用麦克风阵列采集多路语音信号,同时可以使用摄像头分别对张三和李四进行拍摄,获得包含有张三的第一图像和包含有李四的第二图像,之后可以先行将第一图像作为目标图像,执行步骤S301、S302、S303、S304、S305、S306、S307和S308对麦克风阵列采集的多路语音信号进行声源定位;之后可以将第二图像作为目标图像,执行步骤S301、S302、S303、S304、S305、S306、S307和S308对麦克风阵列采集的多路语音信号进行声源定位。
可以理解的是,如果确定某张目标图像中的说话人为非目标声源,本发明可以继续利用下一张目标图像进行声源定位,直至确定出包含有目标声源的目标图像,以利用包含有目标声源的目标图像来计算声源方位角,提高声源定位精准度。
可选的,当摄像头拍摄的某张图像中包含有多个人时,本发明可以先行从中分别提取出各个人的人体区域,并分别将各人的人体区域作为一张目标图像进行声源定位。
可选的,第一方位角是在摄像头坐标系(即上述第二空间坐标系)中获得的,第二方位角是在麦克风阵列坐标系(即上述第一空间坐标系)中获得的,步骤S306可以包括:
对第一方位角进行坐标系变换,获得第一方位角在麦克风阵列坐标系中对应的第三方位角;
比较第三方位角与第二方位角的差值是否不大于预设的方位角偏差阈值,如果是,则确定第一方位角与第二方位角相匹配;否则确定第一方位角与第二方位角不匹配。
其中,方位角偏差阈值可以由技术人员根据实际情况确定,本发明对此不做限定。
可选的,步骤S307可以包括:
确定所述说话人为所述目标声源,基于所述第三方位角和所述第二方位角确定所述声源方位角。
可选的,本发明在确定第一方位角与第二方位角相匹配时,可以基于第三方位角和第二方位角确定声源方位角。其中,本发明在确定声源方位角的过程中,可以对第三方位角与第二方位角进行加权平均,将加权平均所得到的值确定为声源方位角;
可选的,本发明也可以直接将第三方位角或第二方位角确定为声源方位角。
还需要说明的是,本发明通过语音识别中的说话人定位技术和图像识别中的人体关键点识别技术,进行声源定位的方式,可以提高对说话人的声源定位精度,从而可以进一步提高对目标声源输出语音信号的去噪能力。
本实施例提出的语音信号去噪方法,可以通过语音识别中的说话人定位技术和图像识别中的人体关键点识别技术,进行声源定位的方式,可以提高对说话人的声源定位精度,从而可以进一步提高对目标声源输出语音信号的去噪能力。
与图1所示步骤相对应,如图5所示,本实施例提出第一种语音信号去噪装置,可以包括:第一获得单元101、第一定位单元102、第一确定单元103、第二确定单元104、第三确定单元105和去噪处理单元106,其中:
第一获得单元101,被配置为执行:获得由麦克风阵列采集到的多路语音信号,多路语音信号中包括噪声;
其中,麦克风阵列可以由多个麦克风构成。麦克风阵列中的每个麦克风均可以采集到一路语音信号。
需要说明的是,麦克风阵列在采集目标声源(如某个说话人)输出的语音信号期间,可能会同时采集到非目标声源(如非其他说话人、空调或电视等)输出的语音信号。此时,麦克风阵列采集到的由非目标声源输出的语音信号属于噪声,本发明可以对采集到的整体语音信号进行去噪处理,提高语音信号采集质量。
可以理解的是,上述的多路语音信号即可以为麦克风阵列采集的由目标声源输出的语音信号。
第一定位单元102,被配置为执行:对多路语音信号进行声源定位;
第一确定单元103,被配置为执行:确定声源方位角;
其中,声源方位角可以为目标声源所在的方位角。
可选的,声源方位角可以为目标声源在以麦克风阵列的中心点作为原点所建立的第一空间坐标系中的方位角。
具体的,本发明可以在采集到多路语音信号后,在上述第一空间坐标系中,利用麦克风阵列声源定位技术对采集到的多路语音信号进行声源定位,确定声源方位角。之后,本发明可以利用声源方位角来识别多路语音信号中的噪声。
其中,本发明在利用麦克风阵列声源定位技术进行声源定位时,具体可以基于波束形成的方式进行声源定位。具体的,在基于波束形成的方式进行声源定位的过程中,本发明可以先行对采集到的多路语音信号进行时延补偿,在空间各个方向做固定波束形成,将波束输出功率最大的方向确定为声源方向,从而确定声源方位角。
具体的,本发明可以基于相对时延计算各角度的波束输出功率,将最大波束输出功率所对应的角度确定为声源方位角。
第二确定单元104,被配置为执行:将位于目标方位角上的语音信号确定为噪声,目标方位角与声源方位角的角度偏差值不小于预设的角度偏差阈值;
其中,角度偏差值可以为目标方位角与声源方位角相减所得到的值的绝对值。
其中,目标方位角可以是与声源方位角的角度偏差值不小于上述角度偏差阈值的方位角。
需要说明的是,角度偏差阈值可以由技术人员根据实际工作情况进行制定,本发明对此不做限定。
第三确定单元105,被配置为执行:基于目标方位角与声源方位角的角度偏差值,确定相应的目标子带滤波器系数;
其中,目标子带滤波器系数可以为与目标方位角相对应的子带滤波器系数。
具体的,本发明可以基于目标方位角与声源方位角的角度偏差值,确定与位于目标方位角上的噪声相对应的目标子带滤波器系数,并基于目标子带滤波器设计相应的子带滤波器,对位于目标方位角上的噪声进行去噪处理。
可选的,第三确定单元105,包括:第一输入单元和系数确定单元;
第一输入单元,被配置为执行:将目标方位角与声源方位角输入至子带滤波器系数计算模型中;
系数确定单元,被配置为执行:将子带滤波器系数计算模型输出的子带滤波系数确定为目标子带滤波器系数;其中:
子带滤波器系数计算模型为:
hvoice(fi)=(0.5+0.5cos(θ(fi)-θvoice))10
其中,i为多路语音信号的频域中频率谱线的序号,fi是序号为i的频率谱线对应的频率,hvoice(fi)是频率fi对应的子带滤波器系数,θ(fi)是频率fi对应的目标方位角,θvoice为声源方位角。
可以理解的是,子带滤波器系数计算模型可以基于目标方位角与声源方位角的角度偏差值,输出相应的子带滤波器系数。
去噪处理单元106,被配置为执行:基于目标子带滤波器系数,对位于目标方位角上的语音信号进行去噪处理。
具体的,本发明可以基于与目标方位角相对应的目标子带滤波器系数,构造出相应的子带滤波器,之后利用构造出的子带滤波器对位于目标方位角上的噪声进行定向去噪处理。
可选的,在利用上述子带滤波器系数计算模型确定目标子带滤波器系数时,去噪处理单元106,包括:第二输入单元和第四获得单元;
第二输入单元,被配置为执行:将目标子带滤波器系数和位于目标方位角上的语音信号,输入至去噪计算模型中;
第四获得单元,被配置为执行:获得去噪计算模型输出的去噪后语音信号;其中,去噪计算模型为:
y(fi)=x(fi)·hvoice(fi);
其中,y(fi)为去噪后语音信号,x(fi)为位于目标方位角上的语音信号。
可以理解的是,上述去噪计算模型即可以为与目标子带滤波器系数相对应的子带滤波器。
具体的,本发明可以在确定目标子带滤波器系数后,构造相应的子带滤波器,即上述去噪计算模型。之后,本发明可以将上述多路语音信号中的位于目标方位角上的语音信号,输入至构造出的子带滤波器中,由子带滤波器对位于目标方位角上的语音信号进行一定比例消除,即将其信号强度或频率等参数乘以目标子带滤波器系数,并获得子带滤波器输出的已完成去噪处理后的语音信号。
本实施例提出的语音信号去噪装置可以在避免影响目标声源输出的语音信号的同时,实现对采集到的多路语音信号的有效去噪处理,有效提高音频去噪能力,提高语音信号采集质量和处理质量。
基于图5,本实施例提出第二种语音信号去噪装置。在该装置中,第一定位单元102,被配置为执行:
结合麦克风阵列声源定位技术和图像识别技术,对多路语音信号进行声源定位。
需要说明的是,当声源为说话人时,本发明可以结合语音识别中的说话人定位技术(如上述麦克风阵列声源定位技术)和图像识别中的人体关键点识别技术,进行声源定位。
其中,本发明可以利用图像识别中的人体关键点识别技术作为上述麦克风阵列声源定位技术的辅助定位方式,对麦克风阵列采集到的多路语音信号进行声源定位。
可选的,本发明可以将通过麦克风阵列声源定位技术获得的方位角,与通过图像识别所获得的方位角进行对比拟合,提高声源方位角精准度。
可选的,第一定位单元102,包括:第二获得单元、第一识别单元、第四确定单元、第五确定单元、第二定位单元、第六确定单元、判断单元和第七确定单元,其中:
第二获得单元,被配置为执行:获得由摄像头拍摄的包含有说话人的目标图像;
第一识别单元,被配置为执行:利用图像识别技术对目标图像中的说话人进行人体关键点识别;
第四确定单元,被配置为执行:确定说话人的人体关键点坐标;
第五确定单元,被配置为执行:基于人体关键点坐标确定说话人的第一方位角;
第二定位单元,被配置为执行:利用麦克风阵列声源定位技术,对多路语音信号进行声源定位;
第六确定单元,被配置为执行:确定目标声源的第二方位角;
判断单元,被配置为执行:判断第一方位角与第二方位角是否相匹配,如果是,则触发第七确定单元;
第七确定单元,被配置为执行:确定说话人为目标声源;
第一确定单元103,被配置为执行:基于第一方位角和第二方位角确定声源方位角。
其中,第一方位角可以为通过图像识别技术对说话人进行声源定位所获得的方位角。
可选的,第二获得单元,被配置为执行:获得深度摄像头拍摄的包含有说话人的目标图像;
第一识别单元,包括:第八确定单元和第二识别单元;
第八确定单元,被配置为执行:在目标图像中确定说话人至深度摄像头的深度距离;
第二识别单元,被配置为执行:利用人体姿态估计技术,在目标图像中对说话人的人体区域进行人体关键点识别;
第四确定单元,被配置为执行:确定说话人的头部坐标;
第五确定单元,被配置为执行:基于深度距离和头部坐标,确定第一方位角。
需要说明的是,本发明为进一步提高姿态估计的准确性,可以利用人体运动的先验知识来约束人体姿态估计。
具体的,本发明可以深度摄像头中心作为原点,建立第二空间坐标系,在第二空间坐标系中基于说话人在目标图像中的深度距离和头部坐标,确定说话人所处的方位角,即第一方位角。
其中,本发明可以利用下述公式(3)来计算第一方位角。此时,头部坐标包括头部横坐标;
第五确定单元,包括:第三输入单元和方位角确定单元;
第三输入单元,被配置为执行:将深度距离和头部横坐标输入至方位角计算模型中;
方位角确定单元,被配置为执行:将方位角计算模型输出的方位角确定为第一方位角;其中,方位角计算模型为:
Figure BDA0003175107130000211
其中,θ1为第一方位角,x1为头部横坐标,d为深度距离。
需要说明的是,摄像头与麦克风阵列可以组合成一体式设备。在该一体式设备的安装位置确定时,摄像头与麦克风阵列的位置可以随之确定。
具体的,以摄像头为原点所建立的第二空间坐标系,与以麦克风阵列的中心为原点所建立的第一空间坐标系相比,原点可以是不同的,而其它各轴即x轴、y轴和z轴的方向均可以是相同的。
其中,第二方位角可以为通过麦克风阵列声源定位技术对多路语音信号进行声源定位所获得的方位角。
具体的,当确定第一方位角和第二方位角相匹配时,本发明则可以确定说话人即为目标声源,进而可以根据第一方位角和第二方位角来确定声源方位角。
具体的,当第一方位角和第二方位角未相匹配时,本发明可以确定说话人为非目标声源,禁止根据第一方位角和第二方位角来确定声源方位角,避免无谓的资源消耗。
可选的,第一方位角是在摄像头坐标系中获得的,第二方位角是在麦克风阵列坐标系中获得的;
判断单元,包括:变换单元、第三获得单元、比较单元和第九确定单元;
变换单元,被配置为执行:对第一方位角进行坐标系变换;
第三获得单元,被配置为执行:获得第一方位角在麦克风阵列坐标系中对应的第三方位角;
比较单元,被配置为执行:比较第三方位角与第二方位角的差值是否不大于预设的方位角偏差阈值,如果是,则触发第九确定单元;
第九确定单元,被配置为执行:确定第一方位角与第二方位角相匹配;
第一确定单元103,被配置为执行:基于第三方位角和第二方位角确定声源方位角。
其中,方位角偏差阈值可以由技术人员根据实际情况确定,本发明对此不做限定。
可选的,本发明在确定第一方位角与第二方位角相匹配时,可以基于第三方位角和第二方位角确定声源方位角。其中,本发明在确定声源方位角的过程中,可以对第三方位角与第二方位角进行加权平均,将加权平均所得到的值确定为声源方位角;
可选的,本发明也可以直接将第三方位角或第二方位角确定为声源方位角。
还需要说明的是,本发明通过语音识别中的说话人定位技术和图像识别中的人体关键点识别技术,进行声源定位的方式,可以提高对说话人的声源定位精度,从而可以进一步提高对目标声源输出语音信号的去噪能力。
本实施例提出的语音信号去噪装置,可以通过语音识别中的说话人定位技术和图像识别中的人体关键点识别技术,进行声源定位的方式,可以提高对说话人的声源定位精度,从而可以进一步提高对目标声源输出语音信号的去噪能力。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种语音信号去噪方法,其特征在于,包括:
获得由麦克风阵列采集到的多路语音信号,所述多路语音信号中包括噪声;
对所述多路语音信号进行声源定位,确定声源方位角;
将位于目标方位角上的所述语音信号确定为噪声,所述目标方位角与所述声源方位角的角度偏差值不小于预设的角度偏差阈值;
基于所述目标方位角与所述声源方位角的角度偏差值,确定相应的目标子带滤波器系数;
基于所述目标子带滤波器系数,对所述位于目标方位角上的所述语音信号进行去噪处理。
2.根据权利要求1所述的方法,其特征在于,所述对所述多路语音信号进行声源定位,确定声源方位角,包括:
结合麦克风阵列声源定位技术和图像识别技术,对所述多路语音信号进行声源定位,确定所述声源方位角。
3.根据权利要求2所述的方法,其特征在于,所述结合麦克风阵列声源定位技术和图像识别技术,对所述多路语音信号进行声源定位,确定所述声源方位角,包括:
获得由摄像头拍摄的包含有说话人的目标图像,利用图像识别技术对所述目标图像中的所述说话人进行人体关键点识别,确定所述说话人的人体关键点坐标,基于所述人体关键点坐标确定所述说话人的第一方位角;
利用麦克风阵列声源定位技术,对所述多路语音信号进行声源定位,确定目标声源的第二方位角;
判断所述第一方位角与所述第二方位角是否相匹配,如果是,则确定所述说话人为所述目标声源,基于所述第一方位角和所述第二方位角确定所述声源方位角。
4.根据权利要求3所述的方法,其特征在于,所述获得由摄像头拍摄的包含有说话人的目标图像,利用图像识别技术对所述目标图像中的所述说话人进行人体关键点识别,确定所述说话人的人体关键点坐标,基于所述人体关键点坐标确定所述说话人的第一方位角,包括:
获得深度摄像头拍摄的包含有所述说话人的所述目标图像,在所述目标图像中确定所述说话人至所述深度摄像头的深度距离;
利用人体姿态估计技术,在所述目标图像中对所述说话人的人体区域进行人体关键点识别,确定所述说话人的头部坐标;
基于所述深度距离和所述头部坐标,确定所述第一方位角。
5.根据权利要求3或4所述的方法,其特征在于,所述第一方位角是在摄像头坐标系中获得的,所述第二方位角是在麦克风阵列坐标系中获得的,所述判断所述第一方位角与所述第二方位角是否相匹配,包括:
对所述第一方位角进行坐标系变换,获得所述第一方位角在所述麦克风阵列坐标系中对应的第三方位角;
比较所述第三方位角与所述第二方位角的差值是否不大于预设的方位角偏差阈值,如果是,则确定所述第一方位角与所述第二方位角相匹配;
所述基于所述第一方位角和所述第二方位角确定所述声源方位角,包括:
基于所述第三方位角和所述第二方位角确定所述声源方位角。
6.根据权利要求1所述的方法,其特征在于,所述基于所述目标方位角与所述声源方位角的角度偏差值,确定相应的目标子带滤波器系数,包括:
将所述目标方位角与所述声源方位角输入至子带滤波器系数计算模型中,将所述子带滤波器系数计算模型输出的子带滤波系数确定为所述目标子带滤波器系数;其中:
所述子带滤波器系数计算模型为:
hvoice(fi)=(0.5+0.5cos(θ(fi)-θvoice))10
其中,i为所述多路语音信号的频域中频率谱线的序号,fi是序号为i的频率谱线对应的频率,hvoice(fi)是频率fi对应的子带滤波器系数,θ(fi)是频率fi对应的所述目标方位角,θvoice为所述声源方位角。
7.根据权利要求6所述的方法,其特征在于,所述基于所述目标子带滤波器系数,对所述位于目标方位角上的所述语音信号进行去噪处理,包括:
将所述目标子带滤波器系数和所述位于目标方位角上的所述语音信号,输入至去噪计算模型中,获得所述去噪计算模型输出的去噪后语音信号;其中,所述去噪计算模型为:
y(fi)=x(fi)·hvoice(fi);
其中,y(fi)为去噪后语音信号,x(fi)为位于所述目标方位角上的所述语音信号。
8.根据权利要求4所述的方法,其特征在于,所述头部坐标包括头部横坐标,所述基于所述深度距离和所述头部坐标,确定所述第一方位角,包括:
将所述深度距离和所述头部横坐标输入至方位角计算模型中,将所述方位角计算模型输出的方位角确定为所述第一方位角;其中,所述方位角计算模型为:
Figure FDA0003175107120000031
其中,θ1为所述第一方位角,x1为所述头部横坐标,d为所述深度距离。
9.一种语音信号去噪装置,其特征在于,包括:第一获得单元、声源定位单元、第一确定单元、第二确定单元、第三确定单元和去噪处理单元,其中:
所述第一获得单元,被配置为执行:获得由麦克风阵列采集到的多路语音信号,所述多路语音信号中包括噪声;
所述声源定位单元,被配置为执行:对所述多路语音信号进行声源定位;
所述第一确定单元,被配置为执行:确定声源方位角;
所述第二确定单元,被配置为执行:将位于目标方位角上的所述语音信号确定为噪声,所述目标方位角与所述声源方位角的角度偏差值不小于预设的角度偏差阈值;
所述第三确定单元,被配置为执行:基于所述目标方位角与所述声源方位角的角度偏差值,确定相应的目标子带滤波器系数;
所述去噪处理单元,被配置为执行:基于所述目标子带滤波器系数,对所述位于目标方位角上的所述语音信号进行去噪处理。
10.根据权利要求9所述的装置,其特征在于,所述声源定位单元,被配置为执行:
结合麦克风阵列声源定位技术和图像识别技术,对所述多路语音信号进行声源定位。
CN202110829968.5A 2021-07-22 2021-07-22 一种语音信号去噪方法及装置 Pending CN113539288A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110829968.5A CN113539288A (zh) 2021-07-22 2021-07-22 一种语音信号去噪方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110829968.5A CN113539288A (zh) 2021-07-22 2021-07-22 一种语音信号去噪方法及装置

Publications (1)

Publication Number Publication Date
CN113539288A true CN113539288A (zh) 2021-10-22

Family

ID=78120421

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110829968.5A Pending CN113539288A (zh) 2021-07-22 2021-07-22 一种语音信号去噪方法及装置

Country Status (1)

Country Link
CN (1) CN113539288A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及***
CN114363770A (zh) * 2021-12-17 2022-04-15 北京小米移动软件有限公司 通透模式下的滤波方法、装置、耳机以及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953059A (zh) * 2006-11-24 2007-04-25 北京中星微电子有限公司 一种噪声消除装置和方法
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
JP2016050872A (ja) * 2014-09-01 2016-04-11 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及***
CN112614508A (zh) * 2020-12-11 2021-04-06 北京华捷艾米科技有限公司 音视频结合的定位方法、装置、电子设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1953059A (zh) * 2006-11-24 2007-04-25 北京中星微电子有限公司 一种噪声消除装置和方法
CN102831898A (zh) * 2012-08-31 2012-12-19 厦门大学 带声源方向跟踪功能的麦克风阵列语音增强装置及其方法
JP2016050872A (ja) * 2014-09-01 2016-04-11 株式会社国際電気通信基礎技術研究所 音源位置推定装置、音源位置推定方法および音源位置推定プログラム
CN106710603A (zh) * 2016-12-23 2017-05-24 上海语知义信息技术有限公司 利用线性麦克风阵列的语音识别方法及***
CN112614508A (zh) * 2020-12-11 2021-04-06 北京华捷艾米科技有限公司 音视频结合的定位方法、装置、电子设备以及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JEYASINGH P: "Real-time Multi Source Speech Enhancement based on Sound Source Separation using Microphone Array", IEEE CONFERENCE ON EMERGING DEVICES AND SMART SYSTEMS (ICEDSS 2018), pages 183 - 187 *
闵新宇: "基于麦克风阵列的语音增强算法", 计算机工程与设计, vol. 41, no. 4, pages 1074 - 1079 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112562730A (zh) * 2020-11-24 2021-03-26 北京华捷艾米科技有限公司 一种声源分析方法及***
CN114363770A (zh) * 2021-12-17 2022-04-15 北京小米移动软件有限公司 通透模式下的滤波方法、装置、耳机以及可读存储介质
CN114363770B (zh) * 2021-12-17 2024-03-26 北京小米移动软件有限公司 通透模式下的滤波方法、装置、耳机以及可读存储介质

Similar Documents

Publication Publication Date Title
CN106328156B (zh) 一种音视频信息融合的麦克风阵列语音增强***及方法
CN107534725B (zh) 一种语音信号处理方法及装置
CN107221336B (zh) 一种增强目标语音的装置及其方法
US7215786B2 (en) Robot acoustic device and robot acoustic system
JP4986433B2 (ja) 物体を認識および追跡する装置及び方法
US7613310B2 (en) Audio input system
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
Liu et al. Continuous sound source localization based on microphone array for mobile robots
CN113539288A (zh) 一种语音信号去噪方法及装置
CN108109617A (zh) 一种远距离拾音方法
EP3227704B1 (en) Method for tracking a target acoustic source
Naqvi et al. Multimodal (audio–visual) source separation exploiting multi-speaker tracking, robust beamforming and time–frequency masking
CN112951257A (zh) 一种音频图像采集设备及说话人定位及语音分离方法
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
CN112614508B (zh) 音视频结合的定位方法、装置、电子设备以及存储介质
CN110706719A (zh) 一种语音提取方法、装置、电子设备及存储介质
CN109685730A (zh) 一种基于自适应非局域均值的小波去噪方法
CN103901400B (zh) 一种基于时延补偿和双耳一致性的双耳声音源定位方法
CN113903353A (zh) 一种基于空间区分性检测的定向噪声消除方法及装置
CN113707136B (zh) 服务型机器人语音交互的音视频混合语音前端处理方法
CN110992971A (zh) 一种语音增强方向的确定方法、电子设备及存储介质
CN113093106A (zh) 一种声源定位方法及***
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
CN114167356A (zh) 一种基于多面体麦克风阵列的声源定位方法和***
CN106448693B (zh) 一种语音信号处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination