CN113782047B - 语音分离方法、装置、设备和存储介质 - Google Patents

语音分离方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113782047B
CN113782047B CN202111040658.1A CN202111040658A CN113782047B CN 113782047 B CN113782047 B CN 113782047B CN 202111040658 A CN202111040658 A CN 202111040658A CN 113782047 B CN113782047 B CN 113782047B
Authority
CN
China
Prior art keywords
channel
signal
angle deviation
time domain
noise reduction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111040658.1A
Other languages
English (en)
Other versions
CN113782047A (zh
Inventor
戴玮
关海欣
梁家恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202111040658.1A priority Critical patent/CN113782047B/zh
Publication of CN113782047A publication Critical patent/CN113782047A/zh
Application granted granted Critical
Publication of CN113782047B publication Critical patent/CN113782047B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/02Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using radio waves
    • G01S3/14Systems for determining direction or deviation from predetermined direction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明涉及一种语音分离方法、装置、设备和存储介质,包括对时域的混合语音信号进行分离得到第一通道的时域信号和第二通道的时域信号后,按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;根据第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;并得到第一通道与第二通道各偏差的比较结果,根据比较结果,确定每个通道对应的目标声源。

Description

语音分离方法、装置、设备和存储介质
技术领域
本发明涉及语音处理技术领域,具体涉及一种语音分离方法、装置、设备和存储介质。
背景技术
近年来,随着语音识别技术的飞速发展,多路语音识别场景中对实时语音分离技术提出迫切的技术需求。比如,在一对一教学中需要将学生的语音和老师的语音分离出来。
相关技术中,通常采用盲源分离技术对混合语音进行分离,但盲源分离得到的各语音信号对应的输出通道顺序不确定,需要用户进一步确定每个通道对应的语音信号,降低了语音分离效率。
发明内容
本发明提供一种语音分离方法、装置、设备和存储介质,以解决现有技术中因盲源分离得到的各语音信号对应的输出通道顺序不确定,需要用户进一步确定每个通道对应的语音信号,降低了语音分离效率的技术问题。
本发明解决上述技术问题的技术方案如下:
一种语音分离方法,包括:
对麦克风阵列接收到的时域的混合语音信号进行傅里叶变换,得到时频域的混合语音信号;
对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号;
将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号;
按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;
根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;
若所述第一通道的俯仰角偏差不大于所述第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于所述第二通道的方位角偏差,确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息;
若所述第一通道的俯仰角偏差大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差大于所述第二通道的方位角偏差,确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息。
进一步地,上述所述的语音分离方法中,将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号之前,还包括:
将所述第一通道的分离信号和所述第二通道的分离信号通过自适应滤波算法进行处理,得到第一通道的初级降噪信号;
将所述第一通道的初步降噪信号与所述时域的混合语音信号进行能量对比,将能量高的语音信号与所述时域的混合语音信号通过自适应滤波算法和非线性降噪算法进行处理,得到第二通道的初级降噪信号;
对应地,将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号,包括:
将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
进一步地,上述所述的语音分离方法中,将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号之前,还包括:
将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别通过单通道降噪消除背景噪声获得所述第一通道的最终降噪信号和所述第二通道的最终降噪信号;
对应地,将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号,包括:
将所述第一通道的最终降噪信号和所述第二通道的最终降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
进一步地,上述所述的语音分离方法,还包括:
当所述俯仰角偏差大于所述俯仰角的角度偏差阈值,或者,所述方位角偏差大于所述方位角的角度偏差阈值,更新所述自适应滤波算法对应的滤波器的权值。
进一步地,上述所述的语音分离方法,还包括:
当所述俯仰角偏差小于或等于所述角度偏差阈值,且,所述方位角偏差小于或等于所述方位角的角度偏差阈值,维持所述自适应滤波算法对应的滤波器的权值不变。
进一步地,上述所述的语音分离方法中,所述自适应滤波算法为最小均方算法LMS、NLMS算法、最小二乘法RLS中的任意一种。
本发明还提供了一种语音分离装置,包括:
第一变换模块,用不对麦克风阵列接收到的时域的混合语音信号进行傅里叶变换,得到时频域的混合语音信号;
分离模块,用于对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号;
第二变换模块,用于将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号;
方位估计模块,用于按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;
偏差估计模块,用于根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;
确定模块,用于若所述第一通道的俯仰角偏差不大于所述第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于所述第二通道的方位角偏差,确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息;若所述第一通道的俯仰角偏差大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差大于所述第二通道的方位角偏差,确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息。
进一步地,上述所述的语音分离装置中,所述分离模块还用于:
将所述第一通道的分离信号和所述第二通道的分离信号通过自适应滤波算法进行处理,得到第一通道的初级降噪信号;
将所述第一通道的初步降噪信号与所述时域的混合语音信号进行能量对比,将能量高的语音信号与所述时域的混合语音信号通过自适应滤波算法和非线性降噪算法进行处理,得到第二通道的初级降噪信号;
对应的,所述第二变换模块,还用于将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
本发明还提供了一种语音分离设备,包括:处理器和存储器;
所述处理器用于执行所述存储器中存储的语音分离方法的程序,以实现上述任一项所述的语音分离方法。
本发明还提供了一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被执行时实现上述任一项所述的语音分离方法。
本发明的有益效果是:
通过对时域的混合语音信号进行语音分离,并得到第一通道的时域信号和第二通道的时域信号后,集合能量判断,并选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;然后,根据第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;若第一通道的俯仰角偏差不大于第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于第二通道的方位角偏差,确定第一通道为第一目标声源的语音信息,第二通道为第二目标声源的语音信息;若第一通道的俯仰角偏差大于第二通道的俯仰角偏差,且第一通道的方位角偏差大于第二通道的方位角偏差,确定第一通道为第二目标声源的语音信息,第二通道为第一目标声源的语音信息。这样,则实现了各语音信号按照确定通道顺序进行输出,从而避免用户进一步确定每个通道对应的语音信号,提高了语音分离效率。
附图说明
图1为本发明的语音分离方法实施例的流程图;
图2为本发明的一种麦克阵列的示意图
图3为本发明的语音分离装置实施例的结构示意图;
图4为本发明的语音分离设备的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
图1为本发明的语音分离方法实施例的流程图,如图1所示,本实施例的语音分离方法具体可以包括如下步骤:
100、对麦克风阵列接收到的时域的混合语音信号进行傅里叶变换,得到时频域的混合语音信号;
图2为本发明的一种麦克阵列的示意图。如图2所示,可以设置俯仰角的角度误差阈值和方位角的角度误差阈值,麦克风阵列接收到的时域的混合语音信号的第一声源信号的俯仰角θ,如30度方向,方位角如60度方向。麦克风阵列接收到的时域的混合语音信号的第二声源信号可以为任意方向。
在一个具体实现过程中,麦克风阵列可以接收到时域的混合语音信号,由于语音信号具有短时平稳特征,一般都是变换到短时时频域进行分析处理,因此,将该时域的混合语音信号进行短时傅里叶变化,得到时频域的混合语音信号。可以表示为x(t,k),t表示帧数,k表示频率。
101、对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号;
在一个具体实现过程中,可以利用盲源分离算法,对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号。具体地分离方法,可以参考现有相关技术,在此不再赘述。
102、将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号;
在一个具体实现过程中,可以将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
103、按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;
在一个具体实现过程中,可以通过二维波达方位估计得到每个通道每一帧的俯仰角和方位角/>还可以根据语音信号能量的计算式,得到每一帧的语音信号的能力。其中,语音信号能量的计算式为/>Ei表示语音信号能量,xi(t)表示当前帧的每个通道的时域信号,N表示帧数。
在在一个具体实现过程中,可以选取前30%帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计。
具体地,在得到所有帧的二维波达方向估计(俯仰角和方位角)之后,将所有帧的能量计算从高到低排序,选取能量最高的前30%帧的俯仰角和方位角,这时候得到一个俯仰角的数组和一个方位角的数组。可以提前设定三个角度区域范围,比如0~50,50~100,100~180,众数就是看数组里的值在哪个范围出现的次数最多就选择哪个角度。比如俯仰角数组里面0~50出现次数最多,我就认为这个通道的俯仰角的众数为0~50中任意数值。
104、根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;
在一个具体实现过程中,第一通道的方位估计信息可以记为第二通道的方位估计信息可以记为/>第一通道的俯仰角偏差为/>第一通道的方位角偏差为/>其中,θ表示参考俯仰角,/>表示参考方位角。
105、检测第一通道的俯仰角偏差是否大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差是否大于所述第二通道的方位角偏差;若是执行步骤106,若否,执行步骤107;
106、确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息;
若所述第一通道的俯仰角偏差大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差大于所述第二通道的方位角偏差,确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息。
107、确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息。
若所述第一通道的俯仰角偏差不大于所述第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于所述第二通道的方位角偏差,确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息。
本实施例的语音分离方法,通过对时域的混合语音信号进行语音分离,并得到第一通道的时域信号和第二通道的时域信号后,集合能量判断,并选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;然后,根据第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;若第一通道的俯仰角偏差不大于第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于第二通道的方位角偏差,确定第一通道为第一目标声源的语音信息,第二通道为第二目标声源的语音信息;若第一通道的俯仰角偏差大于第二通道的俯仰角偏差,且第一通道的方位角偏差大于第二通道的方位角偏差,确定第一通道为第二目标声源的语音信息,第二通道为第一目标声源的语音信息。这样,则实现了各语音信号按照确定通道顺序进行输出,从而避免用户进一步确定每个通道对应的语音信号,提高了语音分离效率。
在一个具体实现过程中,在上述实施例的步骤102“将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号”之前,还可以执行如下步骤:
(1)将所述第一通道的分离信号和所述第二通道的分离信号通过自适应滤波算法进行处理,得到第一通道的初级降噪信号;
(2)将所述第一通道的初步降噪信号与所述时域的混合语音信号进行能量对比,将能量高的语音信号与所述时域的混合语音信号通过自适应滤波算法和非线性降噪算法进行处理,得到第二通道的初级降噪信号;
具体地,在得到第一通道的初级降噪信号后,可以第一通道的初级降噪信号与时域的混合语音信号进行能量对比,选取能量高的语音信号。若第一通道的初级降噪信号的能量高于时域的混合语音信号的能量,则第一通道的初级降噪信号作为能量高的语音信号,若第一通道的初级降噪信号的能量低于时域的混合语音信号的能量,则时域的混合语音信号作为能量高的语音信号。将时域的混合语音信号作为参考,并通过自适应滤波算法进行滤波,得到第二通道的初级降噪信号。其中,自适应滤波算法为最小均方算法LMS、NLMS算法、最小二乘法RLS中的任意一种。
对应地,将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号,包括:将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
在一个具体实现过程中,在“将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号”之前,还可以执行如下步骤:
(11)将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别通过单通道降噪消除背景噪声获得所述第一通道的最终降噪信号和所述第二通道的最终降噪信号。
对应的,将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号,包括:将所述第一通道的最终降噪信号和所述第二通道的最终降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
本实施例中,结合能量判断以及自适应滤波技术,对分离后的各通道的语音信号进一步去噪处理,使得分离的语音更为干净。
在一个具体实现过程中,在步骤104“根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏”之后,还可以执行如下步骤:当所述俯仰角偏差大于所述俯仰角的角度偏差阈值,或者,所述方位角偏差大于所述方位角的角度偏差阈值,更新所述自适应滤波算法对应的滤波器的权值。当所述俯仰角偏差小于或等于所述角度偏差阈值,且,所述方位角偏差小于或等于所述方位角的角度偏差阈值,维持所述自适应滤波算法对应的滤波器的权值不变。
在一个具体实现过程中,可以根据更新自适应滤波算法对应的滤波器的历史权值进行拟合,得到滤波器的权值更新拟合函数,以便在使用滤波器之前,根据得到的权值更新拟合函数对滤波器权值进行设定,再利用权值更新拟合函数更新次数达到预设次数m后,再利用前述更新方法得到第m次的滤波器的实际计算权值,并将滤波器的第m次的拟合权值进行比对,若二者误差在预设范围内,第m到第2m次仍利用权值更新拟合函数对滤波器的权值进行设置,否则,利用前述“当所述俯仰角偏差大于所述角度偏差阈值,或者,所述方位角偏差大于所述方位角的角度偏差阈值,更新所述自适应滤波算法对应的滤波器的权值”的方式对滤波器的权值进行设置,直到完成n次后,根据n次的计算值对滤波器的权值更新拟合函数进行修正后,再利用滤波器的权值更新拟合函数对滤波器的权值进行设置。如此,反复可以避免每次都计算时频域的混合语音信号中的俯仰角与目标方位的俯仰角偏差,以及时频域的混合语音信号中的方位角与目标方位的方位角偏差,提高了效率和准确率。
需要说明的是,本发明实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本发明实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成的方法。
图3为本发明的语音分离装置实施例的结构示意图,如图3所示,本实施例的语音分离装置可以包括第一变换模块20、分离模块21、第二变换模块22、方位估计模块23、偏差估计模块24和确定模块25。
第一变换模块20,用不对麦克风阵列接收到的时域的混合语音信号进行傅里叶变换,得到时频域的混合语音信号;
分离模块21,用于对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号;
第二变换模块22,用于将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号;
方位估计模块23,用于按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;
偏差估计模块24,用于根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;
确定模块25,用于若所述第一通道的俯仰角偏差不大于所述第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于所述第二通道的方位角偏差,确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息;若所述第一通道的俯仰角偏差大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差大于所述第二通道的方位角偏差,确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息。
在一个具体实现过程中,所述分离模块21还用于:
将所述第一通道的分离信号和所述第二通道的分离信号通过自适应滤波算法进行处理,得到第一通道的初级降噪信号;
将所述第一通道的初步降噪信号与所述时域的混合语音信号进行能量对比,将能量高的语音信号与所述时域的混合语音信号通过自适应滤波算法和非线性降噪算法进行处理,得到第二通道的初级降噪信号。其中,自适应滤波算法为最小均方算法LMS、NLMS算法、最小二乘法RLS中的任意一种。
对应的,所述第二变换模块22,还用于将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
在一个具体实现过程中,所述分离模块21还用于:将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别通过单通道降噪消除背景噪声获得所述第一通道的最终降噪信号和所述第二通道的最终降噪信号;
对应的,所述第二变换模块22,还用于将所述第一通道的最终降噪信号和所述第二通道的最终降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
在一个具体实现过程中,偏差估计模块24还用于当所述俯仰角偏差大于所述俯仰角的角度偏差阈值,或者,所述方位角偏差大于所述方位角的角度偏差阈值,更新所述自适应滤波算法对应的滤波器的权值。当所述俯仰角偏差小于或等于所述角度偏差阈值,且,所述方位角偏差小于或等于所述方位角的角度偏差阈值,维持所述自适应滤波算法对应的滤波器的权值不变。
上述实施例的装置用于实现前述实施例中相应的方法,其具体实现方案可以参见前述实施例记载的方法及方法实施例中的相关说明,并且具有相应的方法实施例的有益效果,在此不再赘述。
图4为本发明的语音分离设备的结构示意图,如图4所示,本实施例的通行设备可以包括:处理器1010和存储器1020。本领域技术人员可知的,该设备还可以包括输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作***和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块32,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
在一个具体实现过程中,处理器1010用于执行存储器1020中存储的语音分离的程序以实现上述实施例的语音分离方法。
本发明还提供一种存储介质,其存储有一个或者多个程序,所述一个或者多个程序可被执行时实现上述实施例的语音分离方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本发明难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本发明难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本发明的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本发明的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本发明。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本发明的具体实施例对本发明进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种语音分离方法,其特征在于,包括:
对麦克风阵列接收到的时域的混合语音信号进行傅里叶变换,得到时频域的混合语音信号;
对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号;
将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号;
按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;
根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;
若所述第一通道的俯仰角偏差不大于所述第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于所述第二通道的方位角偏差,确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息;
若所述第一通道的俯仰角偏差大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差大于所述第二通道的方位角偏差,确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息。
2.根据权利要求1所述的语音分离方法,其特征在于,将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号之前,还包括:
将所述第一通道的分离信号和所述第二通道的分离信号通过自适应滤波算法进行处理,得到第一通道的初级降噪信号;
将所述第一通道的初步降噪信号与所述时域的混合语音信号进行能量对比,将能量高的语音信号与所述时域的混合语音信号通过自适应滤波算法和非线性降噪算法进行处理,得到第二通道的初级降噪信号;
对应地,将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号,包括:
将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
3.根据权利要求2所述的语音分离方法,其特征在于,将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号之前,还包括:
将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别通过单通道降噪消除背景噪声获得所述第一通道的最终降噪信号和所述第二通道的最终降噪信号;
对应地,将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号,包括:
将所述第一通道的最终降噪信号和所述第二通道的最终降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
4.根据权利要求2所述的语音分离方法,其特征在于,还包括:
当所述俯仰角偏差大于所述俯仰角的角度偏差阈值,或者,所述方位角偏差大于所述方位角的角度偏差阈值,更新所述自适应滤波算法对应的滤波器的权值。
5.根据权利要求4所述的语音分离方法,其特征在于,还包括:
当所述俯仰角偏差小于或等于所述角度偏差阈值,且,所述方位角偏差小于或等于所述方位角的角度偏差阈值,维持所述自适应滤波算法对应的滤波器的权值不变。
6.根据权利要求2所述的语音分离方法,其特征在于,所述自适应滤波算法为最小均方算法LMS、NLMS算法、最小二乘法RLS中的任意一种。
7.一种语音分离装置,其特征在于,包括:
第一变换模块,用不对麦克风阵列接收到的时域的混合语音信号进行傅里叶变换,得到时频域的混合语音信号;
分离模块,用于对所述时频域的混合语音信号进行分离,得到第一通道的分离信号和第二通道的分离信号;
第二变换模块,用于将所述第一通道的分离信号和第二通道的分离信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号;
方位估计模块,用于按照信号能量由高到低的顺序,选取指定帧数的第一通道的时域信号对应的二维波达方位估计,并求众数,得到第一通道的方位估计信息,以及,选取指定帧数的第二通道的时域信号对应的二维波达方位估计信息,并求众数,得到第二通道的方位估计;
偏差估计模块,用于根据所述第一通道的方位估计信息,计算第一通道的俯仰角偏差和第一通道的方位角偏差,以及,根据所述第二通道的方位估计信息,计算第二通道的俯仰角偏差和第二通道的方位角偏差;
确定模块,用于若所述第一通道的俯仰角偏差不大于所述第二通道的俯仰角偏差,和/或,第一通道的方位角偏差不大于所述第二通道的方位角偏差,确定所述第一通道为第一目标声源的语音信息,所述第二通道为第二目标声源的语音信息;若所述第一通道的俯仰角偏差大于所述第二通道的俯仰角偏差,且第一通道的方位角偏差大于所述第二通道的方位角偏差,确定所述第一通道为第二目标声源的语音信息,所述第二通道为第一目标声源的语音信息。
8.根据权利要求7所述的语音分离装置,其特征在于,所述分离模块还用于:
将所述第一通道的分离信号和所述第二通道的分离信号通过自适应滤波算法进行处理,得到第一通道的初级降噪信号;
将所述第一通道的初步降噪信号与所述时域的混合语音信号进行能量对比,将能量高的语音信号与所述时域的混合语音信号通过自适应滤波算法和非线性降噪算法进行处理,得到第二通道的初级降噪信号;
对应的,所述第二变换模块,还用于将所述第一通道的初级降噪信号和所述第二通道的初级降噪信号分别进行短时傅里叶逆变换,得到第一通道的时域信号和所述第二通道的时域信号。
9.一种语音分离设备,其特征在于,包括:处理器和存储器;
所述处理器用于执行所述存储器中存储的语音分离方法的程序,以实现权利要求1-6任一项所述的语音分离方法。
10.一种存储介质,其特征在于,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被执行时实现权利要求1-6任一项所述的语音分离方法。
CN202111040658.1A 2021-09-06 2021-09-06 语音分离方法、装置、设备和存储介质 Active CN113782047B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111040658.1A CN113782047B (zh) 2021-09-06 2021-09-06 语音分离方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111040658.1A CN113782047B (zh) 2021-09-06 2021-09-06 语音分离方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113782047A CN113782047A (zh) 2021-12-10
CN113782047B true CN113782047B (zh) 2024-03-08

Family

ID=78841275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111040658.1A Active CN113782047B (zh) 2021-09-06 2021-09-06 语音分离方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113782047B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103308889A (zh) * 2013-05-13 2013-09-18 辽宁工业大学 复杂环境下被动声源二维doa估计方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
KR20180079975A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN110931036A (zh) * 2019-12-07 2020-03-27 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113050035A (zh) * 2021-03-12 2021-06-29 云知声智能科技股份有限公司 一种二维定向拾音方法及装置
US11064294B1 (en) * 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN113225441A (zh) * 2021-07-09 2021-08-06 北京中电慧声科技有限公司 一种会议电话***

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6030032B2 (ja) * 2013-08-30 2016-11-24 本田技研工業株式会社 音響処理装置、音響処理方法、及び音響処理プログラム
KR20170101629A (ko) * 2016-02-29 2017-09-06 한국전자통신연구원 스테레오 오디오 신호 기반의 다국어 오디오 서비스 제공 장치 및 방법
KR102617476B1 (ko) * 2016-02-29 2023-12-26 한국전자통신연구원 분리 음원을 합성하는 장치 및 방법

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103308889A (zh) * 2013-05-13 2013-09-18 辽宁工业大学 复杂环境下被动声源二维doa估计方法
CN106373589A (zh) * 2016-09-14 2017-02-01 东南大学 一种基于迭代结构的双耳混合语音分离方法
CN106847301A (zh) * 2017-01-03 2017-06-13 东南大学 一种基于压缩感知和空间方位信息的双耳语音分离方法
KR20180079975A (ko) * 2017-01-03 2018-07-11 한국전자통신연구원 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
CN107346664A (zh) * 2017-06-22 2017-11-14 河海大学常州校区 一种基于临界频带的双耳语音分离方法
WO2020042708A1 (zh) * 2018-08-31 2020-03-05 大象声科(深圳)科技有限公司 基于时频掩蔽和深度神经网络的声源方向估计方法
CN110931036A (zh) * 2019-12-07 2020-03-27 杭州国芯科技股份有限公司 一种麦克风阵列波束形成方法
US11064294B1 (en) * 2020-01-10 2021-07-13 Synaptics Incorporated Multiple-source tracking and voice activity detections for planar microphone arrays
CN113050035A (zh) * 2021-03-12 2021-06-29 云知声智能科技股份有限公司 一种二维定向拾音方法及装置
CN113053406A (zh) * 2021-05-08 2021-06-29 北京小米移动软件有限公司 声音信号识别方法及装置
CN113225441A (zh) * 2021-07-09 2021-08-06 北京中电慧声科技有限公司 一种会议电话***

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于矢量阵的水下噪声源近场高分辨定位识别方法研究;时洁;中国博士学位论文全文数据库 工程科技Ⅱ辑;20110215;C028-12 *
基于麦克风阵列的语音增强和分离方法研究;李万龙;中国优秀硕士学位论文全文数据库 信息科技辑;20090115;I136-92 *

Also Published As

Publication number Publication date
CN113782047A (zh) 2021-12-10

Similar Documents

Publication Publication Date Title
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN109074816B (zh) 远场自动语音识别预处理
US10382849B2 (en) Spatial audio processing apparatus
CN108242234B (zh) 语音识别模型生成方法及其设备、存储介质、电子设备
CN102625946B (zh) 用于多信道信号的去除回响的***、方法、设备和计算机可读媒体
CN103426435B (zh) 具有移动约束的通过独立分量分析的源分离
CN108922553B (zh) 用于音箱设备的波达方向估计方法及***
US20200342891A1 (en) Systems and methods for aduio signal processing using spectral-spatial mask estimation
JP2014085673A (ja) 電子装置の音量をインテリジェントに制御する方法及び実装機器
CN113053365B (zh) 语音分离方法、装置、设备和存储介质
CN113470685B (zh) 语音增强模型的训练方法和装置及语音增强方法和装置
CN111031463A (zh) 麦克风阵列性能评测方法、装置、设备和介质
CN112492207B (zh) 一种基于声源定位控制摄像头转动的方法和装置
EP3320311B1 (en) Estimation of reverberant energy component from active audio source
CN112951263B (zh) 语音增强方法、装置、设备和存储介质
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement
CN110890099B (zh) 声音信号处理方法、装置以及存储介质
CN113782047B (zh) 语音分离方法、装置、设备和存储介质
GB2510650A (en) Sound source separation based on a Binary Activation model
CN107919136B (zh) 一种基于高斯混合模型的数字语音采样频率估计方法
JP6343771B2 (ja) 頭部伝達関数のモデリング装置、その方法及びそのプログラム
CN116106826A (zh) 声源定位方法、相关装置和介质
CN113496698B (zh) 训练数据的筛选方法、装置、设备和存储介质
CN113436638B (zh) 回声处理方法、装置、设备和存储介质
CN115331082B (zh) 追踪声源的路径生成方法、模型的训练方法及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant