CN110444220B - 一种多模态远程语音感知方法及装置 - Google Patents

一种多模态远程语音感知方法及装置 Download PDF

Info

Publication number
CN110444220B
CN110444220B CN201910705872.0A CN201910705872A CN110444220B CN 110444220 B CN110444220 B CN 110444220B CN 201910705872 A CN201910705872 A CN 201910705872A CN 110444220 B CN110444220 B CN 110444220B
Authority
CN
China
Prior art keywords
signal
foreground
sound source
angle
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910705872.0A
Other languages
English (en)
Other versions
CN110444220A (zh
Inventor
吴江南
顾冠杰
廉增辉
潘翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201910705872.0A priority Critical patent/CN110444220B/zh
Publication of CN110444220A publication Critical patent/CN110444220A/zh
Application granted granted Critical
Publication of CN110444220B publication Critical patent/CN110444220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/141Systems for two-way working between two video terminals, e.g. videophone
    • H04N7/147Communication arrangements, e.g. identifying the communication as a video-communication, intermediate storage of the signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/183Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a single remote source

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明公开了一种多模态远程语音感知方法及装置。所述感知方法包括:利用矩形麦克风阵列和摄像头,采集语音和视频信号。对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位。利用声源方位初步信息,驾驶摄像头正对声源方向。基于初始视频数据建立背景模型,进行前景检测和背景更新。将前景对应的高精度方位参数传输给波束形成模块,波束形成在该方位的输出,即增强的语音信号。

Description

一种多模态远程语音感知方法及装置
技术领域
本发明涉及多模态联合的传感器采集和语音增强领域,尤其涉及一种基于矩形麦克风面阵和摄像头联合采集的多模态远程语音感知方法及装置。
背景技术
近年来远程视频监控技术在人们生活中有着越来越广泛的应用。街道上的闯红灯照相仪、办公室里的监控摄像头以及各种红外探测仪和热成像技术等,尤其是在远程监控应用方面,只需要一个摄像头,人们就可以随时随地在手机等智能设备上查看远程监控画面,给人们生活带来了极大的便利。利用麦克风处理音频信号已经在手机和个人电脑领域有了一定的应用。在这些应用实例中,一般采用的是单个或者两个麦克风组成的***。近年来,在国外,亚马逊、微软、谷歌等公司已经发布了基于麦克风阵列技术的产品。国内,讯飞、云知声、声智科技等公司也提出了成熟的麦克风硬件方案。这些产品的拾音和作用距离在10m以内,主要面向的是近场语音应用场景。然而,传统的近场语音应用已经渐渐无法满足人们的需求。当场景切换到室外、机器人、车载或者监控领域时,需要更为复杂的语音控制智能设备,因此,麦克风阵列技术成为了远场语音感知的核心。
但是远程视频只能对图像进行处理而无法感知声音,这俨然已不能满足人们的需求。同时,传统的语音感知技术,在近距离时,其语音识别的识别率已达到身份识别的水准,但是在远距离情况下,其效果大幅度下降,原因是接收的语音信号的信噪比低,存在干扰信号。
目前已有的远程语音定位技术存在的问题如下:
(1)压缩传感技术用于方位估计可以提高方位精度,但是需要高信噪比;
(2)卷积波束形成方法用于小传感器阵列,在提高方位估计精度的同时也需要较高的信噪比;
(3)大尺度麦克风阵列可以同时满足高信噪比和窄波束,但在工程使用上非常麻烦,一方面占有较大的空间位置,另一方面,多通道数据处理需要强大功能的信号处理机。
为了解决远程语音定位不够精准的问题,研究人员提出了利用图像高分辨能力的方法提高定位精度,获取声源有效位置,再结合麦克风阵列,利用波束形成算法增强语音、消除噪声,提高语音的质量。
发明内容
针对现有技术存在的问题,本发明提供一种多模态远程语音感知方法及装置,利用矩形麦克风阵列和摄像头联合的检测方式,搭建采集处理***,同时利用波束形成、自适应背景建模及前景提取、音视频联合的方法,获取远程语音信号并进行语音增强,最终实现音视频联合对远程语音信号的感知。
本发明的目的是通过以下技术方案来实现的:一种多模态远程语音感知方法,包括以下步骤:
步骤1:利用矩形麦克风阵列和摄像头,采集语音和视频信号;
步骤2:对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位;
步骤3:根据粗略的声源方位,驾驶摄像头正对声源方向;
步骤4:基于初始数据建立背景模型,进行前景提取和背景模型自适应更新;
步骤5:将前景空间位置映射到高精度角度方位,将这个高精度方位参数传输给波束形成模块,波束形成在这个方位的输出就是增强的语音信号。
进一步的,所述步骤2具体包括以下子步骤:
步骤2.1,对语音信号分帧,记阵列采集到的第l帧(l=1,...,L)信号为x(l)=[x1(l),x2(l),...,xm(l),...,xM(l)],其中,M表示麦克风数目,每个麦克风作为一个通道,xm(l)=[xm(0,l),xm(1,l),...,xm(n,l)...,xm(N-1,l)]T表示第m个通道上采集的第l帧信号;对每帧信号应用窗函数后进行短时傅立叶变换,对第m个通道第l帧的时域信号进行傅里叶变换后的频域表示:
Figure BDA0002152100470000021
其中,n表示时间的索引,k表示第k个频率点,bn表示长度为N的汉宁窗;
定义M通道的频域信号为X(k,l):
X(k,l)=[X1(k,l),X2(k,l),...,XM(k,l)]T,0≤k≤N-1 (2.2)
步骤2.2,定义信号的空间谱矩阵为SX(k)=E{X(k,l)XH(k,l)},E{·}表示对L帧信号求期望,矩阵元素
Figure BDA0002152100470000022
假定语音信号入射角为θ,对N个频率点的的空间谱估计结果进行加权求和,得到总波束功率P(θ):
Figure BDA0002152100470000031
其中,wDS(θ,k)=[w1(θ,k),w2(θ,k),...,wM(θ,k)]T表示相位取齐的第k个频点的权向量,
wDS H(θ,k)表示wDS(θ,k)的共轭转置;
对总波束功率P(θ)进行角度搜索,获得初步估计的粗略声源方位角
Figure BDA0002152100470000032
Figure BDA0002152100470000033
进一步的,所述步骤3具体包括以下子步骤:
步骤3.1,根据步骤2中得到的方向角
Figure BDA0002152100470000034
判断声源的大致方向,驾驶摄像头正对声源方向。
进一步的,所述步骤4具体包括以下子步骤:
步骤4.1,首先使用初始视频数据建立背景模型,记采集的第p帧图像为Ip(x,y),(x,y)是图像矩阵像素坐标;将图像转化成灰度图后对前S帧取平均作为初始背景B0(x,y)。公式如下:
Figure BDA0002152100470000035
完成背景建模后,利用当前帧减去背景模型得到前景Target(x,y):
D(x,y)=Ip(x,y)-B0(x,y) (4.2)
Figure BDA0002152100470000036
Ip(x,y)表示当前帧图像,D(x,y)代表前景像点,T是设定的阈值,Target(x,y)矩阵中的1表示前景像素。
步骤4.2,获得的二值化前景图像存在轮廓不连续、前景不完整等现象,因此,需要对图像进行开-闭运算等后续处理,最终获得完整的前景图像Gp(x,y)。
在处理视频流时,由于光线等环境变化,需要对背景模型进行更新。更新公式如下:
Figure BDA0002152100470000037
其中,Bp(x,y)为加入第p帧图像进行自适应更新后的背景模型,0<α<1为更新因子,根据环境变换而变化。
由于目标的水平尺寸相对于到摄像头的距离很小,图像坐标和方向坐标可看作线性关系,进而把前景的位置换算成角度
Figure BDA0002152100470000041
输出给波束形成模块。
进一步的,所述步骤5具体包括以下子步骤:
步骤5.1,根据图像处理获得的精确角度信息
Figure BDA0002152100470000042
相应目标信号的阵响应矢量
Figure BDA0002152100470000043
为:
Figure BDA0002152100470000044
其中
Figure BDA0002152100470000045
[p1,p2,...,pM]是M个麦克风阵元的二维坐标,
Figure BDA0002152100470000046
是第k个频点对应的波长,fk是第k个频点的频率,c表示平面波在介质中传播的速度;
步骤5.2,将线性约束最小方差波束形成转化为解下面的最优化问题:
Figure BDA0002152100470000047
其中,w(k,l)=[w1(k,l),w2(k,l),...,wM(k,l)]T表示第l帧信号的权向量,Sx(k,l)表示第l帧信号的空间谱矩阵。根据最速下降自适应算法进行滤波:
w(k,l+1)=J(k)[w(k,l)-μX(k,l)Y*(k,l)]+F(k) (5.3)
其中
Figure BDA0002152100470000048
Y(k,l)=wH(k,l)X(k,l)表示波束形成输出信号,Y*(k,l)表示Y(k,l)的复共轭,μ≥0为收敛步长,初始权向量
Figure BDA0002152100470000049
将各子频带信号拼接成宽带信号:Y(l)=[Y(0,l),Y(1,l),...,Y(N-1,l)];
步骤5.3:最后对Y(l)进行逆离散傅立叶变换(Inverse Discrete FourierTransform,简称IDFT),得到第l帧的时域输出信号y(l):
y(l)=IDFT[Y(l)] (5.4)
再将L帧语音信号进行拼接,可得时域输出y(t):
y(t)=[y(1),y(2),...,y(l),...,y(L)] (5.5)
y(t)即为增强的语音信号。
本发明的另一目的是提供一种多模态远程语音感知装置,该装置包括:
矩形麦克风阵列,与声源相距8~10m;
摄像头,布置于矩形麦克风阵列上端边沿,与麦克风阵列同步转动;
下位机,与矩形麦克风阵列连接,用于控制命令接收、信号采集、数据传输;下位机在接收到上位机发送的“开始”控制指令后,通过矩形麦克风阵列进行语音信号采集,并实时上传数据到上位机;下位机在接受到上位机发送的“停止”控制指令后,停止实时上传数据到上位机;
上位机,与摄像头连接,接收视频信号和下位机发送的语音信号,对目标语音信号进行初步角度估计,利用这个角度驾驶摄像头转动到正对声源方向。从视频图像提取目标前景,将前景坐标映射到精确方位;将此高精度方位参数传送给波束形成模块,波束形成在该方位输出,获得增强的语音信号。
进一步的,所述下位机与上位机的连接及数据传输具体如下:
a,确定上位机、下位机、麦克风阵列和摄像头的数据端口和连线接口,建立连接;
b,上位机下发控制命令“开始”,开始采集音频和视频数据;
c,对矩形麦克风阵列所有通道的采样数据进行并串转换,下位机向上位机发送上行数据包;
d,上位机下发控制命令“停止”,下位机停止采集数据,等待上位机重新发送控制命令“开始”;
e,采集结束后音频数据自动存储为.dat文件,视频数据存储为.avi文件。
相对于现有技术,本发明的有益效果是:
(1)本发明使用音视频联合的语音定位方法,加入视频定位人像便于获取精确的声源方位角,避免了传统波束形成中语音方位估计分辨率低,无法清晰辨别多个声源的缺点。
(2)本发明使用图像处理返回的角度和麦克风阵列对远程语音信号进行增强,解决了远程语音信号在空间中传播后能量减弱、信噪比太低的问题。
(3)本发明利用自适应线性约束最小方差波束形成器抑制非相干噪声和干扰信号,解决了语音信号远距离时噪声干扰严重的问题。
(4)基于上述三个特点,本发明可以实现室外远程语音感知的功能,具有较好的实用价值。
附图说明
图1为本发明多模态远程语音感知方法总体流程图;
图2为本发明中初步估计声源方位角流程图;
图3为本发明中图像处理输出精确声源方位角流程图;
图4为本发明中自适应波束形成增强语音信号流程图;
图5为本发明中上位机波束形成初步定位的波束模式图;
图6为本发明中视频处理获取高精度语音方位结果图;
图7为本发明中语音增强前后信号波形图;
图8为本发明中语音增强前后信号时频图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细描述,本发明的目的和效果将变得更加明显。
图1给出了本发明的总体流程图。本发明的多模态远程语音感知方法分成5个步骤,即首先利用矩形麦克风阵列和摄像头采集语音和视频信号;对信号进行初步方位角估计;根据到达角粗略估计结果,配合自适应背景建模检测目标,获得声源的精确方位角;基于图像处理得到的精确方位角,利用线性约束最小方差波束形成和最速下降算法,实现对语音信号的自适应滤波,最终输出增强后的清晰语音信号。
本发明的检测方法具体实施方式如下:
步骤1:将矩形麦克风阵列与摄像头放置在同一角度,采集音视频信号;
步骤2:对目标语音信号进行到达角估计,以获得粗略的声源方位。流程图如图2所示,包含以下子步骤:
步骤2.1,对语音信号分帧,记阵列采集到的第l帧(l=1,...,L)信号为x(l)=[x1(l),x2(l),...,xm(l),...,xM(l)],其中,M表示麦克风数目,每个麦克风作为一个通道,xm(l)=[xm(0,l),xm(1,l),...,xm(n,l)...,xm(N-1,l)]T表示第m个通道上采集的第l帧信号;对每帧信号应用窗函数后进行短时傅立叶变换,对第m个通道第l帧的时域信号进行傅里叶变换后的频域表示:
Figure BDA0002152100470000061
其中,n表示时间的索引,k表示第k个频率点,bn表示长度为N的汉宁窗;
定义M通道的频域信号为X(k,l):
X(k,l)=[X1(k,l),X2(k,l),...,XM(k,l)]T,0≤k≤N-1 (2.2)
作为优选,具体实施过程中,采样频率为48kHz,短时傅里叶变换长度N为512,选择窗函数bn为长度为512的汉宁窗。
步骤2.2,定义信号的空间谱矩阵为SX(k)=E{X(k,l)XH(k,l)},E{·}表示对L帧信号求期望,矩阵元素
Figure BDA0002152100470000071
假定语音信号入射角为θ,对N个频率点的的空间谱估计结果进行加权求和,得到总波束功率P(θ):
Figure BDA0002152100470000072
其中,wDS(θ,k)=[w1(θ,k),w2(θ,k),...,wM(θ,k)]T表示相位取齐的第k个频点的权向量,wDS H(θ,k)表示wDS(θ,k)的共轭转置;
对总波束功率P(θ)进行角度搜索,获得初步估计的粗略声源方位角
Figure BDA0002152100470000073
Figure BDA0002152100470000074
在具体实施过程中,根据实际情况,角度θ的搜索范围为:-90°≤θ≤+90°,角度步进为1度。
步骤3:利用声源方位初步信息,使得摄像头正对声源方向。
步骤4:基于初始数据建立背景模型,进行前景检测和背景模型自适应更新;流程图如图3所示,包含以下子步骤:
步骤4.1,首先使用初始视频数据建立背景模型,记采集的第p帧图像为Ip(x,y),(x,y)是图像矩阵像素坐标;将图像转化成灰度图后对前S帧取平均作为初始背景B0(x,y)。公式如下:
Figure BDA0002152100470000075
完成背景建模后,利用当前帧减去背景模型得到前景Target(x,y):
D(x,y)=Ip(x,y)-B0(x,y) (4.2)
Figure BDA0002152100470000081
Ip(x,y)表示当前帧图像,D(x,y)代表前景像点,T是设定的阈值,Target(x,y)矩阵中的1表示前景像素。
步骤4.2,获得的二值化前景图像存在轮廓不连续、前景不完整等现象,因此,需要对图像进行开-闭运算等后续处理,最终获得完整的前景图像Gp(x,y)。
在处理视频流时,由于光线等环境变化,需要对背景模型进行更新。更新公式如下:
Figure BDA0002152100470000082
其中,Bp(x,y)为加入第p帧图像进行自适应更新后的背景模型,0<α<1为更新因子,根据环境变换而变化。
由于目标的水平尺寸相对于到摄像头的距离很小,图像坐标和方向坐标可看作线性关系,进而把前景图像Gp(x,y)的位置换算成角度
Figure BDA0002152100470000083
输出给波束形成模块。实验中的获取的精确角度为+27°。
步骤5:将精确角度应用至自适应波束形成算法中,提高语音信号的信噪比。流程图如图4所示,包含以下子步骤:
步骤5.1,根据图像处理获得的精确角度信息
Figure BDA0002152100470000084
相应目标信号的阵响应矢量
Figure BDA0002152100470000085
为:
Figure BDA0002152100470000086
其中
Figure BDA0002152100470000087
[p1,p2,...,pM]是M个麦克风阵元的二维坐标,
Figure BDA0002152100470000088
是第k个频点对应的波长,fk是第k个频点的频率,c表示平面波在介质中传播的速度;具体实施过程中,麦克风阵列为2×6的均匀矩阵,麦克风之间的间距均为0.05m,只考虑水平方向角,不考虑俯仰方向角。
步骤5.2,将线性约束最小方差波束形成转化为解下面的最优化问题:
Figure BDA0002152100470000089
其中,w(k,l)=[w1(k,l),w2(k,l),...,wM(k,l)]T表示第l帧信号的权向量,Sx(k,l)表示第l帧信号的空间谱矩阵。根据最速下降自适应算法进行滤波:
w(k,l+1)=J(k)[w(k,l)-μX(k,l)Y*(k,l)]+F(k) (5.3)
其中
Figure BDA0002152100470000091
Y(k,l)=wH(k,l)X(k,l)表示波束形成输出信号,Y*(k,l)表示Y(k,l)的复共轭,μ≥0为收敛步长,初始权向量
Figure BDA0002152100470000092
具体实施过程中,μ的选择根据不同的语音采集场景进行更改,实验中0.00003≤μ≤0.0001。
将各子频带信号拼接成宽带信号:Y(l)=[Y(0,l),Y(1,l),...,Y(N-1,l)];
步骤5.3:最后对Y(l)进行逆离散傅立叶变换(Inverse Discrete FourierTransform,简称IDFT),得到第l帧的时域输出信号y(l):
y(l)=IDFT[Y(l)] (5.4)
再将L帧语音信号进行拼接,可得时域输出y(t):
y(t)=[y(1),y(2),...,y(l),...,y(L)] (5.5)
y(t)即为增强的语音信号。
所述的多模态远程语音感知装置包括以下四个模块:
a,矩形麦克风阵列,与声源相距8~10m;
b,摄像头,布置于矩形麦克风阵列上端边沿,与麦克风阵列同步转动;
c,下位机,与矩形麦克风阵列连接,用于控制命令接收、信号采集、数据传输;下位机在接收到上位机发送的“开始”控制指令后,通过矩形麦克风阵列进行语音信号采集,并实时上传数据到上位机;下位机在接受到上位机发送的“停止”控制指令后,停止上传数据;
d,上位机,与摄像头连接,接收视频信号和下位机发送的语音信号,对目标语音信号进行初步角度估计,利用这个角度驾驶摄像头转动到正对声源方向。从视频图像提取目标前景,将前景坐标映射到精确方位;将此高精度方位参数传送给波束形成模块,波束形成在该方位输出,获得增强的语音信号。
检测装置中所述下位机与上位机的连接及数据传输具体如下:
a,确定上位机、下位机、麦克风阵列和摄像头的数据端口和连线接口,建立连接;
b,上位机下发控制命令“开始”,开始采集音频和视频数据;
c,对矩形麦克风阵列所有通道的采样数据进行并串转换,下位机向上位机发送上行数据包;
d,上位机下发控制命令“停止”,下位机停止采集数据,等待上位机重新发送控制命令“开始”;
e,采集结束后音频数据自动存储为.dat文件,视频数据存储为.avi文件。
实施例
本实施例将上述检测方法应用于远程语音感知,具体步骤如前所述,此处不再赘述。
对目标语音利用波束形成进行初步到达角估计,计算-90°到+90°的总波束功率P(θ),以角度θ为x轴坐标,归一化功率P(θ)为y轴坐标作图,结果如图5所示,目标声源(女声)的粗略方位角
Figure BDA0002152100470000101
干扰声源的估计角为-29°。
图像处理的原图如图6中(a)所示,背景差分法处理后结果如图6中(b)所示,可以看出一些噪声以及干扰会影响结果。为消除干扰,采用开-闭运算处理后得到如图6中(c)所示结果,最终声源定位结果如图6中(d)所示。获得的声源精确位置为+27°和-25°,根据波束形成得到的粗略方位角,选择将精确的声源方位角
Figure BDA0002152100470000102
输出给波束形成模块进行波束形成输出。
上位机音视频联合算法音频处理结果如图7、图8所示。图7是语音增强前、后的信号波形图,处理后噪声被明显减弱,信噪比增强。图8是语音增强前、后的信号时频图,从时频图中可以看出,经过波束形成后,噪声和能量集中在低频部分的干扰(男声)被抑制,而高频部分的目标声源(女声)被保留并被增强。
用信噪比和PESQ分数分别评价波束形成在粗略角和精确角的结果,检验多模态联合***在实际数据处理中的性能。处理结果如表1和表2所示,波束形成在精确方位角的输出信号信噪比增益达到了12.1704dB,PESQ评分提高了0.655,其性能优于波束形成在粗略方位角输出的结果。
表1波束形成信噪比对比
粗略角度 精确角度
信噪比增益(dB) 10.0168 12.1704
表2PESQ评价分数对比
单通道信号 粗略角度 精确角度
PESQ评价 1.6458 1.9473 2.3008
本发明所述处理方法已在杭州浙江大学玉泉校区永谦广场进行测试,采用2×6的麦克风面阵,声源距离为10米,分为目标声源(27°)和干扰声源(-25°),采样率为48kHz,测试结果良好。本发明能够进行远程语音和视频的联合采集,并且上发上位机进行处理和输出。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种多模态远程语音感知方法,其特征在于,包括以下步骤:
步骤1:利用矩形麦克风阵列和摄像头,采集语音和视频信号;
步骤2:对目标语音信号利用波束形成进行初步到达角估计,以获得粗略的声源方位;
步骤3:根据粗略的声源方位,驾驶摄像头正对声源方向;
步骤4:基于初始数据建立背景模型,进行前景检测和背景模型自适应更新;
步骤5:将前景对应的高精度方位参数传输给波束形成模块,波束形成在这个方位的输出就是增强的语音信号。
2.根据权利要求1所述的一种多模态远程语音感知方法,其特征在于,所述步骤2具体包括以下子步骤:
步骤2.1,对语音信号分帧,记阵列采集到的第l帧(l=1,...,L)信号为x(l)=[x1(l),x2(l),...,xm(l),...,xM(l)],其中,M表示麦克风数目,每个麦克风作为一个通道,xm(l)=[xm(0,l),xm(1,l),...,xm(n,l)...,xm(N-1,l)]T表示第m个通道上采集的第l帧信号;对每帧信号应用窗函数后进行短时傅立叶变换,对第m个通道第l帧的时域信号进行傅里叶变换后的频域表示:
Figure FDA0003901067570000011
其中,n表示时间的索引,k表示第k个频率点,bn表示长度为N的汉宁窗;
定义M通道的频域信号为X(k,l):
X(k,l)=[X1(k,l),X2(k,l),...,XM(k,l)]T,0≤k≤N-1 (2.2)
步骤2.2,定义信号的空间谱矩阵为SX(k),矩阵中元素
Figure FDA0003901067570000012
假定语音信号入射角为θ,对N个频率点的空间谱估计结果进行加权求和,得到总波束功率P(θ):
Figure FDA0003901067570000013
其中,wDS(θ,k)=[w1(θ,k),w2(θ,k),...,wM(θ,k)]T表示相位取齐的第k个频点的权向量,wDS H(θ,k)表示wDS(θ,k)的共轭转置;
对总波束功率P(θ)进行角度搜索,获得粗略的声源方位角
Figure FDA0003901067570000021
Figure FDA0003901067570000022
3.根据权利要求2所述的一种多模态远程语音感知方法,其特征在于,所述步骤3具体包括以下子步骤:
步骤3.1,根据步骤2中得到的方向角
Figure FDA0003901067570000023
判断声源的大致方向,驾驶摄像头正对声源方向。
4.根据权利要求3所述的一种多模态远程语音感知方法,其特征在于,所述步骤4具体包括以下子步骤:
步骤4.1,首先使用初始视频数据建立背景模型,记采集的第p帧图像为Ip(x,y),(x,y)是图像矩阵像素坐标;将图像转化成灰度图后对前S帧取平均作为初始背景B0(x,y),公式如下:
Figure FDA0003901067570000024
完成背景建模后,利用当前帧减去背景模型得到前景Target(x,y):
D(x,y)=Ip(x,y)-B0(x,y) (4.2)
Figure FDA0003901067570000025
Ip(x,y)表示当前帧图像,D(x,y)代表前景像点,T是设定的阈值,Target(x,y)矩阵中的1表示前景像素;
步骤4.2,获得的二值化前景图像,对前景图像进行开-闭运算后续处理,最终获得完整的前景图像Gp(x,y);
在处理视频流时,对背景模型进行更新,更新公式如下:
Figure FDA0003901067570000026
其中,Bp(x,y)为加入第p帧图像进行自适应更新后的背景模型,0<α<1为更新因子;
将前景图像Gp(x,y)水平刻度坐标映射到角度坐标后,前景所在像素位置换算成角度
Figure FDA0003901067570000031
并输出给波束形成模块。
5.根据权利要求4所述的一种多模态远程语音感知方法,其特征在于,所述步骤4具体包括以下子步骤:
步骤5.1,根据图像处理获得的精确角度信息
Figure FDA0003901067570000032
相应目标信号的阵响应矢量
Figure FDA0003901067570000033
为:
Figure FDA0003901067570000034
其中
Figure FDA0003901067570000035
[p1,p2,...,pM]是M个麦克风阵元的二维坐标,
Figure FDA0003901067570000036
是第k个频点对应的波长,fk是第k个频点的频率,c表示声速;
步骤5.2,将线性约束最小方差波束形成转化为解下面的最优化问题:
Figure FDA0003901067570000037
其中,w(k,l)=[w1(k,l),w2(k,l),...,wM(k,l)]T表示第l帧信号的权向量,SX(k,l)表示第l帧信号的空间谱矩阵;根据最速下降自适应算法进行滤波:
w(k,l+1)=J(k)[w(k,l)-μX(k,l)Y*(k,l)]+F(k) (5.3)
其中
Figure FDA0003901067570000038
Y(k,l)=wH(k,l)X(k,l)表示波束形成输出信号,Y*(k,l)表示Y(k,l)的复共轭,μ≥0为收敛步长,初始权向量
Figure FDA0003901067570000039
将各子带信号拼接成宽带信号:Y(l)=[Y(0,l),Y(1,l),...,Y(N-1,l)];
步骤5.3:最后对Y(l)进行逆离散傅立叶变换(Inverse Discrete FourierTransform,简称IDFT),得到第l帧的时域输出信号y(l):
y(l)=IDFT[Y(l)] (5.4)
再将L帧语音信号进行拼接,可得时域输出y(t):
y(t)=[y(1),y(2),...,y(l),...,y(L)] (5.5)
y(t)即为增强的语音信号。
6.一种多模态远程语音感知装置,其特征在于,该装置包括:
矩形麦克风阵列,与声源相距8~10m;
摄像头,布置于矩形麦克风阵列上端边沿,与麦克风阵列同步转动;
下位机,与矩形麦克风阵列连接,用于控制命令接收、信号采集、数据传输;下位机在接收到上位机发送的“开始”控制指令后,通过矩形麦克风阵列进行语音信号采集,并实时上传数据到上位机;下位机在接受到上位机发送的“停止”控制指令后,停止上传数据;
上位机,与摄像头连接,接收视频信号和下位机发送的语音信号,对目标语音信号进行初步角度估计,利用这个角度驾驶摄像头转动到正对声源方向;从视频图像提取目标前景,将前景坐标映射到精确角度方位;将此高精度方位参数传送给波束形成模块,波束形成在该方位输出,获得增强的语音信号。
7.根据权利要求6所述的多模态远程语音感知装置,其特征在于,所述下位机与上位机的连接及数据传输具体如下:
a,确定上位机、下位机、麦克风阵列和摄像头的数据端口和连线接口,建立连接;
b,上位机下发控制命令“开始”,开始采集音频和视频数据;
c,对矩形麦克风阵列所有通道的采样数据进行并串转换,下位机向上位机发送上行数据包;
d,上位机下发控制命令“停止”,下位机停止采集数据,等待上位机重新发送控制命令“开始”;
e,采集结束后音频数据自动存储为.dat文件,视频数据存储为.avi文件。
CN201910705872.0A 2019-08-01 2019-08-01 一种多模态远程语音感知方法及装置 Active CN110444220B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910705872.0A CN110444220B (zh) 2019-08-01 2019-08-01 一种多模态远程语音感知方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910705872.0A CN110444220B (zh) 2019-08-01 2019-08-01 一种多模态远程语音感知方法及装置

Publications (2)

Publication Number Publication Date
CN110444220A CN110444220A (zh) 2019-11-12
CN110444220B true CN110444220B (zh) 2023-02-10

Family

ID=68432714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910705872.0A Active CN110444220B (zh) 2019-08-01 2019-08-01 一种多模态远程语音感知方法及装置

Country Status (1)

Country Link
CN (1) CN110444220B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112951273B (zh) * 2021-02-02 2024-03-29 郑州大学 基于麦克风阵列和机器视觉的数控机床刀具磨损监控装置
CN116504264B (zh) * 2023-06-30 2023-10-31 小米汽车科技有限公司 音频处理方法、装置、设备及存储介质
CN116705047B (zh) * 2023-07-31 2023-11-14 北京小米移动软件有限公司 音频采集方法、装置及存储介质
CN117953914B (zh) * 2024-03-27 2024-06-18 深圳市西昊智能家具有限公司 用于智能办公的语音数据增强优化方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013175869A (ja) * 2012-02-24 2013-09-05 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
WO2015196729A1 (zh) * 2014-06-27 2015-12-30 中兴通讯股份有限公司 一种麦克风阵列语音增强方法及装置
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8577677B2 (en) * 2008-07-21 2013-11-05 Samsung Electronics Co., Ltd. Sound source separation method and system using beamforming technique

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013175869A (ja) * 2012-02-24 2013-09-05 Nippon Telegr & Teleph Corp <Ntt> 音響信号強調装置、遠近判定装置、それらの方法、及びプログラム
WO2015196729A1 (zh) * 2014-06-27 2015-12-30 中兴通讯股份有限公司 一种麦克风阵列语音增强方法及装置
CN106328156A (zh) * 2016-08-22 2017-01-11 华南理工大学 一种音视频信息融合的麦克风阵列语音增强***及方法

Also Published As

Publication number Publication date
CN110444220A (zh) 2019-11-12

Similar Documents

Publication Publication Date Title
CN110444220B (zh) 一种多模态远程语音感知方法及装置
CN111044973B (zh) 一种用于麦克风方阵的mvdr目标声源定向拾音方法
CN106328156B (zh) 一种音视频信息融合的麦克风阵列语音增强***及方法
CN111239687B (zh) 一种基于深度神经网络的声源定位方法及***
CN102324237B (zh) 麦克风阵列语音波束形成方法、语音信号处理装置及***
US6826284B1 (en) Method and apparatus for passive acoustic source localization for video camera steering applications
CN109490822B (zh) 基于ResNet的语音DOA估计方法
CN110010147A (zh) 一种麦克风阵列语音增强的方法和***
CN108375763B (zh) 一种应用于多声源环境的分频定位方法
CN108877827A (zh) 一种语音增强交互方法及***、存储介质及电子设备
CN112904279B (zh) 基于卷积神经网络和子带srp-phat空间谱的声源定位方法
Liu et al. Continuous sound source localization based on microphone array for mobile robots
CN109782231B (zh) 一种基于多任务学习的端到端声源定位方法及***
CN107167770B (zh) 一种混响条件下的麦克风阵列声源定位装置
CN108318862A (zh) 一种基于神经网络的声源定位方法
CN103760520B (zh) 一种基于avs和稀疏表示的单语者声源doa估计方法
WO2015106401A1 (zh) 语音处理方法和语音处理装置
CN110515034B (zh) 一种声信号方位角测量***及方法
CN113607447A (zh) 一种声学光学联合风机故障定位装置及方法
Hu et al. Decoupled direction-of-arrival estimations using relative harmonic coefficients
US11636866B2 (en) Transform ambisonic coefficients using an adaptive network
CN112180318B (zh) 声源波达方向估计模型训练和声源波达方向估计方法
CN116559778B (zh) 一种基于深度学习的车辆鸣笛定位方法及***
CN105372644B (zh) 一种基于动态重修正的自适应波束形成方法及***
Ding et al. Microphone array acoustic source localization system based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant