CN108701468A - 掩码估计装置、掩码估计方法以及掩码估计程序 - Google Patents

掩码估计装置、掩码估计方法以及掩码估计程序 Download PDF

Info

Publication number
CN108701468A
CN108701468A CN201680081856.3A CN201680081856A CN108701468A CN 108701468 A CN108701468 A CN 108701468A CN 201680081856 A CN201680081856 A CN 201680081856A CN 108701468 A CN108701468 A CN 108701468A
Authority
CN
China
Prior art keywords
mask
parameter
distribution
mask estimation
estimation device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680081856.3A
Other languages
English (en)
Other versions
CN108701468B (zh
Inventor
伊藤信贵
荒木章子
中谷智广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of CN108701468A publication Critical patent/CN108701468A/zh
Application granted granted Critical
Publication of CN108701468B publication Critical patent/CN108701468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2134Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on separation criteria, e.g. independent component analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Complex Calculations (AREA)

Abstract

掩码估计装置(10)的特征提取部(11)从将多个音频信号在不同位置观测的多个观测信号,提取将观测信号的时间频率成分按照每个时间频率点汇集的特征量向量。掩码更新部(12)根据特征量向量、将特征量向量的概率分布通过由多个元素分布构成的混合分布进行模型化时的各元素分布的混合权重、作为可以控制各元素分布的形状的模型参数的形状参数,估计表示对于各时间频率点的各元素分布做出贡献的比例的掩码。混合权重更新部(13)根据被更新的掩码,更新混合权重。参数更新部(14)利用特征量向量和掩码,更新形状参数。

Description

掩码估计装置、掩码估计方法以及掩码估计程序
技术领域
本发明涉及掩码估计装置、掩码估计方法以及掩码估计程序。
背景技术
公开有根据由多个麦克风取得的观测信号估计目标声音时采用的估计表示各时间频率点中的各音频信号的贡献度的掩码的技术。掩码用于观测信号的噪声去除和声源分离等。
例如,着眼于各音频信号的到来方向彼此不同的情况,公开有对特征量向量进行聚类,从而估计掩码的技术,其中,特征量表示在各时间频率点中各音频信号的声音从哪个方向到达的信息。
先行技术文献
非专利文献
非专利文献1:M.Souden,S.Araki,K.Kinoshita,T.Nakatani,and H.Sawada,“AMultichannel MMSE-Based Framework for Speech Source Separation and NoiseReduction,”IEEE TRANSACTIONS ON AUDIO,SPEECH AND LANGUAGE PROCESSING,VOL.21,NO.9,SEPTEMBER 2013,pp.1913-1928.
发明内容
发明要解决的课题
但是,根据上述技术,通过更新将特征量向量模型化的混合分布的位置参数以及扩展参数,从而调整混合分布的元素分布的位置以及扩展。因此,元素分布只能表示关于某个轴旋转对称的分布形状。特征量向量的分布形状受到麦克风位置或音频空间的传递特性等各种影响,不一定是旋转对称的,有时变成例如椭圆形的分布形状。因此,根据上述技术,无法使得混合分布充分地接近特征量向量的分布,存在掩码估计的精度不一定很高的问题。
本申请公开的实施方式的一例是鉴于上述问题做出的,其目的在于提供例如进一步提高掩码估计的精度的掩码估计装置、掩码估计方法以及掩码估计程序。
用于解决课题的手段
在本申请的实施方式的一例中,例如,掩码估计装置在多个音频信号混合存在的状态下,从在不同位置取得的多个观测信号,提取将观测信号的时间频率成分按照每个时间频率点汇集的特征量向量。掩码估计装置利用特征量向量、将特征量向量的概率分布利用由多个元素分布构成的混合分布进行模型化时的各元素分布的混合权重、作为可以控制各元素分布的形状的模型参数的形状参数,更新表示各元素分布对于各时间频率点的贡献的比例的掩码。掩码估计装置根据被更新的掩码,更新混合权重。掩码估计装置根据特征量向量和掩码,更新形状参数。
发明效果
根据本申请公开的实施方式的一例,即使在例如特征量向量的分布不是旋转对称的情况下,也可以实现高精度的掩码估计。
附图说明
图1是根据实施方式1(实施方式2)的掩码估计装置的一例示意图。
图2是示出根据实施方式1(实施方式2)的掩码估计处理的一例的流程图。
图3是根据实施方式3的目标声音估计***的一例示意图。
图4是示出根据实施方式3的目标声音估计处理的一例的流程图。
图5是通过执行程序从而实现包括根据实施方式的掩码估计装置以及目标声音估计装置的目标声音估计***的计算机的一例示意图。
图6是根据背景技术的掩码估计装置的一例示意图。
具体实施方式
下面,参照附图对关于本申请公开的技术的实施方式的一例。需要说明的是,本申请的公开技术并不限定于下面的实施方式。并且,下面的实施方式在不冲突的范围内还可以适当地组合。
需要说明的是,在下面的记载中,对于“A”记载为“^A”时,与“在A的正上方附加^的记号”相等。并且,在“A”是向量的情况下记载为“向量A”,在“A”是矩阵的情况下记载为“矩阵A”,在“A”是集合的情况下记载为“集合A”。
[关于背景技术]
在公开本申请的实施方式之前,说明成为本申请公开的技术的基础的背景技术。背景技术公开在文献1“M.Souden,S.Araki,K.Kinoshita,T.Nakatani,and H.Sawada,“AMultichannel MMSE-Based Framework for Speech Source Separation and NoiseReduction,”IEEE TRANSACTIONS ON AUDIO,SPEECH AND LANGUAGE PROCESSING,VOL.21,NO.9,SEPTEMBER 2013,pp.1913-1928.”中。
图6是根据背景技术的掩码估计装置的一例示意图。根据背景技术的掩码估计装置10A上连接有存储部20A。掩码估计装置10A具有特征提取部11A、掩码更新部12A、混合权重更新部13A、位置参数更新部14A以及扩展参数更新部15A。
如后述,存储部20A存储将由特征提取部11A提取的特征量向量的概率分布利用多个元素分布构成的混合分布进行模型化时的各元素分布的混合权重、表示各元素分布的位置的位置参数、表示各元素分布的扩展的扩展参数。
特征提取部11A在N个(N>1)的音频信号混合存在的状态下,受理在不同位置收录的M个(M>1)的观测信号,构成按照每个时间频率点汇集所有的观测信号的时间频率成分的M维列向量,利用M维列向量,提取具有预定的范数的M维的特征量向量。
掩码更新部12A从特征提取部11A受理由特征提取部11A提取的特征量向量,并且从存储部20A受理保存在存储部20A的混合权重、位置参数、扩展参数,更新表示各元素分布点对于各时间频率点做出哪种程度的贡献的比例的掩码。
混合权重更新部13A受理由掩码更新部12A更新的掩码,更新混合权重。位置参数更新部14A受理由特征提取部11A提取的特征量向量和由掩码更新部12A更新的掩码,更新位置参数。扩展参数更新部15A受理由特征提取部11A提取的特征量向量和由掩码更新部12A更新的掩码,更新扩展参数。
在上述文献1中,假设已知音频信号的数量N,并且假设N-1个是目标声音,1个是背景噪声。在N=2的情况下,例如对应于在存在背景噪声的情况下通过M个麦克风收录一个人声音的情况。并且,在N>2的情况下,例如对应于存在背景噪声的情况下通过M个麦克风收录N-1人的对话的情况。
如今,将对于M个观测信号的每一个适用短时间傅立叶变换等时间频率分析得到的各观测信号的时间频率成分按照每个时间频率点汇集的M维列向量(下面,称为观测信号向量)表示为y(t,f)。t(t=1、…T。t是正整数)是时刻,f(f=1、…F。f是正整数)是频率窗口(frequency-bin)编号。
在上述文献1中,假设目标声音具有稀疏性,在各时间频率点中最多只存在一个目标声音,并且,假设背景噪声在所有的时间频率点中存在。这时,观测信号向量y(t,f)取各时间频率点中下一个N个状态中的任意状态。
状态Sn:目标声音中只存在第n个目标声音的状态(n=1、…、N-1。N是正整数)
状态SN:目标声音一个也不存在的状态
因此,观测信号向量y(t,f)能够通过下述(1-1)式或者(1-2)式中的任一实现模型化。
【数学式1】
y(t,f)=sn(t,f)+v(t,f)…(1-1)
y(t,f)=v(t,f)…(1-2)
上述(1-1)式表示该时间频率点中只存在第n个目标声音的情况,上述(1-2)式表示该时间频率点中目标声音一个也不存在的情况。上述(1-1)式以及(1-2)式中的向量sn(t,f)表示与第n个目标声音对应的成分,向量v(t,f)表示与背景噪声对应的成分。
掩码估计装置10A的目的在于当提供有观测信号向量y(t,f)时,估计出表示对于各时间频率点(t,f)各状态Sn(n=1、…、N)做出了哪种程度的贡献的比例的掩码γn(t,f)。掩码γn(t,f)满足γ1(t,f)+…+γN(t,f)=1、0≤γn(t,f)≤1。掩码γn(t,f)例如在该时间频率点的状态是Sn时,可以定义为γn(t,f)=1,不是时,可以定义为γn(t,f)=0。或者,更加一般性地,可以将掩码γn(t,f)定义为该时间频率点中的状态Sn的后验概率。在下面的说明中,将掩码γn(t,f)定义为该时间频率点中的状态Sn的后验概率。
如果能够估计掩码γn(t,f),则可以利用于各目标声音sn(t,f)的估计等各种应用。例如,通过利用掩码γn(t,f)收集出现该目标声音的时间频率成分,从而能够估计表示该目标声音的性质的统计量。可以通过利用该统计量设计的滤波器来估计各目标声音sn(t,f)。
在上述文献1中,关注各音频信号的到来方向彼此不同的现象,对到来方向进行聚类,从而估计掩码γn(t,f)。特征提取部11A提取表示在各时间频率点声音从哪个方向到达的信息的特征量向量。假设观测信号向量y(t,f)的大小(范数)依赖于音频信号本身,但是,观测信号向量y(t,f)的方向仅基于其声源位置决定。基于该假设事宜,作为表示声源位置的特征量向量,从观测信号向量y(t,f)提取具有一定的范数的M维特征量向量z(t,f)。特征量向量z(t,f)可通过例如下述(2)式提取。
【数学式2】
其中,||·||表示2范数。根据该时间频率点采取哪种状态Sn,声音的到来方向不同,所以特征量向量z(t,f)在每种状态Sn持有不同的概率分布。
因此,通过对于特征量向量z(t,f)适用聚类技术,能够估计出表示对于各时间频率点各状态做出来哪种程度贡献的比例的掩码。这就是上述文献1中的基本的思路。
在上述文献1中,对于每一个频率,将特征量向量z(t,f)的概率分布通过下述(3)式的混合分布实现模型化。
【数学式3】
通过以使得上述(3)式的混合分布接近特征量向量z(t,f)的分布的方式估计模型参数(集合)Θ,从而进行聚类。上述(3)式的混合分布的元素分布通过下述(4)式表示。
【数学式4】
上述(4)式的元素分布对状态已知的条件下的特征量向量z(t,f)的带条件概率分布进行模型化,满足α1(f)+…+αK(f)=1、0≤αk(f)≤1的αk(f)是第k个元素分布的混合权重。并且,满足||ak(f)||=1的位置参数(向量)ak(f)表示第k个元素分布的位置。并且,扩展参数σ2 k(f)表示第k个元素分布的扩展。需要说明的是,K是混合数,模型参数(集合)Θ表示上述(3)式的混合分布的模型参数的集合{αk(f),ak(f),σ2 k(f)},·H表示矩阵的厄米特转置。将上述(3)式中的元素分布pw(z(t,f);ak(f),σ2 k(f))比作山时,上述(3)式的作为混合分布的模型参数的混合权重αk(f)是山的高度,位置参数ak(f)是山的位置,扩展参数σ2 k(f)相当于山脚下的原野的宽广度。在上述文献1中,假设混合数K与音频信号的数N(假设已知)相等。
如果能够求出模型参数Θ,则根据贝叶斯定理,基于下述(5)式,求出在观测到特征量向量z(t,f)的条件下该时间频率点对应于第k个元素分布的后验概率(即、掩码)。
【数学式5】
在这里,如何估计模型参数Θ成为了问题。在上述文献1中,通过交替反复利用模型参数Θ,基于上述(5)式来更新掩码γk(t,f)的步骤以及利用掩码γk(t,f)来更新模型参数Θ的步骤等两个步骤,从而估计出模型参数Θ以及掩码γk(t,f)。在更新模型参数Θ的步骤中,利用掩码γk(t,f),基于下述(6-1)式~(6-3)式,更新模型参数Θ。
【数学式6】
ak(f)=Rk(f)の最大固有值に对応するノルム1の固有べクトル…(6-2)
其中,矩阵Rk(f)是通过下述(7)式计算。
【数学式7】
上述的反复的处理作为基于期待值最大化法的对数似然的优化,可以从理论上推导出来。需要说明的是,上述(5)式相当于掩码更新部12A更新掩码γk(t,f)的处理,上述(6-1)式相当于混合权重更新部13A更新混合权重αk(f)的处理,上述(6-2)式相当于位置参数更新部14A更新位置参数ak(f)的处理,上述(6-3)式相当于扩展参数更新部15A更新扩展参数σ2 k(f)的处理。
其中,在上述文献1的方法中,基于上述(3)式的混合分布,根据上述(5)式估计掩码,所以上述(3)式的混合分布正确地接近特征量向量z(t,f)的分布的程度对掩码的估计精度带来较大影响。在文献1的方法中,为了使上述(3)式的混合分布接近特征量向量z(t,f)的分布,通过更新上述(3)式的混合分布的位置参数ak(f)和扩展参数σ2 k(f),从而调整上述(4)式的元素分布的位置和扩展。因此,存在上述(4)式的元素分布只能表示关于某一个轴旋转对称的分布形状的限制。
特征量向量z(t,f)的分布形状受到麦克风配置或房间的音频传递特性等各种影响,不一定变成旋转对称。因此,根据上述文献1的方法,上述(3)式的混合分布无法非常接近特征量向量z(t,f)的分布,存在基于上述(5)式的掩码估计的精度不是很高的问题。
为此,公开的实施方式的第一方面的掩码估计装置基于混合权重和形状参数更新掩码,其中,混合权重是将基于N个(N>1)音频信号混合存在的状态下收录的M个观测信号(M>1)的M维特征量向量的概率分布通过由多个元素分布构成的混合分布进行模型化时的各元素分布的混合权重,形状参数是可控制各元素分布的形状的模型参数。需要说明的是,形状是指图形的属性中的除了表示位置以及扩展的属性之外的属性。形状包括例如相当于椭圆的长轴以及短轴的信息等。
根据第一方面掩码估计装置,通过形状参数的更新来更新元素分布的形状,从而与上述文献1的方法相比,利用混合分布能够进一步正确地接近特征量向量的分布,能够进一步正确地估计掩码。
并且,公开的实施方式的第二方面的掩码估计装置是在第一方面的掩码估计装置中,将特征量向量的概率分布通过由多个元素分布构成的混合分布进行模型化时的各元素分布设定为复宾哈姆(Bingham)分布,将复宾哈姆分布的参数矩阵作为形状参数。这时,特征量向量z(t,f)的概率分布p(z(t,f);Θ)通过将复宾哈姆分布作为元素分布的下述(8)式表示的混合分布(下面,称为混合复宾哈姆分布)进行模型化。
【数学式8】
需要说明的是,上述(8)式中的pB(z;B)是根据下述(9)式定义的复宾哈姆分布。需要说明的是,exp·表示指数函数。
【数学式9】
上述(9)式中的矩阵B是复宾哈姆分布的参数矩阵,c(B)是归一化常数。参数Θ表示上述(8)式的混合复宾哈姆分布的模型参数的集合{αk(f),Bk(f)}。
另外,上述(8)式的作为混合分布的模型参数的混合权重αk(f)表示元素分布k的高度,矩阵Bk(f)是除了控制元素分布k的位置、扩展之外还可以控制分布形状(表示分布形状的椭圆的各轴方向的分布扩展等)的形状参数。矩阵Bk(f)的第一固有向量表示元素分布k的位置,矩阵Bk(f)的第一固有值与第二固有值之差的绝对值表示元素分布k的扩展的微小度,矩阵Bk(f)的第一固有值与第m固有值(3≤m≤M)之差的绝对值表示对元素分布k的分布形状进行表示的椭圆的第(m-1)轴方向的分布扩展的微小度。
现在,认为上述(9)式的复宾哈姆分布是仅利用σ2和a的两个参数将参数矩阵B表示为B=(1/σ2)·aaH的特殊的情况(当表示分布形状的椭圆的第一轴方向的分布扩展、第二轴方向的分布扩展、……、第(M-1)轴方向的分布扩展均相等的情况)时,变成下述(10)式。
【数学式10】
上述(10)式的形状与上述(4)式相同,关于与向量a平行的轴旋转对称。对此,上述(9)式的复宾哈姆分布对于参数矩阵B没有设定格外的限制,通过更新参数矩阵B,调整上述(9)式的复宾哈姆分布的分布形状,从而不是旋转对称的分布形状也能够表达出来。
由此,如果利用上述(9)式的复宾哈姆分布,则即使在特征量向量z(t,f)的分布形状不是旋转对称时,也能够通过上述(8)式的混合分布,充分地接近特征量向量z(t,f)的分布。因此,可以比上述文献1中记载的方法更加高精度地估计出掩码。
在基于上述(8)式进行模型化的状态下,通过交替反复基于期待值最大化法,利用模型参数Θ来更新掩码γk(t,f)的步骤和利用掩码γk(t,f)来更新模型参数Θ的步骤等两个步骤,从而能够导出估计掩码γk(t,f)和模型参数Θ的算法(上述)。
并且,公开的实施方式的第三方面的掩码估计装置是在第一方面的掩码估计装置中,将特征量向量的概率分布通过由多个元素分布构成的混合分布进行模型化时的各元素分布设定为Complex Angular Central Gaussian(cACG)distribution(下面,称为复角度高斯分布),将复角度高斯分布的参数矩阵作为形状参数。
这时,特征量向量z(t,f)的概率分布p(z(t,f);Θ)通过以复角度高斯分布为元素分布的下述(11)式表示的混合分布(下面,称为混合复角度高斯分布)进行模型化。
【数学式11】
其中,上述(11)式中的pA(z;Σ)是以参数矩阵为矩阵Σ的下述(12)式定义的复角度高斯分布。
【数学式12】
矩阵Σk(f)是除了控制元素分布k的位置、扩展之外还可以控制分布形状(表示分布形状的椭圆的各轴方向的分布扩展等)的形状参数。矩阵Σk(f)的第一固有向量表示元素分布k的位置,矩阵Σk(f)的第一固有值除以第二固有值的值表示元素分布k的扩展的微小度,矩阵Σk(f)的第一固有值除以第m固有值(3≤m≤M)的值表示表示元素分布k的分布形状的椭圆的第(m-1)轴方向的分布扩展的微小度。模型参数Θ表示上述(11)式中的混合复角度高斯分布的模型参数的集合{αk(f);Σk(f)}。
与上述的第二方面的掩码估计装置中的上述(9)式的复宾哈姆分布相同地,在上述(12)式的复角度高斯分布中对参数矩阵Σ没有设定格外的限制,能够表达不是旋转对称的分布形状。因此,如果利用上述(12)式的复角度高斯分布,则即使在特征量向量z(t,f)的分布形状不是旋转对称的情况下也能够将分布形状正确地模型化,可以比上述文献1的方法更加高精度地进行聚类。
[实施方式1]
在实施方式1中,作为元素分布利用复宾哈姆分布。在实施方式1中,与上述文献1相同地,假设已知音频信号的数量N,通过M个麦克风收录N-1个目标声音和一个背景噪声混合存在的声音。
(根据实施方式1的掩码估计装置)
图1是根据实施方式1的掩码估计装置的一例示意图。根据实施方式1的掩码估计装置10上连接有存储部20。掩码估计装置10具有特征提取部11、掩码更新部12、混合权重更新部13以及参数更新部14。将τ作为表示时间的编号(样品编号),将通过麦克风m收录的时间区域的观测信号记为ym(τ)。ym(τ)是第n个目标声源信号smn(τ)(n=1~N-1。N是正整数)和背景噪声vm(τ)之和,通过下述(13)式实现模型化。
【数学式13】
特征提取部11受理通过多个麦克风收录的观测信号,针对每个各观测信号ym(τ),适用时间频率分析,求出各观测信号的时间频率成分ym(t,f)(m表示麦克风的编号,是1~M的整数)。作为时间频率分析,可以采用短时间傅立叶变换或短时间离散余弦变换等各种方法。
其次,特征提取部11构成按照每一个时间频率点汇集了所有的观测信号的时间频率成分的、由下述(14)式表示的M维列向量(称为观测信号向量)y(t,f)。
【数学式14】
其次,特征提取部11利用观测信号向量y(t,f)提取持有预定的范数的M维特征量向量z(t,f)。作为特征量向量z(t,f),可以采用文献2“H.Sawada,S.Araki,and S.Makino,“Underdetermined convolutive blind sourceseparation via frequency bin-wiseclustering and permutation alignment,”IEEE Trans-actions on Audio,Speech andLanguage Processing(ASLP),vol.19,no.3,pp.516-527,Mar.2011.”、文献3“D.H.Tran Vuand R.Haeb-Umbach,“Blind speech separation em-ploying directional statisticsin an expectation maximization framework,”Proceedings of the InternationalConference on Acoustics,Speech and Signal Processing(ICASSP),pp.241-244,Mar.2010.”、文献4“S.Araki,H.Sawada,R.Mukai,and S.Makino,“Underdeter-minedblind sparse source separation for arbitrarily arranged multiple sensors,”Signal Processing,vol.87,no.8,pp.1833-1847,Aug.2007.”中记载的特征量向量等各种特征量向量。例如,如果仿照上述文献2,则特征量向量z(t,f)可根据下述(15)提取。
【数学式15】
其次,掩码更新部12受理特征量向量z(t,f),计算并输出掩码γk(t,f),其中,掩码γk(t,f)表示对于各时间频率点(t,f),第k个元素分布做出了哪种程度的贡献的比例。
下面,说明掩码更新部12中的处理流程。首先,掩码更新部12从存储部20读出事先设定保持在存储部20的模型参数Θ:={αk(f),Bk(f)}的初始值。模型参数Θ的初始值的设定可通过采用随机数等各种方法进行。
其次,掩码更新部12受理特征量向量z(t,f)和模型参数Θ的当前的估计值,例如根据下述(16)式更新与第k个元素分布对应的掩码,作为后验概率γk(t,f)。
【数学式16】
其中,将上述(16)式中的矩阵Bk(f)的固有值设为ek1(f)、…、ekM(f)时,归一化常数c(Bk(f))变成下述(17)式。并且,混合数K变成K=N。
【数学式17】
其次,混合权重更新部13受理后验概率γk(t,f),根据下述(18)式,更新混合权重。
【数学式18】
其次,参数更新部14受理特征量向量z(t,f)和后验概率γk(t,f),根据下述(19)式计算正定值厄米特矩阵Rk(f)。
【数学式19】
其次,参数更新部14如下述(20)式进行矩阵Rk(f)的固有值分解。
【数学式20】
根据上述(20)式的固有值分解,可以求出由矩阵Rk(f)的固有向量构成的酉矩阵Uk(f)和由矩阵Rk(f)的固有值构成的对角矩阵Dk(f)。其中,矩阵Dk(f)的第m个对角成分(固有值)dkm(f)是升序排列,如dk1(f)≤…≤dkM(f)。
其次,参数更新部14根据下述(21)式,更新参数矩阵Bk(f)。
【数学式21】
其中,上述(21)式中的矩阵Ek(f)是第m个对角成分是ekm(f)的对角矩阵。ekm(f)是通过下述(22)式提供。
【数学式22】
掩码更新部12、混合权重更新部13、参数更新部14中的处理反复进行至满足结束条件为止。作为结束条件,可以采用例如“反复进行了预定的次数(例如20次)”、“更新前后的(后述)对数似然函数的增加量在预定的阈值以下”等各种条件。
需要说明的是,存储部20保存由混合权重更新部13更新的混合权重和由参数更新部14更新的形状参数,在下次掩码更新部12、参数更新部14中进行处理时提供所保存的混合权重、形状参数。
(掩码估计装置10中的处理的理论性背景)
下面,说明掩码估计装置10中的处理的理论性背景。掩码估计装置10中的处理是通过解决关于模型参数Θ实现下述(23)式的对数似然函数L(Θ)的最大化的优化问题而导出的。
【数学式23】
基于期待值最大化法,交替反复下面记载的E步骤和M步骤,从而可以优化上述(23)式的对数似然函数L(Θ)。
根据||z||=1,对于任意的实数h,pB(z;B+hI)=pB(z;B)(其中,I是单位矩阵)均成立,所以在下面,不失一般性地,将矩阵Bk(f)的最大固有值ekM(f)为0。这表示复宾哈姆分布不是各固有值的值本身,根据各固有值之间的差分来决定分布形状。由此,即使添加将最大固有值固定为指定值的条件,只要保持固有值之间值的差异,复宾哈姆分布就不变,所以能够固定为最大固有值ekM(f)=0。
在E步骤中,利用模型参数Θ的当前的估计值,根据下述(24-2)式更新第k个元素分布的后验概率γk(t,f)。其中,归一化常数c(·)根据上述(17)式来定义。
【数学式24】
在M步骤中,利用在E步骤中更新的后验概率γk(t,f),将如下述(25-1)式以及(25-2)式定义的Q函数最大化,从而更新模型参数Θ。需要说明的是,矩阵Rk(f)根据上述(19)式来定义,tr表示矩阵的迹。
【数学式25】
即、根据拉格朗日的未定乘数法,在制约条件α1(f)+…+αK(f)=1下,将函数Q(Θ)最大化的αk(f)如上述(18)式得到。下面,导出作为元素分布的复宾哈姆分布的形状参数Bk(f)的更新式。将矩阵Rk(f)的固有值分解定义为如下述(26-1)式,将矩阵Bk(f)的固有值分解定义为如下述(26-2)式。
【数学式26】
其中,上述(26-1)式中的矩阵Uk(f)是由矩阵Rk(f)的固有向量构成的酉矩阵,上述(26-2)式中的矩阵Vk(f)是由矩阵Bk(f)的固有向量构成的酉矩阵。并且,上述(26-1)式中的矩阵Dk(f)是由矩阵Rk(f)的固有值构成的对角矩阵,上述(26-2)式中的矩阵Ek(f)是由矩阵Bk(f)的固有值构成的对角矩阵。
另外,将矩阵Rk(f)的固有值设为dk1(f)≤…≤dkM(f),矩阵B(f)的固有值设为ek1(f)≤…≤ekM(f)=0时,矩阵Dk(f)以及矩阵Ek(f)分别表示为下述(27-1)式以及(27-2)式。需要说明的是,矩阵B(f)的最大固有值ekM(f)设为0。
另外,在关注某一个声源,对空间相关矩阵Rk(f)和复宾哈姆分布的参数矩阵B(f)进行固有值分解来求出与麦克风的数量对应的固有值时,第m个大的第m固有值(m=1~M)具有如下意思。即、第一个固有向量表示关注的声源的分布的峰值位置。并且,第m个固有向量(m=2~M)表示对关注的声源的分布进行表示的椭圆的第(m-1)轴的方向(矩阵Rk(f)的第m固有值相当于轴的长度)。
【数学式27】
其中,根据文献5“K.V.Mardia and P.E.Jupp,“Directional Statistics,”JohnWiley&Sons,West Sussex,2000.”公开的结果,矩阵Bk(f)进行函数Q(Θ)最大化时,变成Vk(f)=Uk(f)。因此,在上述(25-2)式中,利用变成下述(28)式的理论,将有关ekm(f)(m=1、…、M-1)的函数Q(Θ)的偏微分设为0,则可以得到下述(29)式。
【数学式28】
tr{Bk(f)Rk(f)}=tr{Ek(f)Dk(f)}…(28)
【数学式29】
为了针对ekm(f)解开上述(29)式,假设矩阵R(f)的固有值dk1(f)、…、dkM(f)全部不同。该假设对于现实的数据也几乎是始终成立。这时,根据上述(17)式,提供归一化常数c(Bk(f))。
如今,各音频信号从特定的方向到达,所以假设复宾哈姆分布非常集中,设为ekm(f)=kk(f)ekm0(f)后取kk(f)→∞的极限时,如下述(30-1)式~(30-3)式,归一化常数c(Bk(f))能够接近。
【数学式30】
即、在关注在复宾哈姆分布中,“在没有大幅改变声源位置的情况下发出声音,则表达声源的特征量向量的分布形状具有比较陡峭的峰值(变得分布非常集中)”时,可以导入上述(30-2)式中的kk(f)具有非常大的值的假设,其结果,可以将归一化常数c(Bk(f))表达为(30-3)式的形式。由此,通过针对ekm(f)解开上述(29)式,从而得到上述(22)式。
(根据实施方式1的掩码估计处理)
图2是示出根据实施方式1的掩码估计处理的一例的流程图。如图2示出,首先,特征提取部11从通过多个麦克风收录的观测信号提取M维特征量向量z(t,f)(步骤S11)。
其次,掩码更新部12根据特征量向量z(t,f)、混合权重以及形状参数,计算并更新掩码γk(t,f)(步骤S12)。其次,混合权重更新部13根据后验概率γk(t,f)更新混合权重(步骤S13)。其次,参数更新部14根据特征量向量z(t,f)、后验概率γk(t,f),更新参数矩阵(步骤S14)。
其次,掩码更新部12判定是否满足结束条件(步骤S15)。掩码更新部12在满足结束条件时(步骤S15:Yes),结束掩码估计处理,在不满足结束条件时(步骤S15:No),将处理转入步骤S12。
[实施方式2]
在实施方式2中,作为元素分布利用复角度高斯分布。在实施方式1中,与上述文献1相同地,假设已知音频信号的数量N,通过M个麦克风收录N-1个目标声音和一个背景噪声混合存在的声音。
参照图1,说明根据实施方式2的掩码估计装置10-2的一例。掩码估计装置10-2上连接有存储部20-2。掩码估计装置10-2具有特征提取部11、掩码更新部12-2、混合权重更新部13-2以及参数更新部14-2。
特征提取部11与实施方式1相同。掩码更新部12-2受理特征量向量z(t,f),针对各时间频率点(t,f),计算并输出表示第k个元素分布做出了哪种程度贡献的比例的掩码γk(t,f)。
下面,说明掩码更新部12-2中的处理流程。首先,掩码更新部12-2从存储部20-2读出事先设定保持在存储部20-2中的模型参数Θ:={αk(f),Σk(f)}的初始值。矩阵Σk(f)是复角度高斯分布的参数矩阵。
其次,掩码更新部12-2受理特征量向量z(t,f)和模型参数Θ的当前的估计值,例如根据下述(31)式更新与第k个元素分布对应的掩码,作为后验概率γk(t,f)。需要说明的是,混合数K是K=N。
【数学式31】
其次,混合权重更新部13-2受理后验概率γk(t,f),根据下述(32)式,更新混合权重。
【数学式32】
其次,参数更新部14-2受理特征量向量z(t,f)、参数矩阵Σk(t,f)、后验概率γk(t,f),根据下述(33)式更新参数矩阵Σk(t,f)。
【数学式33】
掩码更新部12-2、混合权重更新部13-2、参数更新部14-2中的处理与实施方式1相同,反复进行至满足结束条件为止。
需要说明的是,存储部20-2保持由混合权重更新部13-2更新的混合权重、由参数更新部14-2更新的形状参数,在下次掩码更新部12-2、参数更新部14-2中进行处理时,提供所保存的掩码、形状参数。
(掩码估计装置10-2中的处理的理论背景)
下面,说明掩码估计装置10-2中的处理的理论背景。掩码估计装置10-2中的处理是通过解决关于模型参数Θ实现下述(34)式的对数似然函数L(Θ)的最大化的优化问题而导出的。
【数学式34】
基于期待值最大化法,交替反复下面记载的E步骤和M步骤,从而能够优化上述(34)式的对数似然函数L(Θ)。
在E步骤中,利用模型参数Θ的当前的估计值,根据下述(35-2)式更新第k个元素分布的后验概率γk(t,f)。
【数学式35】
在M步骤中,利用在E步骤中更新的后验概率γk(t,f),将如下述(36-1)式以及(36-2)式定义的Q函数最大化,从而更新模型参数Θ。需要说明的是,ln·表示对数函数。
【数学式36】
即、根据拉格朗日的未定乘数法,在制约条件α1(f)+…+αK(f)=1下,将函数Q(Θ)最大化的αk(f)如上述(32)式得到。并且,关于函数Q(Θ)的Σk(f)的偏微分变成下述(37)式。
【数学式37】
另外,以上述(37)式表示的函数Q(Θ)的有关Σk(f)的偏微分设为0时,可以得到上述(33)式。
需要说明的是,与根据实施方式1的掩码估计处理相同地,根据实施方式2的掩码估计处理沿着图2示出的掩码估计处理的一例的流程图的处理顺序执行。
[实施方式1以及实施方式2的变形例]
在实施方式1以及实施方式2中,假设N个音频信号中的N-1个为目标声音,一个是背景噪声。但是,并不限定于此,在实施方式1以及实施方式2的变形例中,在N个音频信号全部是目标声音时,通过相同的处理,可以估计与各音频信号(目标声音)对应的掩码。
并且,在实施方式1以及实施方式2中,视为参数Θ是确定性的,根据最大似然法估计出参数Θ。但是,并不限定于此,在实施方式1以及实施方式2的变形例中,还可以例如将参数Θ视为概率变量,提供事前分布,通过后验概率最大化,估计出参数Θ。
[实施方式3]
实施方式3公开利用实施方式1的掩码估计装置10或者实施方式2的掩码估计装置10-2中的任意一个估计出目标声音的目标声音估计***。图3是根据实施方式3的目标声音估计***的一例示意图。
根据实施方式3的目标声音估计***100具有实施方式1的掩码估计装置10或者实施方式2的掩码估计装置10-2中的任意一个以及目标声音估计装置30。目标声音估计装置30将观测信号向量y(t,f)和来自掩码估计装置10或者掩码估计装置10-2的掩码γk(t,f)作为输入,并且输出第n个目标声音的估计值^sn(t,f)(n=1~N-1)。
目标声音估计装置30具有矩阵计算部31、维纳滤波器构成部32以及目标声音估计部33。
在实施方式3,为了针对每个频率f求出掩码,有时与同一编号n的音频信号对应的群集在不同频率f中具有不同的群集编号。将该问题称为置换问题。为了解决该置换问题,采取措施,为了利用在实施方式1或者实施方式2中求出的掩码γk(t,f)来估计出各目标声音,使得与同一编号n的音频信号对应的群集不管在哪个频率f均具有相同的群集编号。将其称为置换解决。置换解决可通过上述文献2“H.Sawada,S.Araki,and S.Makino,“Underdetermined convolutive blind source separation via frequency bin-wiseclustering and permutation alignment,”IEEE Transactions on Audio,Speech andLanguage Processing(ASLP),vol.19,no.3,pp.516-527,Mar.2011.”中记载的方法等各种方法进行。
如今,将与第n个标声音频信号对应的置换解决后的掩码改写成γn(t,f)。并且,假设已知N个掩码γn(t,f)中的哪一个对应于背景噪声。例如,通过视听对比利用掩码通过屏蔽制成的分离声音,可以人为地固定对应有背景噪声的群集。
在下面,不失一般性地,假设对应于背景噪声的群集是第N个群集。矩阵计算部31针对各目标声音n(n=1、…、N-1),根据下述(38)式计算噪声环境中目标声音协方差矩阵Φn+v(f)。
【数学式38】
其次,矩阵计算部31根据下述(39)式,计算噪声协方差矩阵Φv(f)。
【数学式39】
其次,矩阵计算部31对于各目标声音n(n=1、…、N-1),根据下述(40)式,求出目标声音协方差矩阵Φn(f)。
【数学式40】
Φn(f)=Φn+v(f)-Φv(f)…(40)
其次,矩阵计算部31根据下述(41)式,求出观测协方差矩阵Φy(f)。
【数学式41】
其次,维纳滤波器构成部32对于各目标声音n(n=1、…、N-1),根据下述(42)式求出多信道维纳滤波器Wn(f)。
【数学式42】
之后,目标声音估计部33如下述(43)式,将多信道维纳滤波器Wn(f)应用于观测信号向量y(t,f),从而能够压抑背景噪声和除了第n个之外的目标声音的成分,得到目标声音n的成分的估计值^sn(t,f)。
【数学式43】
(根据实施方式3的目标声音估计处理)
图4是示出根据实施方式3的目标声音估计处理的一例的流程图。首先,目标声音估计装置30的矩阵计算部31从掩码估计装置10(10-2)获得掩码信息(步骤S21)。
其次,矩阵计算部31计算噪声环境中目标声音协方差矩阵Φn+v(f)(步骤S22)。其次,矩阵计算部31计算噪声协方差矩阵Φv(f)(步骤S23)。其次,矩阵计算部31计算目标声音协方差矩阵Φn(f)(步骤S24)。其次,矩阵计算部31计算观测协方差矩阵Φy(f)(步骤S25)。
其次,维纳滤波器构成部32构成多信道维纳滤波器Wn(f)(步骤S26)。其次,目标声音估计部33将在步骤S26中构成的多信道维纳滤波器Wn(f)应用于观测信号向量y(t,f),从而得到目标声音n的成分的估计值^sn(t,f)并输出(步骤S27)。
(性能证实结果)
作为实施方式3的性能证实,利用包括实施方式1的掩码估计装置10的目标声音估计***100,在公共汽车中、咖啡馆等存在背景噪声的环境中,在一个演讲者朝平板电脑朗读文章的状态(在实施方式1中,N=2的情况)下,对于通过安装在平板电脑的M=6个麦克风收录的信号进行了声音识别。声音识别性能(单词错误率)如下。
即、在没有进行掩码估计的情况下进行声音识别时的单词错误率是14.29(%)。并且,在通过混合多个沃森(watson)分布进行掩码估计后,应用多信道维纳滤波器进行声音识别时的单词错误率是9.51(%)。在包括实施方式1的掩码估计装置10的目标声音估计***100中,通过混合复宾哈姆分布进行掩码估计后,应用多信道维纳滤波器时的单词错误率是8.53(%)。从以上结果可以得知,与现有技术相比,实施方式3的声音识别性能得到提高。
在上述的包括实施方式的掩码估计装置10(10-2)以及目标声音估计装置30的目标声音估计***100中进行的各处理的全部或者任意的一部分还可以在CPU(CentralProcessing Unit:中央处理装置)等处理装置以及处理装置分析执行的程序中实现。并且,在包括掩码估计装置10(10-2)以及目标声音估计装置30的目标声音估计***100中进行的各处理可以实现为基于有线逻辑的硬件。
并且,在实施方式中说明的各处理中的以自动进行的方式说明的处理的全部或者一部分还可以通过手动进行。或者,在实施方式中说明的各处理中的以手动进行的方式说明的处理的全部或者一部分还可以通过公知的方法自动进行。并且,在实施方式中,只要最终的执行结果相同,参照流程图说明的各处理可以适当地替换执行顺序或者并列执行。除此之外,对于上述以及附图中示出的处理顺序、控制顺序、包括具体名称、各种数据或参数的信息,除了特别记载的之外,可以适当地变更。
(关于程序)
图5是通过执行程序从而实现包括根据实施方式的掩码估计装置以及目标声音估计装置的目标声音估计***的计算机的一例示意图。计算机1000具有例如存储器1010、CPU1020。并且,计算机1000具有硬盘驱动器接口1030、磁盘驱动器接口1040、串口接口1050、视频适配器1060以及网络接口1070。在计算机1000中,这些各部分通过总线1080连接。
存储器1010包括ROM1011以及RAM1012。ROM1011存储例如BIOS等启动程序。硬盘驱动器接口1030连接于硬盘驱动器1031。磁盘驱动器接口1040连接于磁盘驱动器1041。例如,磁盘或光盘等可拆卸的存储介质***磁盘驱动器1041中。串口接口1050连接于例如鼠标1051、键盘1052。视频适配器1060连接于例如显示器1061。
硬盘驱动器1031存储例如OS1091、应用程序1092、程序模块1093、程序数据1094。即、规定掩码估计装置10(10-2)以及目标声音估计装置30的各处理的程序作为描述有通过计算机1000执行的命令的程序模块1093,存储在例如硬盘驱动器1031中。例如,用于执行与掩码估计装置10(10-2)以及目标声音估计装置30中的功能构成相同的信息处理的程序模块1093存储在硬盘驱动器1031。
并且,在实施方式的处理中使用的设定数据作为程序数据1094存储在例如存储器1010或硬盘驱动器1031。之后,CPU1020根据需要将存储在存储器1010或硬盘驱动器1031的程序模块1093或程序数据1094读出到RAM1012来执行。
需要说明的是,程序模块1093或程序数据1094并不限定于存储在硬盘驱动器1031的情况,还可以例如存储在可拆卸的存储介质,由CPU1020通过磁盘驱动器1041等读出。或者程序模块1093或程序数据1094还可以存储在经由网络(LAN(Local Area Network:局域网)、WAN(Wide Area Network:广域网)等)连接的其它计算机中。另外,程序模块1093或程序数据1094还可以经由网络接口1070被CPU1020读出。
实施方式包括在本申请公开的技术,相同地,包括在权利要求书中记载的发明以及与其等同的范围。
标记说明
10、10-2、10A:掩码估计装置
11、11A:特征提取部
12、12-2、12A:掩码更新部
13、13-2、13A:混合权重更新部
14、14-2:参数更新部
14A:位置参数更新部
15A:扩展参数更新部
20、20-2、20A:存储部
30:目标声音估计装置
31:矩阵计算部
32:维纳滤波器构成部
33:目标声音估计部
1000:计算机
1010:存储器
1020:CPU

Claims (13)

1.一种掩码估计装置,其特征在于,具备:
特征提取部,其在多个音频信号混合存在的状况下,从在不同位置处取得的多个观测信号中,提取按照每个时间频率点汇集所述观测信号的时间频率成分而得到的特征量向量;
存储部,其存储混合权重和形状参数,其中,所述混合权重是将所述特征量向量的概率分布通过由多个元素分布构成的混合分布进行模型化时的各元素分布的混合权重,所述形状参数是能够控制各元素分布的形状的模型参数;
掩码更新部,其利用所述特征量向量、所述混合权重和所述形状参数,估计而更新掩码,其中,所述掩码按照每个元素分布以及每个时间频率点表示对于各时间频率点的各元素分布所做出的贡献的比例;
混合权重更新部,其根据由所述掩码更新部更新的掩码,更新所述混合权重;以及
参数更新部,其利用所述特征量向量和所述掩码,更新所述形状参数。
2.根据权利要求1所述的掩码估计装置,其特征在于,
所述元素分布还能够表达不是旋转对称的分布形状。
3.根据权利要求1或2所述的掩码估计装置,其特征在于,
所述元素分布的概率密度函数还能够表达不是如下函数的概率密度函数:在设z为独立变量、a为单位向量、·H为厄米特转置时,a与z的内积aHz的绝对值|aHz|。
4.根据权利要求1至3中的任意一项所述的掩码估计装置,其特征在于,
所述元素分布的概率密度函数是如下的函数:在设z为独立变量、A为矩阵、·H为厄米特转置时的二次形式zHAz,
所述形状参数是确定所述矩阵A的参数。
5.根据权利要求1至4中的任意一项所述的掩码估计装置,其特征在于,
所述形状参数包括对各元素分布的分布形状进行表示的椭圆的各轴方向的分布扩展的信息。
6.根据权利要求1至5中的任意一项所述的掩码估计装置,其特征在于,
所述元素分布是复宾哈姆分布,
所述形状参数是复宾哈姆分布的参数矩阵。
7.根据权利要求1至5中的任意一项所述的掩码估计装置,其特征在于,
所述元素分布是复角度高斯分布,
所述形状参数是复角度高斯分布的参数矩阵。
8.一种掩码估计装置执行的掩码估计方法,所述掩码估计方法的特征在于,
所述掩码估计装置具备存储部,该存储部存储混合权重和形状参数,其中,所述混合权重是将特征量向量的概率分布通过由多个元素分布构成的混合分布进行模型化时的各元素分布的混合权重,该特征量向量是在多个音频信号混合存在的状态下,从在不同位置处取得的多个观测信号中,按照每个时间频率点汇集所述观测信号的时间频率成分而提取出的,所述形状参数是能够控制各元素分布的形状的模型参数,
所述掩码估计方法包括:
特征提取步骤,提取所述特征量向量;
掩码更新步骤,利用所述特征量向量、所述混合权重和所述形状参数,估计而更新掩码,其中,所述掩码按照每个元素分布以及每个时间频率点表示对于各时间频率点的各元素分布所做出的贡献的比例;
混合权重更新步骤,根据通过所述掩码更新步骤更新的掩码,更新所述混合权重;以及
参数更新步骤,利用所述特征量向量和所述掩码,更新所述形状参数。
9.根据权利要求8所述的掩码估计方法,其特征在于,
所述元素分布还能够表达不是旋转对称的分布形状。
10.根据权利要求8或9所述的掩码估计方法,其特征在于,
所述元素分布的概率密度函数还能够表达不是如下函数的概率密度函数:在设z为独立变量、a为单位向量、·H为厄米特转置时,a与z的内积aHz的绝对值|aHz|。
11.根据权利要求8至10中的任意一项所述的掩码估计方法,其特征在于,
所述元素分布的概率密度函数是如下的函数:在z为独立变量、A为矩阵、·H为厄米特转置时的二次形式zHAz,
所述形状参数是确定所述矩阵A的参数。
12.根据权利要求8至11中的任意一项所述的掩码估计方法,其特征在于,
所述形状参数包括对各元素分布的分布形状进行表示的椭圆的各轴方向的分布扩展的信息。
13.一种用于使计算机作为权利要求1至7中的任意一项所述的掩码估计装置进行工作的掩码估计程序。
CN201680081856.3A 2016-02-16 2016-12-20 掩码估计装置、掩码估计方法以及记录介质 Active CN108701468B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016027424 2016-02-16
JP2016-027424 2016-02-16
PCT/JP2016/087996 WO2017141542A1 (ja) 2016-02-16 2016-12-20 マスク推定装置、マスク推定方法及びマスク推定プログラム

Publications (2)

Publication Number Publication Date
CN108701468A true CN108701468A (zh) 2018-10-23
CN108701468B CN108701468B (zh) 2023-06-02

Family

ID=59625834

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680081856.3A Active CN108701468B (zh) 2016-02-16 2016-12-20 掩码估计装置、掩码估计方法以及记录介质

Country Status (4)

Country Link
US (1) US10878832B2 (zh)
JP (1) JP6535112B2 (zh)
CN (1) CN108701468B (zh)
WO (1) WO2017141542A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859769A (zh) * 2019-01-30 2019-06-07 科大讯飞股份有限公司 一种掩码估计方法及装置
CN110674528A (zh) * 2019-09-20 2020-01-10 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、***及存储介质
CN112564885A (zh) * 2020-11-26 2021-03-26 南京农业大学 基于掩码变量最大概率密度函数分布的侧信道攻击方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019163487A1 (ja) * 2018-02-23 2019-08-29 日本電信電話株式会社 信号分析装置、信号分析方法及び信号分析プログラム
JP6915579B2 (ja) * 2018-04-06 2021-08-04 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
JP6992709B2 (ja) * 2018-08-31 2022-01-13 日本電信電話株式会社 マスク推定装置、マスク推定方法及びマスク推定プログラム
CN113539290B (zh) * 2020-04-22 2024-04-12 华为技术有限公司 语音降噪方法和装置
JP7487795B2 (ja) 2020-12-14 2024-05-21 日本電信電話株式会社 音源信号生成装置、音源信号生成方法、プログラム
US11755888B1 (en) * 2023-01-09 2023-09-12 Fudan University Method and system for accelerating score-based generative models with preconditioned diffusion sampling

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098360A (ja) * 2010-10-29 2012-05-24 Sony Corp 信号処理装置および方法、並びにプログラム
CN103594093A (zh) * 2012-08-15 2014-02-19 王景芳 基于信噪比软掩蔽语音增强方法
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
JP2014215385A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6816632B1 (en) * 2000-02-17 2004-11-09 Wake Forest University Health Sciences Geometric motion analysis
KR100647286B1 (ko) * 2004-08-14 2006-11-23 삼성전자주식회사 교차채널 간섭을 제거하기 위한 후처리장치 및 방법과이를 이용한 다채널 음원 분리장치 및 방법
TWI257482B (en) * 2004-12-15 2006-07-01 Spirox Corp Method and apparatus for measuring jitter of signal
JP2006337851A (ja) 2005-06-03 2006-12-14 Sony Corp 音声信号分離装置及び方法
JP4675177B2 (ja) * 2005-07-26 2011-04-20 株式会社神戸製鋼所 音源分離装置,音源分離プログラム及び音源分離方法
JP2007156300A (ja) * 2005-12-08 2007-06-21 Kobe Steel Ltd 音源分離装置、音源分離プログラム及び音源分離方法
US8433199B2 (en) * 2008-03-18 2013-04-30 Princeton University System and method for nonlinear self-filtering via dynamical stochastic resonance
JP5480496B2 (ja) * 2008-03-25 2014-04-23 株式会社ニューフレアテクノロジー 荷電粒子ビーム描画方法及び荷電粒子ビーム描画装置
JP5277887B2 (ja) * 2008-11-14 2013-08-28 ヤマハ株式会社 信号処理装置およびプログラム
KR20110072630A (ko) * 2009-12-23 2011-06-29 삼성전자주식회사 빔의 위치 측정 장치 및 방법
JP5621637B2 (ja) 2011-02-04 2014-11-12 ヤマハ株式会社 音響処理装置
US9291725B2 (en) * 2012-05-16 2016-03-22 Kabushiki Kaisha Toshiba Random coincidence reduction in positron emission tomography using tangential time-of-flight mask
WO2014125736A1 (ja) * 2013-02-14 2014-08-21 ソニー株式会社 音声認識装置、および音声認識方法、並びにプログラム
US9497528B2 (en) * 2013-11-07 2016-11-15 Continental Automotive Systems, Inc. Cotalker nulling based on multi super directional beamformer
US20160216384A1 (en) * 2015-01-26 2016-07-28 Brimrose Technology Corporation Detection of nuclear radiation via mercurous halides

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012098360A (ja) * 2010-10-29 2012-05-24 Sony Corp 信号処理装置および方法、並びにプログラム
CN103594093A (zh) * 2012-08-15 2014-02-19 王景芳 基于信噪比软掩蔽语音增强方法
JP2014089249A (ja) * 2012-10-29 2014-05-15 Mitsubishi Electric Corp 音源分離装置
JP2014215385A (ja) * 2013-04-24 2014-11-17 日本電信電話株式会社 モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
CN105096961A (zh) * 2014-05-06 2015-11-25 华为技术有限公司 语音分离方法和装置

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
SAWADA H: ""Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
SOUDEN, MEHREZ: ""A Multichannel MMSE-Based Framework for Speech Source Separation and Noise Reduction"", 《IEEE TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING》 *
VU D H T: ""Blind speech separation employing directional statistics in an expectation maximization framework"", 《2010 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING》 *
叶琪等: "基于噪声谱约束的二值掩码估计语音增强算法", 《信号处理》 *
肖明等: "经时频掩码的欠定混叠信号的盲提取", 《通信学报》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109859769A (zh) * 2019-01-30 2019-06-07 科大讯飞股份有限公司 一种掩码估计方法及装置
CN110674528A (zh) * 2019-09-20 2020-01-10 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、***及存储介质
CN110674528B (zh) * 2019-09-20 2024-04-09 深圳前海微众银行股份有限公司 联邦学习隐私数据处理方法、设备、***及存储介质
CN112564885A (zh) * 2020-11-26 2021-03-26 南京农业大学 基于掩码变量最大概率密度函数分布的侧信道攻击方法

Also Published As

Publication number Publication date
US20190267019A1 (en) 2019-08-29
US10878832B2 (en) 2020-12-29
WO2017141542A1 (ja) 2017-08-24
JPWO2017141542A1 (ja) 2018-07-12
JP6535112B2 (ja) 2019-06-26
CN108701468B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
CN108701468A (zh) 掩码估计装置、掩码估计方法以及掩码估计程序
US10643633B2 (en) Spatial correlation matrix estimation device, spatial correlation matrix estimation method, and spatial correlation matrix estimation program
JP6927419B2 (ja) 推定装置、学習装置、推定方法、学習方法及びプログラム
CN108899044A (zh) 语音信号处理方法及装置
DE112015004785T5 (de) Verfahren zum Umwandeln eines verrauschten Signals in ein erweitertes Audiosignal
WO2005024788A9 (ja) 信号分離方法、信号分離装置、信号分離プログラム及び記録媒体
Masnadi-Shirazi et al. A covariance-based superpositional CPHD filter for multisource DOA tracking
Drude et al. Unsupervised training of neural mask-based beamforming
CN108615532A (zh) 一种应用于声场景的分类方法及装置
JP2018028618A (ja) マスク推定用パラメータ推定装置、マスク推定用パラメータ推定方法およびマスク推定用パラメータ推定プログラム
Esfandian et al. A clustering based feature selection method in spectro-temporal domain for speech recognition
JP5881454B2 (ja) 音源ごとに信号のスペクトル形状特徴量を推定する装置、方法、目的信号のスペクトル特徴量を推定する装置、方法、プログラム
JP5726790B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP2014215385A (ja) モデル推定装置、音源分離装置、モデル推定方法、音源分離方法及びプログラム
KR20180079975A (ko) 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
JP6636973B2 (ja) マスク推定装置、マスク推定方法およびマスク推定プログラム
JP6114053B2 (ja) 音源分離装置、音源分離方法、およびプログラム
JP6734237B2 (ja) 目的音源推定装置、目的音源推定方法及び目的音源推定プログラム
US20210219048A1 (en) Acoustic signal separation apparatus, learning apparatus, method, and program thereof
CN104183239B (zh) 基于加权贝叶斯混合模型的与文本无关的说话人识别方法
JP6915579B2 (ja) 信号分析装置、信号分析方法および信号分析プログラム
Koteswararao et al. Multichannel KHMF for speech separation with enthalpy based DOA and score based CNN (SCNN)
US20230109177A1 (en) Speech embedding apparatus, and method
WO2013145578A1 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN117711422A (zh) 一种基于压缩感知空间信息估计的欠定语音分离方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant