CN110675890B - 声音信号处理装置以及声音信号处理方法 - Google Patents
声音信号处理装置以及声音信号处理方法 Download PDFInfo
- Publication number
- CN110675890B CN110675890B CN201910070357.XA CN201910070357A CN110675890B CN 110675890 B CN110675890 B CN 110675890B CN 201910070357 A CN201910070357 A CN 201910070357A CN 110675890 B CN110675890 B CN 110675890B
- Authority
- CN
- China
- Prior art keywords
- target
- sound
- correlation matrix
- sound signal
- target sound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 630
- 238000012545 processing Methods 0.000 title claims abstract description 233
- 238000003672 processing method Methods 0.000 title claims abstract description 8
- 238000009795 derivation Methods 0.000 claims abstract description 137
- 239000011159 matrix material Substances 0.000 claims description 294
- 238000001514 detection method Methods 0.000 claims description 71
- 238000000926 separation method Methods 0.000 claims description 30
- 230000017105 transposition Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 description 101
- 230000006870 function Effects 0.000 description 49
- 238000000034 method Methods 0.000 description 36
- 230000000875 corresponding effect Effects 0.000 description 32
- 238000006243 chemical reaction Methods 0.000 description 28
- 230000004048 modification Effects 0.000 description 18
- 238000012986 modification Methods 0.000 description 18
- 230000008569 process Effects 0.000 description 17
- 230000006641 stabilisation Effects 0.000 description 17
- 238000011105 stabilization Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 4
- 230000037433 frameshift Effects 0.000 description 3
- 102000002274 Matrix Metalloproteinases Human genes 0.000 description 2
- 108010000684 Matrix Metalloproteinases Proteins 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 101100460203 Schizosaccharomyces pombe (strain 972 / ATCC 24843) new2 gene Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02087—Noise filtering the noise being separate speech, e.g. cocktail party
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
本发明涉及声音信号处理装置以及声音信号处理方法,用于高精度地强调目的声音信号。声音信号处理装置具备系数导出部。系数导出部根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的目的声音信号的空间滤波器系数F(f,n)。
Description
本申请以日本专利申请2018-125779(申请日平成30年7月2日)为基础,从该申请享受优先权的利益。本申请通过参照该申请,包括该申请的全部内容。
技术领域
本发明的实施方式涉及声音信号处理装置及声音信号处理方法。
背景技术
已知有强调从多个声源发出的声音的声音信号中包含的目的声音信号的技术。例如,公开了将根据用麦克风感测到的声音信号的特征量计算出的SN比最大化波束成形器用作用于强调在声音信号中包含的目的声音信号的滤波器的技术。作为特征量,使用表示说话者方向、麦克风之间的声音到达时间差的矢量。
以往,从感测到的声音信号中抽出特征量,根据特征量计算用于强调目的声音信号的滤波器,有时难以高精度地强调目的声音信号。
发明内容
本发明要解决的课题为提供一种能够高精度地强调目的声音信号的声音信号处理装置以及声音信号处理方法。
实施方式的声音信号处理装置具备系数导出部,该系数导出部根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数。
根据上述声音信号处理装置,能够高精度地强调目的声音信号。
附图说明
图1是声音信号处理***的示意图。
图2是声音信号处理部的功能性结构的示意图。
图3是声音信号处理的流程图。
图4是声音信号处理***的示意图。
图5是声音信号处理部的功能性结构的示意图。
图6是声音信号处理的流程图。
图7是声音信号处理***的示意图。
图8是硬件结构的说明图。
(符号说明)
10、11、13:声音信号处理装置;12:声源;12A、12A1、12A2、12A3:目的声源;12B:非目的声源;14、14A、14B、14C、14D:第1麦克风;16:第2麦克风;20、30:声音信号处理部;20C:检测部;20D:相关(相关性)导出部;20G:系数导出部;20H:生成部;24:识别部;30C:检测部;30D:相关导出部;30G、30G1、30G2、30G3:系数导出部;30H、30H1、30H2、30H3:生成部;30J:分离部。
具体实施方式
以下,参照附图,详细说明本实施方式。
(第1实施方式)
图1是示出本实施方式的声音信号处理***1的一个例子的示意图。
声音信号处理***1具备声音信号处理装置10、第1麦克风14以及第2麦克风16。声音信号处理装置10和第1麦克风14以及第2麦克风16可交换数据、信号地连接。
声音信号处理装置10处理从1个或者多个声源12发出的声音的声音信号。
声源12是声音的发生源。声源12例如是人以及人以外的动物等生物、乐器等非生物,但不限定于这些。在本实施方式中,以声源12是人的情况为一个例子进行说明。因此,在本实施方式中,以声音是语音的情况为一个例子进行说明。此外,声音的种类没有限定。另外,以下,有时将人称为说话者。
在本实施方式中,声音信号处理装置10处理包含从多个声源12发出的声音的声音信号,强调在声音信号中包含的目的声音信号。多个声源12被分类为目的声源12A和非目的声源12B。目的声源12A是发出目的声音的声源12。目的声音是强调对象的声音。目的声音信号是表示目的声音的信号。目的声音信号例如通过谱表示。非目的声源12B是发出非目的声音的声源12。非目的声音是目的声音以外的声音。
在本实施方式中,设想作为二名说话者的目的声源12A和非目的声源12B隔着桌子T进行会话的环境。在本实施方式中,例如设想如下用途而进行说明:非目的声源12B是店员、目的声源12A是顾客,根据表示这些说话者的会话的声音信号,强调作为一方的说话者的目的声源12A的目的声音信号。此外,声源12的数量、声源12的配置不限定于这些。另外,设想环境不限定于该环境。
第1麦克风14以及第2麦克风16对声音进行采集。在本实施方式中,第1麦克风14以及第2麦克风16对从声源12发出的声音进行采集,将声音信号输出到声音信号处理装置10。
第1麦克风14是用于对至少包含目的声音的声音进行采集的麦克风。换言之,第1麦克风14是用于至少采集从目的声源12A发出的目的声音的麦克风。
在第1麦克风14中,作为表示采集的声音的声音信号,将第3声音信号输出到声音信号处理装置10。第3声音信号是包含非目的声音信号和目的声音信号的声音信号。非目的声音信号是表示非目的声音的信号。非目的声音信号例如通过谱表示。第1麦克风14对从声源12(目的声源12A、非目的声源12B)发出的声音进行采集,预先配置于能够将第3声音信号输出到声音信号处理装置10的位置。在本实施方式中,设想将第1麦克风14配置于桌子T上的情况。
在本实施方式中,声音信号处理***1具备多个第1麦克风14(第1麦克风14A~第1麦克风14D)。因此,从多个第1麦克风14向声音信号处理装置10输出多个第3声音信号。此外,将把多个第3声音信号集中为一个的声音信号称为第1声音信号而进行说明。
第1麦克风14的数量只要是采集对象的声源12的数量以上即可。如上所述,在本实施方式中,声音信号处理***1设想有1个目的声源12A和1个非目的声源12B合计2个声源12。在该情况下,第1麦克风14的数量只要是2以上即可。在本实施方式中,以声音信号处理***1具备4个第1麦克风14(第1麦克风14A~第1麦克风14D)的情况为一个例子进行说明。
关于多个第1麦克风14,来自多个声源12的各个声源的声音到达时间差相互不同。即,多个第1麦克风14被预先调整配置位置,以使得上述声音到达时间差相互不同。
第2麦克风16是用于对至少非目的声音进行采集的麦克风。换言之,第2麦克风16是用于至少采集从非目的声源12B发出的非目的声音的麦克风。
在第2麦克风16中,作为表示采集的声音的声音信号,将第2声音信号输出到声音信号处理装置10。第2声音信号是非目的声音信号相对目的声音信号的功率(power)之比大于第1声音信号(第3声音信号)的声音信号。第2声音信号优选为非目的声音信号相对目的声音信号的功率之比大于第1声音信号(第3声音信号)且与目的声音信号的功率相比非目的声音信号的功率大的声音信号。
在本实施方式中,第2麦克风16配置于与第1麦克风14相比接近非目的声源12B的位置。例如,第2麦克风16是头戴式麦克风、销孔式麦克风(pin microphone)。在本实施方式中,第2麦克风16以能够在作为非目的声源12B的说话者的嘴边采集声音的方式安装于非目的声源12B。
声音信号处理装置10具备AD变换部18、声音信号处理部20以及输出部22。此外,声音信号处理装置10只要是至少具备声音信号处理部20的结构即可,也可以将AD变换部18以及输出部22的至少一方独立地构成。
AD变换部18从多个第1麦克风14接受多个第3声音信号。另外,AD变换部18从第2麦克风16接受第2声音信号。AD变换部18将多个第3声音信号以及第2声音信号分别变换为数字信号,输出到声音信号处理部20。
声音信号处理部20使用从AD变换部18接受的多个第3声音信号以及第2声音信号,强调在将多个第3声音信号集中为1个的第1声音信号中包含的目的声音信号,将强调声音信号输出到输出部22。
输出部22是输出从声音信号处理部20接受的强调声音信号的装置。输出部22例如是扬声器、通信装置、显示装置、录音装置、记录装置等。扬声器输出由强调声音信号表示的声音。通信装置将强调声音信号经由网络等发送到外部装置等。显示装置显示表示强调声音信号的信息。录音装置存储强调声音信号。录音装置例如是IC记录器、个人计算机等。记录装置是将由强调声音信号表示的声音用公知的方法变换为文本而记录的装置。此外,输出部22也可以将从声音信号处理部20接受的强调声音信号变换为模拟信号之后输出、发送、存储或者记录。
接下来,详细说明声音信号处理部20。
图2是示出声音信号处理部20的功能性结构的一个例子的示意图。
声音信号处理部20具备变换部20A、变换部20B、检测部20C、相关导出部20D、第1相关存储部20E、第2相关存储部20F、系数导出部20G、生成部20H以及逆变换部20I。
变换部20A、变换部20B、检测部20C、相关导出部20D、系数导出部20G、生成部20H以及逆变换部20I例如通过1个或者多个处理器实现。例如,上述各部分也可以通过使CPU(Central Processing Unit,中央处理单元)等处理器执行程序即通过软件实现。上述各部分也可以通过专用的IC(Integrated Circuit,集成电路)等处理器即硬件实现。上述各部分也可以将软件以及硬件一起使用来实现。在使用多个处理器的情况下,各处理器可以实现各部分中的1个,也可以实现各部分中的2个以上。
第1相关存储部20E以及第2相关存储部20F存储各种信息。第1相关存储部20E以及第2相关存储部20F能够通过HDD(Hard Disk Drive,硬盘驱动器)、光盘、存储卡、RAM(Random Access Memory,随机存取存储器)等一般利用的任意的存储介质构成。另外,第1相关存储部20E以及第2相关存储部20F可以实现为物理上不同的存储介质,也可以实现为物理上相同的存储介质的不同的存储区域。进而,第1相关存储部20E以及第2相关存储部20F分别也可以通过物理上不同的多个存储介质实现。
变换部20A对经由AD变换部18从第2麦克风16接受的第2声音信号进行短时傅里叶变换(STFT:Short-Time Fourier Transform),将通过频谱X1(f,n)表示的第2声音信号输出到检测部20C。此外,f表示频点(frequency bin)的编号,n表示帧的编号。
例如,将采样频率设定为16kHz,将帧长度设定为256采样,将帧移设定为128采样。在该情况下,变换部20A通过在对第2声音信号施加256采样的汉宁窗之后进行快速傅里叶变换(FFT:Fast Fourier Transform),将第2声音信号变换为频谱。另外,考虑到该频谱的低频段和高频段的对称性,将该频谱中的f为0以上且128以下的范围的129点的复数值计算为第2声音信号中的第n帧的频谱X1(f,n)。然后,变换部20A将通过频谱X1(f,n)表示的第2声音信号输出到检测部20C。
变换部20B对经由AD变换部18从多个第1麦克风14(第1麦克风14A~第1麦克风14D)接受的多个第3声音信号分别进行短时傅里叶变换(STFT),生成通过频谱X2,1(f,n)、频谱X2,2(f,n)、频谱X2,3(f,n)、频谱X2,4(f,n)分别表示的多个第3声音信号。
频谱X2,1(f,n)是对从第1麦克风14A接受的第3声音信号进行短时傅里叶变换而得到的。频谱X2,2(f,n)是对从第1麦克风14B接受的第3声音信号进行短时傅里叶变换而得到的。频谱X2,3(f,n)是对从第1麦克风14C接受的第3声音信号进行短时傅里叶变换而得到的。频谱X2,4(f,n)是对从第1麦克风14D接受的第3声音信号进行短时傅里叶变换而得到的。
此外,以下将集中了表示多个第3声音信号的各个声音信号的上述多个频谱的多维矢量(在本实施方式中为4维矢量)称为表示第1声音信号的频谱X2(f,n)而进行说明。换言之,第1声音信号通过频谱X2(f,n)表示。表示第1声音信号的频谱X2(f,n)用下述式(1)表示。
【公式1】
X2(f,n)=[X2,1(f,n),X2,2(f,n),X2,3(f,n),X2,4(f,n)]…式(1)
变换部20B将表示第1声音信号的频谱X2(f,n)输出到相关导出部20D以及生成部20H。
接下来,说明检测部20C、相关导出部20D、系数导出部20G、生成部20H以及逆变换部20I。在本实施方式中,声音信号处理部20在声音信号处理开始时进行了初始处理之后执行稳定处理。相关导出部20D、系数导出部20G以及生成部20H在初始处理时和稳定处理时执行不同的处理。
首先,说明初始处理中的相关导出部20D、系数导出部20G以及生成部20H的功能。
初始处理是声音信号处理部20在声音信号处理开始时执行的处理。在初始处理中,声音信号处理部20通过更新在第1相关存储部20E以及第2相关存储部20F中存储的、用零矩阵初始化的第1空间相关矩阵以及第2空间相关矩阵对这些空间相关矩阵设定初始值。
如上所述,在本实施方式中,第1声音信号通过表示4维矢量的频谱X2(f,n)表示。因此,系数导出部20G根据第1空间相关矩阵以及第2空间相关矩阵计算作为复数的4维矢量的空间滤波器系数F(f,n)。空间滤波器系数F(F、n)用下述式(2)表示。
【公式2】
F(f,n)=[F1(f,n),F2(f,n),F3(f,n),F4(f,n)…式(2)
其中,在初始处理中,系数导出部20G将空间滤波器系数F(f,n)=[0,0,0,1]作为空间滤波器系数F(f,n)导出。
生成部20H使用由系数导出部20G导出的空间滤波器系数F(f,n),生成强调了通过频谱X2(f,n)表示的第1声音信号中包含的目的声音信号的强调声音信号。
详细而言,生成部20H使用下述式(3)生成通过输出谱Y(f,n)表示的强调声音信号。
【公式3】
Y(f,n)=X2(f,n)FH(f,n)…式(3)
即,生成部20H将频谱X2(f,n)与对空间滤波器系数F(f,n)进行厄米特转置(Hermitian transpose)而得到的转置矩阵之积生成为表示强调声音信号的输出谱Y(f,n)。此外,在初始处理中,生成部20H输出成为Y(f,n)=X2,4(f,n)的强调声音信号。即,在初始处理中,生成部20H将用第1麦克风14D采集的第3声音信号的频谱作为强调声音信号输出。此外,在初始处理中用作强调声音信号的第1麦克风14只要是多个第1麦克风14(第1麦克风14A~第1麦克风14D)中的1个第1麦克风14即可,不限定于第1麦克风14D。
生成部20H将通过输出谱Y(f,n)表示的强调声音信号输出到逆变换部20I以及检测部20C。
检测部20C根据强调声音信号,检测目的声音区间。在本实施方式中,检测部20C根据第2声音信号和强调声音信号,检测目的声音区间。
详细而言,检测部20C根据通过频谱X1(f,n)表示的第2声音信号和通过从生成部20H接受的输出谱Y(f,n)表示的强调声音信号,检测目的声音区间。
目的声音区间通过针对每个帧编号表示目的声源12A是否发出声音的函数u2(n)表示。
u2(n)=1表示在第n帧中目的声源12A发出了声音。第n帧表示第n个帧。u2(n)=0表示在第n帧中目的声源12A未发出声音。
具体而言,函数u2通过下述式(4)表示。
【公式4】
在式(4)中,pY(n)以及pX(n)通过下述式(5)以及式(6)表示。即,pY(n)以及pX(n)依赖于通过输出谱Y(f,n)表示的强调声音信号和通过频谱X1(f,n)表示的第2声音信号的各自的功率。
【公式5】
在此,在初始处理的阶段中,pY(n)包括与目的声源12A和非目的声源12B这双方的声音对应的谱。因此,在式(4)中,阈值t1以在从目的声源12A或者非目的声源12B发出了声音的情况下满足t1<PY(n)的关系的方式预先设定。
另外,在目的声源12A和非目的声源12B中非目的声源12B发出了声音的情况下,pX(n)与py(n)相比相对地变大。因此,在式(4)中,阈值t2以在非目的声源12B发出了声音的情况下满足pX(n)-py(n)≥t2的关系的方式预先设定。
通过这些设定,函数u2(n)在仅目的声源12A发出了声音的第n帧中表示值“1”。另外,函数u2在目的声源12A未发出声音的第n帧中表示值“0”。
因此,检测部20C将用u2(n)=1表示的区间检测为目的声音区间,将用u2(n)=0表示的区间检测为非目的声音区间。
相关导出部20D根据由检测部20C检测出的目的声音区间和经由变换部20B以及AD变换部18从第1麦克风14接受的第1声音信号,导出第1空间相关矩阵和第2空间相关矩阵 然后,相关导出部20D通过将导出的第1空间相关矩阵 存储到第1相关存储部20E,更新第1空间相关矩阵同样地,相关导出部20D通过将导出的第2空间相关矩阵存储到第2相关存储部20F,更新第2空间相关矩阵
【公式6】
ΦXX(f,n)=αΦXX(f,n-1)+(1-α)X2 H(f,n)X2(f,n)…式(7)
ΦNN(f,n)=αΦNN(f,n-1)+(1-α)X2 H(f,n)X2(f,n)…式(8)
即,相关导出部20D关于目的声音区间的第1声音信号,通过由该第1声音信号与对该第1声音信号进行厄米特转置而得到的转置信号的乘法运算值表示的最新的第1空间相关矩阵校正过去导出的第1空间相关矩阵从而导出新的第1空间相关矩阵此外,目的区间的第1声音信号表示第1声音信号中的目的区间的声音信号。
另外,相关导出部20D关于非目的声音区间的第1声音信号,通过由该第1声音信号与对该第1声音信号进行厄米特转置而得到的转置信号的乘法运算值表示的最新的第2空间相关矩阵校正过去导出的第2空间相关矩阵从而导出新的第2空间相关矩阵此外,非目的区间的第1声音信号表示第1声音信号中的非目的区间的声音信号。
接下来,说明稳定处理中的相关导出部20D、系数导出部20G以及生成部20H的功能。稳定处理是在上述初始处理之后执行的处理。
首先,说明稳定处理中的系数导出部20G的功能。在初始处理中,系数导出部20G导出了空间滤波器系数F(f,n)=[0,0,0,1]作为空间滤波器系数F(f,n)。
在稳定处理中,系数导出部20G根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的目的声音信号的空间滤波器系数F(f,n)。
如上所述,第1声音信号由从多个第1麦克风14取得的多个第3声音信号构成。因此,系数导出部20G根据强调了由从多个第1麦克风14输出的多个第3信号构成的第1声音信号中包含的目的声音信号的强调声音信号,导出空间滤波器系数F(f,n)。
在此,在稳定处理的阶段中,在第1相关存储部20E以及第2相关存储部20F中存储的第1空间相关矩阵以及第2空间相关矩阵是由相关导出部20D已更新的空间相关矩阵。即,这些空间相关矩阵是使用根据强调声音信号检测出的目的声音区间通过相关导出部20D更新后的空间相关矩阵。因此,系数导出部20G根据强调声音信号,导出空间滤波器系数F(f,n)。
详细而言,系数导出部20G导出通过第1空间相关矩阵 与第2空间相关矩阵的逆矩阵之积表示的矩阵的、与最大固有值对应的固有矢量FSNR(f,n)。然后,系数导出部20G将固有矢量FSNR(f,n)导出为空间滤波器系数F(f,n)(F(f,n)=FSNR(f,n))。
固有矢量FSNR(f,n)构成使目的声音和非目的声音的功率比最大化的MAX-SNR(Maximum Signal-to-Noise,最大信噪)波束成形器。
此外,系数导出部20G也可以追加通过调整各频点的功率来改善音质的后置滤波器w(f,n),使用下述式(9)导出空间滤波器系数F(f,n)。
【公式7】
F(f,n)=w(f,n)FSNR(f,n)…式(9)
后置滤波器w(f,n)用下述式(10)表示。
【公式8】
接下来,说明生成部20H。在稳定处理中,生成部20H与初始处理时同样地使用由系数导出部20G导出的空间滤波器系数F(f,n),生成强调了通过频谱X2(f,n)表示的第1声音信号中包含的目的声音信号的强调声音信号。即,生成部20H使用上述式(3)生成通过输出谱Y(f,n)表示的强调声音信号。
生成部20H将生成的强调声音信号输出到逆变换部20I以及检测部20C。
逆变换部20I对从生成部20H接受的强调声音信号进行逆短时傅里叶变换(ISTFT:Inverse Short-Time Fourier Transform),输出到输出部22。
即,逆变换部20I将从目的声源12A发出的目的声音的目的声音信号被强调而非目的声音信号被抑制的强调信号变换为时域的声音波形。
具体而言,逆变换部20I使用表示强调信号的输出谱Y(f,n)的对称性,根据输出谱Y(f,n)生成256点的谱,进行逆傅里叶变换。接下来,逆变换部20I只要通过应用合成窗函数与前帧的输出波形偏移帧移量而重叠来生成声音波形即可。
接下来,说明检测部20C。在初始处理时,检测部20C检测出目的声音区间。
在稳定处理时,检测部20C根据强调声音信号和第2声音信号,检测目的声音区间和重复区间。重复区间是从目的声源12A以及非目的声源12B这双方发出了声音的区间。例如,重复区间是多个说话者说话的区间。
详细而言,检测部20C除了函数u2(n)以外,还检测出函数u1(n)。
函数u1(n)是表示第2非目的声音区间的函数。详细而言,函数u1(n)是针对每个帧编号表示非目的声源12B是否发出了声音的函数。第2非目的声音区间是非目的声源12B发出了声音的区间。
在此,在稳定处理的阶段中,通过输出谱Y(f,n)表示的强调声音信号中包含的、从非目的声源12B发出的非目的声音所涉及的功率被抑制。因此,通过上述式(5)表示的pY(n)能够近似地视为从目的声源12A发出的目的声音所涉及的功率。因此,在稳定处理的阶段中,通过u1(n)表示的第2非目的声音区间和通过u2(n)表示的目的声音区间通过下述式(11)以及式(12)表示。
【公式9】
此外,u2(n)=1表示在第n帧中目的声源12A发出了声音。u2(n)=0表示在第n帧中目的声源12A未发出声音。另外,u1(n)=1表示在第n帧中非目的声源12B发出了声音。u1(n)=0表示在第n帧中非目的声源12B未发出声音。
因此,只要将式(11)以及式(12)中的阈值t3以及阈值t4以使u1(n)以及u2(n)成为表示上述条件的式子的方式预先设定即可。
检测部20C将u2(n)=1且u1(n)=0的区间检测为目的声音区间。另外,检测部20C将u2(n)=0的区间检测为非目的声音区间。另外,检测部20C将u2(n)=1且u1(n)=1的区间检测为从目的声源12A以及非目的声源12B这双方发出了声音的重复区间。然后,检测部20C将检测结果输出到相关导出部20D。在本实施方式中,检测部20C将u1(n)以及u2(n)作为检测结果输出到相关导出部20D。
相关导出部20D将u2(n)=1且u1(n)=0的区间作为目的声音区间,关于该区间,使用下述式(13)导出及更新第1空间相关矩阵此外,关于u2(n)=1且u1(n)=0的目的声音区间,相关导出部20D不进行第2空间相关矩阵的导出及更新。
【公式10】
ΦXX(f,n)=αΦXX(f,n-1)+(1-α)X2 H(f,n)X2(f,n)…式(13)
另一方面,相关导出部20D将u2(n)=0的区间作为非目的声音区间,关于该区间,使用下述式(14)导出及更新第2空间相关矩阵此外,关于u2(n)=0的区间,相关导出部20D不进行第1空间相关矩阵的导出及更新。
【公式11】
ΦNN(f,n)=αΦNN(f,n-1)+(1-α)X2 H(f,n)X2(f,n)…式(14)
另外,相关导出部20D关于u2(n)=1且u1(n)=1的区间,不进行第1空间相关矩阵以及第2空间相关矩阵 这双方的导出及更新。如上所述,u2(n)=1且u1(n)=1的区间是从目的声源12A以及非目的声源12B这双方发出了声音的重复区间。
这样,设为关于目的声源12A以及非目的声源12B这双方同时发出了声音的重复区间不更新第1空间相关矩阵以及第2空间相关矩阵这双方的结构。通过该结构,能够抑制使用目的声源12A以及非目的声源12B这双方同时发出了声音的重复区间所引起的目的声音信号的强调精度的降低。
接下来,说明本实施方式的声音信号处理装置10执行的声音信号处理的步骤。
图3是示出本实施方式的声音信号处理装置10执行的声音信号处理的步骤的一个例子的流程图。
变换部20B对从多个第1麦克风14接受的第3信号进行短时傅里叶变换,取得通过频谱X2(f,n)表示的第1声音信号(步骤S100)。变换部20B将取得的第1声音信号输出到相关导出部20D以及生成部20H(步骤S102)。
接下来,变换部20A对从第2麦克风16接受的第2声音信号进行短时傅里叶变换,取得通过频谱X1(f,n)表示的第2声音信号(步骤S104)。变换部20A将取得的第2声音信号输出到检测部20C(步骤S106)。
此外,步骤S100~步骤S106的处理只要变换部20A以及变换部20B并行地执行即可,不限定于图3所示的顺序。另外,设为持续地反复执行步骤S100~步骤S106的处理直至结束声音信号处理。
然后,声音信号处理装置10执行初始处理(步骤S108~步骤S120)。
详细而言,首先系数导出部20G从第1相关存储部20E以及第2相关存储部20F读取第1空间相关矩阵以及第2空间相关矩阵(步骤S108)。如上所述,在初始状态下,第1空间相关矩阵以及第2空间相关矩阵用零矩阵初始化。
接下来,系数导出部20G使用在步骤S108中读取出的第1空间相关矩阵以及第2空间相关矩阵导出空间滤波器系数F(f,n)(步骤SS110)。如上所述,在初始状态下,系数导出部20G导出空间滤波器系数F(f,n)=[0,0,0,1]作为空间滤波器系数F(f,n)。
接下来,生成部20H使用在步骤S110中导出的空间滤波器系数F(f,n),生成强调了在步骤S110中取得的通过频谱X2(f,n)表示的第1声音信号中包含的目的声音信号的强调声音信号(步骤S112)。
接下来,逆变换部20I对在步骤S112中生成的通过输出谱Y(f,n)表示的强调声音信号进行逆短时傅里叶变换,输出到输出部22(步骤S114)。
接下来,检测部20C使用在步骤S112中生成的强调声音信号和第2声音信号,检测通过函数u2(n)表示的目的声音区间(步骤S116)。
接下来,声音信号处理部20判断是否从初始处理向稳定处理转移(步骤S122)。例如,声音信号处理部20通过判别是否将初始处理执行了预定时间,判断是否向稳定处理转移。另外,声音信号处理部20也可以通过判别第1空间相关矩阵以及第2空间相关矩阵是否被更新了预定次数,判别是否向稳定处理转移。
在步骤S122中判断为否定时(步骤S122:“否”),返回到上述步骤S108。另一方面,在步骤S122中判断为肯定时(步骤S122:“是”),声音信号处理部20执行稳定处理(步骤S124~步骤S138)。
在稳定处理中,系数导出部20G从第1相关存储部20E以及第2相关存储部20F读取第1空间相关矩阵以及第2空间相关矩阵(步骤S124)。即,系数导出部20G读取通过相关导出部20D更新后的最新的第1空间相关矩阵以及第2空间相关矩阵
接下来,生成部20H使用在步骤S126中导出的空间滤波器系数F(f,n),强调从变换部20B接受的第1声音信号中包含的目的声音信号,生成强调声音信号(步骤S128)。
接下来,逆变换部20I对在步骤S128中生成的强调声音信号进行逆短时傅里叶变换,输出到输出部22(步骤S130)。
接下来,检测部20C使用第2声音信号和在步骤S128中生成的强调声音信号,检测目的声音区间和重复区间(步骤S132)。
接下来,相关导出部20D根据在步骤S132中检测出的目的声音区间、重复区间以及经由变换部20B以及AD变换部18从第1麦克风14接受的第1声音信号,导出第1空间相关矩阵和第2空间相关矩阵(步骤S134)。然后,相关导出部20D通过将导出的第1空间相关矩阵和第2空间相关矩阵 存储到第1相关存储部20E以及第2相关存储部20F的各个,更新这些空间相关矩阵(步骤S136)。
接下来,声音信号处理部20判断是否结束声音信号处理(步骤S138)。在步骤S138中判断为否定时(步骤S138:“否”),返回到上述步骤S124。在步骤S138中判断为肯定时(步骤S138:“是”),结束本流程。
如以上说明,本实施方式的声音信号处理装置10具备系数导出部20G。系数导出部20G根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的目的声音信号的空间滤波器系数F(f,n)。因此,通过使用导出的空间滤波器系数F(f,n)生成强调了目的声音信号的强调声音信号,能够高精度地强调目的声音信号。
在此,以往在多个说话者同时说话时有时目的声音的强调精度降低。例如,已知将表示说话者方向、麦克风之间的到来时间差的矢量用作声音信号的特征量并根据该特征量生成用于强调在声音信号中包含的目的声音信号的滤波器的现有方式。
但是,在这样的现有方式中,在多个说话者同时说话时,得到与说话者各自的特征量不同的特征量的分布,所以有时用于强调目的声音信号的滤波器的精度降低。另外,关于多个说话者依次说话的状况的情况,由于产生由于随声附和等的同时说话的区间,所以有时用于强调目的声音信号的滤波器的精度也降低。
另一方面,在本实施方式的声音信号处理装置10中,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的目的声音信号的空间滤波器系数F(f,n)。因此,通过将导出的空间滤波器系数F(f,n)应用于第1声音信号,生成强调了目的声音信号的强调声音信号,从而能够高精度地强调目的声音信号。
因此,声音信号处理装置10能够高精度地强调目的声音信号。
另外,在本实施方式的声音信号处理装置10中,检测部20C根据非目的声音信号相对目的声音信号的功率之比大于第1声音信号的第2声音信号和强调声音信号,检测目的声音区间。因此,检测部20C能够高精度地检测目的声音区间。然后,系数导出部20G根据基于高精度地检测出的目的声音区间和第1声音信号导出的第1空间相关矩阵以及第2空间相关矩阵导出空间滤波器系数F(f,n)。
因此,声音信号处理装置10能够更高精度地强调目的声音信号。
另外,在本实施方式中,检测部20C根据第2声音信号和强调声音信号,检测目的声音区间。因此,在本实施方式的声音信号处理装置10中,无论目的声源12A以及非目的声源12B的位置如何,都能够以抑制非目的声源12B的非目的声音而强调目的声源12A的目的声音信号的方式导出空间滤波器系数F(f,n)。因此,声音信号处理装置10能够导出用于更高精度地强调包含于第1声音信号的目的声音信号的空间滤波器系数(f,n)。
另外,在本实施方式中,检测部20C根据强调声音信号检测目的声音与非目的声音重复的重复区间和目的声音区间。然后,相关导出部20D根据目的声音区间、重复区间以及第1声音信号,导出第1空间相关矩阵以及第2空间相关矩阵
然后,相关导出部20D关于重复区间,不导出及更新第1空间相关矩阵以及第2空间相关矩阵因此,系数导出部20G关于重复区间,不导出空间滤波器系数F(f,n)。因此,关于第1声音信号中的从多个声源12同时发出了声音的区间,本实施方式的声音信号处理装置10也能够高精度地强调目的声音信号。
<变形例1>
此外,在上述中,检测部20C根据通过输出谱Y(f,n)表示的强调声音信号和通过频谱X1(f,n)表示的第2声音信号的功率,检测目的声音区间以及重复区间。
但是,检测部20C也可以使用输出谱Y(f,n)以及频谱X1(f,n),通过其他方法检测目的声音区间以及重复区间。
例如,也可以通过决定树、k附近法、支持向量机、神经网络等,学习用于将输出谱Y(f,n)以及频谱X1(f,n)作为输入而推测函数u1(n)以及函数u2(n)的模型。
作为一个例子,说明使用神经网络的模型的学习。
在该情况下,检测部20C收集用于学习模型的学习数据。例如,将本实施方式的声音信号处理部20安装于学习装置,使用声音信号处理部20执行上述处理,从而记录包括频谱X1(f,n)和从该频谱X1(f,n)导出的输出谱Y(f,n)的多个学习数据。同时,用第1麦克风14D对目的声源12A的目的声音进行采集而记录。然后,通过由用户收听该目的声音、由用户目视该目的声音的波形等,判定在各帧中发出声音的声源12,制作函数u1(n)以及函数u2(n)的正确数据c1(n)以及c2(n)。
另外,检测部20C使用用下述式(15)表示的矢量v(n)作为输入特征量。
【公式12】
用式(15)表示的矢量v(n)是将该帧和紧前面的帧的谱的绝对值的对数连结而得到的516维矢量。因此,在目的声音区间以及重复区间的检测中,能够从矢量v(n)定型化为表示正确数据的二维矢量c(n)=[c1(n),c2(n)]的推测。
在此,用下述式(16)~式(20)定义神经网络的模型的结构。
【公式13】
输入层:h1(n)=sigmoid(Wiv(n)T)…式(16)
中间层1:h2(n)=sigmoid(W1h1(n))…式(17)
中间层2:h3(n)=sigmoid(W2h2(n))…式(18)
中间层3:h4(n)=sigmoid(W3h3(n))…式(19)
输出层:u(n)=[u1(n),u2(n)]T=sigmoid(Woh4(n))…式(20)
在将中间层的节点数设为100时,矩阵Wi以及矩阵W0的尺寸分别成为100×516、2×100。因此,矩阵W1、矩阵W2、矩阵W3的尺寸都成为100×100。
另外,式(16)~式(20)中的函数sigmoid()表示将用下述式(21)表示的sigmoid函数应用于矢量的各要素的运算。
【公式14】
然后,使用用下述式(22)表示的交叉熵定义目的函数L。
【公式15】
然后,检测部20C通过学习求出使目的函数L最大化的参数列Wi、Wo、W1、W2、W3。
作为学习的方法,只要使用概率性的梯度下降法等已有的方法即可。使用该模型导出的函数u1(n)以及函数u2(n)为0至1之间的连续值。因此,例如将0.5作为阈值而如果是其以上则二值化为1(目的声音区间)、如果小于其则二值化为0(非目的声音区间)即可。
这样,检测部20C也可以使用输出谱Y(f,n)以及频谱X1(f,n),通过与第1实施方式不同的方法检测目的声音区间以及重复区间。
(第2实施方式)
在本实施方式中,说明不使用从第2麦克风16取得的第2声音信号而使用从第1麦克风14取得的第1声音信号进行声音信号处理的方式。
图4是示出本实施方式的声音信号处理***2的一个例子的示意图。
声音信号处理***2具备声音信号处理装置11和多个第1麦克风14。声音信号处理装置11和多个第1麦克风14可交换数据、信号地连接。
即,声音信号处理***2除了代替声音信号处理装置10而具备声音信号处理装置11且不具备第2麦克风16这点以外,与第1实施方式的声音信号处理***1相同。
在本实施方式中,在声音信号处理***2中,作为声源12,设想有多个目的声源12A。在图4中,作为多个目的声源12A,将作为三名说话者的目的声源12A1~目的声源12A3表示为一个例子。目的声源12A例如是人(说话者)。在本实施方式中,设想在矩形形状的桌子T的3边分别坐着1名说话者(目的声源12A1、目的声源12A2、目的声源12A3)而进行会话的环境。此外,在本实施方式中,设想在由声音信号处理装置11实施的声音信号处理中这些多个目的声源12A的位置不大幅移动的情况。此外,目的声源12A的数量不限定于3,也可以是2或者4以上。
与第1实施方式同样地,声音信号处理***2具备多个第1麦克风14。在本实施方式中,作为一个例子,示出第1麦克风14A~第1麦克风14D这4个第1麦克风14。
与第1实施方式同样地,关于多个第1麦克风14,来自多个目的声源12A的各个声源的声音到达时间差相互不同。即,多个第1麦克风14被预先调整配置位置,以使得上述声音到达时间差相互不同。
另外,设置于声音信号处理***2的多个第1麦克风14的数量是本实施方式的声源12的数量以上即可。因此,在本实施方式中,第1麦克风14的数量只要是3以上即可。第1麦克风14的数量越多,则越能够提高目的声音的强调精度。
作为一个例子,说明声音信号处理***2具备4个第1麦克风14(第1麦克风14A~第1麦克风14D)的方式。
与第1实施方式同样地,通过从多个第1麦克风14的各个麦克风输出第3信号,向声音信号处理装置11输出多个第3信号。与第1实施方式同样地,将把多个第3声音信号集中为一个的声音信号称为第1声音信号而进行说明。
声音信号处理装置11具备AD变换部18、声音信号处理部30以及输出部22。AD变换部18以及输出部22与第1实施方式相同。声音信号处理装置11除了代替声音信号处理部20而具备声音信号处理部30这点以外与第1实施方式相同。此外,声音信号处理装置11只要构成为至少具备声音信号处理部30即可,也可以将AD变换部18以及输出部22的至少一方独立地构成。
声音信号处理部30经由AD变换部18接受多个第3声音信号。声音信号处理部30强调在将接受的多个第3声音信号集中为1个的第1声音信号中包含的目的声音信号,将强调声音信号输出到输出部22。
详细说明声音信号处理部30。
图5是示出声音信号处理部30的功能性结构的一个例子的示意图。
声音信号处理部30具备变换部30B、分离部30J、检测部30C、相关导出部30D、多个第3相关存储部30E、第4相关存储部30F、多个加法部30K、多个系数导出部30G、多个生成部30H以及多个逆变换部30I。
变换部30B、分离部30J、检测部30C、相关导出部30D、多个系数导出部30G、多个加法部30K、多个生成部30H以及多个逆变换部30I例如通过1个或者多个处理器实现。例如,上述各部分也可以通过使CPU等处理器执行程序即通过软件实现。上述各部分也可以通过专用的IC等处理器即硬件实现。上述各部分也可以将软件以及硬件一起使用来实现。在使用多个处理器的情况下,各处理器可以实现各部分中的1个,也可以实现各部分中的2个以上。
第3相关存储部30E以及第4相关存储部30F存储各种信息。第3相关存储部30E以及第4相关存储部30F能够通过HDD、光盘、存储卡、RAM等一般利用的任意的存储介质构成。另外,第3相关存储部30E以及第4相关存储部30F可以设为物理上不同的存储介质,也可以设为物理上相同的存储介质的不同的存储区域。进而,第3相关存储部30E以及第4相关存储部30F分别也可以通过物理上不同的多个存储介质实现。
此外,在声音信号处理部30中,设置有与多个目的声源12A的各个声源对应的第3相关存储部30E、系数导出部30G、加法部30K、生成部30H以及逆变换部30I。如上所述,在本实施方式中,设想有第3个声源12A(目的声源12A1~目的声源12A3)。
因此,在本实施方式中,在声音信号处理部30中设置有3个第3相关存储部30E(第3相关存储部30E1~第3相关存储部30E3)、3个系数导出部30G(系数导出部30G1~系数导出部30G2)、3个加法部30K(加法部30K1~加法部30K3)、3个生成部30H(生成部30H1~生成部30H3)以及3个逆变换部30I(逆变换部30I1~逆变换部30I3)。
此外,在声音信号处理***2中设想的目的声源12A的数量不限定于3个。例如,在声音信号处理***2中设想的目的声源12A的数量也可以是1、2或者4以上。另外,在声音信号处理部30中,只要构成为以与多个目的声源12A相同的数量具备第3相关存储部30E、系数导出部30G、3个加法部30K、生成部30H以及逆变换部30I的各个即可。
变换部30B与第1实施方式的变换部20B同样地对经由AD变换部18从多个第1麦克风14(第1麦克风14A~第1麦克风14D)接受的多个第3声音信号分别进行短时傅里叶变换(STFT),生成由频谱X1(f,n)、频谱X2(f,n)、频谱X3(f,n)、频谱X4(f,n)分别表示的多个第3声音信号。
频谱X1(f,n)是对从第1麦克风14A接受的第3声音信号进行短时傅里叶变换而得到的。频谱X2(f,n)是对从第1麦克风14B接受的第3声音信号进行短时傅里叶变换而得到的。频谱X3(f,n)是对从第1麦克风14C接受的第3声音信号进行短时傅里叶变换而得到的。频谱X4(f,n)是对从第1麦克风14D接受的第3声音信号进行短时傅里叶变换而得到的。
此外,在本实施方式中,将集中了表示多个第3声音信号的各个声音信号的上述多个频谱的多维矢量(在本实施方式中为4维矢量)称为表示第1声音信号的频谱X(f,n)而进行说明。换言之,在本实施方式中,第1声音信号通过频谱X(f,n)表示。表示第1声音信号的频谱X(f,n)用下述式(23)表示。
【公式16】
X(f,n)=[X1(f,n),X2(f,n),X3(f,n),X4(f,n)]…式(23)
变换部30B将表示第1声音信号的频谱X(f,n)输出到分离部30J以及多个生成部30H(生成部30H1~生成部30H3)的各个。
第3相关存储部30E存储第3空间相关矩阵。第3空间相关矩阵表示第1声音信号中的目的声音分量的空间相关矩阵。
如上所述,声音信号处理部30具备与多个目的声源12A的各个声源对应的3个第3相关存储部30E(第3相关存储部30E1~第3相关存储部30E3)。
第3相关存储部30E1是与目的声源12A1对应的第3相关存储部30E。第3相关存储部30E1存储第3空间相关矩阵第3空间相关矩阵表示第1声音信号中的目的声源12A1的目的声音分量的空间相关矩阵。目的声源12A1的目的声音分量表示包含于第1声音信号的从目的声源12A1发出的目的声音的分量(即,谱)。目的声音分量通过后述分离部30J而从第1声音信号被分离(详细后述)。
同样地,第3相关存储部30E2是与目的声源12A2对应的第3相关存储部30E。第3相关存储部30E2存储第3空间相关矩阵 第3空间相关矩阵表示第1声音信号中的目的声源12A2的目的声音分量的空间相关矩阵。目的声源12A2的目的声音分量表示包含于第1声音信号的从目的声源12A2发出的目的声音的分量。与第3空间相关矩阵同样地,第3空间相关矩阵通过每个频点的4×4的复数的矩阵表示。
第3相关存储部30E3是与目的声源12A3对应的第3相关存储部30E。第3相关存储部30E3存储第3空间相关矩阵第3空间相关矩阵表示第1声音信号中的目的声源12A3的目的声音分量的空间相关矩阵。目的声源12A3的目的声音分量表示包含于第1声音信号的从目的声源12A3发出的目的声音的分量。第3空间相关矩阵通过每个频点的4×4的复数的矩阵来表示。
第4相关存储部30F存储第4空间相关矩阵第4空间相关矩阵表示第1声音信号中的非目的声音分量的空间相关矩阵。非目的声音分量表示包含于第1声音信号的从目的声源12A(目的声源12A1~目的声源12A3)分别发出的目的声音的分量以外的分量。非目的声音分量通过后述分离部30J而从第1声音信号被分离(详细后述)。
另一方面,在初始状态下,在第3相关存储部30E1、第3相关存储部30E2以及第3相关存储部30E3中,表示在目的声源12A1、目的声源12A2以及目的声源12A3各自的位置发出的目的声音的空间相关矩阵的第3空间相关矩阵第3空间相关矩阵 第3空间相关矩阵分别被预先存储为初始值。
这样的第3空间相关矩阵第3空间相关矩阵 以及第3空间相关矩阵各自的初始值只要根据多个第1麦克风14(第1麦克风14A~第1麦克风14D)各自的配置和多个目的声源12A(目的声源12A1~目的声源12A3)的位置通过模拟预先求出即可。另外,关于第3空间相关矩阵第3空间相关矩阵第3空间相关矩阵的初始值,也可以预先用多个第1麦克风14(第1麦克风14A~第1麦克风14D)对多个目的声源12A(目的声源12A1~目的声源12A3)分别在各声源12的位置发出的目的声音进行采集并根据通过采集得到的目的声音信号预先导出。
具体而言,声音信号处理部30也可以从通过用桌子T上的多个第1麦克风14(第1麦克风14A~第1麦克风14D)对从目的声源12A1~目的声源12A3各自的位置发出的目的声音进行采集而得到的目的声音信号,预先导出各自的第3空间相关矩阵的初始值。
例如,设想为在目的声源12A1~目的声源12A3各自的位置配置扬声器而再生白噪声,用Na(f,n)、Nb(f,n)、Nc(f,n)表示表示用多个第1麦克风14(第1麦克风14A~第1麦克风14D)采集的声音的谱的4维矢量。在该情况下,声音信号处理部30只要使用下述式(24)~式(26)预先导出各自的第3空间相关矩阵的初始值并分别预先存储于第3相关存储部30E1~第3相关存储部30E3即可。
【公式17】
接下来,说明与目的声源12A1对应的加法部30K1、系数导出部30G1、生成部30H1以及逆变换部30I1。
加法部30K1是与目的声源12A1对应的加法部30K。加法部30K1将对应的目的声源12A1以外的目的声源12A(目的声源12A2、目的声源12A3)的第3空间相关矩阵(第3空间相关矩阵第3空间相关矩阵)和第4空间相关矩阵相加,输出到系数导出部30G。具体而言,加法部30K1通过下述式(27)导出空间相关矩阵之和,输出到系数导出部30G1。
【公式18】
ΦSS(f,n)=ΦXXb(f,n)+ΦXXc(f,n)+ΦNN(f,n)…式(27)
系数导出部30G1是与目的声源12A1对应的系数导出部30G。系数导出部30G1导出用于强调包含于第1声音信号的对应的目的声源12A1的目的声音信号的空间滤波器系数Fa(f,n)。详细而言,系数导出部30G1根据第3空间相关矩阵以及第4空间相关矩阵导出空间滤波器系数Fa(f,n)。
然后,系数导出部30G1将该固有矢量FSNR(f,n)导出为与目的声源12A对应的空间滤波器系数Fa(f,n)(Fa(f,n)=FSNR(f,n))。此外,系数导出部30G1也可以与第1实施方式同样地追加后置滤波器w(f,n)而导出空间滤波器系数Fa(f,n)。
生成部30H1是与目的声源12A1对应的生成部30H。生成部30H1使用由系数导出部30G1导出的空间滤波器系数Fa(f,n),生成强调了通过频谱X(f,n)表示的第1声音信号中包含的、目的声源12A1的目的声音信号的强调声音信号。
详细而言,生成部30H1使用下述式(28)生成通过输出谱Ya(f,n)表示的强调声音信号。通过输出谱Ya(f,n)表示的强调声音信号是强调了第1声音信号中的目的声源12A的目的声音信号的声音信号。
【公式19】
即,生成部30H1将频谱X(f,n)与对空间滤波器系数Fa(f,n)进行厄米特转置而得到的转置矩阵之积生成为表示强调声音信号的输出谱Ya(f,n)。
生成部30H1将通过输出谱Ya(f,n)表示的强调声音信号输出到逆变换部30I1以及检测部30C。即,生成部30H1将目的声源12A的目的声音信号被强调的强调声音信号输出到逆变换部30I1以及检测部30C。
逆变换部30I1是与目的声源12A1对应的逆变换部30I。逆变换部30I与第1实施方式的逆变换部20I同样地使用表示强调信号的输出谱Ya(f,n)的对称性,根据输出谱Ya(f,n)生成256点的谱,进行逆傅里叶变换。接下来,逆变换部30I1只要通过应用合成窗函数与前帧的输出波形偏移帧移量而重叠来生成声音波形即可。然后,逆变换部30I1将通过生成的声音波形表示的目的声源12A的强调声音信号输出到输出部22。
接下来,说明与目的声源12A2对应的加法部30K2、系数导出部30G2、生成部30H2以及逆变换部30I2。另外,说明与目的声源12A3对应的加法部30K3、系数导出部30G3、生成部30H3以及逆变换部30I3。
加法部30K2、加法部30K3、系数导出部30G2、系数导出部30G3、生成部30H2、生成部30H3、逆变换部30I2以及逆变换部30I3除了与对应的目的声源12A对应的信息不同这点以外,进行与加法部30K1、系数导出部30G1、生成部30H1以及逆变换部30I1同样的处理。
【公式20】
ΦSS(f,n)=ΦXXa(f,n)+ΦXXc(f,n)+ΦNN(f,n)…式(29)
然后,系数导出部30G2根据和通过式(29)表示的导出空间滤波器系数Fb(f,n)。因此,生成部30H2将目的声源12A2的目的声音信号被强调的强调声音信号(输出谱Yb(f,n))输出到逆变换部30I1以及检测部30C。
【公式21】
ΦSS(f,n)=ΦXXa(f,n)+ΦXXb(f,n)+ΦNN(f,n)…式(30)
然后,系数导出部30G3根据和通过式(29)表示的导出空间滤波器系数Fc(f,n)。因此,生成部30H3将目的声源12A3的目的声音信号被强调的强调声音信号(输出谱Yc(f,n))输出到逆变换部30I2以及检测部30C。
接下来,说明检测部30C。检测部30C根据强调声音信号检测目的声音区间。在本实施方式中,检测部30C使用与多个目的声源12A(目的声源12A1~目的声源12A3)分别对应的多个强调声音信号,检测从多个目的声源12A分别发出的目的声音的目的声音区间。
详细而言,检测部30C从生成部30H1接受通过输出谱Ya(f,n)表示的强调了目的声源12A1的目的声音信号的强调声音信号。另外,检测部30C从生成部30H2接受通过输出谱Yb(f,n)表示的强调了目的声源12A2的目的声音信号的强调声音信号。另外,检测部30C从生成部30H3接受通过输出谱Yc(f,n)表示的强调了目的声源12A3的目的声音信号的强调声音信号。
然后,检测部30C根据这些强调声音信号(输出谱Ya(f,n)、输出谱Yb(f,n)、输出谱Yc(f,n)),检测目的声源12A1~目的声源12A3各自的目的声音区间。
与第1实施方式同样地,目的声音区间通过针对每个帧编号表示目的声源12A是否发出声音的函数u(n)来表示。在本实施方式中,用函数ua(n)、函数ub(n)、函数uc(n)表示目的声源12A1~目的声源12A3各自的目的声音的目的声音区间。此外,这些函数在表示值“1”的情况下,表示在第n帧中目的声源12A发出了声音。另外,在表示值“0”的情况下,表示在第n帧中目的声源12A未发出声音。
检测部30C通过使用这些函数ua(n)、函数ub(n)、函数uc(n)进行通过下述式(31)~式(33)表示的阈值处理,检测各个目的声源12A的目的声音的目的声音区间。
【公式22】
在上述式(31)~式(33)中,t是表示目的声音和非目的声音的边界的功率的阈值。另外,在式(31)~式(33)中,分别用下述式(34)~式(36)表示Pa、Pb、Pc。
【公式23】
检测部30C将多个目的声源12A(目的声源12A1~目的声源12A3)各自的目的声音的目的声音区间的检测结果输出到相关导出部30D。
接下来,说明分离部30J。分离部30J将第1声音信号分离为目的声音分量和非目的声音分量。
分离部30J从变换部30B接受表示第1声音信号的频谱X(f,n)。如上所述,在本实施方式中,表示第1声音信号的频谱X(f,n)用上述式(23)表示。另外,在本实施方式中,频谱X(f,n)通过集中了表示从4个第1麦克风14A(第1麦克风14A1~第1麦克风14D)分别接受的4个第3声音信号的各个声音信号的频谱的4维矢量表示。
分离部30J将通过频谱X(f,n)表示的第1声音信号分离为目的声音分量S(f,n)和非目的声音分量N(f,n)。目的声音分量S(f,n)通过下述式(37)表示。非目的声音分量Ni(f,n)通过下述式(38)表示。
【公式24】
S(f,n)=[S1(f,n),S2(f,n),S3(f,n),S4(f,n)]…式(37)
N(f,n)=[N1(f,n),N2(f,n),N3(f,n),N4(f,n)]…式(38)
然后,分离部30J使用公知的声音区间检测技术,针对所有频率f,在第n帧是目的声音区间的情况下,计算S(f,n)=X(f,n)、N(f,n)=[0,0,0,0]。另外,分离部30J针对所有频率f,在第n帧是非目的声音区间的情况下,设为S(f,n)=[0,0,0,0]、N(f,n)=X(f,n)即可。
然后,分离部30J将从第1声音信号分离的目的声音分量S(f,n)和非目的声音分量N(f,n)输出到相关导出部30D。
相关导出部30D根据目的声音区间、目的声音分量以及非目的声音分量,导出第1声音信号中的目的声音分量的第3空间相关矩阵和第1声音信号中的非目的声音分量的第4空间相关矩阵。
详细而言,相关导出部30D从分离部30J接受目的声音分量S(f,n)以及非目的声音分量N(f,n)。另外,相关导出部30D从检测部30C接受函数ua(n)、函数ub(n)、函数uc(n)作为表示目的声音区间的函数。
然后,相关导出部30D根据目的声音分量S(f,n)、非目的声音分量N(f,n)、函数ua(n)、函数ub(n)、函数uc(n),导出第3空间相关矩阵第3空间相关矩阵第3空间相关矩阵以及第4空间相关矩阵然后,相关导出部30D通过将导出的第3空间相关矩阵第3空间相关矩阵第3空间相关矩阵以及第4空间相关矩阵分别存储到第3相关存储部30E1、第3相关存储部30E2、第3相关存储部30E3以及第4相关存储部30F,更新这些空间相关矩阵。
【公式25】
ΦXXa(f,n)=αΦXXa(f,n-1)+(1-α)SH(f,n)S(f,n)…式(39)
ΦXXb(f,n)=αΦXXb(f,n-1)+(1-α)SH(f,n)S(f,n)…式(40)
ΦXXc(f,n)=αΦXXc(f,n-1)+(1-α)SH(f,n)S(f,n)…式(41)
ΦNN(f,n)=αΦNN(f,n-1)+(1-α)NH(f,n)N(f,n)…式(42)
在式(39)~式(42)中,α是0以上且小于1的值。α的值越是接近1的值,则表示过去导出的空间相关矩阵的权重越比最新的空间相关矩阵大。只要将α的值预先设定即可。只要将α例如设为0.95等即可。
即,相关导出部30D通过由与对目的声音分量S(f,n)进行厄米特转置而得到的转置分量的乘法运算值表示的最新的第3空间相关矩阵来校正过去导出的第3空间相关矩阵,从而导出新的第3空间相关矩阵。
此外,相关导出部30D只要将已存储于第3相关存储部30E(第3相关存储部30E1~第3相关存储部30E3)的第3空间相关矩阵 第3空间相关矩阵第3空间相关矩阵 用作过去导出的第3空间相关矩阵即可。另外,在这些第3相关存储部30E中,分别仅存储1个第3空间相关矩阵,依次通过相关导出部30D来更新。
另外,相关导出部30D通过由非目的声音分量N(f,n)和对非目的声音分量N(f,n)进行厄米特转置而得到的转置分量的乘法运算值表示的最新的第4空间相关矩阵来校正过去导出的第4空间相关矩阵从而导出新的第4空间相关矩阵
此外,相关导出部30D只要将已存储于第4相关存储部30F的第4空间相关矩阵用作过去导出的第4空间相关矩阵 即可。另外,在第4相关存储部30F中,仅存储1个第4空间相关矩阵依次通过相关导出部30D来更新。
接下来,说明本实施方式的声音信号处理装置11执行的声音信号处理的步骤。
图6是示出本实施方式的声音信号处理装置11执行的声音信号处理的步骤的一个例子的流程图。
变换部30B对经由AD变换部18从多个第1麦克风14接受的第3信号进行短时傅里叶变换,取得通过频谱X(f,n)表示的第1声音信号(步骤S200)。变换部30B将取得的第1声音信号输出到分离部30J以及生成部30H(生成部30H1~生成部30H3)的各个(步骤S202)。
接下来,分离部30J将第1声音信号分离为目的声音分量Si(f,n)和非目的声音分量Ni(f,n)(步骤S204)。然后,分离部30J将目的声音分量Si(f,n)和非目的声音分量Ni(f,n)输出到相关导出部30D。
接下来,在声音信号处理部30中,与目的声源12A1~目的声源12A3分别对应的加法部30K、系数导出部30G、生成部30H以及逆变换部30I1执行步骤S206~步骤S212的处理。此外,步骤S206~步骤S212的处理在与多个目的声源12A(目的声源12A1~目的声源12A3)分别对应的功能之间并行地执行。
接下来,生成部30H使用在步骤S210中导出的空间滤波器系数,生成强调了包含于第1声音信号的对应的目的声源12A的目的声音信号的强调声音信号(步骤S212)。
然后,逆变换部30I1将在步骤S212中生成的强调声音信号输出到输出部22(步骤S214)。
通过与目的声源12A1~目的声源12A3各自对应的加法部30K、系数导出部30G、生成部30H以及逆变换部30I1执行步骤S206~步骤S212的处理,将强调了从目的声源12A1发出的目的声音信号的强调声音信号、强调了从目的声源12A2发出的目的声音信号的强调声音信号以及强调了从目的声源12A3发出的目的声音信号的强调声音信号输出到检测部30C以及逆变换部30I。
因此,输出从逆变换部30I1~逆变换部30I3分别接受的强调声音信号的输出部22能够输出分别强调了多个目的声源12A各自的目的声音的多个强调声音信号。
接下来,检测部30C使用从生成部30H(生成部30H1~生成部30H3)接受的多个强调声音信号,检测多个目的声源12A各自的目的声音的目的声音区间(步骤S216)。
接下来,相关导出部30D根据在步骤S204中分离出的目的声音分量S(f,n)以及非目的声音分量N(f,n)和表示多个目的声源12A各自的目的声音的目的声音区间的函数(ua(n),ub(n),uc(n)),导出与多个目的声源12A分别对应的第3空间相关矩阵(第3空间相关矩阵第3空间相关矩阵第3空间相关矩阵)以及第4空间相关矩阵(步骤PS218)。
然后,相关导出部30D通过将导出的第3空间相关矩阵 第3空间相关矩阵第3空间相关矩阵以及第4空间相关矩阵分别存储到第3相关存储部30E1、第3相关存储部30E2、第3相关存储部30E3以及第4相关存储部30F,更新这些空间相关矩阵(步骤S220)。
接下来,声音信号处理部30判断是否结束声音信号处理(步骤S222)。在步骤S222中判断为否定时(步骤S222:“否”),返回到上述步骤S200。另一方面,在步骤S222中判断为肯定时(步骤S222:“是”),结束本流程。
如以上说明,在本实施方式的声音信号处理装置11中,分离部30J将第1声音信号分离为目的声音分量和非目的声音分量。检测部30C根据强调声音信号检测目的声音区间。相关导出部30D根据目的声音区间、目的声音分量以及非目的声音分量,导出第1声音信号中的目的声音分量的第3空间相关矩阵和第1声音信号中的非目的声音分量的第4空间相关矩阵。然后,系数导出部30G根据第3空间相关矩阵以及第4空间相关矩阵,导出空间滤波器系数。
这样,在本实施方式的声音信号处理装置11中,不使用从第2麦克风16取得的第2声音信号,而使用从第1麦克风14取得的第1声音信号来导出空间滤波器系数。因此,在本实施方式中,无需准备用于对目的声源12A以外的非目的声源12B的声音进行采集的第2麦克风16而能够高精度地强调从目的声源12A发出的目的声音信号。
另外,在本实施方式的声音信号处理装置11中,能够将多个目的声源12A各自的目的声音的目的声音信号分离并强调。
另外,在本实施方式的声音信号处理装置11中,相关导出部30D依次更新第3空间相关矩阵以及第4空间相关矩阵。因此,即使在第3相关存储部30E中作为初始值存储的第3空间相关矩阵设想的、目的声源12A和第1麦克风14的位置关系发生偏差的情况下,也会被更新为渐渐收敛于与实际的位置关系对应的空间相关矩阵。
因此,本实施方式的声音信号处理装置11能够有效地强调从目的声源12A发出的目的声音信号,抑制非目的声音信号。
另外,本实施方式的声音信号处理装置11将第1声音信号分离为目的声音分量和非目的声音分量而用于空间相关矩阵的导出。因此,声音信号处理装置11能够生成有效地抑制了噪声等非目的声音的强调声音信号。因此,声音信号处理装置11能够提供高精度的强调声音信号。
<变形例2>
此外,分离部30J也可以使用与上述第2实施方式所示的方法不同的方法将第1声音信号分离为目的声音分量和非目的声音分量。
例如,分离部30J也可以针对每个频点判定是目的声音还是非目的声音,使用判定结果将第1声音信号分离为目的声音分量和非目的声音分量。
例如,分离部30J使用神经网络将第1声音信号分离为目的声音分量和非目的声音分量。
在该情况下,分离部30J使用神经网络针对每个帧以及频点推测表示值“0”或者值“1”的声音掩模MS(f,n)以及非声音掩模MN(f,n)。然后,分离部30J使用下述式(43)以及式(44)导出目的声音分量Si(f,n)以及非目的声音分量Ni(f,n)。
【公式26】
Si(f,n)=MS(f,n)Xi(f,n)(i=1,2,3,4)…式(43)
Ni(f,n)=MN(f,n)Xi(f,n)(i=1,2,3,4)…式(44)
在分离部30J中,作为神经网络的输入,使用1频道的频谱Xi(f,n)。然后,分离部30J针对各频道的输入,推测声音掩模MS(f,n)以及非声音掩模MN(f,n)。
然后,分离部30J只要使用所有频道的推测结果的少数服从多数的决定等来推测频道共同的声音掩模MS(f,n)以及非声音掩模MN(f,n)即可。
分离部30J只要通过使用不包含噪声的干净的目的声音信号和不包含目的声音的非目的声音信号的模拟来预先生成神经网络的学习数据即可。
用St(f,n)表示干净的目的声音信号的谱,用Nt(f,n)表示不包含目的声音的非目的声音信号的谱。于是,重叠有噪声等非目的声音的声音的谱Xt(f,n)和声音掩模的正确数据MtS(f,n)以及非声音掩模的正确数据MtN(f,n)通过下述式(45)~式(47)导出。
【公式27】
Xt(f,n)=St(f,n)+Nt(f,n)…式(45)
在式(46)以及式(47)中,tS以及tN表示目的声音和非目的声音的功率比的阈值。
作为输入特征量,使用用下述式(48)表示的矢量v(n)。
【公式28】
通过式(48)表示的矢量v(n)是将该帧和紧前面的帧的谱的绝对值的对数连结而得到的516维矢量。另外,在声音掩模MS(f,n)以及非声音掩模MN(f,n)的推测中,能够作为从表示输入特征量的矢量v(n)推测表示正确数据的258维矢量c(n)的问题而定型化为下述式(49)。
【公式29】
c(n)=[c1(n),c2(n),…,c258(n)]=[MtS(0,n),…,MtS(128,n),MtN(0,n),…,MtN(128,n)]…式(49)
因此,能够用下述式(50)~式(54)定义神经网络的模型的结构。
【公式30】
输入层:h1(n)=sigmoid(Wiv(n)T)…式(50)
中间层1:h2(n)=sigmoid(W1h1(n))…式(51)
中间层2:h3(n)=sigmoid(W2h2(n))…式(52)
中间层3:h4(n)=sigmoid(W3h3(n))…式(53)
输出层:m(n)=[m1(n),m2(n),…,m258(n)]T=sigmoid(Woh4(n))…式(54)
在此,将中间层的节点数设想为200。于是,矩阵Wi的尺寸成为200×516,矩阵Wo的尺寸成为258×200。因此,矩阵W1、矩阵W2以及矩阵W3的尺寸都成为200×200。
在此,用使用下述式(55)表示的交叉熵定义目的函数L。
【公式31】
另外,分离部30J通过学习导出使目的函数L最大化的参数列Wi、Wo、W1、W2、W3。作为学习的方法,只要使用概率性的梯度下降法等公知的方法即可。
另外,分离部30J使用通过上述方法生成的模型推测出的上述式(55)中的mi(n)、(i=1,····,258)为0至1之间的连续值。因此,例如分离部30J例如将“0.5”作为阈值,如果是该阈值以上则二值化为值“1”、如果小于该阈值则二值化为“0”,从而针对每个帧以及每个频点,推测声音掩模MS(f,n)以及非声音掩模MN(f,n)。然后,分离部30J只要使用上述式(43)以及上述式(44)导出目的声音分量Si(f,n)以及非目的声音分量Ni(f,n)即可。
此外,在上述变形例1以及上述变形例2中,以神经网络的构成要素是具有3层的中间层的全结合网络的情况为一个例子进行了说明。但是,神经网络的构成要素不限于此。
例如,在能够充分地准备学习数据的情况下,也可以通过进一步增加中间层的层数、节点数来实现精度提高。另外,也可以使用偏置项。另外,作为活性化函数,除了sigmoid以外,还能够使用relu、tanh等各种函数。另外,除了全结合层以外,还能够利用卷积神经网络、回归神经网络等各种结构。另外,作为输入到神经网络的特征量,说明为使用FFT功率谱,但除此以外还能够使用梅尔滤波器组、梅尔倒谱等各种特征量、它们的组合。
(第3实施方式)
此外,声音信号处理装置10以及声音信号处理装置11也可以构成为代替声音信号处理***2而具备识别部。
图7是示出本实施方式的声音信号处理***3的一个例子的示意图。
声音信号处理***3具备声音信号处理装置13和多个第1麦克风14。声音信号处理装置13和多个第1麦克风14可交换数据、信号地连接。即,声音信号处理***3代替声音信号处理装置10而具备声音信号处理装置13。
声音信号处理装置13具备AD变换部18、声音信号处理部20以及识别部24。AD变换部18以及声音信号处理部20与第1实施方式相同。即,声音信号处理装置13除了代替输出部22而具备识别部24这点以外与声音信号处理装置10相同。
识别部24识别从声音信号处理部20接受的强调声音信号。
具体而言,识别部24是解析强调声音信号的装置。识别部24例如用公知的解析方法识别通过输出谱Y(f,n)表示的强调声音信号,输出识别结果。该输出可以是文本数据,也可以是如识别出的单词ID的符号化的信息。作为识别部24,只要使用公知的识别装置即可。
(应用范围)
在上述实施方式以及变形例中说明的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13能够应用于强调目的声音信号的各种装置、***。
详细而言,声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13能够应用于在1个或者多个说话者输出声音的环境中对声音进行采集而处理的各种***、装置。
例如,声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13能够应用于会议***、授课***、客人接待应对***、智能扬声器、车载***等。
会议***是对用在1个或者多个说话者说话的空间内配置的麦克风采集的声音进行处理的***。授课***是对用在授课者以及听课者的至少一方说话的空间内配置的麦克风采集的声音进行处理的***。客人接待应对***是对用在店员和顾客以对话形式说话的空间内配置的麦克风采集的声音进行处理的***。智能扬声器是能够利用与对话型的声音操作对应的AI(Artificial Intelligence,人工智能)助手的扬声器。车载***是对在车辆内乘员发出的声音进行采集而处理并将处理结果用于车辆的驱动控制等的***。
接下来,说明上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13的硬件结构。
图8是示出上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13的硬件结构例的说明图。
上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13具备CPU(Central Processing Unit,中央处理单元)51等控制装置、ROM(Read Only Memory,只读存储器)52、RAM(Random Access Memory,随机存取存储器)53等存储装置、与网络连接而进行通信的通信I/F54以及连接各部分的总线61。
将由上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13执行的程序预先嵌入到ROM52等而提供。
由上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13执行的程序也可以构成为以可安装的形式或者可执行的形式的文件记录到CD-ROM(Compact Disk Read Only Memory,光盘只读存储器)、软盘(FD)、CD-R(Compact Disk Recordable,可记录光盘)、DVD(Digital Versatile Disk,数字多功能光盘)等可由计算机读取的记录介质而作为计算机程序产品提供。
进而,也可以构成为将由上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13执行的程序储存到与因特网等网络连接的计算机上并经由网络下载来提供。另外,也可以构成为经由因特网等网络提供或者分发由上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13执行的程序。
由上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13执行的程序能够使计算机作为上述实施方式以及变形例的声音信号处理装置10、声音信号处理装置11以及声音信号处理装置13的各部分发挥功能。在该计算机中,CPU51能够从计算机可读取的存储介质将程序读出到主存储装置上而执行。
虽然说明了本发明的几个实施方式以及变形例,但这些实施方式以及变形例仅提示为例示,未意图限定发明的范围。这些新的实施方式以及变形例能够以其他各种方式实施,能够在不脱离发明的要旨的范围内进行各种省略、置换、变更。这些实施方式、其变形包含于发明的范围、要旨,并且包含于权利要求书记载的发明和其均等的范围。
此外,上述实施方式能够总结为以下的技术方案。
技术方案1
一种声音信号处理装置,具备系数导出部,该系数导出部根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数。
技术方案2
根据技术方案1记载的声音信号处理装置,
所述系数导出部根据强调了在从多个麦克风取得的所述第1声音信号中包含的所述目的声音信号的所述强调声音信号,导出所述空间滤波器系数。
技术方案3
根据技术方案1或者技术方案2记载的声音信号处理装置,具备:
检测部,根据所述强调声音信号,检测目的声音区间;以及
相关导出部,根据所述目的声音区间和所述第1声音信号,导出所述第1声音信号中的所述目的声音区间的第1空间相关矩阵和所述第1声音信号中的所述目的声音区间以外的非目的声音区间的第2空间相关矩阵,
所述系数导出部根据所述第1空间相关矩阵以及所述第2空间相关矩阵,导出所述空间滤波器系数。
技术方案4
根据技术方案3记载的声音信号处理装置,
所述检测部根据所述非目的声音信号相对目的声音信号的功率之比大于所述第1声音信号的第2声音信号和所述强调声音信号,检测所述目的声音区间。
技术方案5
根据技术方案3或者技术方案4记载的声音信号处理装置,
所述检测部根据所述强调声音信号,检测所述目的声音区间和所述目的声音与所述非目的声音重复的重复区间,
所述相关导出部根据所述目的声音区间、所述重复区间以及所述第1声音信号,导出所述第1空间相关矩阵和所述第2空间相关矩阵。
技术方案6
根据技术方案3~技术方案5中的任意一项所述的声音信号处理装置,
所述相关导出部关于所述目的声音区间的所述第1声音信号,通过由该第1声音信号与对该第1声音信号进行厄米特转置而得到的转置信号的乘法运算值表示的最新的所述第1空间相关矩阵,校正过去导出的所述第1空间相关矩阵,从而导出新的所述第1空间相关矩阵,
所述相关导出部关于所述非目的声音区间的所述第1声音信号,通过由该第1声音信号与对该第1声音信号进行厄米特转置而得到的转置信号的乘法运算值表示的最新的所述第2空间相关矩阵,校正过去导出的所述第2空间相关矩阵,从而导出新的所述第2空间相关矩阵。
技术方案7
根据技术方案5或者技术方案6记载的声音信号处理装置,
所述系数导出部将所述第1空间相关矩阵和所述第2空间相关矩阵的逆矩阵之积的与最大固有值对应的固有矢量导出为所述空间滤波器系数。
技术方案8
根据技术方案1或者技术方案2记载的声音信号处理装置,具备:
检测部,根据所述强调声音信号,检测目的声音区间;以及
分离部,将所述第1声音信号分离为目的声音分量和非目的声音分量;以及
相关导出部,根据所述目的声音区间、所述目的声音分量及所述非目的声音分量,导出所述第1声音信号中的所述目的声音分量的第3空间相关矩阵和所述第1声音信号中的所述非目的声音分量的第4空间相关矩阵,
所述系数导出部根据所述第3空间相关矩阵以及所述第4空间相关矩阵,导出所述空间滤波器系数。
技术方案9
根据技术方案8记载的声音信号处理装置,
所述相关导出部通过由所述目的声音分量与对所述目的声音分量进行厄米特转置而得到的转置分量的乘法运算值表示的最新的所述第3空间相关矩阵,校正过去导出的所述第3空间相关矩阵,从而导出新的所述第3空间相关矩阵,
所述相关导出部通过由所述非目的声音分量与对所述非目的声音分量进行厄米特转置而得到的转置分量的乘法运算值表示的最新的所述第4空间相关矩阵,校正过去导出的所述第4空间相关矩阵,从而导出新的所述第4空间相关矩阵。
技术方案10
根据技术方案9记载的声音信号处理装置,
所述系数导出部将所述第3空间相关矩阵和所述第4空间相关矩阵的逆矩阵之积的与最大固有值对应的固有矢量导出为所述空间滤波器系数。
技术方案11
一种声音信号处理方法,包括如下步骤:根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数。
技术方案12
一种声音信号处理装置,具备:
系数导出部,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数;
生成部,使用所述空间滤波器系数,生成强调了包含于所述第1声音信号的目的声音的所述强调声音信号;以及
识别部,识别所述强调声音信号。
Claims (12)
1.一种声音信号处理装置,具备:
系数导出部,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数,所述第1声音信号是通过用于至少对从目的声源发出的目的声音进行采集的第1麦克风采集得到的;
检测部,根据所述强调声音信号,检测目的声音区间;以及
相关导出部,根据所述目的声音区间和所述第1声音信号,导出所述第1声音信号中的所述目的声音区间的第1空间相关矩阵和所述第1声音信号中的所述目的声音区间以外的非目的声音区间的第2空间相关矩阵,
所述系数导出部根据所述第1空间相关矩阵以及所述第2空间相关矩阵,导出所述空间滤波器系数,
所述检测部根据非目的声音信号相对所述目的声音信号的功率之比大于所述第1声音信号的第2声音信号和所述强调声音信号,检测所述目的声音区间,所述第2声音信号是通过用于至少对从非目的声源发出的非目的声音进行采集的第2麦克风采集得到的。
2.根据权利要求1所述的声音信号处理装置,其中,
所述系数导出部根据强调了在从多个麦克风取得的所述第1声音信号中包含的所述目的声音信号的所述强调声音信号,导出所述空间滤波器系数。
3.根据权利要求1所述的声音信号处理装置,其中,
所述检测部根据所述强调声音信号,检测所述目的声音区间和重复区间,所述重复区间是从所述目的声源和所述非目的声源这双方发出声音的区间,
所述相关导出部根据所述目的声音区间、所述重复区间以及所述第1声音信号,导出所述第1空间相关矩阵和所述第2空间相关矩阵。
4.根据权利要求1所述的声音信号处理装置,其中,
所述相关导出部关于所述目的声音区间的所述第1声音信号,通过由该第1声音信号与对该第1声音信号进行厄米特转置而得到的转置信号的乘法运算值表示的最新的所述第1空间相关矩阵,校正过去导出的所述第1空间相关矩阵,从而导出新的所述第1空间相关矩阵,
所述相关导出部关于所述非目的声音区间的所述第1声音信号,通过由该第1声音信号与对该第1声音信号进行厄米特转置而得到的转置信号的乘法运算值表示的最新的所述第2空间相关矩阵,校正过去导出的所述第2空间相关矩阵,从而导出新的所述第2空间相关矩阵。
5.根据权利要求3所述的声音信号处理装置,其中,
所述系数导出部将所述第1空间相关矩阵和所述第2空间相关矩阵的逆矩阵之积的与最大固有值对应的固有矢量导出为所述空间滤波器系数。
6.一种声音信号处理装置,其中,具备:
系数导出部,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数,所述第1声音信号是通过用于至少对从目的声源发出的目的声音进行采集的第1麦克风采集得到的;
检测部,根据所述强调声音信号,检测目的声音区间;以及
分离部,将所述第1声音信号分离为目的声音分量和非目的声音分量;以及
相关导出部,根据所述目的声音区间、所述目的声音分量及所述非目的声音分量,导出所述第1声音信号中的所述目的声音分量的第3空间相关矩阵和所述第1声音信号中的所述非目的声音分量的第4空间相关矩阵,
所述系数导出部根据所述第3空间相关矩阵以及所述第4空间相关矩阵,导出所述空间滤波器系数。
7.根据权利要求6所述的声音信号处理装置,其中,
所述相关导出部通过由所述目的声音分量与对所述目的声音分量进行厄米特转置而得到的转置分量的乘法运算值表示的最新的所述第3空间相关矩阵,校正过去导出的所述第3空间相关矩阵,从而导出新的所述第3空间相关矩阵,
所述相关导出部通过由所述非目的声音分量与对所述非目的声音分量进行厄米特转置而得到的转置分量的乘法运算值表示的最新的所述第4空间相关矩阵,校正过去导出的所述第4空间相关矩阵,从而导出新的所述第4空间相关矩阵。
8.根据权利要求7所述的声音信号处理装置,其中,
所述系数导出部将所述第3空间相关矩阵和所述第4空间相关矩阵的逆矩阵之积的与最大固有值对应的固有矢量导出为所述空间滤波器系数。
9.一种声音信号处理方法,包括如下步骤:
系数导出步骤,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数,所述第1声音信号是通过用于至少对从目的声源发出的目的声音进行采集的第1麦克风采集得到的;
检测步骤,根据所述强调声音信号,检测目的声音区间;以及
相关导出步骤,根据所述目的声音区间和所述第1声音信号,导出所述第1声音信号中的所述目的声音区间的第1空间相关矩阵和所述第1声音信号中的所述目的声音区间以外的非目的声音区间的第2空间相关矩阵,
在所述系数导出步骤中,根据所述第1空间相关矩阵以及所述第2空间相关矩阵,导出所述空间滤波器系数,
在所述检测步骤中,根据非目的声音信号相对所述目的声音信号的功率之比大于所述第1声音信号的第2声音信号和所述强调声音信号,检测所述目的声音区间,所述第2声音信号是通过用于至少对从非目的声源发出的非目的声音进行采集的第2麦克风采集得到的。
10.一种声音信号处理装置,具备:
系数导出部,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数,所述第1声音信号是通过用于至少对从目的声源发出的目的声音进行采集的第1麦克风采集得到的;
生成部,使用所述空间滤波器系数,生成强调了包含于所述第1声音信号的目的声音的所述强调声音信号;
识别部,识别所述强调声音信号;
检测部,根据所述强调声音信号,检测目的声音区间;以及
相关导出部,根据所述目的声音区间和所述第1声音信号,导出所述第1声音信号中的所述目的声音区间的第1空间相关矩阵和所述第1声音信号中的所述目的声音区间以外的非目的声音区间的第2空间相关矩阵,
所述系数导出部根据所述第1空间相关矩阵以及所述第2空间相关矩阵,导出所述空间滤波器系数,
所述检测部根据非目的声音信号相对所述目的声音信号的功率之比大于所述第1声音信号的第2声音信号和所述强调声音信号,检测所述目的声音区间,所述第2声音信号是通过用于至少对从非目的声源发出的非目的声音进行采集的第2麦克风采集得到的。
11.一种声音信号处理方法,其中,具备:
系数导出步骤,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数,所述第1声音信号是通过用于至少对从目的声源发出的目的声音进行采集的第1麦克风采集得到的;
检测步骤,根据所述强调声音信号,检测目的声音区间;以及
分离步骤,将所述第1声音信号分离为目的声音分量和非目的声音分量;以及
相关导出步骤,根据所述目的声音区间、所述目的声音分量及所述非目的声音分量,导出所述第1声音信号中的所述目的声音分量的第3空间相关矩阵和所述第1声音信号中的所述非目的声音分量的第4空间相关矩阵,
在所述系数导出步骤中,根据所述第3空间相关矩阵以及所述第4空间相关矩阵,导出所述空间滤波器系数。
12.一种声音信号处理装置,具备:
系数导出部,根据强调了目的声音信号的强调声音信号,导出用于强调包含于第1声音信号的所述目的声音信号的空间滤波器系数,所述第1声音信号是通过用于至少对从目的声源发出的目的声音进行采集的第1麦克风采集得到的;
生成部,使用所述空间滤波器系数,生成强调了包含于所述第1声音信号的目的声音的所述强调声音信号;
识别部,识别所述强调声音信号;
检测部,根据所述强调声音信号,检测目的声音区间;
分离部,将所述第1声音信号分离为目的声音分量和非目的声音分量;以及
相关导出部,根据所述目的声音区间、所述目的声音分量及所述非目的声音分量,导出所述第1声音信号中的所述目的声音分量的第3空间相关矩阵和所述第1声音信号中的所述非目的声音分量的第4空间相关矩阵,
所述系数导出部根据所述第3空间相关矩阵以及所述第4空间相关矩阵,导出所述空间滤波器系数。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018-125779 | 2018-07-02 | ||
JP2018125779A JP6961545B2 (ja) | 2018-07-02 | 2018-07-02 | 音信号処理装置、音信号処理方法、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110675890A CN110675890A (zh) | 2020-01-10 |
CN110675890B true CN110675890B (zh) | 2023-03-14 |
Family
ID=69065594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910070357.XA Active CN110675890B (zh) | 2018-07-02 | 2019-01-25 | 声音信号处理装置以及声音信号处理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6961545B2 (zh) |
CN (1) | CN110675890B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11798533B2 (en) * | 2021-04-02 | 2023-10-24 | Google Llc | Context aware beamforming of audio data |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091912A (ja) * | 2008-10-10 | 2010-04-22 | Equos Research Co Ltd | 音声強調システム |
CN102610227A (zh) * | 2011-01-18 | 2012-07-25 | 索尼公司 | 声音信号处理设备、声音信号处理方法和程序 |
CN102750952A (zh) * | 2011-04-18 | 2012-10-24 | 索尼公司 | 声音信号处理装置、方法和程序 |
JP2012215606A (ja) * | 2011-03-31 | 2012-11-08 | Oki Electric Ind Co Ltd | 音源分離装置、プログラム及び方法 |
JP2017090853A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4849404B2 (ja) * | 2006-11-27 | 2012-01-11 | 株式会社メガチップス | 信号処理装置、信号処理方法およびプログラム |
JP4891801B2 (ja) * | 2007-02-20 | 2012-03-07 | 日本電信電話株式会社 | 多信号強調装置、方法、プログラム及びその記録媒体 |
JP5044581B2 (ja) * | 2009-02-03 | 2012-10-10 | 日本電信電話株式会社 | 複数信号強調装置とその方法と、プログラム |
JP5815489B2 (ja) * | 2012-08-28 | 2015-11-17 | 日本電信電話株式会社 | 音源別音声強調装置、方法、プログラム |
JP6201949B2 (ja) * | 2014-10-08 | 2017-09-27 | 株式会社Jvcケンウッド | エコーキャンセル装置、エコーキャンセルプログラム及びエコーキャンセル方法 |
WO2017108097A1 (en) * | 2015-12-22 | 2017-06-29 | Huawei Technologies Duesseldorf Gmbh | Localization algorithm for sound sources with known statistics |
-
2018
- 2018-07-02 JP JP2018125779A patent/JP6961545B2/ja active Active
-
2019
- 2019-01-25 CN CN201910070357.XA patent/CN110675890B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010091912A (ja) * | 2008-10-10 | 2010-04-22 | Equos Research Co Ltd | 音声強調システム |
CN102610227A (zh) * | 2011-01-18 | 2012-07-25 | 索尼公司 | 声音信号处理设备、声音信号处理方法和程序 |
JP2012215606A (ja) * | 2011-03-31 | 2012-11-08 | Oki Electric Ind Co Ltd | 音源分離装置、プログラム及び方法 |
CN102750952A (zh) * | 2011-04-18 | 2012-10-24 | 索尼公司 | 声音信号处理装置、方法和程序 |
JP2017090853A (ja) * | 2015-11-17 | 2017-05-25 | 株式会社東芝 | 情報処理装置、情報処理方法およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN110675890A (zh) | 2020-01-10 |
JP6961545B2 (ja) | 2021-11-05 |
JP2020003751A (ja) | 2020-01-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112447191B (zh) | 信号处理装置以及信号处理方法 | |
EP3707716B1 (en) | Multi-channel speech separation | |
US9881631B2 (en) | Method for enhancing audio signal using phase information | |
Zmolikova et al. | Neural target speech extraction: An overview | |
JP6261043B2 (ja) | 音声処理装置、音声処理方法、及び音声処理プログラム | |
JP5649488B2 (ja) | 音声判別装置、音声判別方法および音声判別プログラム | |
KR101720514B1 (ko) | Dcica를 이용한 dnn 기반 특징향상을 수행하는 음성인식장치 및 방법 | |
JP6501259B2 (ja) | 音声処理装置及び音声処理方法 | |
JP6543848B2 (ja) | 音声処理装置、音声処理方法及びプログラム | |
Ito et al. | Probabilistic spatial dictionary based online adaptive beamforming for meeting recognition in noisy and reverberant environments | |
CN112331218B (zh) | 一种针对多说话人的单通道语音分离方法和装置 | |
Tóth et al. | A perceptually inspired data augmentation method for noise robust cnn acoustic models | |
WO2019171457A1 (ja) | 音源分離装置、音源分離方法およびプログラムが格納された非一時的なコンピュータ可読媒体 | |
Xiong et al. | Blind estimation of reverberation time based on spectro-temporal modulation filtering | |
CN110675890B (zh) | 声音信号处理装置以及声音信号处理方法 | |
Salvati et al. | End-to-End Speaker Identification in Noisy and Reverberant Environments Using Raw Waveform Convolutional Neural Networks. | |
Sose et al. | Sound Source Separation Using Neural Network | |
Moritz et al. | A CHiME-3 challenge system: Long-term acoustic features for noise robust automatic speech recognition | |
KR101361034B1 (ko) | 하모닉 주파수 의존성을 이용한 독립벡터분석에 기반한 강한 음성 인식 방법 및 이를 이용한 음성 인식 시스템 | |
Zaw et al. | Speaker identification using power spectral subtraction method | |
Nakatani | Speaker-aware neural network based beamformer for speaker extraction in speech mixtures | |
Prasanna Kumar et al. | Supervised and unsupervised separation of convolutive speech mixtures using f 0 and formant frequencies | |
Yang et al. | Multi-channel speech separation using deep embedding model with multilayer bootstrap networks | |
Zhang | A study on speech signal processing for noise robust speaker and speech recognition | |
張兆峰 | A study on speech signal processing for noise robust speaker and speech recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |