JP6584930B2 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JP6584930B2
JP6584930B2 JP2015224864A JP2015224864A JP6584930B2 JP 6584930 B2 JP6584930 B2 JP 6584930B2 JP 2015224864 A JP2015224864 A JP 2015224864A JP 2015224864 A JP2015224864 A JP 2015224864A JP 6584930 B2 JP6584930 B2 JP 6584930B2
Authority
JP
Japan
Prior art keywords
input
spatial
sound source
acoustic signals
feature matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015224864A
Other languages
English (en)
Other versions
JP2017090853A (ja
Inventor
谷口 徹
徹 谷口
悠 那須
悠 那須
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2015224864A priority Critical patent/JP6584930B2/ja
Priority to US15/261,254 priority patent/US20170140771A1/en
Publication of JP2017090853A publication Critical patent/JP2017090853A/ja
Application granted granted Critical
Publication of JP6584930B2 publication Critical patent/JP6584930B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明の実施形態は、情報処理装置、情報処理方法およびプログラムに関する。
ユーザが発声した特定のキーワードを検出し、推定されたキーワード発声区間の音響信号から発声方向(発話位置)を推定することで、所望の目的音の音源方向(位置特徴の一例)を得る技術が提案されている。また、このようにして得られる音源方向に基づき、他の方向の音を抑圧して目的音を得るための空間フィルタを生成する技術が提案されている。
特表2005−529379号公報 特許第4837917号公報 特開2014−041308号公報
一般に、目的音が環境のどこから発せられるかを事前に知ることはできない。より一般的な状況であっても適切に目的音を得ることができる空間フィルタを生成する方法が求められている。
実施形態の情報処理装置は、検出部と、算出部と、生成部と、を備える。検出部は、M(2以上の整数)個の複数の音声入力部からそれぞれ入力される複数の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する。算出部は、複数の入力音響信号と区間とに基づき、目的とする第1音源および第1音源以外の第2音源を内包する空間の音響特性と、第1音源および第2音源のうち1以上と音声入力部との間の位置関係に基づく音響特性と、を含む、M×Mの空間特徴行列を算出する。生成部は、空間特徴行列に基づき、第1音源から出力された音響信号を複数の入力音響信号から取得する空間フィルタを生成する。
本実施形態の情報処理装置の機能構成例を示すブロック図。 検出されたキーワード発声区間の例を示す図。 検出された非音声区間および音声区間の例を示す図。 本実施形態における音声処理の一例を示すフローチャート。 本実施形態における音声処理の他の例を示すフローチャート。 本実施形態にかかる情報処理装置のハードウェア構成例を示す図。
以下に添付図面を参照して、この発明にかかる情報処理装置の好適な実施形態を詳細に説明する。本実施形態の情報処理装置は、上記のような空間フィルタを生成する装置である。本実施形態の情報処理装置は、例えば、空間フィルタを用いて目的音以外の雑音を除去する雑音除去装置、雑音を除去した音に基づき音声を認識する音声認識装置、および、認識した音声に基づく処理を行う音声処理装置などにも適用することができる。
まず、使用する主な用語について以下に説明する。
・音響信号:空気など、空間中の媒体を伝わる粗密波を、1つのマイクロフォンで観測し電気信号に変換した信号を示す。本実施形態では、この電気信号をAD(アナログデジタル)変換器でデジタル化して用いる。音響信号は、1次元の時系列として表現する。
・マイクアレイ:マイクロフォンを複数並べた装置であり、空間の複数点で音響信号を観測することができる。各点で観測される音響信号は、同時刻であっても、音源位置や空間の音響特性に依存して異なる。これら音響信号を適切に用いることで、空間フィルタを実現できる。
・空間フィルタ:空間の特定領域(典型的には、マイクアレイから見たときの特定の方向)に存在する音源からの音響信号を、抑圧または強調するために用いる信号処理(信号処理装置)、または、この信号処理の動作を定めるパラメータ(数値の組など)を示す。空間フィルタは、マイクアレイにより観測された複数の音響信号系列を入力とし、抑圧および強調後の音響信号を1または複数系列出力する。
・ビームフォーマ:空間フィルタを設計するための多チャネル信号処理技術を示す。または、多チャネル信号処理技術により形成された空間フィルタによる信号処理を示す。
・(言語)音声(信号):人から発せられる、言語情報を含む音響信号を示す。
・音声認識:音響信号に含まれる言語音声をテキストに変換する技術を示す。
・(音声)キーワード検出:音響信号を入力とし、特定の語(キーワード)の音声を検出することを示す。
・SNR、SN比(Signal to Noise Ratio):信号対雑音比、または、音声対雑音比の略である。雑音信号の平均エネルギーを分母、目的信号(音声)の平均エネルギーを分子とした値である。値が大きいほど目的信号のエネルギーが大きいことを表す。
・伝達関数:音源から伝搬し、マイク(観測点)で観測された音響信号の、音源位置と観測位置での信号の関係を表した関数を示す。
・音源空間特徴:音源とマイクアレイとの間の位置関係に基づく音響特性、および、音源とマイクアレイを含む空間の音響特性、の両方を含む特徴量を示す。
・目的音源空間特徴(第1空間特徴):目的とする音源(目的音源、第1音源)の音源空間特徴を示す。
・非目的音源空間特徴(第2空間特徴):目的音源以外の音源(非目的音源、第2音源)の音源空間特徴を示す。
次に、本実施形態の概要について説明する。ハンズフリー音声認識技術のための音声集音技術を考える。ハンズフリー音声認識技術は、例えば、装置から遠く離れた位置から、音声による指示だけでその装置を操作するために用いられる。装置を実現する制約上、装置自体にマイクが内蔵されているとする。遠方より発せられた音声は、マイクに伝達するまでに大きく減衰する。このため、マイクが装置ユーザの近くにある場合と比べ、周囲の雑音とのSNRが低下する。また、壁面、床、および、天井の反射音(残響)の影響をより大きく受ける。これらにより音声認識の精度が大きく低下することが知られている。
この問題に対しては、例えば、マイクアレイにより観測された複数信号を用いた多チャネル信号処理(以下、マイクアレイ信号処理)により、雑音および残響抑圧を行う対策が考えられる。このような対策により、ユーザの発した目的音の音響信号をより高品質に得ることが可能となる。これは、マイクアレイ信号処理が適切な空間フィルタを形成すること、すなわち、目的音源の方向(目的音源方向)から到来する音を極力歪めず、目的音以外の位置から発せられた音響信号を可能な限り抑圧することから期待される効果である。
この際、環境のどこから発せられるか事前にはわからない目的音を、様々な位置から発せられる他の雑音と区別し、空間フィルタ形成に必要な位置特徴を得る手段が問題となる。このような手段の1つとして、上述のように、特定のキーワードを検出することで位置特徴の1つである音源方向を得る技術が適用できる。
目的音を得る空間フィルタを形成するためには、システム設計時に予め目的音の方向を定めておく、または、システムが別の方法で推定する必要がある。特定のキーワードを発した際の方向および位置を得る技術を適用すれば、ユーザが特定のキーワードを発声しさえすれば、任意の方向から高精度な音声入力が可能となるはずである。
しかし、実際は、雑音や室内残響の影響により、キーワード発話時の目的音源方向の推定結果に誤差が生じる場合がある。また、仮に方向推定が正確に行われたとしても、空間フィルタの出力精度が低下し、雑音抑圧性能の低下、または、目的音声の歪みが生じる場合がある。
空間フィルタの設計時に最終的に用いる、目的音とマイクアレイ間の伝達関数は、残響のない理想的な環境では、マイクアレイのマイク間の距離と音源方向のみで決まる。このため、音源位置の特徴を音源方向という1値の情報で代表させることが可能となる。しかし、残響がある実環境では、残響の影響により伝達関数が各周波数で異なる影響を受ける。そのため、方向および位置という少数の値でなく、周波数ごとに値を持つ伝達関数そのもので目的音の位置に関わる特徴を表現する必要がある。
ただし、伝達関数そのものを、目的音源と非目的音源からの混合信号から推定するのは一般には困難である。特許文献1では、音声・非音声検出(VAD)を用いて、目的音源と雑音の伝達関数を推定して雑音抑圧に用いる技術を提案している。しかし特許文献1の技術は、両音源が排他的に観測できるという特殊な状況を想定している。
そこで、本実施形態は、伝達関数の周波数ごとの詳細な情報を用いた上で、目的音と非目的音が混合して観測される一般的な状況での空間フィルタ設計を可能とする。本実施形態では、目的音または非目的音の位置や空間的音響特徴に関わる、各周波数に対応した半正定値行列の組で表される音源空間特徴(目的音源空間特徴または非目的音源空間特徴)を用いる。
以下、本実施形態の詳細について述べる。
(観測モデルと空間フィルタ)
まず、従来技術と本実施形態について述べるための準備として、想定している音響信号の観測モデルと空間フィルタについて述べる。
今、K個(Kは2以上の整数)の動かない音源を考え、そのk番目(1≦k≦K)の音源の、音源位置での離散時刻tの音響信号(音源信号)をs(t)とし、マイクアレイのM個(Mは2以上の整数)のマイクのうち、m番目(1≦m≦M)のマイク位置での観測信号をxk,m(t)とする。なお、音源が動く場合についても同様の手法を適用できる。xk,m(t)は、以下の(1)式で表される。
ここで、hk,m(τ)は、音源kからマイクmへのインパルス応答である。インパルス応答の長さはTRIRとする。ここでは、音源の位置およびマイクアレイの位置を含む音響空間特性は変化しないとする。
(1)式を周波数領域で表わすと、以下の(2)式のようになる。
ここで、xk,m(ω,n)、ak,m(ω)、s(ω,n)は複素数であり、それぞれ、xk,m(t)、ak,m(t)、s(t)を短時間フーリエ変換したものである。ak,m(ω)は、音源kとマイクmとの間の伝達関数と呼ばれ、時不変の複素数である。nは短時間フーリエ変換の各フレーム時刻、ωは周波数である。
このとき、短時間フーリエ変換の窓長は、TRIRの長さと同等以上になるのが望ましい。適切なモデル化のためには、TRIRはおおむね残響時間程度は必要なので、一般的なオフィスや家庭のリビングでは、0.5秒程度の点数となる。実際には、より短い窓長で代替することが多く、その場合は(2)式の左辺と右辺で誤差が生じる。
なお、ak,m(ω)は、音源とマイクとの距離に応じた時間遅れや振幅の減衰を含んでいるが、以後説明する信号処理上は、特定のマイクとの相対値であっても問題がない。すなわち、ak,m(ω)/ak,1(ω)をak,m(ω)に置き換えても実用上問題はない。このようなak,m(ω)を音源ごとに並べてベクトルとしたa(ω)=[ak,1(ω),ak,2(ω),・・・,ak,M(ω)]を、マイクアレイの音源kに関するステアリングベクトルと呼ぶ。なおTはベクトルおよび行列の転置を表す。
ステアリングベクトルは、マイクアレイから見た音源の位置を表す。ステアリングベクトルは、環境(部屋など)の空間音響特性にも大きく影響される。このため、マイクアレイから見た音源の距離および方向が同じであっても、例えば、部屋が異なる、または、同じ部屋でも異なる位置にマイクアレイが置かれる場合には、ステアリングベクトルは異なる値を取る。
一方、実際にマイクmで観測される混合音x(ω,n)は、以下の(3)式のように表される。
(3)式に(2)式を代入し、行列とベクトルで表記すると、観測信号x(ω,n)は、以下の(4)式で表される。
ただし、x(ω,n)=[x(ω,n),x(ω,n),・・・,x(ω,n)]、混合行列A(ω)=[a(ω),a(ω),・・・,a(ω)]、s(ω,n)=[s(ω,n),s(ω,n),・・・,s(ω,n)]、である。
観測信号に対し、空間フィルタ行列W(ω)を適切に定めれば、元の音源信号の推定値を以下の(5)式により求めることができる。
この際、例えば、混合行列A(ω)が既知であれば、W(ω)←A(ω)と推定することができる。「+」は疑似逆行列を表す演算子である。実際は、A(ω)全体が既知であることは少ない。マイクアレイと、雑音源を含むすべての音源との位置関係を事前に知ることが難しいこと、仮にそれらの位置が既知であったとしても、環境の空間音響特性の影響を受けることが理由である。本実施形態を含め、一般的な集音装置は、様々な環境で用いられることを想定しており、空間音響特性を事前に知ることは難しい。そこで、通常、W(ω)は(4)式の観測信号x(ω,n)などから適応的に推定される。
空間フィルタ行列の各行をW(ω)=[w (ω),w (ω),・・・,w (ω)]のように次元数Mの行ベクトルで表すと、k番目の音源は以下の(6)式のように推定することができる。なおHはエルミート転置を表す演算子である。
実際のアプリケーションでは、空間フィルタ行列全体が必要なことは少ないので、目的の音源kに対する空間フィルタw (ω)を直接計算して用いる。以下では、簡単のため、数式中の周波数は適宜省略する。
(従来の空間フィルタ制御法)
音源kに対する空間フィルタw を求める従来の方法について紹介する。以後、kを省略し、空間フィルタをwと表記する。
仮に目的音源のステアリングベクトルaが既知であったとすると、歪みなし最小分散法(MVDR(Minimum Variance Distortionless Response))を用いて、空間フィルタwMV は以下の(7)式のように計算できる。
Rは以下の(8)式で表される。E[]は期待値を表す。
Rは、以下では観測信号の空間共分散行列と呼ぶ。Rは、目的音源や雑音の、マイクアレイを基準とした位置に基づく音響特性、目的音源や雑音を内包する空間の音響特性の両者を含んだ空間的性質を表している。空間共分散行列Rは常に半正定値行列の形式となることが知られている。期待値として定義されるRを正確に求めるためには、長時間の観測信号が必要であるが、実用上は過去の観測信号の移動平均などから適宜推定する。
ステアリングベクトルaとRが正しい場合、歪みなし最小分散法は、目的音源から到来する信号を歪ませない条件下で、他の雑音を最大限抑圧することができる。一方、ステアリングベクトルに誤差がある場合、歪みなし最小分散法は、目的音源を歪ませる欠点を持つ。同様の空間フィルタは、一般化サイドローブキャンセラなどを用いて実現できるが、歪みなし最小分散法と同じ問題が存在する。
(ステアリングベクトルと音源到来方向推定)
上記の空間フィルタ制御法を実現するためには、音源に対応するステアリングベクトルを推定する必要がある。ここでは、目的音源を含む観測(音響)信号から推定することを考える。
ステアリングベクトルは、周波数帯ごとに定める必要がある。ステアリングベクトルは、マイクアレイ筐体による回り込みや、部屋の残響の影響を受けない場合、マイクアレイの各マイクと目的音源の位置関係によって定まる、信号の到来時間差によってのみ定まる。例えば、位置pの音源からの信号の、マイク1からマイクmへの到来時間差(遅れ)がτ(p,m)秒であるとしたとき、周波数のステアリングベクトルa(ω,p)は、以下の(9)式のように、周波数と到来時間差のみを用いて容易に記述できる。
この到来時間差は、音源がマイク(アレイ)から十分遠い場合、おおむねマイクアレイから見た音源の方向と対応づけることができる。このため、従来は、周波数ごとにステアリングベクトルを個々に求める代わりに、音源位置の特徴を方向という1〜2値、または、距離も含めた2〜3値に代表させ、方向(位置)推定や到来時間差推定をステアリングベクトルの推定に代替していた。
到来時間差や音源方向推定の方法は、遅延和アレイ法、MUSIC(Multiple Signal Classification)法、および、GCC−PHAT(Generalized Cross-Correlation method with Phase Transform)などが知られている。一部の手法は、周波数ごとに推定を行うため、全周波数について結果が統合されて利用される。
しかし、現実の環境では、上述のように、ステアリングベクトルはマイクアレイ筐体の回り込みや部屋の残響の影響を受け、必ずしも方向(位置)や到来時間差のような少数の値で代表させることはできない。
また、背景雑音(非目的音源)の影響により、方向推定に誤差が生じるという問題もある。方向および位置の代わりに、ステアリングベクトルを直接推定できるとよいが、背景雑音下ではそれも困難である。さらに、(2)式での周波数領域での近似により、FFT(Fast Fourier Transform)の窓長が十分でなく、かつ、特に部屋の残響が大きい場合、または、音源が遠方にあり後部残響の影響が大きい場合には、そもそも(2)式のモデルの誤差が大きくなる。その結果、このモデルに基づくこれまでの議論では、十分な精度で音源信号を推定することができない。FFT窓長を十分に大きくとればよいとの議論もあるが、FFT窓長に対応するインパルス応答の長さTRIRは環境(部屋など)の空間音響特性に依存するため、事前に知ることは困難である。また、計算的効率の問題から、0.5秒などの長い時間長にするのは現実的ではない場面も多い。
一方、個々の音源からの観測信号から(8)式で示す空間共分散行列を求めておけば、(2)式のモデル化で誤差を生じるような場合であっても、より正確に音源を推定することができることが知られている。また、空間共分散行列は、多数の音源、および、1音源であっても残響の影響により多数の音源と見なせる音源の空間的特徴を、1組の特徴で表現することができる。MUSIC法などでは、この空間共分散行列の主成分を明示的に求めることにより方向推定を行う。空間フィルタ推定のためには、直接、空間共分散行列を利用する方が、精度が高いことが知られている。
そこで、本実施形態では、目的音源に関して、方向および位置のような代表値、および、各音源のステアリングベクトルでなく、(8)式で示すような空間共分散行列の推定値を、音源の空間特徴として用いる。
(本実施形態の構成例)
ここまで述べたように、本実施形態では、目的音源方向や位置を推定して用いる代わりに、目的音源および非目的音源から到来した信号を含む観測信号から抽出した半正定値行列の組で表される各音源の音源空間特徴を利用して、空間フィルタを制御する。
図1は、本実施形態の情報処理装置の機能構成例を示すブロック図である。図1に示すように情報処理装置100は、マイクアレイ101と、受付部111と、検出部112と、算出部113と、フィルタ制御部114と、を備えている。
マイクアレイ101は、上述のように、音声を入力するマイクロフォン(音声入力部)を複数並べて構成される。マイクアレイ101を用いれば、音源方向を推定したり、空間フィルタを形成することが可能となる。複数のマイクロフォンは整列される必要はない。例えば音源方向の推定が不要な場合等であれば、任意の位置に配置された複数のマイクロフォンを用いてもよい。
受付部111は、マイクアレイ101を構成する複数のマイクロフォンから複数の音響信号(入力音響信号)の入力を受け付ける。検出部112は、複数の音声入力部からそれぞれ入力される複数の入力音響信号に基づき、特定のキーワードが出力された区間(キーワード発声区間)を検出する。
算出部113は、複数の入力音響信号とキーワード発声区間とに基づき、半正定値行列の組で表される音源空間特徴(空間特徴行列)を推定(算出)する。音源空間特徴は、上述のように、少なくとも音源とマイクアレイ101を含む空間の音響特性を含む特徴量である。算出部113は、例えば、半正定値行列の組で表される目的音源空間特徴(第1空間特徴行列)および非目的音源空間特徴(第2空間特徴行列)の少なくとも一方を推定する。
フィルタ制御部114は、推定された音源空間特徴(目的音源空間特徴および非目的音源空間特徴の少なくとも一方)に基づき空間フィルタを生成する処理を制御する。例えばフィルタ制御部114は、目的音源から出力された音響信号を複数の入力音響信号から取得する空間フィルタを生成する生成部として機能する。フィルタ制御部114は、生成した空間フィルタにより取得した、目的音源の音響信号(推定音源信号)を出力する。
このように本実施形態では、目的音源の方向または位置、および、ステアリングベクトルを推定するのではなく、音源空間特徴を推定し、音源空間特徴を用いて空間フィルタを制御する点が従来と異なる。
なお、受付部111、検出部112、算出部113、および、フィルタ制御部114は、例えば、CPU(Central Processing Unit)などの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。
(音源空間特徴の推定)
まず音源空間特徴の推定方法について説明する。上述のように、検出部112は、入力される複数の入力音響信号に基づいてキーワード発声区間を検出する。検出部112は、予め定められた特定のキーワードの音響信号のパターンと比較する方法など、従来から用いられているあらゆる検出方法を適用して、キーワード発声区間を検出することができる。
図2は、検出されたキーワード発声区間の例を示す図である。図2に示すように、観測信号に対し、特定のキーワード201(「こんにちは」)の発話開始時刻Sbと発話終了時刻Seが特定されている。
算出部113は、キーワード発声区間の観測信号に関する空間共分散を以下の(10)式のように算出する。
キーワード発声区間の観測信号は、目的音源とするユーザ(目的ユーザ)の発話音声、および、目的音源以外の背景雑音などを含んでいると予想できる。そのため、この空間共分散Rは、両者の空間的特徴を含んでいると考えられる。本実施形態では、音源空間特徴の一例として、空間共分散を用い、目的音源空間特徴の一例として、キーワード発声区間から計算した空間共分散Rを用いる。
検出部112の特性によっては、推定されたキーワード発声区間が実際のキーワード発声区間と前後する可能性もある。そこで、その特性に合わせ、適宜SbやSeに一定時間を増減させるなど、特定の方法でSbやSeを前後させてもかまわない。
また、目的ユーザの発話以外の音源(非目的音源)に起因する、非目的音源空間特徴も空間フィルタの制御には有用である。算出部113は、例えば、目的ユーザの発話を含まないと考えられる、キーワード発声区間以外の観測信号を用いて、非目的音源空間特徴を推定することができる。
なお空間フィルタの制御には、目的音源空間特徴および非目的音源空間特徴のうち、いずれか一方のみが用いられてもよいし、両方が用いられてもよい。算出部113は、空間フィルタの制御に必要となる、目的音源空間特徴および非目的音源空間特徴のうち少なくとも一方を推定すればよい。
キーワード発声区間より過去の観測信号を用いることを考えた場合、直前の音声区間は、目的ユーザの発話である可能性もあるので無視し、それより以前の非音声の区間のみを用いてもよい。この場合、例えば検出部112が、VAD(Voice Activity Detection)技術などを用いて、音声区間、および、非音声区間を検出するように構成してもよい。図3は、検出された非音声区間および音声区間の例を示す図である。
算出部113は、検出された非音声区間[Ub,Ue]の観測信号を用いて、例えば以下の(11)式のように、非目的音源空間特徴に対応する空間共分散Rを算出できる。
非音声区間は、キーワード発声区間より前(過去)である必要はない。キーワード発声区間より後(未来)の観測信号を用いて、または、過去および未来の両方の観測信号を用いて、非目的音源空間特徴を推定してもよい。
このように、音源空間特徴として空間共分散行列を選択した場合、音源空間特徴は、大きさM×Mの複素半正定値行列のL個の組となる。LはFFT窓長であり、Mはマイクアレイ101のマイク数である。
(音源空間特徴の効率的な推定)
本実施形態の情報処理装置を、音声ユーザインタフェースに用いる際、ユーザの発話から極力遅延なく空間フィルタを制御することが望ましい。そのために、検出部112と算出部113が、マイクアレイ101の観測信号の入力と同期し、現時刻(第2時刻)と過去の時刻(第1時刻)の観測信号を参照しながら逐次処理を行うことが考えられる。また、この際、装置の制約から、記憶領域の使用量を極力減らしたいとする。
しかし、算出部113で必要なキーワード発声区間は、実際のキーワード発声の終端近くになるまで検出することができない。例えば検出部112は、早くとも図2の発話終了時刻Seの直前で、キーワード発声区間の始端の推定時刻(Sb)を確定する。また、Seからいくらかの時刻経過後に、キーワード発声区間の終端の推定時刻(Se)が確定される。検出部112のアルゴリズムによっては、この確定タイミングは前後することもあるが、実際のキーワードの始端から大きく遅れて、Sbが確定される点は同じである。
そのため、(10)式の通りに目的音源空間特徴の空間共分散を計算しようとすると、想定されるキーワード発話長以上の観測信号を、常時、記憶領域に保存しておかなければならない。また、(11)式の非目的音源空間特徴を、キーワード発声区間より前の時刻の観測信号から計算しようとすると、さらに長時間の観測信号の保存が必要となる。従って、実装を想定しているハードウェアによっては非現実的である。
そこで、(10)式の代わりに、以下の(12)式のように、現時刻nの目的音源空間特徴の空間共分散R(n)を、1時刻過去の空間共分散R(n−1)を使って計算してもよい。ここで、αは0≦α<1を満たす実数である。αを以下では忘却係数と呼ぶ。
(12)式を用いる場合、1時刻過去の空間共分散R(n−1)と、現時刻の観測信号のみあればよいので、過去の長期間の信号を保存しておく必要がない。例えばαを常に一定値に設定すれば、時刻が進むごとに過去の観測信号の影響は小さくなる。従って、現時刻を含み直前の一定の区間の空間共分散Rを計算しているのと同等の結果が期待できる。また、実用上(10)式から(12)式への置き換えが問題ないことも確認されている。
キーワード発声区間の長さは、キーワードや発声ごとに変化するが、想定されるキーワードの発話長がより長い場合はαを小さく、より短い場合はαを大きくすることで調節できる。また、検出部112は、キーワードの始端(Sb)を検出するまでに、発声区間の候補を複数保持しうる。算出部113が、現在保持している発声区間候補の始端時刻を用いて、(12)式のαを動的に変更してもよい。例えば算出部113は、検出部112で現在保持している候補の始端時刻が想定より過去であればαを小さく、逆に想定より未来であればαを大きくするなどの処理を行ってもよい。
算出部113は、現時刻の観測信号に対するVADを実施し、VADにより「音声でない」と判定された時刻の観測信号を利用して、非目的音源空間特徴を例えば以下の(13)式のように計算する。ここで、αは0≦α<1を満たす実数である。例えばαは、事前に適当な一定値に定められる。
VADにより出力される、現時刻の観測信号の「非音声らしさ」を表すスコアを用いてαを増減させるなど、動的に(13)式に相当する計算方法を変更してもよい。
また、VADの判定のみを利用すると、目的音声以外の音声が観測される場合、この音声は非目的音源空間特徴の計算から取り除かれる。そこで算出部113が、音源方向の推定結果などの他の情報も用いて、キーワード発声区間以外の音源であることを判定してもよい。この場合、(13)式では、「音声でない」(if not voice)時刻の観測信号の代わりに「目的音声でない」時刻の観測信号が用いられる。これにより、目的音声以外の音声を非目的音源空間特徴の計算で考慮することが可能となる。
(SN比最大化ビームフォーマを用いる空間フィルタ制御)
フィルタ制御部114は、上記のようにして推定した音源空間特徴を用いて、空間フィルタを制御する。1つの例として、SN比最大化ビームフォーマを用いることが考えられる。各周波数のSN比、ここでは、目的音源信号+背景雑音と、背景雑音のエネルギー比λは、上述の目的音源に対応する空間共分散Rと非目的音源に対応する空間共分散Rを用いて、以下の(14)式のように推定することができる。
このλを最大化するようなwは、一般化固有値問題を表す以下の(15)式を満たす、λおよびwのうち、最大のλ(一般化固有値問題の最大固有値)に対応するw(固有ベクトル)である。一般化固有値問題は、従来から用いられているあらゆる解法を用いて解くことができる。
上記のように求めたw(wSNRBとする)は、出力信号のゲイン不定性を持つため、例えば以下の(16)式に示すような、観測信号と出力信号の誤差を最小にする補正フィルタを適用する。
すなわち、wSNRB←bSNRBと計算する。なお、Rは、(8)式の観測信号の空間共分散であり、観測信号の現時刻を含む区間の期待値として計算される。bはベクトルb((16)式の左辺)の任意の要素である(jは1以上、ベクトルbの要素数以下の整数)。このようにして計算した空間フィルタwSNRBは、目的音源の音響信号を保持しつつ、非目的音源からの音響信号を抑圧することができる。
(補助関数法独立ベクトル分析を用いる空間フィルタ制御)
空間共分散による音源空間特徴を用いた空間フィルタ制御のもう1つの例として、補助関数法を適用した独立ベクトル分析(補助関数法独立ベクトル分析)を応用した方法を示す。SN比最大化ビームフォーマの推定では、目的音源に対応する空間共分散Rと非目的音源に対応する空間共分散Rの両者が必要であった。補助関数法独立ベクトル分析を用いる方法は、事前情報なしで空間フィルタを推定するブラインド音源分離を、別途推定した空間共分散行列を事前情報として用いる拡張した方法である。このため、目的音源と非目的音源のいずれか一方の空間共分散を与えるだけでも空間フィルタを推定することができる。
また、実時間で補助関数法独立ベクトル分析を行う方法と組み合わせることにより、時刻が進むごとに、より高精度な目的音源信号の推定が可能となる点、および、特定キーワードの発話検出後の目的音源および非目的音源の空間的変動に追従できる点が利点である。
非音声の空間共分散を、補助関数法独立ベクトル分析アルゴリズム中の補助変数の更新時に参照することで、補助関数法独立ベクトル分析のSNR改善性能を改善する手法が知られている。
本実施形態でも同様に、目的音源空間特徴の空間共分散、および、非目的音源空間特徴の空間共分散の両方またはいずれかを、補助関数法独立ベクトル分析アルゴリズム中の補助変数の更新中に参照して用いることで、所望の空間フィルタを形成する。
まず、補助関数法独立ベクトル分析のアルゴリズムの概要を説明する。マイクアレイ101のマイク数Mと音源数Kが同じだとしたとき、(5)式の空間フィルタ行列を求める問題を考える。このとき、以下の(17)式で示される目的関数を最小化するような空間フィルタ行列を求める(独立ベクトル分析の問題設定)。
ここで、Nは参照する観測信号の時間長である。本実施形態の場合は、観測信号を適当な時間長に区切ってW(ω)の推定に用いることとする。Nは区切られた時間の長さに相当する。ただし、y(ω,n)=W(ω)x(ω,n)として、y(ω,n)のk番目の要素をy(ω,n)としたとき、y(n)=[y(1,n),y(2,n),・・・,y(L,n)]とする。
G(・)は、ベクトルを引数として持つ適当なコントラスト関数で、例えば、以下の(18)式のような球状コントラスト関数が用いられる。
(n)は(19)式で表される。
ここで、G(r)は、rが0より大の際にG’(r)/rが単調減少するような関数である。例えば、G(r)=rが用いられる。G’(r)はG(r)の導関数とする。
このとき、以下の(20)式〜(22)式のような補助変数V(ω)と空間フィルタ行列W(ω)の更新規則を考える。ただし、eはk番目の要素だけが1で、残りの要素が0の次元数Kの列ベクトルである。
(20)式〜(22)式を全周波数、および、全音源kについて順に計算することを繰り返す。これにより、(17)式の目的関数が小さくなってゆき、結果として、K個の音源信号kを各フィルタで推定するような空間フィルタ行列を得ることができる。
VADにより別途求めた非音声区間から、(11)式のように計算した空間共分散R’(ω)を用いて、特定のk=kについてのみ、(20)式の代わりに以下の(23)式を計算してもよい。これにより、求められた空間フィルタwkSは高精度に音声を強調することが可能となる。ここでβは1≦β<0を満たす実数である。
同様に、本実施形態では、フィルタ制御部114が、目的音源に対応する空間共分散Rと非目的音源に対応する空間共分散Rを用いて、以下の(24)式および(25)式に示すような計算を実行する。
ここで、β=1とすると、SN比最大化ビームフォーマと同様の空間フィルタが得られる。0<β<1とすると、さらに対象の観測信号を考慮した空間フィルタを得ることができる。このため、RやRの計算に用いた観測信号から環境変動が起きた場合に有用である。
(24)式および(25)式に示すように、k=kの場合は(24)式が(20)式の代わりに適用される。k≠kの場合は(25)式が(20)式の代わりに適用される。目的音源空間特徴のみを用いる場合、フィルタ制御部114は、k=kの場合は(24)式を(20)式の代わりに適用し、k≠kの場合は(20)式を適用してもよい。また、非目的音源空間特徴のみを用いる場合、フィルタ制御部114は、k=kの場合は(20)式を適用し、k≠kの場合は(25)式を(20)式の代わりに適用してもよい。
フィルタ制御部114は、さらに、特許文献3で示されるような、実時間処理向けに補助関数法独立ベクトル分析を拡張した方式に対して、目的音源に対応する空間共分散Rと非目的音源に対応する空間共分散Rを用いてもよい。
実時間処理向け補助関数法独立ベクトル分析では、(20)式の代わりに、以下の(26)式のように、時刻nの補助変数V(ω;n)を逐次更新することで、各時刻で適切な空間フィルタ行列W(ω)を計算することができる。
ここで、(26)式の代わりに、適切な時刻nで以下の(27)式および(28)式を適用することで求まる空間フィルタは、高精度に音声を強調することができる。時刻nより後では、(26)式を用いることで、目的ユーザの移動や背景音の変化など、環境変動に適応するように空間フィルタを制御することができる。
またフィルタ制御部114は、以下の(29)式および(30)式のように、さらに直前の時刻(n−1)の補助変数V(ω;n−1)を加算しながら更新してもよい。ここで、γは0≦γ<1を満たす実数である。
次に、本実施形態にかかる情報処理装置100による音声処理について図4を用いて説明する。図4は、本実施形態における音声処理の一例を示すフローチャートである。図4は、目的音源空間特徴を用いる場合の音声処理の例である。
受付部111は、マイクアレイ101から入力音響信号の入力を受け付ける(ステップS101)。検出部112は、入力された入力音響信号に基づき、特定のキーワード、および、当該キーワードが出力されたキーワード発声区間を検出する(ステップS102)。
算出部113は、複数の入力音響信号とキーワード発声区間とに基づき、目的音源空間特徴を推定する(ステップS103)。フィルタ制御部114は、推定された目的音源空間特徴を用いて、空間フィルタを算出(生成)する(ステップS104)。例えばフィルタ制御部114は、k=kの場合は(24)式を(23)式の代わりに適用し、k≠kの場合は(23)式を適用して、空間フィルタを求める。フィルタ制御部114は、求めた空間フィルタを適用して、入力音響信号を処理した音源信号を出力する(ステップS105)。
非目的音源空間特徴のみを用いる場合の音声処理は、ステップS103およびステップS104で、目的音源空間特徴の代わりに非目的音源空間特徴を用いて処理すればよい。
次に、目的音源空間特徴および非目的音源空間特徴の両方を用いる場合の音声処理について説明する。図5は、この場合の本実施形態における音声処理の例を示すフローチャートである。
ステップS201〜ステップS203は、図4のステップS101〜ステップS103と同様である。
算出部113は、さらに、非目的音源空間特徴を推定する(ステップS204)。フィルタ制御部114は、推定された目的音源空間特徴および非目的音源空間特徴を用いて、空間フィルタを算出(生成)する(ステップS205)。例えばSN比最大化ビームフォーマを用いる場合、フィルタ制御部114は、上記(14)式〜(16)式により空間フィルタを算出する。また例えば補助関数法独立ベクトル分析を用いる場合、フィルタ制御部114は、上記(19)式および(21)および(22)式に加え、上記(24)式および(25)式、または、(27)式および(28)式、または、(29)式および(30)式により、空間フィルタを算出する。ステップS203とステップS204の実行順序は逆でもよいし、また、同時並列に実行してもかまわない。
ステップS206は、図4のステップS105と同様である。
このように、本実施形態にかかる情報処理装置では、音源とマイクアレイを含む空間の音響特性などを含む音源空間特徴を用いて、空間フィルタを算出する。これにより、目的音と非目的音が混合して観測される一般的な状況での空間フィルタ設計が可能となる。本実施形態では、特許文献1のように両音源が排他的に観測できるという特殊な状況を想定する必要がない。従って、より一般的な状況であっても適切に目的音を得ることができる空間フィルタを生成することが可能となる。
次に、本実施形態にかかる情報処理装置のハードウェア構成について図6を用いて説明する。図6は、本実施形態にかかる情報処理装置のハードウェア構成例を示す説明図である。
本実施形態にかかる情報処理装置は、CPU51などの制御装置と、ROM(Read Only Memory)52やRAM(Random Access Memory)53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
本実施形態にかかる情報処理装置で実行されるプログラムは、ROM52等に予め組み込まれて提供される。
本実施形態にかかる情報処理装置で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録してコンピュータプログラムプロダクトとして提供されるように構成してもよい。
さらに、本実施形態にかかる情報処理装置で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態にかかる情報処理装置で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
本実施形態にかかる情報処理装置で実行されるプログラムは、コンピュータを上述した情報処理装置の各部として機能させうる。このコンピュータは、CPU51がコンピュータ読取可能な記憶媒体からプログラムを主記憶装置上に読み出して実行することができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
100 情報処理装置
101 マイクアレイ
111 受付部
112 検出部
113 算出部
114 フィルタ制御部

Claims (10)

  1. M(2以上の整数)個の複数の音声入力部からそれぞれ入力されるM個の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する検出部と、
    検出された前記区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第1空間特徴行列、および、検出された前記区間の前および後の少なくとも一方の区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第2空間特徴行列を算出する算出部と、
    M個の前記入力音響信号を入力し、目的とする音源から出力された音響信号を強調して出力する空間フィルタを、前記第1空間特徴行列、前記第2空間特徴行列、および、前記空間フィルタにより表される値を最大化することにより生成する生成部と、
    を備える情報処理装置。
  2. 前記生成部は、前記第1空間特徴行列、前記第2空間特徴行列、および、前記空間フィルタにより表されるSN(シグナルノイズ)比を最大化する、SN比最大化ビームフォーマを用いて、前記空間フィルタを生成する、
    請求項1に記載の情報処理装置。
  3. 前記算出部は、第1時刻に入力されるM個の前記入力音響信号と、第1時刻の後の第2時刻に入力されるM個の前記入力音響信号と、を用いて前記第1空間特徴行列を算出する、
    請求項1に記載の情報処理装置。
  4. M(2以上の整数)個の複数の音声入力部からそれぞれ入力されるM個の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する検出部と、
    検出された前記区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第1空間特徴行列、および、検出された前記区間の前および後の少なくとも一方の区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第2空間特徴行列、の少なくとも一方を算出する算出部と、
    M個の前記入力音響信号を入力し、目的とする音源から出力された音響信号を強調して出力する空間フィルタを、前記第1空間特徴行列および前記第2空間特徴行列の少なくとも一方を参照して更新される補助変数を用いて目的関数を最小化することにより生成する生成部と、
    を備える情報処理装置。
  5. 前記算出部は、検出された前記区間の前および後の少なくとも一方の区間のうち非音声区間に入力されたM個の前記入力音響信号の空間共分散行列である前記第2空間特徴行列を算出する、
    請求項4に記載の情報処理装置。
  6. 前記生成部は、補助関数法を適用した独立ベクトル分析を用いて、前記空間フィルタを生成する、
    請求項4に記載の情報処理装置。
  7. M(2以上の整数)個の複数の音声入力部からそれぞれ入力されるM個の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する検出ステップと、
    検出された前記区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第1空間特徴行列、および、検出された前記区間の前および後の少なくとも一方の区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第2空間特徴行列を算出する算出ステップと、
    M個の前記入力音響信号を入力し、目的とする音源から出力された音響信号を強調して出力する空間フィルタを、前記第1空間特徴行列、前記第2空間特徴行列、および、前記空間フィルタにより表される値を最大化することにより生成する生成ステップと、
    を含む情報処理方法。
  8. M(2以上の整数)個の複数の音声入力部からそれぞれ入力されるM個の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する検出ステップと、
    検出された前記区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第1空間特徴行列、および、検出された前記区間の前および後の少なくとも一方の区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第2空間特徴行列、の少なくとも一方を算出する算出ステップと、
    M個の前記入力音響信号を入力し、目的とする音源から出力された音響信号を強調して出力する空間フィルタを、前記第1空間特徴行列および前記第2空間特徴行列の少なくとも一方を参照して更新される補助変数を用いて目的関数を最小化することにより生成する生成ステップと、
    を含む情報処理方法。
  9. コンピュータを、
    M(2以上の整数)個の複数の音声入力部からそれぞれ入力されるM個の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する検出部と、
    検出された前記区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第1空間特徴行列、および、検出された前記区間の前および後の少なくとも一方の区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第2空間特徴行列を算出する算出部と、
    M個の前記入力音響信号を入力し、目的とする音源から出力された音響信号を強調して出力する空間フィルタを、前記第1空間特徴行列、前記第2空間特徴行列、および、前記空間フィルタにより表される値を最大化することにより生成する生成部と、
    として機能させるためのプログラム。
  10. コンピュータを、
    M(2以上の整数)個の複数の音声入力部からそれぞれ入力されるM個の入力音響信号のうち、少なくとも1つに基づき、キーワードが出力された区間を検出する検出部と、
    検出された前記区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第1空間特徴行列、および、検出された前記区間の前および後の少なくとも一方の区間に入力されたM個の前記入力音響信号の空間共分散行列であるM×Mの第2空間特徴行列、の少なくとも一方を算出する算出部と、
    M個の前記入力音響信号を入力し、目的とする音源から出力された音響信号を強調して出力する空間フィルタを、前記第1空間特徴行列および前記第2空間特徴行列の少なくとも一方を参照して更新される補助変数を用いて目的関数を最小化することにより生成する生成部と、
    として機能させるためのプログラム。
JP2015224864A 2015-11-17 2015-11-17 情報処理装置、情報処理方法およびプログラム Active JP6584930B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015224864A JP6584930B2 (ja) 2015-11-17 2015-11-17 情報処理装置、情報処理方法およびプログラム
US15/261,254 US20170140771A1 (en) 2015-11-17 2016-09-09 Information processing apparatus, information processing method, and computer program product

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015224864A JP6584930B2 (ja) 2015-11-17 2015-11-17 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2017090853A JP2017090853A (ja) 2017-05-25
JP6584930B2 true JP6584930B2 (ja) 2019-10-02

Family

ID=58690243

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015224864A Active JP6584930B2 (ja) 2015-11-17 2015-11-17 情報処理装置、情報処理方法およびプログラム

Country Status (2)

Country Link
US (1) US20170140771A1 (ja)
JP (1) JP6584930B2 (ja)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6461660B2 (ja) * 2015-03-19 2019-01-30 株式会社東芝 検出装置、検出方法およびプログラム
US9881634B1 (en) * 2016-12-01 2018-01-30 Arm Limited Multi-microphone speech processing system
US10334360B2 (en) * 2017-06-12 2019-06-25 Revolabs, Inc Method for accurately calculating the direction of arrival of sound at a microphone array
US10460722B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Acoustic trigger detection
US10460729B1 (en) * 2017-06-30 2019-10-29 Amazon Technologies, Inc. Binary target acoustic trigger detecton
JP6599408B2 (ja) * 2017-07-31 2019-10-30 日本電信電話株式会社 音響信号処理装置、方法及びプログラム
JP6633579B2 (ja) * 2017-07-31 2020-01-22 日本電信電話株式会社 音響信号処理装置、方法及びプログラム
JP6711789B2 (ja) * 2017-08-30 2020-06-17 日本電信電話株式会社 目的音声抽出方法、目的音声抽出装置及び目的音声抽出プログラム
WO2019049276A1 (ja) * 2017-09-07 2019-03-14 三菱電機株式会社 雑音除去装置および雑音除去方法
KR102236471B1 (ko) * 2018-01-26 2021-04-05 서강대학교 산학협력단 재귀적 최소 제곱 기법을 이용한 온라인 cgmm에 기반한 방향 벡터 추정을 이용한 음원 방향 추정 방법
JP6845373B2 (ja) * 2018-02-23 2021-03-17 日本電信電話株式会社 信号分析装置、信号分析方法及び信号分析プログラム
CN108510987B (zh) * 2018-03-26 2020-10-23 北京小米移动软件有限公司 语音处理方法及装置
JP6915579B2 (ja) * 2018-04-06 2021-08-04 日本電信電話株式会社 信号分析装置、信号分析方法および信号分析プログラム
WO2019207912A1 (ja) * 2018-04-23 2019-10-31 ソニー株式会社 情報処理装置及び情報処理方法
US11437015B2 (en) * 2018-06-12 2022-09-06 Harman International Industries, Incorporated System and method for adaptive magnitude vehicle sound synthesis
US10986437B1 (en) * 2018-06-21 2021-04-20 Amazon Technologies, Inc. Multi-plane microphone array
JP6961545B2 (ja) * 2018-07-02 2021-11-05 株式会社東芝 音信号処理装置、音信号処理方法、およびプログラム
JP6998289B2 (ja) * 2018-11-19 2022-01-18 ヤフー株式会社 抽出装置、学習装置、抽出方法、抽出プログラム、学習方法および学習プログラム
JP7498560B2 (ja) 2019-01-07 2024-06-12 シナプティクス インコーポレイテッド システム及び方法
CN113281707B (zh) * 2021-05-26 2022-10-21 上海电力大学 一种强噪声下基于加窗lasso的声源定位方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3910898B2 (ja) * 2002-09-17 2007-04-25 株式会社東芝 指向性設定装置、指向性設定方法及び指向性設定プログラム
WO2006030834A1 (ja) * 2004-09-14 2006-03-23 National University Corporation Hokkaido University 信号到来方向推定装置、信号到来方向推定方法、および信号到来方向推定用プログラム
JP5568530B2 (ja) * 2011-09-06 2014-08-06 日本電信電話株式会社 音源分離装置とその方法とプログラム
JP2014219467A (ja) * 2013-05-02 2014-11-20 ソニー株式会社 音信号処理装置、および音信号処理方法、並びにプログラム

Also Published As

Publication number Publication date
JP2017090853A (ja) 2017-05-25
US20170140771A1 (en) 2017-05-18

Similar Documents

Publication Publication Date Title
JP6584930B2 (ja) 情報処理装置、情報処理方法およびプログラム
Xiao et al. Deep beamforming networks for multi-channel speech recognition
JP7191793B2 (ja) 信号処理装置、信号処理方法、及びプログラム
Erdogan et al. Improved MVDR beamforming using single-channel mask prediction networks.
US10123113B2 (en) Selective audio source enhancement
EP3185243B1 (en) Voice processing device, voice processing method, and program
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP7041156B6 (ja) ビームフォーミングを使用するオーディオキャプチャのための方法及び装置
JP4096104B2 (ja) 雑音低減システム及び雑音低減方法
JP6169910B2 (ja) 音声処理装置
JP6644959B1 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP7041157B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP2010282193A (ja) 残響抑圧装置、及び残響抑圧方法
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
AU2011334840A1 (en) Apparatus and method for spatially selective sound acquisition by acoustic triangulation
JP2005249816A (ja) 信号強調装置、方法及びプログラム、並びに音声認識装置、方法及びプログラム
JP2012042465A (ja) 音源方向推定装置及び音源方向推定方法
JP2007047427A (ja) 音声処理装置
JP2007093630A (ja) 音声強調装置
JP2010085733A (ja) 音声強調システム
KR20090098552A (ko) 위상정보를 이용한 자동 이득 조절 장치 및 방법
JP6854967B1 (ja) 雑音抑圧装置、雑音抑圧方法、及び雑音抑圧プログラム
JP6665353B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JP5826465B2 (ja) 瞬時直間比推定装置、雑音除去装置、遠近判定装置、音源距離測定装置と、各装置の方法と、装置プログラム
Kawase et al. Automatic parameter switching of noise reduction for speech recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180223

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190227

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190305

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190806

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190904

R151 Written notification of patent or utility model registration

Ref document number: 6584930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151