JP2017181761A - 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム - Google Patents

信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム Download PDF

Info

Publication number
JP2017181761A
JP2017181761A JP2016068405A JP2016068405A JP2017181761A JP 2017181761 A JP2017181761 A JP 2017181761A JP 2016068405 A JP2016068405 A JP 2016068405A JP 2016068405 A JP2016068405 A JP 2016068405A JP 2017181761 A JP2017181761 A JP 2017181761A
Authority
JP
Japan
Prior art keywords
gain
band
coupling coefficient
target sound
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2016068405A
Other languages
English (en)
Inventor
大 藤枝
Masaru Fujieda
大 藤枝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2016068405A priority Critical patent/JP2017181761A/ja
Publication of JP2017181761A publication Critical patent/JP2017181761A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

【課題】入力信号に対して目的音を強調する処理を行う際の音質をより向上させる。【解決手段】音響信号処理装置100は、複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第1のゲインを得るゲイン算出手段102と、第1のゲインに基づいて帯域ごとの結合係数を得る結合係数算出手段103と、結合係数に基づいて第1のゲインと帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで第1のゲインを修正した帯域ごとの第3のゲインを得るゲイン修正手段104と、複数の入力スペクトルの1つに帯域ごとに第3のゲインを乗じて目的音強調スペクトルを得る目的音強調手段105とを有することを特徴とする。【選択図】図1

Description

本発明は、音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムに関し、例えば、複数の音源が存在する環境下で、特定の音源のみ強調し収音する音声処理装置(音響信号処理装置)に適用し得る。
複数の音源が存在する環境下において、ある目的の音源を抽出する技術として、複数のマイクロホンを用いた音源分離や、マイクロホンを直線や平面、球面上等に配置したマイクロホンアレイを用いたビームフォーマや、ヌルフォーマ等がある。特に、目的の音源以外の音源が非定常である場合や、複数ある場合には、単一のマイクロホンを用いたノイズサプレッサによる目的音源の抽出は難しく、2つ以上のマイクロホンを用いることが必須となる。
上述したマイクロホンアレイを用いたビームフォーマとは、ある特定の方向の音のみ強調し収音する技術である。ビームフォーマとは、各マイクロホンに到達する信号の時間差を利用して指向性を形成する技術である。
ビームフォーマには、加算型と減算型という2つの種類がある。加算型ビームフォーマに比べて、減算型ビームフォーマはより少ないマイクロホン数で鋭い指向性を形成できるという利点がある。
図4は、マイクロホン数が2個の場合の減算型ビームフォーマを適用した従来の収音装置PSの構成について示したブロック図である。
減算型ビームフォーマを適用した収音装置PSでは、まず遅延器により目的とする方向に存在する目的音が各マイクロホンM1−M2に到来する信号の時間差を算出し、遅延を加えることにより目的音の位相を合わせる。時間差は(1)式により算出される。(1)式において、dはマイクロホン間の距離、cは音速、τは遅延量をそれぞれ表している。また、(1)式において、θは、2つのマイクロホンM1−M2の位置を結んだ直線に対する垂直方向から目的方向への角度を表している。
収音装置PSの遅延器は、例えば、死角がマイクロホンM1とマイクロホンM2の中心に対し、マイクロホンM1の方向に存在する場合、マイクロホンM1の入力信号x(t)に対し遅延処理を行う。その後、収音装置PSの減算器では、(2)式に従い処理が行われる。
収音装置PSの減算器では、周波数領域でも減算処理を同様に行うことができ、その場合(2)式は(3)式のように変更される。
Figure 2017181761
例えば、θ=±π/2の場合、(3)式により形成される指向性は、図5に示すようなカージオイド型の単一指向性となる。また、例えば、θ=0,πの場合、(3)式により形成される指向性は、図6のような8の字型の双指向性となる。以下では、入力信号から単一指向性を形成するフィルタを「単一指向性フィルタ」と呼び、双指向性を形成するフィルタを「双指向性フィルタ」と呼ぶものとする。
また、従来の収音装置では、スペクトル減算法(Spectral Subtraction:SS)を用いることで、双指向性の死角方向に強い指向性を形成することができる。従来の収音装置において、SSによる指向性の形成は、例えば、以下の(4)式を用いて行うことができる。(4)式では、マイクロホンM1の入力信号X(ω)を用いているが、マイクロホンM2の入力信号X(ω)でも同様の効果を得ることができる。また、(4)式において、αはSSの強度を調整するための係数であり、βは最大抑圧量である。
Figure 2017181761
非特許文献1では、単一指向性及び双指向性の2種類の指向性を利用することで、目的方向に強い指向性を形成する手法を提案している。非特許文献1の手法では、まず目的方向に対して左右(垂直方向)に死角を向ける2つの単一指向性と、目的方向と同じ方向に死角を向ける双指向性を形成する。その後、非特許文献1の手法では、2つの単一指向性フィルタ出力のうち、パワーの小さい方を選択し、選択した単一指向性フィルタ出力から双指向性フィルタ出力をSSすることにより、非目的音を抑圧し、目的音を強調する。非特許文献1の手法では、周囲に存在する非目的音を抑圧し、目的音のみを強調できる。特に、SSを用いる場合、使用するマイクロホン数が少なく、且つ低演算量で鋭い指向性を形成できる。
矢頭隆、森戸誠、山田圭、小川哲司、"正方形マイクロホンアレイによる音源分離技術"、情報処理、Vol.51、No.11、2010
しかしながら、従来の目的音強調処理において、SSが適用される場合、通常フロアリング処理を行うが、このとき(時間周波数領域における)周囲の周波数成分に比べてパワーの大きい孤立周波数成分ができてしまうと、不快なミュージカルノイズが発生する原因となってしまう。従来の目的音強調処理では、ビームフォーマに限らず、音源分離やヌルフォーマでも、除去しきれずに歪んだ状態で非目的音が残留したり、特に周波数領域で処理した場合には上述のSSと同様にミュージカルノイズが発生したりすることが多い。
以上のような問題に鑑みて、入力信号に対して目的音を強調する処理を行う際の音質をより向上(例えば、非目的音の残留音やミュージカルノイズのような不快な音を軽減)させることができる音響信号処理装置及びゲイン処理装置が望まれている。
第1の本発明の音響信号処理装置は、(1)複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第1のゲインを得るゲイン算出手段と、(2)前記第1のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、(3)前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段と、(4)前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第3のゲインを乗じて目的音強調スペクトルを得る目的音強調手段とを有することを特徴とする。
第2の本発明のゲイン処理装置は、(1)複数の入力音響信号に基づく複数の入力スペクトルに基づいて目的音成分を強調した所定の帯域ごとの第1のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、(2)前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで、前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段とを有することを特徴とする。
第3の本発明の音響信号処理プログラムは、コンピュータを、(1)複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第1のゲインを得るゲイン算出手段と、(2)前記第1のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、(3)前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段と、(4)前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第3のゲインを乗じて目的音強調スペクトルを得る目的音強調手段として機能させることを特徴とする。
第4の本発明のゲイン処理プログラムは、コンピュータを、(1)複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調した所定の帯域ごとの第1のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、(2)前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段として機能させることを特徴とする。
本発明によれば、入力信号に対して目的音を強調する処理を行う際の音質をより向上(例えば、信号の歪みやミュージカルノイズの抑制)させることができる。
第1の実施形態に係る音声処理装置の機能的構成について示したブロック図である。 第2の実施形態に係る音声処理装置の機能的構成について示したブロック図である。 第3の実施形態に係る音声処理装置の機能的構成について示したブロック図である。 従来の収音装置の構成について示した説明図である。 従来の単一指向性フィルタにより形成される指向特性の一例を説明する説明図である。 従来の双指向性フィルタにより形成される指向特性の一例を説明する説明図である。
(A)第1の実施形態
以下、本発明による音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムの第1の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を音声処理装置に適用した例について説明する。
(A−1)第1の実施形態の構成
図1は、この実施形態の音声処理装置100の全体構成を示すブロック図である。
音声処理装置100は、目的音源を含むM個の入力信号x〜x(時間領域の入力信号)を用いて、所定の入力信号について目的音強調処理を行い、目的音強調信号y(時間領域の出力信号)を生成するものである。音声処理装置100としては、例えば、通信端末(例えば、携帯電話端末やスマートホン等の音声通話が可能な通信端末)、オーディオ機器、音声認識装置等の目的音を収音して種々の音響信号処理を行う装置に適用することができる。
なお、入力信号の数は限定されないものであるが、例えば、音声処理装置100が2つのマイクロホンにより構成されるマイクロホンアレイから入力される入力信号を処理する場合、M=2となる。
音声処理装置100は、周波数解析手段101−1〜101−Mと、ゲイン算出手段102と、結合係数算出手段103と、ゲイン修正手段104と、乗算手段105と、波形復元手段106とを有する。
音声処理装置100は、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態に係る音響信号処理プログラムを含む)をインストールすることにより実現するようにしてもよい。
第1の実施形態では、結合係数算出手段103、及びゲイン修正手段104により、本発明のゲイン処理装置が構成されている。本発明のゲイン処理装置についても、例えば、プロセッサ及びメモリを有するコンピュータにプログラム(実施形態に係るゲイン処理プログラム)をインストールすることにより実現するようにしてもよい。
第1の実施形態の音声処理装置100は、周波数領域で目的音を強調する際に、歪みやミュージカルノイズ等を低減するものである。第1の実施形態の音声処理装置100において、目的音強調に適用する手法(方式)としては、例えば、(4)式のビームフォーマ手法(以下、「SSBF」と呼ぶ)や、非特許文献1に記載のビームフォーマ手法(以下、「CSSBF」と呼ぶ)や、独立成分分析や独立ベクトル分析を用いて音源を分離する方法(以下、「ICABBS」と呼ぶ)や、マイクロホン間の振幅比や位相差に注目して時間周波数点ごとに0又は1のゲインを乗じて音源を分離する手法(以下「MaskBSS」と呼ぶ)等(以下、これらの手法を総称して「従来手法」と呼ぶ)を適用することができる。
ゲイン算出手段102では、従来手法を用いて、特定の音源、又は特定の方向を強調する帯域ごとのゲイン(第1のゲイン)を算出する。第1のゲインを入力スペクトルの1つに帯域ごとに乗じると、従来手法によるスペクトルが得られるが、上述した通り、歪んだ非目的音が残留したり、ミュージカルノイズが発生したりしてしまう場合がある。
結合係数算出手段103は、第1のゲインを周波数方向と時間方向に平滑化して、帯域ごとの結合係数(範囲0.0〜1.0)を算出する。第1のゲインは、目的音が存在すると判断した帯域では1.0に近い値を取り、目的音が存在しないと判断した帯域では0.0に近い値を取る。すなわち、第1のゲインは目的音らしさの一指標となっており、これを平滑化した結合係数も目的音らしさを表している。平滑化する理由は後述する。
第1の実施形態においては、ゲイン修正手段104は、歪みやミュージカルノイズを生じる第1のゲインと、まったく歪みを生じない第2のゲインとを、結合係数によってファジーに切り替えることで、不快な雑音を生じない第3のゲインを算出する。第2のゲインは、帯域ごとに所定の定数で与えられる。当該所定の定数は、ある程度小さく(例えば、0.1程度)、且つ周波数方向に十分滑らかとするのが好適である(例えば、隣り合う帯域の比が±1dB以内)。局所的(例えば、区間100ミリ秒且つ帯域200Hz程度)に見れば、第2のゲインは「音の大きさ」を変化させているだけなので、もし第2のゲインを入力スペクトルの1つに帯域ごとに乗じると、まったく歪みを生じないが、目的音もろとも抑圧されたスペクトルが得られる。ある帯域において、第1のゲインをG(目的音強調ゲイン)、第2のゲインをF(無歪ゲイン)、結合係数をC、第3のゲインをH(修正ゲイン)とすると、ゲイン修正手段104は、(5)式を用いて第3のゲインHを算出することができる。すなわち、Cが目的音らしさを意味しているため、第3のゲインHを適用することは、目的音が優勢な帯域については第1のゲインGを適用し、目的音が優勢でない帯域については第2のゲインFを適用することになる。第3のゲインHにおいて、第1のゲインGと第2のゲインFの切り替えが急激に行われると、不快な歪みを生じてしまうが、Cは周波数方向と時間方向に平滑化されているので、切り替えは緩やかに(ファジーに)行われ、不快な歪みが抑制される。
Figure 2017181761
乗算手段105(目的音強調手段)は、以上のようにして得られた第3のゲインを、入力スペクトルの1つに帯域ごとに乗じて、不快な歪みを生じない目的音強調スペクトルを得る。
(A−2)第1の実施形態の動作
次に、上述した構成を有する第1の実施形態の音声処理装置100の動作について、図1を参照しながら説明する。
周波数解析手段101−1〜101−Mは、フーリエ変換に代表される任意の周波数解析手法、またはフィルタバンクに代表される任意の帯域分割手段によって、入力信号x〜xをそれぞれK個の帯域に分割する。入力信号xからk番目の帯域に分割された信号をXk;mと表し、K個の帯域すべてをまとめて入力スペクトルXと表す。そして、周波数解析手段101−1〜101−Mは、得られた入力スペクトルX〜Xをゲイン算出手段102に与えるとともに、所定の入力信号に基づく入力スペクトル(この実施形態では、Xとする)を乗算手段105に与える。なお、乗算手段105に与えられる入力スペクトルは1番目の入力スペクトルXとしたが、これに限定されるものではなく、1〜M番目のいずれの入力スペクトルを乗算手段105に与えても良い。
ゲイン算出手段102は、周波数解析手段101−1〜101−Mから与えられた入力スペクトルX〜Xに基づいて、所定の目的音強調方法によって入力スペクトルX〜Xに含まれる目的音成分又は目的音方向の推定を行い、得られた目的音強調ゲインG(第1のゲイン)を結合係数算出手段103及びゲイン修正手段104に与える。
目的音強調ゲインGには、それぞれの帯域について、個別の値を有している。以下では、目的音強調ゲインGにおける、任意の帯域kの値をGと表す。Gは0.0〜1.0の範囲の実数値となる。
ゲイン算出手段102における目的音強調方法としては、例えば、SSBF、CSSBF、ICABBS、MaskBBS等に代表される任意の処理(例えば、ビームフォーマ、ヌルフォーマ、音源分離等)を適用することができる。以下では、ゲイン算出手段102は、一例として、SSBFを用いた目的音強調ゲインGの算出を行うものとして説明する。
以下では、算出手段102では、SSBFのパラメータM=2とし、目的音源は正面方向(2つのマイクロホンを結んだ直線の鉛直方向)に存在しているものとする。ゲイン算出手段102は、まず双指向性フィルタ、すなわち(6)式によって、目的音を除去した妨害音スペクトルDを得る。そして、ゲイン算出手段102は、(7)式によって目的音強調ゲインGを得る。ところで、(7)式の両辺に|Xk;1|を乗じると、(4)式と同じ形となる。そこで、ゲイン算出手段102は、(7)式で得られたゲインをXの帯域ごとに乗じればSSを実行したことと同じ結果になることが確認できる。
Figure 2017181761
結合係数算出手段103は、ゲイン算出手段102から与えられた目的音強調ゲインGに基づいて結合係数Cを算出し、得られた結合係数Cをゲイン修正手段104に与える。
結合係数Cは、目的音強調ゲインGと同様に、帯域それぞれに個別の値を有している。以下では、結合係数Cの任意の帯域kの値をCと表す。Cは0.0〜1.0の範囲の実数値となる。Cは、大きいほど目的音らしさが高いことを意味する。
結合係数算出手段103は、目的音強調ゲインGを周波数方向と時間方向に平滑化した値を結合係数Cとして算出する。結合係数算出手段103が行う平滑化の方法は任意であり、例えば画像処理で用いられるような2次元の移動平均法や、2次元ガウシアンフィルタなどを適用できる。結合係数算出手段103が行う平滑化方式として、より好適には、まず周波数方向に移動平均法を用いて平滑化し、次に時間方向に時定数フィルタ(リーク積分ともいう)を用いて平滑化する方式がある。
また、結合係数算出手段103は、周波数方向に移動平均法によって平滑化する際には、単なる平均を取っても良いし、加重平均を取るようにしても良い。また、結合係数算出手段103は、周波数によって平均又は加重平均する範囲を変更しても良く、例えば臨界帯域幅に比例する範囲を平均又は加重平均するようにしてもよい。
臨界帯域幅とは、人間の聴覚において、ある純音に対する聴覚マスキングが有効な帯域幅のことである。臨界帯域幅は、純音の周波数に対して非線形で、500Hz以下の純音に対しては常に100Hzであり、500Hzより上の周波数では純音の周波数に対して1/3〜1/4オクターブの割合で増加していく特性を持つ。臨界帯域幅(単位はBark)の近似式がいくつか提案されている。結合係数算出手段103は、例えば、以下の(8)式を用いて臨界帯域幅b[Bark]を求めることができる。なお、(8)式において、fは周波数(単位はHz)である。
Figure 2017181761
ゲイン修正手段104は、目的音強調ゲインGと所定の定数値で与えられた無歪ゲインH(第2のゲイン)とを、結合係数Cに基づいて帯域ごとに凸結合し、得られた修正ゲインH(第3のゲイン)を乗算手段105に与える。
無歪ゲインF及び修正ゲインHは、目的音強調ゲインGと同様に、帯域それぞれに個別の値を有している。以下では、無歪ゲインFの任意の帯域kの値をFと表す。また、以下では、修正ゲインHの任意の帯域kの値をHと表す。F、Hはいずれも0.0〜1.0の範囲の実数値となる。
無歪ゲインFは、帯域ごとに所定の定数となる。無歪ゲインFの帯域ごとに設定される所定の定数は、ある程度小さく(例えば、0.1程度)、且つ周波数方向に十分滑らかとする(例えば、隣り合う帯域の比を±1dB以内とする)ことが望ましい。なお、無歪ゲインFでは、全帯域に渡って同じ値を設定するようにしてもよい。
ゲイン修正手段104は、例えば、(9)式を用いて、帯域ごとの修正ゲインHを得ることができる。
Figure 2017181761
乗算手段105は、入力スペクトルXに帯域ごとに修正ゲインHを乗じ、得られた目的音強調スペクトルYを波形復元手段106に与える。
目的音強調スペクトルYは、入力スペクトルXと同様に、帯域それぞれに個別の値を有している。以下では、目的音強調スペクトルYの任意の帯域kの値をYと表す。
波形復元手段106は、周波数解析手段101−1〜101−Mで用いた周波数解析手法または帯域分割手法に対応する波形復元手法を用いて、乗算手段105から与えられた目的音強調スペクトルYに基づいて時間波形を再構成し、得られた目的音強調信号yを出力する。
なお、音声処理装置100は、目的音強調スペクトルYの波形を復元して目的音強調信号yを出力するものとして説明したが、波形を復元せずに目的音強調スペクトルYを出力しても良い。また、目的音強調スペクトルYと目的音強調信号yの両方を出力するようにしても良い。
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下のような効果を奏することができる。
第1の実施形態の音声処理装置100は、目的音強調ゲインG(目的音源又は目的音方向を強調できるが歪みを生じる場合のあるゲイン)と、所定の定数値で与えられた無歪ゲインF(歪みはないが音声成分を強調できないゲイン)とを、目的音らしさを意味し且つ周波数方向と時間方向とに滑らかに変化する結合係数Cに基づいて凸結合することによって修正ゲインHを得る。そして、第1の実施形態の音声処理装置100は、修正ゲインHを用いて入力スペクトルについて目的音成分を強調することで、従来の目的音強調方法と同等の目的音強調性能を維持しながら歪みを生じない信号処理を行うことができる。
(B)第2の実施形態
以下、本発明による音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムの第2の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を音声処理装置に適用した例について説明する。
(B−1)第2の実施形態の構成
図2は、第2の実施形態の音声処理装置200の構成を示すブロック図である。図2では、上述の図1と同一部分又は対応部分には、同一符号又は対応符号を付している。
以下では、第2の実施形態について第1の実施形態との差異を説明する。
図2に示すように、第2の実施形態の音声処理装置200には、平滑化手段207が追加されている点で第1の実施形態と異なっている。
第2の実施形態では、結合係数算出手段103、ゲイン修正手段104、及び平滑化手段207により、本発明のゲイン処理装置が構成されている。
(B−2)第2の実施形態の動作
次に、上述した構成を有する第2の実施形態の音声処理装置200の動作について、図2を参照しながら説明する。
以下では、第2の実施形態の音声処理装置200の動作について、第1の実施形態との差異部分のみを説明する。
第2の実施形態の音声処理装置200では、ゲイン算出手段102によって算出された目的音強調ゲインGが平滑化手段207にも与えられる点と、平滑化手段207により、目的音強調ゲインGに応じた無歪ゲインFが生成され、ゲイン修正手段104に供給される点で、第1の実施形態と異なっている。
平滑化手段207は、ゲイン算出手段102から与えられた目的音強調ゲインGに基づいて無歪ゲインFを算出し、得られた無歪ゲインFをゲイン修正手段104に与える。
平滑化手段207は、目的音強調ゲインGを周波数方向と時間方向に平滑化した値を無歪ゲインFとして算出する。平滑化手段207が行う平滑化の方法は任意であり、例えば、画像処理で用いられるような2次元の移動平均法や2次元ガウシアンフィルタなどを適用できる。平滑化手段207が行う平滑化方式として、より好適には、まず周波数方向に移動平均法を用いて平滑化し、次に時間方向に時定数フィルタ(リーク積分ともいう)を用いて平滑化する方式がある。
また、平滑化手段207は、周波数方向に移動平均法によって平滑化する際には、単なる平均を取っても良いし、加重平均を取るようにしても良い。また、平滑化手段207は、周波数によって平均又は加重平均する範囲を変更しても良く、例えば臨界帯域幅に比例する範囲を平均又は加重平均するようにしてもよい。また、平滑化手段207では、結合係数算出手段103における平滑化方法と同一としても良いし、異なる方法やパラメータを用いても良いが、無歪ゲインFは歪みをまったく生じない特性を持つ必要がある。したがって、平滑化手段207は、周波数方向の平滑化は臨界帯域幅で平滑化した場合と同等以上に滑らかにし、時間方向の平滑化は結合係数算出手段103よりも滑らかにすることが好ましい。
(B−3)第2の実施形態の効果
第2の実施形態によれば、以下のような効果を奏することができる。
第2の実施形態では、平滑化手段207が、目的音強調ゲインGを周波数方向と時間方向に平滑化した値を無歪ゲインFとして算出する。そして、ゲイン修正手段104は、平滑化手段207から供給された無歪ゲインFを用いて、目的音強調ゲインGを修正する。これにより、第2の実施形態では、入力信号の特性によって変化する目的音強調ゲインGに対して適応した無歪ゲインFを適用することができ、目的音強調ゲインGが優勢な帯域及び時刻と無歪ゲインFが優勢な帯域及び時刻との差異が適応的に調整される。これにより、第2の実施形態の音声処理装置100では、音声強調性能を維持しながら、入力信号の特性に適応して歪み等を低減させることができる。
(C)第3の実施形態
以下、本発明による音響信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラムの第3の実施形態を、図面を参照しながら詳述する。以下では、本発明の音響信号処理装置及びゲイン処理装置を音声処理装置に適用した例について説明する。
(C−1)第3の実施形態の構成
次に、上述した構成を有する第2の実施形態の音声処理装置300の動作について、図3を参照しながら説明する。
以下では、第3の実施形態の音声処理装置300の動作について、第2の実施形態との差異部分のみを説明する。
第3の実施形態の音声処理装置300では、乗算手段105と波形復元手段106が入力信号x〜xごとに配置されている点で第1の実施形態と異なっている。すなわち、第3の実施形態の音声処理装置300では、乗算手段105と波形復元手段106が周波数解析手段101と同じ数(M個)配置されている。第3の実施形態に係る音声処理装置300は、M個の乗算手段105(105−1〜105−M)と、M個の波形復元手段106(106−1〜106−M)とを有している。
(C−2)第3の実施形態の動作
次に、上述した構成を有する第2の実施形態の音声処理装置300の動作について、図3を参照しながら説明する。
以下では、第3の実施形態の音声処理装置300の動作について、第1の実施形態との差異部分のみを説明する。
第1の実施形態では、入力信号xのみが乗算手段105に供給されていた。これに対して、第2の実施形態では、入力信号x〜xが、それぞれ乗算手段105−1〜105−Mに供給される。
また、第1の実施形態の音声処理装置100では、ゲイン修正手段104が、得られた修正ゲインHを、ただ1つの乗算手段105に与えていた。これに対して、第2の実施形態のゲイン修正手段104は、得られた修正ゲインHを、M個の乗算手段105−1〜105−Mに与える。
そして、第2の実施形態では、乗算手段105−1〜105−Mにより、それぞれ入力信号x〜xと修正ゲインHとが乗算される。以下では、乗算手段105−1〜105−Mの乗算処理により得られる目的音強調スペクトルをY〜Yと表す。
そして、目的音強調スペクトルY〜Yは、それぞれ波形復元手段106−1〜106−Mに供給される。そして、波形復元手段106−1〜106−Mは、それぞれ目的音強調スペクトルY〜Yに基づいて時間波形を再構成し、得られた目的音強調信号を出力する。以下では、波形復元手段106−1〜106−Mが出力する目的音強調信号を、y〜yと表す。
音声処理装置300は、例えば、複数の入力信号(マイクロホンの入力)を用いる任意の装置の前処理として適用できる。音声処理装置300から出力される目的音強調信号y〜yは、例えば、所定の方向に音源を定位する装置(音像定位装置)に供給するようにしてもよい。
(C−3)第3の実施形態の効果
第3の実施形態によれば、以下のような効果を奏することができる。
第3の実施形態の音声処理装置100では、すべての入力信号(マイクロホンの入力)に対して同じ修正ゲインHを用いて目的音強調を行うので、複数の入力信号(マイクロホンの入力)を用いる任意の装置の前処理として好適な目的音強調処理(歪みやミュージカルノイズの少ない目的音強調処理)を提供できる。
(D)他の実施形態
本発明は、上記の実施形態に限定されるものではなく、以下に例示するような変形実施形態も挙げることができる。
(D−1)上記の各実施形態では、強調する目的音を音声としているが、音声以外の音(例えば、機械音や操作音等の音)を目的音(強調対象となる音響信号)としてもよい。
(D−2)第3の実施形態では、音声処理装置300は、すべての目的音強調スペクトルの波形を復元して目的音強調信号を出力するものとして説明したが、波形を復元せずにすべての目的音強調スペクトルを出力するようにしても良いし、一部の目的音強調スペクトルを波形に復元して目的音強調信号と目的音強調スペクトルの両方を出力するようにしても良い。また、第3の実施形態では、音声処理装置300は、すべてのマイクロホンの入力に関して目的音強調信号を出力するものとして説明したが、少なくとも2つ以上の任意の入力信号(図示しないマイクロホンからの入力信号)を選択して目的音強調信号を生成して出力するようにしても良い。
(D−3)上記の各実施形態では、音声処理装置に時間領域の入力信号を供給しているが、音声処理装置に予め周波数領域に変換した入力スペクトルを供給するようにしてもよい。
100…音声処理装置、101、101−1〜101−M…周波数解析手段、102…ゲイン算出手段、103…結合係数算出手段、104…ゲイン修正手段、105…乗算手段、106…波形復元手段。

Claims (11)

  1. 複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第1のゲインを得るゲイン算出手段と、
    前記第1のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、
    前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段と、
    前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第3のゲインを乗じて目的音強調スペクトルを得る目的音強調手段と
    を有することを特徴とする音響信号処理装置。
  2. 前記結合係数算出手段は、前記第1のゲインを周波数方向と時間方向とに平滑化して、前記結合係数を得ることを特徴とする請求項1に記載の音響信号処理装置。
  3. 前記結合係数算出手段は、前記第1のゲインを周波数方向に移動平均法によって平滑化し、さらに時間方向に時定数フィルタによって平滑化して前記結合係数を得ることを特徴とする請求項2に記載の音響信号処理装置。
  4. 前記結合係数算出手段は、前記第1のゲインを周波数方向に平滑化する際に、平均する範囲を臨界帯域幅に比例させることを特徴とする請求項3に記載の音響信号処理装置。
  5. 前記第1のゲインを周波数方向と時間方向とに平滑化して前記第2のゲインを取得する平滑化手段をさらに備え、
    前記ゲイン修正手段は、前記平滑化手段が取得した前記第2のゲインを用いて前記第3のゲインを得る
    ことを特徴とする請求項1〜4のいずれかに記載の音響信号処理装置。
  6. 前記平滑化手段は、前記第1のゲインを周波数方向に移動平均法によって平滑化し、さらに時間方向に時定数フィルタによって平滑化することで、前記第2のゲインを得ることを特徴とする請求項5に記載の音響信号処理装置。
  7. 前記平滑化手段は、前記第1のゲインを周波数方向に平滑化する際に、平均する範囲を臨界帯域幅に比例させることを特徴とする請求項6に記載された音響信号処理装置。
  8. 前記目的音強調手段は、前記複数の入力スペクトルのうちの少なくとも2つについて、それぞれ前記帯域ごとに前記第3のゲインを乗じて複数の目的音強調スペクトルを得ることを特徴とする請求項1〜7のいずれかに記載の音響信号処理装置。
  9. 複数の入力音響信号に基づく複数の入力スペクトルに基づいて目的音成分を強調した所定の帯域ごとの第1のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、
    前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで、前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段と
    を有することを特徴とするゲイン処理装置。
  10. コンピュータを、
    複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調する所定の帯域ごとの第1のゲインを得るゲイン算出手段と、
    前記第1のゲインに基づいて前記帯域ごとの結合係数を得る結合係数算出手段と、
    前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段と、
    前記複数の入力スペクトルの一部又は全部に前記帯域ごとに前記第3のゲインを乗じて目的音強調スペクトルを得る目的音強調手段と
    して機能させることを特徴とする音響信号処理プログラム。
  11. コンピュータを、
    複数の入力音響信号に基づく複数の入力スペクトルに基づいて、目的音成分を強調した所定の帯域ごとの第1のゲインについて、前記帯域ごとの結合係数を得る結合係数算出手段と、
    前記結合係数に基づいて前記第1のゲインと前記帯域ごとに所定の定数値で与えられる第2のゲインとを凸結合することで前記第1のゲインを修正した前記帯域ごとの第3のゲインを得るゲイン修正手段と
    して機能させることを特徴とするゲイン処理プログラム。
JP2016068405A 2016-03-30 2016-03-30 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム Pending JP2017181761A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016068405A JP2017181761A (ja) 2016-03-30 2016-03-30 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016068405A JP2017181761A (ja) 2016-03-30 2016-03-30 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム

Publications (1)

Publication Number Publication Date
JP2017181761A true JP2017181761A (ja) 2017-10-05

Family

ID=60006949

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016068405A Pending JP2017181761A (ja) 2016-03-30 2016-03-30 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP2017181761A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019078844A (ja) * 2017-10-23 2019-05-23 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
KR20220044206A (ko) * 2019-07-30 2022-04-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리
US12022271B2 (en) 2019-07-30 2024-06-25 Dolby Laboratories Licensing Corporation Dynamics processing across devices with differing playback capabilities

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235358A (ja) * 2006-02-28 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 収音装置、プログラム及びこれを記録した記録媒体
WO2008004499A1 (fr) * 2006-07-03 2008-01-10 Nec Corporation Procédé, dispositif et programme de suppression du bruit
JP2016038551A (ja) * 2014-08-11 2016-03-22 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007235358A (ja) * 2006-02-28 2007-09-13 Nippon Telegr & Teleph Corp <Ntt> 収音装置、プログラム及びこれを記録した記録媒体
WO2008004499A1 (fr) * 2006-07-03 2008-01-10 Nec Corporation Procédé, dispositif et programme de suppression du bruit
JP2016038551A (ja) * 2014-08-11 2016-03-22 沖電気工業株式会社 雑音抑圧装置、方法及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
岡本 亮維: ""独立成分分析を用いた雑音推定に基づくMMSE STSA"", 日本音響学会 2009年 春季研究発表会講演論文集CD−ROM, JPN6020016926, 22 April 2010 (2010-04-22), pages 663 - 666, ISSN: 0004267671 *
梅田 和輝: ""二段階MAP推定法と平滑化を用いた定常ノイズ除去"", 電子情報通信学会2016年総合大会講演論文集 基礎・境界(2016-03-01), P.120, JPN6019034874, 1 March 2016 (2016-03-01), ISSN: 0004111725 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019078844A (ja) * 2017-10-23 2019-05-23 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
JP7013789B2 (ja) 2017-10-23 2022-02-01 富士通株式会社 音声処理用コンピュータプログラム、音声処理装置及び音声処理方法
KR20220044206A (ko) * 2019-07-30 2022-04-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리
KR20230074309A (ko) * 2019-07-30 2023-05-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리
KR102535704B1 (ko) 2019-07-30 2023-05-30 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리
KR102638121B1 (ko) 2019-07-30 2024-02-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 상이한 재생 능력을 구비한 디바이스에 걸친 역학 처리
US12022271B2 (en) 2019-07-30 2024-06-25 Dolby Laboratories Licensing Corporation Dynamics processing across devices with differing playback capabilities

Similar Documents

Publication Publication Date Title
Pedersen et al. Two-microphone separation of speech mixtures
CN108172235B (zh) 基于维纳后置滤波的ls波束形成混响抑制方法
KR101555416B1 (ko) 음향 삼각 측량에 의한 공간 선택적 사운드 취득 장치 및 방법
US8654990B2 (en) Multiple microphone based directional sound filter
JP6187626B1 (ja) 収音装置及びプログラム
US20140025374A1 (en) Speech enhancement to improve speech intelligibility and automatic speech recognition
US20120082322A1 (en) Sound scene manipulation
KR20090037692A (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
Li et al. Geometrically constrained independent vector analysis for directional speech enhancement
JP6763332B2 (ja) 収音装置、プログラム及び方法
EP2437517B1 (en) Sound scene manipulation
KR20090037845A (ko) 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
JP6379839B2 (ja) 雑音抑圧装置、方法及びプログラム
JP2009044588A (ja) 特定方向収音装置、特定方向収音方法、特定方向収音プログラム、記録媒体
JP6943120B2 (ja) 収音装置、プログラム及び方法
JP2017181761A (ja) 信号処理装置及びプログラム、並びに、ゲイン処理装置及びプログラム
JP6436180B2 (ja) 収音装置、プログラム及び方法
JP2016163135A (ja) 収音装置、プログラム及び方法
JP6260666B1 (ja) 収音装置、プログラム及び方法
JP6241520B1 (ja) 収音装置、プログラム及び方法
JP6182169B2 (ja) 収音装置、その方法及びプログラム
JP6707914B2 (ja) ゲイン処理装置及びプログラム、並びに、音響信号処理装置及びプログラム
JP6524463B2 (ja) 自動ミキシング装置およびプログラム
JP6863004B2 (ja) 収音装置、プログラム及び方法
Bagekar et al. Dual channel coherence based speech enhancement with wavelet denoising

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20181115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190830

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190910

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20200526