JP6711205B2 - 音響信号処理装置、プログラム及び方法 - Google Patents

音響信号処理装置、プログラム及び方法 Download PDF

Info

Publication number
JP6711205B2
JP6711205B2 JP2016162712A JP2016162712A JP6711205B2 JP 6711205 B2 JP6711205 B2 JP 6711205B2 JP 2016162712 A JP2016162712 A JP 2016162712A JP 2016162712 A JP2016162712 A JP 2016162712A JP 6711205 B2 JP6711205 B2 JP 6711205B2
Authority
JP
Japan
Prior art keywords
signal
value
calibration gain
calibration
input acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016162712A
Other languages
English (en)
Other versions
JP2018032931A (ja
Inventor
克之 高橋
克之 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2016162712A priority Critical patent/JP6711205B2/ja
Publication of JP2018032931A publication Critical patent/JP2018032931A/ja
Application granted granted Critical
Publication of JP6711205B2 publication Critical patent/JP6711205B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Description

本発明は、音響信号処理装置、プログラム及び方法に関し、例えば、電話やテレビ電話等に用いられる通信機又は通信ソフトウェア、あるいは、音声認識処理の前処理で用いる、音響信号処理に適用し得るものである。
近年、スマートフォンやカーナビゲーションなどのように、音声通話機能や音声認識機能等の様々な音声処理機能が搭載された機器が普及している。しかし、これらの機器が普及したことで、混雑した街中や走行中の車内など、以前よりも過酷な雑音環境下で音声処理機能が用いられるようになってきている。そのため、雑音環境下でも通話音質や音声認識性能を維持できるような、信号処理技術の需要が高まっている。
特開2014−68052号公報
平岡 和幸、堀 玄,"プログラミングのための確率統計",株式会社オーム社発行,平成21年10月23日,p.178−p.179
近年、多チャンネルのマイクを用いた音響信号処理技術が実現されているが、同じ型番のマイクであっても感度差があり、感度差を校正しなければ正確な音響特徴量の計算ができない。これまでは事前にマイクの感度を測定し、感度差に応じた補正ゲインを設定したり、チャンネルごとに入力レベルを比較して、平均値に一致させるような補正ゲインを自動設定するなどの手法で対処している。しかし、前者は手間がかかり、後者はマイクの感度差だけでなく取得した入力信号の差も埋めてしまうため、後段で計算する音響特徴量の精度が保障されない、という課題がある。
この課題の改善方法の1つが、入力信号のうち、マイク正面から到来する信号成分の区間でのみ入力レベルの比較を行って校正ゲインを計算する、というものである。これは正面から到来する信号ならば各マイクと音源との距離が等しいため、マイクに到達する信号成分の音響的な特性差は微小であり、両者に発生する特性差はマイク感度のみであると期待できることを前提としている。これを前提とした解決法の1つが特許文献1に記載される手法である。これは、正面から目的話者の音声が到来するか否かによってコヒーレンスという特徴量の大小が変動することに注目し、正面から音声が到来する信号区間でマイク感度差校正ゲインを算出する、という技術である。なお、コヒーレンスはマイクの感度差があっても、音声が正面から到来するか否かで大小が変動するという挙動は維持されるので、この手法で感度差を校正することができる。(補:コヒーレンスの計算方法は特許文献1の式7を参照のこと)
しかし、特許文献1の方法は、マイクアレイの正面から到来する目的音声と同時に左右から別の話者の話し声(妨害音)が到来する場合にもコヒーレンスが大きい値をとるため、正面から到来していない音声成分も校正ゲインに反映されてしまう。また、マイクの感度差はマイクアレイごとにランダムなので、正面から到来する信号区間を検出する閾値の最適化が難しく、目的音声区間を誤判定してしまう可能性がある。
そのため、上記のような2つの課題を改善するため、妨害音が存在していても正確に感度校正ゲインが計算でき、かつ、閾値をより容易に設定できる感度校正ゲイン計算方法が求められている。
上記課題を解決するために、第1の本発明に係る音響信号処理装置は、複数の入力音響信号におけるマイク感度の相違を校正する音響信号処理装置において、(1)第1の入力音響信号を時間領域から周波数領域に変換した第1の周波数領域信号と、第2の入力音響信号を時間領域から周波数領域に変換した第2の周波数領域信号とを周波数成分毎に差分をとって得た各周波数成分の値を平均して、正面方向に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、(2)第1の周波数領域信号と第2の周波数領域信号とに基づいて、正面方向とは異なる第1の方向に指向性が強い指向性特性を付与した第1の指向性信号と、正面方向とは異なり、かつ、第1の方向とは異なる第2の方向に指向性が強い指向性特性を付与した第2の指向性信号とを用いて、コヒーレンスを算出するコヒーレンス算出部と、(3)正面抑圧信号とコヒーレンスとの関係性を表す相関値を算出する特徴量算出部と、(4)相関値が正の値であるか又は負の値であるかにより、第1及び第2の入力音響信号に対する校正ゲインを算出する校正ゲイン算出部と、(5)各校正ゲインで、対応する各入力音響信号を校正する校正部とを備え、校正ゲイン算出部が、相関値が正の値のとき、妨害音の影響を受けていない、正面から到来する目的音区間を検出し、その目的音区間における第1及び第2の入力音響信号を用いて、各入力音響信号のマイク感度を反映させた値を算出し、算出した複数のマイク感度を反映させた値から目標感度を求め、各マイク感度を反映させた値と目標感度とに基づいて、各入力音響信号に対する各校正ゲインを算出し、相関値が負の値のとき、各入力音響信号に対する各校正ゲインの初期値、又は、校正ゲイン算出部に記憶される、妨害音の影響を受けていない目的音区間の最新の各校正ゲインとすることを特徴とする。
第2の本発明に係る音響信号処理プログラムは、複数の入力音響信号におけるマイク感度の相違を校正する音響信号処理プログラムにおいて、コンピュータを、(1)第1の入力音響信号を時間領域から周波数領域に変換した第1の周波数領域信号と、第2の入力音響信号を時間領域から周波数領域に変換した第2の周波数領域信号とを周波数成分毎に差分をとって得た各周波数成分の値を平均して、正面方向に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、(2)第1の周波数領域信号と第2の周波数領域信号とに基づいて、正面方向とは異なる第1の方向に指向性が強い指向性特性を付与した第1の指向性信号と、正面方向とは異なり、かつ、第1の方向とは異なる第2の方向に指向性が強い指向性特性を付与した第2の指向性信号とを用いて、コヒーレンスを算出するコヒーレンス算出部と、(3)正面抑圧信号とコヒーレンスとの関係性を表す相関値を算出する特徴量算出部と、(4)相関値が正の値であるか又は負の値であるかにより、第1及び第2の入力音響信号に対する校正ゲインを算出する校正ゲイン算出部と、(5)各校正ゲインで、対応する各入力音響信号を校正する校正部として機能させ、校正ゲイン算出部が、相関値が正の値のとき、妨害音の影響を受けていない、正面から到来する目的音区間を検出し、その目的音区間における第1及び第2の入力音響信号を用いて、各入力音響信号のマイク感度を反映させた値を算出し、算出した複数のマイク感度を反映させた値から目標感度を求め、各マイク感度を反映させた値と目標感度とに基づいて、各入力音響信号に対する各校正ゲインを算出し、相関値が負の値のとき、各入力音響信号に対する各校正ゲインの初期値、又は、校正ゲイン算出部に記憶される、妨害音の影響を受けていない目的音区間の最新の各校正ゲインとすることを特徴とする。
第3の本発明に係る音響信号処理方法は、複数の入力音響信号におけるマイク感度の相違を校正する音響信号処理方法において、(1)正面抑圧信号生成部が、第1の入力音響信号を時間領域から周波数領域に変換した第1の周波数領域信号と、第2の入力音響信号を時間領域から周波数領域に変換した第2の周波数領域信号とを周波数成分毎に差分をとって得た各周波数成分の値を平均して、正面方向に死角を有する正面抑圧信号を生成し、(2)コヒーレンス算出部が、第1の周波数領域信号と第2の周波数領域信号とに基づいて、正面方向とは異なる第1の方向に指向性が強い指向性特性を付与した第1の指向性信号と、正面方向とは異なり、かつ、第1の方向とは異なる第2の方向に指向性が強い指向性特性を付与した第2の指向性信号とを用いて、コヒーレンスを算出し、(3)特徴量算出部が、正面抑圧信号とコヒーレンスとの関係性を表す相関値を算出し、(4)校正ゲイン算出部が、相関値が正の値であるか又は負の値であるかにより、第1及び第2の入力音響信号に対する校正ゲインを算出し、(5)校正部が、各校正ゲインで、対応する各入力音響信号を校正し、校正ゲイン算出部が、相関値が正の値のとき、妨害音の影響を受けていない、正面から到来する目的音区間を検出し、その目的音区間における第1及び第2の入力音響信号を用いて、各入力音響信号のマイク感度を反映させた値を算出し、算出した複数のマイク感度を反映させた値から目標感度を求め、各マイク感度を反映させた値と上記目標感度とに基づいて、各入力音響信号に対する各校正ゲインを算出し、相関値が負の値のとき、各入力音響信号に対する各校正ゲインの初期値、又は、校正ゲイン算出部に記憶される、妨害音の影響を受けていない目的音区間の最新の各校正ゲインとすることを特徴とする。
本発明によれば、妨害音があっても正確に感度校正ゲインが計算でき、かつ、閾値をより容易に設定できる。
実施形態に係る音響信号処理装置の全体構成を示すブロック図である。 実施形態に係る正面抑圧信号生成部で形成される指向性の特性を示す説明図である。 実施形態に係る相関計算部の構成を示すブロック図である。 実施形態に係る校正ゲイン計算部の構成を示すブロック図である。 実施形態に係る校正ゲイン計算部における処理動作を示すフローチャートである。
(A)主たる実施形態
以下では、本発明に係る音響信号処理装置、プログラム及び方法の実施形態を、図面を参照しながら詳細に説明する。
(A−1)実施形態の構成
図1は、この実施形態に係る音響信号処理装置10の全体構成を示すブロック図である。
図1において、音響信号処理装置10は、複数(図1では2個の場合を例示している)のマイクm_1及びm_2、FFT部11、正面抑圧信号生成部12、コヒーレンス計算部13、相関計算部14、校正ゲイン計算部15、第1校正ゲイン乗算部16及び第2校正ゲイン乗算部17を有する。
なお、特許請求の範囲に記載の「特徴量算出部」は相関計算部14を含むものである。また、「校正ゲイン算出部」は校正ゲイン計算部15を含むものである。さらに、「校正部」は第1校正ゲイン乗算部16及び第2校正ゲイン乗算部17を含むものである。
図1に例示する音響信号処理装置10において、マイクm_1及びm_2以外の構成要素は、CPUが実行するソフトウェア(音響信号処理プログラム)として実現することができ、音響信号処理プログラムの機能は、図1で表すことができる。
マイクm_1及びマイクm_2は、所定距離(若しくは任意の距離)だけ離れて配置され、マイクm_1及びマイクm_2のそれぞれは、周囲の音響を捕捉するものである。各マイクm_1及びマイクm_2で捕捉された各音響信号(入力信号)は、図示しないアナログ/デジタル(A/D)変換器に変換されて、入力信号s1(n)及びs2(n)のそれぞれが、FFT部11と、校正ゲイン計算部15と、第1校正ゲイン乗算部16及び第2校正ゲイン乗算部17とに与えられる。なお、nは、サンプルの入力順を表すインデックスであり、正の整数で表現される。本文中では、nの値が小さいほど古い入力サンプルであり、大きいほど新しい入力サンプルであるとする。
FFT部11は、マイクm_1及びm_2から入力信号s1(n)及びs2(n)を受け取り、その入力信号s1(n)及びs2(n)に高速フーリエ変換(あるいは離散フーリエ変換)を行なうものである。これにより、入力信号s1(n)及びs2(n)を時間領域から周波数領域に変換することができる。なお、FFT部11は、高速フーリエ変換を実施するにあたり、入力信号s1(n)及びs2(n)から所定のN個(Nは任意の整数)のサンプルから成る、分析フレームFRAME1(K)及びFRAME2(K)を構成するものとする。
入力信号s1からFRAME1を構成する例を(1)式に例示する。なお、以下の(1)式において、Kは、フレームの順番を表すインデックスであり、正の整数で表現される。以下では、Kの値が小さいほど古い分析フレームであり、Kの値が大きいほど新しい分析フレームであるものとする。また、以降の動作説明において、特に但し書きが無い限りは、分析対象となる最新の分析フレームを表すインデックスKであるとする。
Figure 0006711205
FFT部11は、分析フレームごとに、高速フーリエ変換処理を施すことで、入力信号s1から構成した分析フレームFRAME1(K)にフーリエ変換して得た周波数領域信号X1(f,K)と、入力信号s2から構成した分析フレームFRAME2(K)にフーリエ変換して得た周波数領域信号X2(f,X)とを取得する。FFT部11は、周波数領域信号X1(f,K)及び周波数領域信号X2(f,X)を、正面抑圧信号生成部12を供給すると共に、コヒーレンス計算部13に与える。
ここで、fは周波数を表すインデックスである。また、周波数領域信号X1(f,K)、X2(f,K)は単一の値ではなく、以下の(2)式のように、複数の周波数f1〜fmのm個(mは任意の整数)の成分(スペクトル成分)から構成されるものであるとする。
Figure 0006711205
上記(2)式において、X1(f,K)は複素数であり、実部と虚部からなる。以降、X2(f,K)、及び後述する正面抑圧信号生成部12で現れる正面抑圧信号N(f,K)についても同様である。
正面抑圧信号生成部12は、FFT部からの信号について、周波数成分ごとに、正面方向から到来する信号成分を抑圧する処理を行なう。言い換えると、正面抑圧信号生成部12は、正面方向の成分を抑圧する指向性フィルタとして機能する。
例えば、正面抑圧信号生成部12は、図2に示すように、8の字型の正面方向に死角を有する双指向性のフィルタを用いて、FFT部11からの信号から正面方向の成分を抑圧する指向性フィルタを形成する。
具体的には、正面抑圧信号生成部12は、FFT部11からの信号X1(f,K)、X2(f,K)に基づいて、(3)式のような計算を行なって、周波数成分毎の正面抑圧信号N(f,N)を生成する。以下の(3)式の計算は、図2のような、正面方向に死角を有する8の字型の双指向性のフィルタを形成する処理に相当する。
N(f,K)=X1(f,K)−X2(f,K) …(3)
以上のように、正面抑圧信号生成部12は、周波数f1〜fmの各周波数成分(各周波数帯の1フレーム分のパワー)を取得する。
また、正面抑圧信号生成部12は、(4)式に従って、周波数f1〜fmの全周波数に亘って、正面抑圧信号N(f,K)を平均した、平均正面抑圧信号AVE_N(K)を算出する。
Figure 0006711205
コヒーレンス計算部13は、FFT部11からの周波数領域信号X1(f,K)、X2(f,K)に含まれる特定方向に指向性が強い信号を形成してコヒーレンスCOH(K)を算出する。
ここで、コヒーレンス計算部13におけるコヒーレンスCOH(K)の算出処理を説明する。
コヒーレンス計算部13は、周波数領域信号X1(f,K)及びX2(f,K)から第1の方向(例えば、左方向)に指向性が強いフィルタで処理した信号B1(f,K)を形成し、またコヒーレンス計算部13は、周波数領域信号X1(f,K)及びX2(f,K)から第2の方向(例えば、右方向)に指向性が強いフィルタで処理した信号B2(f,K)を形成する。特定方向に指向性の強い信号B1(f)、B2(f)の形成方法は、既存の方法を適用することができ、ここでは、以下の(5)式を適用して第1の方向に指向性が強い信号B1を形成し、以下の(6)式を適用して第2の方向に指向性が強い信号B2を形成する場合を例示する。
Figure 0006711205
上記の(5)式、(6)式において、Sはサンプリング周波数、NはFFT分析フレーム長、τはマイクm_1とマイクm_2との間の音波到達時間差、iは虚数単位、fは周波数を示す。
次に、コヒーレンス計算部13は、上記のようにして得られた信号B1(f)、B2(f)に対し、以下のような(7)式、(8)式に示す演算を施すことでコヒーレンスCOH(K)を得る。ここで、(7)式におけるB2(f、K)はB2(f、K)の共役複素数である。
Figure 0006711205
coef(f、K)は、インデックスが任意のインデックスKのフレーム(分析フレームFRAME1(K)及びFRAME2(K)を構成する任意の周波数f(周波数f1〜fmのいずれかの周波数)の成分におけるコヒーレンスを表しているものとする。
なお、coef(f,K)を求める際に、信号B1(f)の指向性の方向と信号B(f)の指向性の方向が異なるものであれば、信号B1(f)及び信号B2(f)に係る指向性方向はそれぞれ、正面方向以外の任意の方向とするようにしてもよい。また、coef(f,K)を算出する方法は、上記の算出方法に限定されるものではなく、例えば、特許文献1に記載される算出方法を適用することができる。
相関計算部14は、正面抑圧信号生成部12から平均正面抑圧信号AVE_N(K)を取得し、コヒーレンス計算部13からコヒーレンスCOH(K)を取得し、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)との相関係数cor(K)を算出する。
相関計算部14が、正面方向以外に指向性を有する正面抑圧信号(平均正面抑圧信号)と、コヒーレンスとの相関係数を算出する意義を説明する。
ここでは、マイクm_1及びマイクm_2の正面方向に、目的音を発する音源が存在し、正面方向以外の方向(例えば、マイクm_1及びマイクm_2の左右方向の方向)から妨害音が到来するものとする。
例えば、「妨害音声が存在せず」、かつ、「目的音が存在する」場合、正面抑圧信号は、目的音成分の大きさに比例した信号値となる。ただし、図2のように、正面方向のゲインは、横方向のゲインと比較して小さいため、妨害音が存在する場合よりも小さい値となる。
また、コヒーレンスCOH(K)は、入力信号の到来方向と深い関係を持つ特徴量であり、2つの信号成分の相関と言い換えられる。これは、(6)式は、ある周波数成分についての相関を算出する式であり、(7)式は全ての周波数成分の相関値の平均を計算する式であるためである。そのため、コヒーレンスCOH(K)が小さい場合は、2つの信号成分の相関が小さい場合であり、反対に、コヒーレンスCOH(K)が大きい場合とは、2つの信号成分の相関が大きい場合と言い換えることができる。そして、コヒーレンスCOH(K)が小さい場合の入力信号は、到来方向が右又は左のいずれかに大きく偏っており、正面方向以外の方向から到来している信号といえる。一方、コヒーレンスCOH(K)が大きい場合の入力信号は、到来方向の偏りが少なく、正面方向から到来している信号であるといえる。
そうすると、「妨害音が存在せず」、かつ、「目的音が存在する」場合、コヒーレンスCOH(K)は大きい値となり、「妨害音が存在し」、かつ、「目的音が存在する」場合、コヒーレンスCOH(K)は小さい値となる。
以上の挙動を妨害音の有無に着目して整理すると、以下のような関係となる。
・「妨害音が存在せず」、かつ、「目的音が存在する」場合、コヒーレンスCOH(K)は大きな値となり、正面抑圧信号は目的音成分の大きさに比例した値となる
・「妨害音が存在する」場合、コヒーレンスCOH(K)が小さい値となり、正面抑圧信号は大きい値となる。
ところで、上記のような挙動の場合、正面抑圧信号とコヒーレンスCOH(K)との相関係数を導入すると、以下のようなことがいえる。
・「妨害音が存在しない」場合、相関係数は正の値となる
・「妨害音が存在する」場合、相関係数は負の値となる。
従って、正面抑圧信号とコヒーレンスとの相関係数の正負を観測するだけで、妨害音の有無を判断することができる。そして、この挙動を用いると、正面抑圧信号とコヒーレンスとの相関係数の値が「正」の場合、正面方向からの目的音のみの区間と判断できるので、妨害音の影響を受けることなく、マイクm_1及びm_2の感度差の校正ゲインを計算することができる。また、相関係数の値の正負を観測するだけで、目的音声区間を検出できるため、従来技術とは異なり閾値設定が容易になる。
以下では、相関計算部14における、正面抑圧信号とコヒーレンスとの相関係数の算出処理を、図面を参照しながら詳細に説明する。
図3は、実施形態に係る相関計算部14の構成を示すブロック図である。
図3において、相関計算部14は、正面抑圧信号・コヒーレンス取得部31、相関係数計算部32、相関係数出力部33を有する。
正面抑圧信号・コヒーレンス取得部31は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とを取得し、相関係数計算部32が、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)とに基づいて、相関係数cor(K)を算出する。そして、相関係数出力部33は、算出した相関係数cor(K)を校正ゲイン計算部15に出力する。
ここで、相関係数cor(K)の算出方法は限定されるものではないが、例えば、非特許文献1に記載された計算方法を適用することができる。例えば、以下の式(9)を用いて、フレームごとに相関係数cor(K)を求める。なお、以下の(9)式において、Cov[AVE_N(K),COH(K)]は、平均正面抑圧信号AVE_N(K)とコヒーレンスCOH(K)の共分散を示している。また、以下の(9)式において、σAVE_N(K)は、平均正面抑圧信号AVE_N(K)の標準偏差を示し、σCOH(K)は、コヒーレンスCOH(K)の標準偏差を示している。このようにして得られる相関係数cor(K)は、−1.0〜1.0の値をとる。
Figure 0006711205
校正ゲイン計算部15は、相関計算部14から相関係数cor(K)を取得し、相関係数cor(K)の正負を観測し、相関係数cor(K)が「正」の区間の入力信号のみを用いて、マイクm_1とマイクm_2との校正ゲインを算出する。
図4は、実施形態に係る校正ゲイン計算部15の構成を示すブロック図である。
図4において、校正ゲイン計算部15は、相関係数及び入力信号取得部41、校正ゲイン計算実行判定部42、校正ゲイン計算部43、校正ゲイン記憶部44、校正ゲイン出力部45を有する。
相関係数及び入力信号取得部41は、相関計算部14から相関係数cor(K)と、入力信号の分析フレームであるFRAME1(K)、FRAME2(K)とを取得するものである。
校正ゲイン計算実行判定部42は、校正ゲインの計算を実行するか否かを判定するため、相関係数cor(K)の値が「正」であるか又は「負」であるかを判定する。すなわち、相関係数cor(K)の値が「正」の場合、校正ゲイン計算実行判定部42は、入力信号には妨害音が含まれていない目的音区間と判断し、校正ゲインの計算を実行する区間であることを判定する。一方、相関係数cor(K)の値が「負」の場合、校正ゲイン計算実行判定部42は、入力信号には妨害音が含まれている区間と判断し、校正ゲインの計算を実行しない区間であると判定する。
校正ゲイン計算部43は、校正ゲイン計算実行判定部42による判定結果に応じて、マイクm_1及びm_2の感度差に対する校正ゲインLEVEL_GAIN_1CH及びLEVEL_GAIN_2CHを計算するものである。
校正ゲイン計算部43は、校正ゲイン計算実行判定部42により相関係数cor(K)が「正」であると判定されると、校正ゲインLEVEL_GAIN_1CH及びLEVEL_GAIN_2CHを計算する。一方、校正ゲイン計算部43は、校正ゲイン計算実行判定部42により相関係数cor(K)が「負」であると判定されると、校正ゲインを計算せず、校正ゲイン記憶部44に記憶されている値を校正ゲインとして設定する。
ここで、校正ゲイン計算部43による校正ゲインCALIB_GAIN_1CH及びCALIB_GAIN_2CHの計算方法を説明する。
校正ゲイン計算部43は、以下の(10,1)式、(10,2)式、(11)式、(12,1)式及び(12,2)式を用いて、入力信号s1に対する校正ゲインCALIB_GAIN_1CH、及び、入力信号s2に対する校正ゲインCALIB_GAIN_2CHを計算する。
Figure 0006711205
(10,1)式は、マイクm_1が捕捉した入力信号s1(n)の現フレーム(K番目のフレーム)の全ての構成要素の絶対値の平均LEVEL_1CHを算出しているものであり、この算出した値LEVEL_1CHはマイクm_1の感度を反映した値とみなすことができる。(10,2)式は、マイクm_2が捕捉した入力信号s2(n)の現フレーム(K番目のフレーム)の全ての構成要素の絶対値の平均LEVEL_2CHを算出しているものであり、この算出した値LEVEL_2CHはマイクm_2の感度を反映した値とみなすことができる。
なお、例えば、所定フレーム数での各フレームの構成要素の絶対値の総和値を、マイク感度を反映した値LEVEL_1CH、LEVEL_2CHとして用いるようにしても良い。また例えば、相関係数cor(K)が「正」である最新のP(P≦K)個のフレームを構成する全ての要素(信号成分)の絶対値の平均を、マイク感度を反映した値LEVEL_1CH、LEVEL_2CHとして用いるようにしても良い。後者の場合、相関係数cor(K)が「正」であった最新のP−1個のフレームの構成要素の絶対値の総和値を保存しておくことにより、現フレーム(K番目のフレーム)FRAME1(K)、FRAME2(K)の情報が与えられたときに容易にマイク感度を反映した値LEVEL_1CH、LEVEL_2CHを計算することができる。上述したように長期間の信号成分の絶対値の平均や総和値を算出することにより、瞬間的な入力信号の変動の影響を抑制してマイク感度を反映した値を算出することができる。
(10,1)式及び(10,2)式は、マイク感度を反映した値の算出式の一例であり、上述したように、その他、種々の算出式が適用できる。但し、マイクm_1のマイク感度を反映した値LEVEL_1CHの算出式と、マイクm_2のマイク感度を反映した値LEVEL_2CHの算出式とが同じ算出式であることを要する。
(11)式は、2つのマイクm_1及びm_2の感度LEVEL_1CH及びLEVEL_2CHの平均AVE_LEVELを、校正後のマイクm_1及びm_2の目標感度として算出している。なお、2つのマイクm_1及びm_2の感度LEVEL_1CH及びLEVEL_2CHの大きい方の値若しくは小さい方の値を目標感度とするようにしても良い。
(12,1)式は、その右辺の分母LEVEL_1CHを左辺に移項した式を考えると理解できるように、マイクm_1の感度LEVEL_1CHに校正ゲインCALIB_GAIN_1CHを乗算した値が目標感度AVE_LEVELになるように、校正ゲインCALIB_GAIN_1CHを定める式になっている。同様に、(12,2)式は、その右辺の分母LEVEL_2CHを左辺に移項した式を考えると理解できるように、マイクm_2の感度LEVEL_2CHに校正ゲインCALIB_GAIN_2CHを乗算した値が目標感度AVE_LEVELになるように、校正ゲインCALIB_GAIN_2CHを定める式になっている。
校正ゲイン記憶部44は、校正ゲイン計算部43が校正ゲインを計算しない場合に適用する校正ゲインCALIB_GAIN_1CH(=INIT_GAIN_1CH)及びCALIB_GAIN_2CH(=INIT_GAIN_2CH)を記憶しているものである。このような校正ゲインINIT_GAIN_1CH、INIT_GAIN_2CHとして、校正させない値1.0を適用しても良く、また、校正ゲイン計算部43が計算した直近の値を適用するようにしても良い。
校正ゲイン出力部45は、校正ゲイン計算部43が計算で得た校正ゲインCALIB_GAIN_1CH及びCALIB_GAIN_2CH、若しくは、記憶部24から読み出された校正ゲインINIT_GAIN_1CH及びINIT_GAIN_2CHをそれぞれ、対応する校正ゲイン乗算部16、17に与えるものである。
第1校正ゲイン乗算部16は、マイクm_1からの入力信号s1(n)に、校正ゲインCALIB_GAIN_1CHを乗算して得た、校正後信号y1(n)を出力するものである。
第2校正ゲイン乗算部17は、マイクm_2からの入力信号s2(n)に、校正ゲインCALIB_GAIN_2CHを乗算して得た、校正後信号y2(n)を出力するものである。
(A−2)実施形態の動作
次に、実施形態に係る音響信号処理装置10における全体処理及び校正ゲインの計算処理の動作を、図面を参照しながら詳細に説明する。
マイクm_1及びm_2のそれぞれから図示しないAD変換器を介して、1フレーム分の入力信号s1(n)及びs2(n)がFFT部11に入力される。
FFT部11は、1フレーム分の入力信号s1(n)及びs2(n)に基づく分析フレームFRAME1(K)及びFRAME2(K)についてフーリエ変換し、周波数領域で示される信号X1(f,K)及びX2(f,K)を取得する。FFT部11により生成された信号X1(f,K)及びX2(f,K)が、正面抑圧信号生成部12及びコヒーレンス計算部13に与えられる。
正面抑圧信号生成部12は、信号X1(f,K)及びX2(f,K)に基づいて、正面方向以外の方向に指向性を有する正面抑圧信号N(f、K)を算出する。そして、正面抑圧信号生成部12は、全周波数に亘って正面抑圧信号N(f,K)を平均した、平均正面抑圧信号AVE_N(f,K)を生成し、この平均正面抑圧信号AVE_N(K)を相関計算部14に与える。
一方、コヒーレンス計算部13は、信号X1(f,K)及びX2(f,K)に基づいて、コヒーレンスCOHを算出し、コヒーレンスCOHを相関計算部14に与える。
相関計算部14は、平均正面抑圧信号AVE_N(f,K)とコヒーレンスCOHとを取得し、平均正面抑圧信号AVE_N(f,K)とコヒーレンスCOHとの相関係数cor(K)を算出し、この相関係数cor(K)を校正ゲイン計算部15に与える。
校正ゲイン計算部15は、相関係数cor(K)を取得し、この相関係数cor(K)の正負を観測し、その判断結果に応じて、各信号s1(n)及びs2(n)に対する校正ゲインを算出する。また、校正ゲイン計算部15は、信号s1(n)に対する校正ゲインCALIB_GAIN_1CHを第1校正ゲイン乗算部16に出力し、信号s2(n)に対する校正ゲインCALIB_GAIN_2CHを第2校正ゲイン乗算部17に出力する。
図5は、校正ゲイン計算部15における処理動作を示すフローチャートである。
相関係数及び入力信号取得部41は、相関係数部14から相関係数cor(K)を取得し、入力信号s1(n)及びs2(n)のFRAME1(K)及びFRAME2(K)を取得する(S51)。
そして、校正ゲイン計算実行判定部42が、相関係数cor(K)の値が正であるか又は負であるかを判定する(S52)。
相関係数cor(K)が正の場合、正面方向以外の方向から到来した妨害音は存在せず、正面方向からの目的音区間とみなし、校正ゲイン計算部43は、相関係数cor(K)、FRAME1(K)及びFRAME2(K)を用いて、(10,1)式、(10,2)式、(11)式、(12,1)式、(12,2)式に従って、信号s1(n)及び信号s2(n)に対する校正ゲインCALIB_GAIN_1CH及びCALIB_GAIN_2CHを算出する(S53)。このとき、校正ゲイン計算部43は、算出した校正ゲインCALIB_GAIN_1CH及びCALIB_GAIN_2CHをそれぞれ、校正ゲイン記憶部44に記憶して、校正ゲイン記憶部44に記憶される校正ゲインを更新する。
相関係数cor(K)が負の場合、正面方向以外の方向から到来した妨害音は存在するとみなし、校正ゲイン計算部43は、校正ゲイン記憶部44に記憶されている値を校正ゲインCALIB_GAIN_1CH及びCALIB_GAIN_2CHとする(S54)。
つまり、校正ゲイン記憶部44に、校正ゲインの初期値INIT_GAIN_1CH、INIT_GAIN_2CHが格納されている場合、INIT_GAIN_1CHをCALIB_GAIN_1CHとし、INIT_GAIN_2CHをCALIB_GAIN_2CHとする。若しくは、校正ゲイン記憶部44に、最新の校正ゲインが記憶されている場合は、校正ゲイン記憶部44に記憶されている最新の校正ゲインを、今回の校正ゲインCALIB_GAIN_1CH及びCALIB_GAIN_2CHとする。
そして、校正ゲイン出力部45は、校正ゲインCALIB_GAIN_1CHを第1校正ゲイン乗算部16に出力し、校正ゲインCALIB_GAIN_2CHを第2校正ゲイン乗算部17に出力する(S55)。そして、校正ゲイン計算部15は、インデックスKを更新して(S56)、S51に移行して次のインデックスの校正ゲインの算出処理を行なう。
ここで、校正ゲイン計算部15は、校正ゲインを一度計算した後は校正ゲインが変動することは無いので、定常的に校正ゲインを更新し続けることは演算量の無駄となるので、途中から更新を停止してもよい。つまり、マイクm_1及びm_2を有する音響信号処理装置10が使用される環境で、初期段階に、マイクm_1及びm_2に対する校正ゲインを取得した後は、定常的な校正ゲインの更新を行なう必要はなく、適宜校正ゲインの算出が必要な場合に行なうようにしてもよい。
そして、第1校正ゲイン乗算部16は、信号s1(n)に校正ゲインCALIB_GAIN_1CHを乗算し、校正後信号y1(n)を出力し、第2校正ゲイン乗算部17は、信号s2(n)に校正ゲインCALIB_GAIN_2CHを乗算し、校正後信号y2(n)を出力する。
(A−3)実施形態の効果
以上のように、この実施形態によれば、正面方向以外の方向から到達する妨害音が存在する場合、正面抑圧信号とCOHとの相関係数が負であり、妨害音が存在しない場合、正面抑圧信号とCOHとの相関係数が正となる、という特徴的な挙動を用いることで、妨害音声の影響を受けることなく、かつ、設計者にとって閾値設定が容易なマイク感度校正方法を実現することができる。
これにより、マイクアレイを用いた各種信号処理方法の前処理に、マイクm_1及びm_2に対する校正ゲインを算出する処理を適用することで、その後の音声処理性能の向上が期待できる。
(B)他の実施形態
上述した実施形態においても種々の変形実施形態を言及したが、本発明は、以下の変形実施形態にも適用できる。
(B−1)上述した実施形態において、相関計算部が、正面抑圧信号とコヒーレンスとの特徴量として相関係数を算出する場合を例示したが、正面抑圧信号とコヒーレンスとの特徴量として共分散の値を算出しても、上述した実施形態と同様な効果が得られる。
(B−2)上述した実施形態では、本発明に係る音響信号処理装置は、複数のマイクを備えた音声処理機能(例えば、音声認識処理など)を有する装置であれば、様々な装置に適用することができ、例えば、スマートフォン、タブレット端末、テレビ会議端末、カーナビゲーションシステム、コールセンタ端末、ロボット、音信号をセンサ信号として使用する装置等に広く適用できる。
また、例えば、本発明の音響信号処理装置が通信機能を備える装置に搭載され、当該装置が、ネットワークを通じて、所定の音声処理機能を有するサーバに、校正後信号を送信するようにしてもよい。
さらに、例えば、複数のマイクを備えた通信機能を有する装置が、ネットワークを通じて、本発明の音響信号処理装置を搭載したサーバに、各マイクの入力信号を送信するようにしてもよい。この場合、音響信号処理装置を搭載したサーバが、上述した実施形態と同様に、正面抑圧信号とコヒーレンスとの相関係数に応じて、各入力信号に対する校正ゲインを算出することができる。
(B−3)上述した実施形態では、マイクが2個である場合を例示したが、3個以上のマイクのそれぞれから入力信号を取得する装置にも本発明を適用することができる。
10…音響信号処理装置、m_1及びm_2…マイク、11・・FTT部、12…正面抑圧信号生成部、13…コヒーレンス計算部、
14…相関計算部、31…正面抑圧信号、コヒーレンス取得部、32…相関係数計算部、33…相関係数出力部、
15…校正ゲイン計算部、41…相関係数及び入力信号取得部、42…校正ゲイン計算実行判定部、43…校正ゲイン計算部、44…校正ゲイン記憶部、45…校正ゲイン出力部、
16…第1校正ゲイン乗算部、17…第2校正ゲイン乗算部。

Claims (6)

  1. 複数の入力音響信号におけるマイク感度の相違を校正する音響信号処理装置において、
    第1の入力音響信号を時間領域から周波数領域に変換した第1の周波数領域信号と、第2の入力音響信号を時間領域から周波数領域に変換した第2の周波数領域信号とを周波数成分毎に差分をとって得た各周波数成分の値を平均して、正面方向に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
    上記第1の周波数領域信号と上記第2の周波数領域信号とに基づいて、正面方向とは異なる第1の方向に指向性が強い指向性特性を付与した第1の指向性信号と、正面方向とは異なり、かつ、上記第1の方向とは異なる第2の方向に指向性が強い指向性特性を付与した第2の指向性信号とを用いて、コヒーレンスを算出するコヒーレンス算出部と、
    上記正面抑圧信号と上記コヒーレンスとの関係性を表す相関値を算出する特徴量算出部と、
    上記相関値が正の値であるか又は負の値であるかにより、上記第1及び上記第2の入力音響信号に対する校正ゲインを算出する校正ゲイン算出部と、
    上記各校正ゲインで、対応する上記各入力音響信号を校正する校正部と
    を備え、
    上記校正ゲイン算出部が、
    上記相関値が正の値のとき、妨害音の影響を受けていない、正面から到来する目的音区間を検出し、その目的音区間における上記第1及び上記第2の入力音響信号を用いて、各入力音響信号のマイク感度を反映させた値を算出し、算出した複数のマイク感度を反映させた値から目標感度を求め、各マイク感度を反映させた値と上記目標感度とに基づいて、上記各入力音響信号に対する上記各校正ゲインを算出し、
    上記相関値が負の値のとき、上記各入力音響信号に対する各校正ゲインの初期値、又は、上記校正ゲイン算出部に記憶される、妨害音の影響を受けていない目的音区間の最新の上記各校正ゲインとする
    ことを特徴とする音響信号処理装置。
  2. 上記校正ゲイン算出部が、
    上記相関値が正の値のとき、妨害音の影響を受けていない目的音区間として上記各校正ゲインの算出を実行させる区間と判定し、上記相関値が負の値のとき、妨害音の影響を受けている目的音区間として上記各校正ゲインの算出を実行させない区間と判定する校正ゲイン計算実行判定部と、
    各校正ゲインを記憶する校正ゲイン記憶部と、
    上記校正ゲイン計算実行判定部による判定に基づいて、妨害音の影響を受けていない目的音区間で、上記各校正ゲインの算出を実行すると共に、算出した上記各校正ゲインを上記校正ゲイン記憶部に記憶させ、妨害音の影響を受けている目的音区間で、上記校正ゲイン記憶部に記憶されている最新の上記各校正ゲインを出力する校正ゲイン計算部と
    を有することを特徴とする請求項1に記載の音響信号処理装置。
  3. 上記校正ゲイン算出部が、上記各入力音響信号のそれぞれについて、その入力音響信号における複数の信号成分の絶対値の平均値を、その入力音響信号に係るマイク感度を反映させた値として算出することを特徴とする請求項1又は2に記載の音響信号処理装置。
  4. 上記校正ゲイン算出部が、算出された複数のマイク感度を反映させた値の平均値を目標感度に決定し、決定した目標感度を、上記各入力音響信号のそれぞれに係るマイク感度を反映させた値で除算することにより、上記各入力音響信号のそれぞれに対する校正ゲインを算出することを特徴とする請求項1〜3のいずれかに記載の音響信号処理装置。
  5. 複数の入力音響信号におけるマイク感度の相違を校正する音響信号処理プログラムにおいて、
    コンピュータを、
    第1の入力音響信号を時間領域から周波数領域に変換した第1の周波数領域信号と、第2の入力音響信号を時間領域から周波数領域に変換した第2の周波数領域信号とを周波数成分毎に差分をとって得た各周波数成分の値を平均して、正面方向に死角を有する正面抑圧信号を生成する正面抑圧信号生成部と、
    上記第1の周波数領域信号と上記第2の周波数領域信号とに基づいて、正面方向とは異なる第1の方向に指向性が強い指向性特性を付与した第1の指向性信号と、正面方向とは異なり、かつ、上記第1の方向とは異なる第2の方向に指向性が強い指向性特性を付与した第2の指向性信号とを用いて、コヒーレンスを算出するコヒーレンス算出部と、
    上記正面抑圧信号と上記コヒーレンスとの関係性を表す相関値を算出する特徴量算出部と、
    上記相関値が正の値であるか又は負の値であるかにより、上記第1及び上記第2の入力音響信号に対する校正ゲインを算出する校正ゲイン算出部と、
    上記各校正ゲインで、対応する上記各入力音響信号を校正する校正部と
    して機能させ
    上記校正ゲイン算出部が、
    上記相関値が正の値のとき、妨害音の影響を受けていない、正面から到来する目的音区間を検出し、その目的音区間における上記第1及び上記第2の入力音響信号を用いて、各入力音響信号のマイク感度を反映させた値を算出し、算出した複数のマイク感度を反映させた値から目標感度を求め、各マイク感度を反映させた値と上記目標感度とに基づいて、上記各入力音響信号に対する上記各校正ゲインを算出し、
    上記相関値が負の値のとき、上記各入力音響信号に対する各校正ゲインの初期値、又は、上記校正ゲイン算出部に記憶される、妨害音の影響を受けていない目的音区間の最新の上記各校正ゲインとする
    とを特徴とする音響信号処理プログラム。
  6. 複数の入力音響信号におけるマイク感度の相違を校正する音響信号処理方法において、
    正面抑圧信号生成部が、第1の入力音響信号を時間領域から周波数領域に変換した第1の周波数領域信号と、第2の入力音響信号を時間領域から周波数領域に変換した第2の周波数領域信号とを周波数成分毎に差分をとって得た各周波数成分の値を平均して、正面方向に死角を有する正面抑圧信号を生成し、
    コヒーレンス算出部が、上記第1の周波数領域信号と上記第2の周波数領域信号とに基づいて、正面方向とは異なる第1の方向に指向性が強い指向性特性を付与した第1の指向性信号と、正面方向とは異なり、かつ、上記第1の方向とは異なる第2の方向に指向性が強い指向性特性を付与した第2の指向性信号とを用いて、コヒーレンスを算出し、
    特徴量算出部が、上記正面抑圧信号と上記コヒーレンスとの関係性を表す相関値を算出し、
    校正ゲイン算出部が、上記相関値が正の値であるか又は負の値であるかにより、上記第1及び上記第2の入力音響信号に対する校正ゲインを算出し、
    校正部が、上記各校正ゲインで、対応する上記各入力音響信号を校正し、
    上記校正ゲイン算出部が、
    上記相関値が正の値のとき、妨害音の影響を受けていない、正面から到来する目的音区間を検出し、その目的音区間における上記第1及び上記第2の入力音響信号を用いて、各入力音響信号のマイク感度を反映させた値を算出し、算出した複数のマイク感度を反映させた値から目標感度を求め、各マイク感度を反映させた値と上記目標感度とに基づいて、上記各入力音響信号に対する上記各校正ゲインを算出し、
    上記相関値が負の値のとき、上記各入力音響信号に対する各校正ゲインの初期値、又は、上記校正ゲイン算出部に記憶される、妨害音の影響を受けていない目的音区間の最新の上記各校正ゲインとする
    ことを特徴とする音響信号処理方法。
JP2016162712A 2016-08-23 2016-08-23 音響信号処理装置、プログラム及び方法 Active JP6711205B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016162712A JP6711205B2 (ja) 2016-08-23 2016-08-23 音響信号処理装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016162712A JP6711205B2 (ja) 2016-08-23 2016-08-23 音響信号処理装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2018032931A JP2018032931A (ja) 2018-03-01
JP6711205B2 true JP6711205B2 (ja) 2020-06-17

Family

ID=61303697

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016162712A Active JP6711205B2 (ja) 2016-08-23 2016-08-23 音響信号処理装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP6711205B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108806710B (zh) * 2018-06-15 2020-07-24 会听声学科技(北京)有限公司 一种语音增强增益调整方法、***及耳机
CN111417053B (zh) 2020-03-10 2023-07-25 北京小米松果电子有限公司 拾音音量控制方法、装置以及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5197458B2 (ja) * 2009-03-25 2013-05-15 株式会社東芝 受音信号処理装置、方法およびプログラム
JP6102144B2 (ja) * 2012-09-24 2017-03-29 沖電気工業株式会社 音響信号処理装置、方法及びプログラム
JP6020258B2 (ja) * 2013-02-28 2016-11-02 富士通株式会社 マイク感度差補正装置、方法、プログラム、及び雑音抑圧装置
JP2016039399A (ja) * 2014-08-05 2016-03-22 沖電気工業株式会社 突発音抑圧装置、方法及びプログラム

Also Published As

Publication number Publication date
JP2018032931A (ja) 2018-03-01

Similar Documents

Publication Publication Date Title
US10602267B2 (en) Sound signal processing apparatus and method for enhancing a sound signal
JP6028502B2 (ja) 音声信号処理装置、方法及びプログラム
JP5838861B2 (ja) 音声信号処理装置、方法及びプログラム
JP2008064733A (ja) 音源方向推定装置、音源方向推定方法、及びコンピュータプログラム
JP2010232717A (ja) 受音信号処理装置、方法およびプログラム
JP2008236077A (ja) 目的音抽出装置,目的音抽出プログラム
JP6711205B2 (ja) 音響信号処理装置、プログラム及び方法
JP6048596B2 (ja) 集音装置、集音装置の入力信号補正方法および移動機器情報システム
WO2020035180A1 (en) Method of operating an ear level audio system and an ear level audio system
JP6314475B2 (ja) 音声信号処理装置及びプログラム
JP6638248B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声信号処理装置
US11470429B2 (en) Method of operating an ear level audio system and an ear level audio system
US9659575B2 (en) Signal processor and method therefor
JP6763319B2 (ja) 非目的音判定装置、プログラム及び方法
JP6102144B2 (ja) 音響信号処理装置、方法及びプログラム
JP2010156742A (ja) 信号処理装置および方法
JP6631127B2 (ja) 音声判定装置、方法及びプログラム、並びに、音声処理装置
JP6361360B2 (ja) 残響判定装置及びプログラム
JP6263890B2 (ja) 音声信号処理装置及びプログラム
JP6903947B2 (ja) 非目的音抑圧装置、方法及びプログラム
JP6295650B2 (ja) 音声信号処理装置及びプログラム
JP2018142822A (ja) 音響信号処理装置、方法及びプログラム
JP6544182B2 (ja) 音声処理装置、プログラム及び方法
JP6221463B2 (ja) 音声信号処理装置及びプログラム
CN115691532A (zh) 风噪声污染范围估算方法及抑制方法、装置、介质、终端

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190515

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200128

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200204

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200402

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200428

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200511

R150 Certificate of patent or registration of utility model

Ref document number: 6711205

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150