JP6260504B2 - オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム - Google Patents

オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム Download PDF

Info

Publication number
JP6260504B2
JP6260504B2 JP2014190137A JP2014190137A JP6260504B2 JP 6260504 B2 JP6260504 B2 JP 6260504B2 JP 2014190137 A JP2014190137 A JP 2014190137A JP 2014190137 A JP2014190137 A JP 2014190137A JP 6260504 B2 JP6260504 B2 JP 6260504B2
Authority
JP
Japan
Prior art keywords
frequency
relative value
domain information
frequency domain
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014190137A
Other languages
English (en)
Other versions
JP2015179243A (ja
Inventor
真音 菅野
真音 菅野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2014190137A priority Critical patent/JP6260504B2/ja
Priority to US14/625,002 priority patent/US9552828B2/en
Publication of JP2015179243A publication Critical patent/JP2015179243A/ja
Application granted granted Critical
Publication of JP6260504B2 publication Critical patent/JP6260504B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B15/00Suppression or limitation of noise or interference
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B3/00Line transmission systems
    • H04B3/02Details
    • H04B3/20Reducing echo effects or singing; Opening or closing transmitting path; Conditioning for transmission in one direction or the other

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Circuit For Audible Band Transducer (AREA)

Description

本発明はオーディオ信号処理装置に関し、特に、所定のオーディオ信号を強調するオーディオ信号処理装置に関する。
近年、音声伝送の品質向上や音声認識率の向上等を目的として、オーディオ信号に対して様々な処理を行う技術が提案されている。その1つとして、音源分離の技術を用いて所定の条件に沿ったオーディオ信号(以下、所望オーディオ信号と称す)を強調し、所定オーディオ信号以外の非所望信号を抑圧する方法が特許文献1、2において提案されている。
特許文献1では、複数のマイクロフォンに入力されたオーディオ信号の線形結合処理により目的音と妨害音の音源分離を行い、目的音を強調する技術が記載されている。また、非特許文献1においては、周波数領域における時間周波数マスクを生成し、マスキング処理により所望信号を強調、その他の非所望信号を抑圧することで、オーディオ信号を音源毎の信号に分離する方法が記載されている。具体的には、非特許文献1では、2つのセンサから入力されるオーディオ信号から各時間周波数成分の振幅比および位相差を算出して二次元ヒストグラムを生成し、そのヒストグラム中の時間周波数成分をクラスタリングすることにより音源毎のピーク座標(振幅比、位相差)を算出する。そして、当該座標に基づいて時間周波数マスクを生成し、原信号にマスクを乗算する処理を行うことで、音源分離の効果を得る。
特開2006−197552号公報
Alexander Jourjine, Scott Rickard, Ozgur Yilmaz, "BLIND SEPARATION OF DISJOINT ORTHOGONAL SIGNALS", ICASSP2000
しかしながら、自動車内などの狭く閉じられた空間では残響が発生しやすく、特許文献1に記載されたシステムのような線形結合処理による音源分離の効果は得られにくいといった問題がある。
また、非特許文献1に記載された音源分離の手法では、残響成分によりヒストグラムのピークが鈍り、その上ノイズが加わることでヒストグラムの起伏が少なく均一的な分布となり、ヒストグラムのクラスタリングによるピーク座標の算出が正確に実施できなくなるといった問題がある。
つまり、特許文献1或いは非特許文献1に記載の技術では、十分に音源分離を行うことができず、所望オーディオ信号を十分に強調出来ない問題がある。
本発明は、異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換部と、前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出部と、事前に記憶されている相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成部と、前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算部と、前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換部と、を有するオーディオ信号処理装置を提供する。
本発明は、異なる位置に設けられた音声取得手段により取得された複数のオーディオ入力信号を取得し、前記複数のオーディオ入力信号に含まれる成分のうち所定の範囲の音声を強調したオーディオ出力信号を生成するオーディオ信号処理装置のオーディオ信号処理方法であって、前記複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換ステップと、前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出ステップと、事前に記憶されている相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成ステップと、前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算ステップと、前記強調周波数領域情報を時間領域の情報として表される前記オーディオ出力信号に変換する時間領域変換ステップと、を有するオーディオ信号処理方法を提供する。
本発明は、相対値閾値を事前に記憶する記憶部と、プログラムを実行する演算部と、を有するオーディオ信号処理装置で実行されるオーディオ信号処理プログラムであって、異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換処理と、前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出処理と、事前に記憶されている相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成処理と、前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算処理と、前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換処理と、を行うオーディオ信号処理プログラムを提供する。
本発明にかかるオーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プロプログラムによれば、所望オーディオ信号をより精度よく強調することができる。
実施の形態1にかかるオーディオ信号処理装置のブロック図である。 実施の形態1にかかるオーディオ信号処理装置における相対値閾値生成処理のフローチャートである。 実施の形態1にかかるオーディオ信号処理装置における所望オーディオ信号が含まれる強調範囲の第1の例を示す図である。 実施の形態1にかかるオーディオ信号処理装置における所望オーディオ信号が含まれる強調範囲の第2の例を示す図である。 実施の形態1にかかるオーディオ信号処理装置における所望オーディオ信号が含まれる強調範囲の第3の例を示す図である。 実施の形態1にかかるオーディオ信号処理装置における信号強調処理のフローチャートである。 実施の形態1にかかるオーディオ信号処理装置において適用されるマスク平滑化フィルタの一例を示す図である。 無指向性マイクロフォンを用いた場合のヒストグラムの一例図である。 無指向性マイクロフォンを用いた場合のヒストグラムの一例図である。 指向性マイクロフォンを用いた場合のヒストグラムの一例図である。 無指向性マイクロフォンを用いた場合のヒストグラムの一例図である。 横軸を位相差とするヒストグラムにおけるヒストグラムと相対値閾値との関係を説明する図である。 実施の形態2にかかる振幅比を横軸としたヒストグラムにおいて相対値閾値の下限値側の近傍(範囲A)を拡大した図である。
実施の形態1
以下、図面を参照して本発明の実施の形態について説明する。図1に実施の形態1にかかるオーディオ信号処理装置1のブロック図を示す。実施の形態1にかかるオーディオ信号処理装置1は、異なる位置に設置された複数の音声取得手段(例えば、マイクロフォン等のセンサ)から複数のオーディオ入力信号(図1の第1のオーディオ入力信号Ain1〜第nのオーディオ入力信号Ainn)を取得する。なお、以下の説明では、2つのオーディオ入力信号について処理を行う例について説明する。そして、実施の形態1にかかるオーディオ信号処理装置1は、入力されるオーディオ入力信号に含まれる所定の時間周波数成分に該当する所定のオーディオ信号(以下、所望オーディオ信号と称す)を強調する処理を行う。この所望オーディオ信号は、例えば、複数のオーディオ入力信号から選択した1つの信号を基準オーディオ入力信号とした場合、基準オーディオ入力信号に含まれる信号成分のうち所定の範囲の振幅比と、位相差の条件を満たすオーディオ信号である。そこで、以下では、特に、実施の形態1にかかるオーディオ信号処理装置1の所望オーディオ信号の強調処理について詳しく説明する。
図1に示すように、オーディオ信号処理装置1は、信号入力部10、周波数領域変換部11、相対値算出部12、相対値閾値算出部13、第1の記憶部14、第2の記憶部15、マスク生成部16、マスク乗算部17、時間領域変換部18を有する。図1では、オーディオ信号処理装置1の構成として、ハードウェアにより構成される処理ブロックにより実現する例を示した。
なお、オーディオ信号処理装置1は、信号入力部10、第1の記憶部及び第2の記憶部はハードウェアにより構成される。また、周波数領域変換部11、相対値算出部12、相対値閾値算出部13、マスク生成部16、マスク乗算部17及び時間領域変換部18は、CPU(Central Processing Unit)又はDSP(Digital Signal Processor)等の演算部により実行されるプログラム(例えば、オーディオ信号処理プログラム)により実現される。この場合、オーディオ信号処理プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、CPUを含むコンピュータに供給できる。また、プログラムにより実現される各構成要素はハードウェアによって構成されても良い。
信号入力部10は、図示しない複数の音声取得手段から複数のオーディオ入力信号Ain1〜Ainnを取得する。そして、信号入力部10は、入力された複数のオーディオ入力信号Ain1〜Ainnをデジタル信号に変換する。なお、入力されるオーディオ入力信号が既にデジタル値となっている場合、デジタル信号に変換するための構成は必要ない。
オーディオ信号処理装置1を自動車の車内で用いる例においては、マイクロフォン設置位置は、ステアリング、サンバイザー、マップランプ、ダッシュボード内など、所望音源(主に運転者)の前方となる位置とするのが望ましい。また、複数のマイクロフォンは、振幅比、位相差の情報を正確に算出するため、数センチメートル未満の距離において設置するのが望ましい。
周波数領域変換部11は、信号入力部10で取得された複数のオーディオ入力信号Ain1〜Ainnをオーディオ入力信号毎に周波数領域情報に変換し、複数の周波数領域情報を生成する。ここで、周波数領域変換部11は、予め決められたフレーム長の窓関数によりオーディオ入力信号を分割し、分割したフレーム毎にFFT(Fast Fourier Transform)等の処理を施して周波数領域情報を生成する。以下の説明では、τをフレーム番号、fを周波数、nをオーディオ入力信号の番号として、周波数領域情報をXn(f,τ)と表す。つまり、実施の形態1にかかるオーディオ信号処理装置1では、第1のオーディオ入力信号に対応して周波数領域情報X1(f,τ)が生成され、第2のオーディオ入力信号に対応して周波数領域情報X2(f,τ)が生成される。そして、周波数領域変換部11は、生成した周波数領域情報を第2の記憶部15に格納すると共に、相対値算出部12に出力する。
相対値算出部12は、周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出し、複数の周波数領域情報に対応した複数の相対値を生成する。より具体的には、相対値算出部12は、自周波数領域情報に含まれる時間周波数成分の振幅成分と他の周波数領域情報に含まれる時間周波数成分の振幅成分との相対比を示す振幅相対値と、自周波数領域情報に含まれる時間周波数成分の位相成分と他の周波数領域情報に含まれる時間周波数成分の位相成分との差分を示す位相相対値と、の少なくとも一方を相対値として算出する。
ここで、実施の形態1にかかる相対値算出部12における相対値の算出方法の一例について説明する。相対値算出部12では、例えば、周波数領域情報X1(f,τ)と周波数領域情報X2(f,τ)の振幅相対値α(f,τ)を(1)式に基づき算出し、周波数領域情報X1(f,τ)と周波数領域情報X2(f,τ)の位相相対値δ(f,τ)を(2)式に基づき算出する。なお、(1)式及び(2)式を相対値の算出に利用した場合、基準オーディオ信号は第1のオーディオ入力信号となる。また、(2)式のωは角周波数を示す。
Figure 0006260504
Figure 0006260504
相対値算出部12は、算出した相対値を相対値閾値算出部13若しくはマスク生成部16に出力する。詳しくは後述するが、実施の形態1にかかるオーディオ信号処理装置1は、時間周波数マスクの生成に利用する相対値閾値を初期設定処理により生成する。そのため、オーディオ信号処理装置1では、初期設定処理動作においては、相対値算出部12で生成した相対値を相対値閾値算出部13に出力し、通常動作においては相対値算出部12で生成した相対値をマスク生成部16に出力する。
相対値閾値算出部13は、予め決められた条件で入力される設定用オーディオ信号に基づき生成される前記相対値に基づき前記相対値閾値を算出する。より具体的には、相対値閾値算出部13は、図示しない音声出力手段を用いて予め設定された設定用オーディオ信号を発生させ、当該設定用オーディオ信号に基づき取得された複数のオーディオ入力信号から生成された相対値を所定の期間蓄積する。そして、相対値閾値算出部13は、蓄積した相対値を用いて振幅相対値と位相相対値とで構成される二次元ヒストグラムを生成する。相対値閾値算出部13は、この二次元ヒストグラムを用いて強調範囲を示す相対値閾値を決定する。相対値閾値算出部13は、この相対値閾値を第1の記憶部14に格納する。なお、強調範囲の設定方法の詳細は後述する。
マスク生成部16は、第1の記憶部14に事前に記憶されている相対値閾値に基づき設定される強調範囲と、複数の前記相対値のそれぞれと、を比較して、強調範囲外にある相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成する。なお、マスク生成部16に入力される相対値は、相対値算出部12により出力されるものである。また、時間周波数マスクの生成方法の詳細は後述する。
マスク乗算部17は、マスク生成部16が生成した時間周波数マスクを第2の記憶部15に記憶されている周波数領域情報に乗算して、強調周波数領域情報を生成する。マスク乗算部17における時間周波数マスクの乗算方法の詳細は後述する。時間領域変換部18は、強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する。より具体的には、時間領域変換部18は、IFFT処理等を用いて強調周波数領域情報からオーディオ出力信号への変換を行う。また、時間領域変換部18は、連続するフレームを重複加算することで連続したオーディオ出力信号を出力する。
実施の形態1にかかるオーディオ信号処理装置1は上記処理ブロックを用いて、例えば、特定の範囲から発せられたオーディオ信号を所望オーディオ信号として強調するための処理を行う。特定の範囲から発せられた所望オーディオ信号を、異なる位置に設置した複数の音声取得手段で取得すると、所望オーディオ信号を発する信号源と、複数の音声取得手段と、の位置関係に基づいて、複数のオーディオ入力信号の間で振幅或いは位相の差異がある特定の範囲に偏って生じる。そこで、オーディオ信号処理装置1では、複数のオーディオ入力信号の信号或いは位相に生じた差異に基づき所望オーディオ信号と非所望オーディオ信号とを分離して所望オーディオ信号を強調する処理を行う。
より具体的には、実施の形態1にかかるオーディオ信号処理装置1は、所望オーディオ信号を発する信号源と、複数の音声取得手段と、の位置関係に起因して生じる複数のオーディオ入力信号間の振幅比或いは位相差が偏って存在する特定の範囲を相対値閾値として記憶する。また、実施の形態1にかかるオーディオ信号処理装置1は、相対値閾値と、通常動作状態で得られる複数のオーディオ入力信号から得られる相対値と、を比較して、非所望オーディオ信号の時間周波数成分を抑圧する時間周波数マスクを生成する。そして、実施の形態1にかかるオーディオ信号処理装置1は、時間周波数マスクをオーディオ入力信号に乗算することで、非所望オーディオ信号を抑圧し、所望オーディオ信号を強調する。
上述したように、実施の形態1にかかるオーディオ信号処理装置1では、通常動作において、事前に第1の記憶部14に記憶した相対値閾値を用いて時間周波数マスクを生成することで、所望オーディオ信号を強調する処理を行う。この相対値閾値は、機器の出荷段階で決定して第1の記憶部14に格納しておくことも可能であるが、より精度の高い所望オーディオ信号の強調処理を行うためには、機器が設置された状態で生成することが好ましい。そこで、実施の形態1にかかるオーディオ信号処理装置1の動作として、相対値閾値を生成する初期設定動作を説明し、その後、オーディオ信号処理装置1の所望オーディオ信号の強調処理について説明する。
実施の形態1にかかるオーディオ信号処理装置1の初期設定動作のフローチャートを図2に示す。図2に示したフローチャートは、相対値閾値算出部13における相対値閾値算出処理の具体的な処理のみを示したものである。実施の形態1にかかるオーディオ信号処理装置1では、図2の処理を開始するに当たり、相対値閾値算出部13が図1では図示していない音声出力手段を用いて設定用オーディオ信号を発生させる。
この初期設定動作では、ノイズ等の所望オーディオ信号(例えば、設定用オーディオ信号)以外の非所望オーディオ信号が少ない状態で設定用オーディオ信号を発生させることが好ましい。このような状態とすることで、相対値閾値を算出するに当たり生成される二次元ヒストグラムのピークをより明瞭にすることができる。
また、設定用オーディオ信号は、所望オーディオ信号が発せられることが予定されている位置に置いた音声出力手段から発生させることが好ましい。このような状態とすることで、所望オーディオ信号に対して予想される振幅相対値及び位相相対値を擬似的に再現し、より精度の高い相対値閾値を生成することが可能になるためである。なお、設定用オーディオ信号は、ユーザー自身が所定位置にて発声をすることで生成してもよい。
実施の形態1にかかるオーディオ信号処理装置1では、相対値閾値算出部13の指示に基づき外部に設けられる音声出力手段から設定用オーディオ信号が発せられたことに応じて図2のフローチャートに基づく動作を開始する。
図2に示すように、オーディオ信号処理装置1は、入力信号(例えば、オーディオ入力信号)の有無を判断し(ステップS10)、オーディオ入力信号の入力が継続する期間ステップS11〜ステップS14の動作を繰り返し実行する。
ステップS11では、周波数領域変換部11によりフレーム分割処理が行われる。ステップS12では、周波数領域変換部11によりオーディオ入力信号を時間領域の情報から周波数領域情報に変換する処理が行われる。ステップS13では、相対値算出部12による複数のオーディオ入力信号間の相対値の算出処理が行われる。そして、ステップS14では、相対値算出部12が算出した相対値を、例えば、第1の記憶部14に蓄積する処理が相対値閾値算出部13によって行われる。
そして、ステップS10においてオーディオ入力信号が停止したと判断されると(ステップS10のNOの枝)、オーディオ信号処理装置1は、ステップS15、S16の処理を行う。ステップS15では、相対値閾値算出部13が蓄積された相対値情報から二次元ヒストグラムを生成する。そして、ステップS16では、相対値閾値算出部13が生成された二次元ヒストグラムから相対値閾値を算出する。
ここで、二次元ヒストグラムと相対値閾値との関係についてより詳細に説明する。そこで、図3〜図5に実施の形態1にかかるオーディオ信号処理装置における所望オーディオ信号が含まれる強調範囲の第1の例〜第3の例を示す。
図3〜図5の二次元ヒストグラムは、第1の軸を振幅相対値α、第2の軸を位相相対値δとし、相対値の出現頻度を示す度数を高さの情報として表し、所定の度数以上の相対値が存在する部分を強調範囲とし、この強調範囲をハッチングで示したものである。つまり、二次元ヒストグラム上に現れるピークが高ければ、その座標に対応する相対値の出現頻度が高いと判断できる。なお、度数に代えて、座標に対応する時間周波数成分の振幅値又はエネルギー値の和を用いても良い。振幅値、エネルギー値が大きい時間周波数成分の方が所望音源の時間周波数成分である確率が高いためである。そして、実施の形態1にかかるオーディオ信号処理装置1の相対値閾値算出部13は、度数が予め設定された度数以上となる相対値の集合が存在する部分を含む範囲を強調範囲として設定する。以下の説明では、所定の度数以上の度数を示すピークを有意なピークと称す。この所定の度数は、度数の平均値や中央値などの統計値を用いることができる。また、所定の度数としては、統計値と最大度数値との間に位置する値、統計値と標準偏差等のばらつきを示す値との和、最大度数値に所定の係数を乗じた値を用いることもできる。
図3に示す第1の例では、二次元ヒストグラム上有意なピークを有する範囲の振幅相対値の上限値を振幅比上限値maxαとし、下限値を振幅比下限値minαとして決定する。また、二次元ヒストグラム上有意なピークを有する範囲の位相相対値の上限値を位相差上限値maxδ、下限値を位相差下限値minδとして決定する。そして、図3に示す第1の例では、振幅比上限値maxα、振幅比下限値minα、位相差上限値maxδ、位相差下限値minδの4つの値から決められる四角の領域を強調範囲として決定するものである。この場合、相対値閾値算出部13には、相対値閾値として、振幅比上限値maxα、振幅比下限値minα、位相差上限値maxδ、位相差下限値minδの4つの値が格納される。
図4に示す第2の例では、二次元ヒストグラム上で有意なピークを有する相対値の大部分が含まれる範囲を示す所定の形状(例えば、楕円又は円)の領域を強調範囲として決定するものである。この場合、相対値閾値算出部13には、相対値閾値として、所定の形状の中心点を示す相対値と、その範囲(例えば、円の半径等)を示す情報と、が格納される。
図5に示す第3の例では、二次元ヒストグラム上で有意なピークを有する相対値が存在する範囲を囲む領域を強調範囲として決定するものである。この場合、相対値閾値算出部13には、相対値閾値として、強調範囲の外周に位置する相対値が格納される。
続いて、実施の形態1にかかるオーディオ信号処理装置1の信号強調処理について説明する。そこで、図6に実施の形態1にかかるオーディオ信号処理装置における信号強調処理のフローチャートを示す。上述したように、実施の形態1にかかるオーディオ信号処理装置1は、通常動作においてこの信号強調処理を繰り返し実行する。
図6に示すように、実施の形態1にかかるオーディオ信号処理装置1は、通常動作においては、ステップS20〜ステップS26の動作を繰り返し行う。ステップS20では、周波数領域変換部11によりフレーム分割処理が行われる。ステップS21では、周波数領域変換部11によりオーディオ入力信号を時間領域の情報から周波数領域情報に変換する処理が行われる。ステップS22では、相対値算出部12による複数のオーディオ入力信号間の相対値の算出処理が行われる。
そして、ステップS23では、マスク生成部16により時間周波数マスクを生成する処理が行われる。ステップS24では、ステップS23で生成した時間周波数マスクとステップS21で生成された周波数領域情報とを乗算するマスク乗算処理が行われる。ステップS25では、ステップS24のマスク乗算処理が施された周波数領域情報を時間領域情報で表されるオーディオ出力信号に変換する処理が行われる。そして、ステップS26でこのオーディオ出力信号が出力される。なお、出力するオーディオ出力信号をモノラルとする場合、ステップS25で変換する周波数領域情報は、複数のオーディオ入力信号の一方に対応するものだけで良い。
ここで、ステップS23のマスク生成処理についてより詳細に説明する。マスク生成処理では、マスク生成部16が第1の記憶部14に格納されている相対値閾値を参照して、相対値閾値に基づき強調範囲を認識する。そして、マスク生成部16は、相対値算出部12から入力される相対値が強調範囲の内側に属するものであるか、外側に属するもであるかにより、現サイクルで処理している相対値に対応する周波数領域情報に適用する時間周波数マスクの値を決定する。
時間周波数マスクの値は、例えば、相対値が強調範囲の内側に属するものである場合に1とし、相対値が強調範囲の外側に属するものである場合に0とする。また、時間周波数マスクの値の別の例としては、強調範囲と相対値との距離、或いは、強調範囲内の所定の位置(例えば、中心)からの距離の大きさに応じて段階的、或いは、連続的に小さくすることもできる。
また、実施の形態1にかかるオーディオ信号処理装置1では、ステップS24で適用する時間周波数マスクにマスク平滑化処理を施すこともできる。マスク平滑化処理では、時間的に連続する複数のフレームに対して算出される時間周波数マスクの値を用いる。そのため、マスク平滑化処理を行う場合、第1の記憶部14等にステップS23で生成した時間周波数マスクを複数フレーム分蓄積する必要がある。
このマスク平滑化処理は、マスク生成処理で行われる処理である。マスク平滑化処理は、例えば、二次元ガウシアンフィルタ等の平滑化フィルタをたたみ込むことで時間周波数マスクの平滑化を行う。ここで、図7に示すように、実施の形態1にかかるオーディオ信号処理装置において適用されるマスク平滑化フィルタの一例を示す。図7は、リアルタイムでマスク生成を行う場合に適用されるマスク平滑化フィルタの係数を示すものである。図7に示すマスク平滑化フィルタでは、過去の時間周波数マスクに乗算する係数ほど小さくなるように係数が設定されている。また、図7に示すマスク平滑化フィルタでは、周波数軸(fで示される軸)方向のタップ長(tで示される軸方向の長さ)が、高周波成分の方が長く、低周波成分の方が短くなるように設定されている。
このようなマスク平滑化フィルタを用いることで、急峻な時間周波数成分の変動に起因するミュージカルノイズを低減することがきる。
上記説明より、実施の形態1にかかるオーディオ信号処理装置1は、事前に記憶した相対値閾値と、連続して入力されるオーディオ入力信号に基づき生成される相対値との大小関係に基づき、入力されるオーディオ入力信号に適応する時間周波数マスクの値を決定する。これにより、実施の形態1にかかるオーディオ信号処理装置1は、入力されるオーディオ入力信号から生成される相対値のみに基づき時間周波数マスクの値を決定する場合に比べて高い音源分離能力を実現することができる。
また、実施の形態1にかかるオーディオ信号処理装置1は、予め記憶した相対値閾値とリアルタイムに算出する相対値との比較により時間周波数マスクの値を決定する。そのため、実施の形態1にかかるオーディオ信号処理装置1は、時間周波数マスクの生成に複雑な演算を必要としないため、少ない処理でリアルタイムに所望オーディオ信号の強調処理を実施することができる。
また、実施の形態1にかかるオーディオ信号処理装置1は、相対値閾値をオーディオ信号処理装置1が設置された環境で設定することができる。このとき、オーディオ信号処理装置1では、所定の期間に入力される設定用オーディオ信号に基づき二次元ヒストグラムを生成し、この二次元ヒストグラム上の相対値の度数に基づき相対値閾値を設定する。そのため、オーディオ信号処理装置1では、ノイズの影響を低減した状態の相対値閾値を生成することができる。これにより、オーディオ信号処理装置1は、事前に決定した相対値閾値よりも高い音源分離能力を実現する相対値閾値を生成することができる。
実施の形態2
実施の形態1にかかるオーディオ信号処理装置1では、フラットな指向特性を持つ、いわゆる無指向性マイクロフォンを採用するのが望ましい。しかしシステム構成上、一定の指向特性を持つマイクロフォンや、低コストのマイクロフォンを採用せざるを得ない場合がある。指向特性を持つマイクロフォンを採用した場合、構造上特定の方向から到来する信号成分について、2つのマイクロフォンにおける正確な相対値を算出できない場合があり、低コストのマイクロフォンを採用した場合、ハードウェア性能に個体差が生じる場合があることから同様に正確な相対値を算出できない場合がある。こうした場合、複数のマイクロフォンから算出した振幅比、位相差の二次元ヒストグラムの分布が、無指向性マイクロフォンの場合と比較して複雑になり、適切な振幅比、位相差の範囲を定めるのが困難となる。
そこで、実施の形態2では、指向性マイロフォン或いは低コストなマイクロフォンを利用した場合においても高い音源分離能力を実現させるための処理方法について説明する。実施の形態2にかかるオーディオ信号処理装置は、位相差と振幅比とを含む二次元ヒストグラムではなく、位相差と振幅比とをそれぞれ別箇にヒストグラムを生成し、分布範囲を求める。なお、実施の形態2にかかるオーディオ信号処理装置の処理では、所望音源は原則一つとした処理であり、所望音源とその他の音源由来の信号成分(ノイズ成分)とを分離できれば良く、必ずしも二次元ヒストグラムを用いる必要がない。
実施の形態1にかかるオーディオ信号処理装置1と実施の形態2にかかるオーディオ信号処理装置とでは、初期設定処理における相対値閾値算出部13の処理に違いがあるのみであり、全体の構成は共通である。従って、実施の形態2にかかるオーディオ信号処理装置の説明では、全体の構成についての説明は省略し、当該処理の詳細のみについて説明を行う。
まず、実施の形態2にかかるオーディオ信号処理では、実施の形態1にかかるオーディオ信号処理と同様、信号入力部10から入力された信号は周波数領域変換部11で周波数領域の信号に変換され、相対値算出部12で各時間周波数成分の振幅比、位相差を算出する。
次に、実施の形態2にかかるオーディオ信号処理では、図2のステップS15の二次元ヒストグラムに代えて、振幅比と位相差とのそれぞれについて、個別にヒストグラムを生成する。ヒストグラムは、横軸を振幅比又は位相差とし、縦軸を度数、対応する時間周波数成分の振幅値の和、又は、対応する時間周波数成分のエネルギー値の和とするのが望ましい。つまり、実施の形態2にかかる相対閾値算出部13では、時間周波数成分の出現頻度を示す度数に代えて、ヒストグラムの各階級に属する時間周波数成分の振幅値又はエネルギーの和を用いて、所定の時間長の前記相対値のヒストグラムを生成することもできる。また、ヒストグラムは階級幅によって変動が大きくなる場合があるため、平滑化処理を実施するのが望ましい。そして、実施の形態2にかかる相対値算出部13は、度数、振幅値又はエネルギーの和が所定値以上となる相対値の集合のうち、最大値に対応する相対値を含む集合に含まれる前記相対値の最大値及び最小値を相対値閾値として算出する。実施の形態2にかかるオーディオ信号処理装置では、上記の方法により相対値閾値を算出後、第1の記憶部14に保存して初期設定処理を完了する。その後の通常動作における処理は実施の形態1にかかるオーディオ信号処理装置1と同様である。以下では、相対値閾値算出部13の処理を具体例を用いて説明する。
ここで、無指向性マイクロフォンと前方指向性マイクロフォンとのヒストグラムの差異について説明する。なお、無指向性マイクロフォンのヒストグラムの説明では、2つのマイクロフォンと音源との拒理が等距離である例について説明する。
図8及び図9に、無指向性マイクロフォンを用いた場合のヒストグラムの一例を示す。図8及び図9では、点線で実測値を示し、実線で移動平均により平滑化した値を示した。また、図8は、横軸(例えば、x軸)を振幅比、縦軸(例えば、y軸)を振幅値の和としたものであり、図9は、横軸(例えば、x軸)を位相差、縦軸(例えば、y軸)を振幅値の和としたものである。
図8に示す例では、振幅比αが1となる原点付近にヒストグラムのピークが表れていることがわかる。また、図9に示す例では、位相差δが0となる原点付近にヒストグラムのピークが表れていることがわかる。この図8及び図9からわかるように、無指向性マイクロフォンを用いて、その正面に話者が位置する場合、いずれのヒストグラムも原点に急峻なピークを有する分布となる。二次元ヒストグラムでは、概ね円錐状の急峻なピークとなり、分布範囲を取得するのは容易である。
続いて、前方指向性マイクロフォンを用いた場合のヒストグラムの一例を図10及び図11に示す。前方指向性マイクロフォンのヒストグラムの説明では、2つのマイクロフォンから音源までの距離は異なる例について説明する。
図10及び図11においても、点線で実測値を示し、実線で移動平均により平滑化した値を示した。また、図10は、横軸(例えば、x軸)を振幅比、縦軸(例えば、y軸)を振幅値の和としたものであり、図11は、横軸(例えば、x軸)を位相差、縦軸(例えば、y軸)を振幅値の和としたものである。
図10に示す例では、振幅比αが1となる原点から離れた位置にピークが位置しており、上記の音源とマイクロフォンの位置関係と一致する。一方、無指向性マイクロフォンの場合と比較すると、分布範囲が広く、振幅値の幅も広く、比較すると乱雑な分布であることがわかる。
また、図11に示す例では、位相差δが0となる原点から離れた位置にピークが位置しており、無指向性マイクロフォンの場合よりもその距離は大きい。複数の小さいピークも存在しており、二次元ヒストグラムは無指向性マイクロフォンと異なり円錐状の分布にはならず、山状に連なって分布したり、小さいピークが点在する分布になったりと、状況によって多岐にわたる複雑な分布となる。こうした複雑な分布では、相対値閾値の範囲内か否かを判定する条件が多くなり、実時間処理の妨げに成り得る。
上述したように、指向性マイクロフォンを用いた場合、横軸として振幅比を採用しても、位相差を採用しても、ヒストグラムの分布が複雑になるため、振幅比と位相差とを用いた二次元ヒストグラムに対してオーディオ信号処理を実施する場合、複雑さが更に益してしまい、音源分離が難しくなる問題がある。しかしながら、実施の形態2にかかるオーディオ信号処理方法では、ヒストグラムを振幅比と位相差とのそれぞれでヒストグラムを生成するため、図10及び図11に示すような音源とマイクロフォンとの関係で取得されるオーディオ信号について処理時間に対するノイズ削減効果を最大化させることができる。
実施の形態2にかかるオーディオ信号処理では、ヒストグラム生成後、振幅比と位相差とのそれぞれについて、時間周波数成分の分布範囲から相対値閾値を算出する。具体的には、実施の形態2にかかるオーディオ信号処理では、ヒストグラムにおける縦軸の振幅値の和が所定値以上となる範囲の上限値及び下限値を相対値閾値とする。そこで、図12に横軸を位相差とするヒストグラムにおけるヒストグラムと相対値閾値との関係を説明する図を示す。図12に示すように、実施の形態2にかかるオーディオ信号処理方法では、ヒストグラムが所定値以上となる範囲の上限値と下限値とを相対値閾値とする。車室内の場合においては、サイドウィンドウ等に反射して遅延した信号成分により、最大ピーク位置から離れた位置にピークが生成され、当該所定値以上の範囲が生じる場合もあるが、その範囲は除外する必要がある。よって、相対値閾値を求める範囲は最大ピーク位置を含む範囲とすることが望ましい。
ここで、相対値閾値を算出するために用いる所定値の算出方法について説明する。この所定値の算出では、ヒストグラムの形状に対する所定値の設定方法が重要である。そこで、図13に実施の形態2にかかる振幅比を横軸としたヒストグラムにおいて相対値閾値の下限値側の近傍(範囲A)を拡大した図を示す。相対値閾値の上限値及び下限値は、図13拡大図の点線円部分のように急峻にピークへ向かって増加するポイントと概ね一致する。所望の信号成分の時間周波数成分が現れるため、振幅値が急激に大きくなるためである。ところが、ヒストグラムの左右両端のx軸へ漸近する部分は、図13に拡大表示するように変動が大きいため、単純にヒストグラムの増加量だけでは当該ポイントを算出できない。よって、当該ポイントを検出する方法としては、ヒストグラムの平滑化微分を実施し、微分値の極値を求める方法が挙げられる。
また、ヒストグラムから平均値等の統計値を算出して当該所定値とする方法も挙げられるが、単にヒストグラムの全区間から平均値等の統計値を算出すると、ヒストグラムの左右両端のx軸へ漸近する部分とピーク周辺部分との値の乖離が大きいことから、所望の所定値より大きい値が算出されてしまう。すなわち、相対値閾値の範囲が狭く算出されてしまうということである。そこで、まず最大ピーク値に基づいて一度暫定的な所定値、例えば最大値に0.1を乗算した値など、を算出し、その値以上の区間を除外する。次に残った区間から平均値等の統計値を算出することで当該所定値とする方法が挙げられる。こうした段階を踏むことで、当該所定値は、図13のx軸漸近部分より一定して大きく、かつ、点線円部分のように急峻な増加ポイントを精度良く捉えることができる。
上記説明より、実施の形態2にかかるオーディオ信号処理方法では、2つのマイクロフォンから取得されたオーディオ信号の振幅比と位相差とそれぞれについてヒストグラムを生成し、当該ヒストグラムから相対値閾値を算出する。これにより、ヒストグラムが複雑化する指向性マイクロフォン、或いは、低コストなマイクロフォンにより取得したオーディオ信号に対する音源分離の能力を高めることができる。
なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。例えば、所望オーディオ信号の信号源と、音声取得手段と、の位置関係として複数の位置関係を設定し、第1の記憶部14に位置関係毎の複数の相対値閾値を記憶し、オーディオ信号処理装置1の利用状況に応じて利用する相対値閾値を切り替えることもできる。
1 オーディオ信号処理装置
10 信号入力部
11 周波数領域変換部
12 相対値算出部
13 相対値閾値算出部
14 第1の記憶部
15 第2の記憶部
16 マスク生成部
17 マスク乗算部
18 時間領域変換部

Claims (12)

  1. 異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換部と、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出部と、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合に含まれる前記相対値の最大値及び最小値を相対値閾値として算出する相対値閾値算出部と、
    前記相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成部と、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算部と、
    前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換部と、
    を有するオーディオ信号処理装置。
  2. 異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換部と、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出部と、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合により決定される強調範囲の外周に位置する複数の前記相対値を相対値閾値して算出する相対値閾値算出部と、
    前記相対値閾値に基づき設定される前記強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成部と、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算部と、
    前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換部と、
    を有するオーディオ信号処理装置。
  3. 異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換部と、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出部と、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、前記ヒストグラムは、時間周波数成分の出現頻度を示す度数に代えて、ヒストグラムの各階級に属する時間周波数成分の振幅値の和又は対応する時間周波数成分のエネルギーの和を用いることで、相対値閾値を算出する相対値閾値算出部と、
    前記相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成部と、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算部と、
    前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換部と、
    を有するオーディオ信号処理装置。
  4. 前記相対値算出部は、前記時間周波数成分の振幅値の和又は対応する時間周波数成分のエネルギーの和が所定値以上となる前記相対値の集合のうち、最大値に対応する相対値を含む集合に含まれる前記相対値の最大値及び最小値を相対値閾値とする請求項に記載のオーディオ信号処理装置。
  5. 前記マスク乗算部は、予め決められたマスク平滑化フィルタにより前記時間周波数マスクの値を操作し、操作後の前記時間周波数マスクと前記周波数領域情報とを乗算する請求項1〜請求項のいずれか1項に記載のオーディオ信号処理装置。
  6. 前記相対値算出部は、自周波数領域情報に含まれる時間周波数成分の振幅成分と他の周波数領域情報に含まれる時間周波数成分の振幅成分との相対比を示す振幅相対値と、自周波数領域情報に含まれる時間周波数成分の位相成分と他の周波数領域情報に含まれる時間周波数成分の位相成分との相対比を示す位相相対値と、の少なくとも一方を前記相対値として算出する請求項1〜請求項のいずれか1項に記載のオーディオ信号処理装置。
  7. 異なる位置に設けられた音声取得手段により取得された複数のオーディオ入力信号を取得し、前記複数のオーディオ入力信号に含まれる成分のうち所定の範囲の音声を強調したオーディオ出力信号を生成するオーディオ信号処理装置のオーディオ信号処理方法であって、
    前記複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換ステップと、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出ステップと、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合に含まれる前記相対値の最大値及び最小値を相対値閾値として算出する相対値閾値算出ステップと、
    前記相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成ステップと、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算ステップと、
    前記強調周波数領域情報を時間領域の情報として表される前記オーディオ出力信号に変換する時間領域変換ステップと、
    を有するオーディオ信号処理方法。
  8. 異なる位置に設けられた音声取得手段により取得された複数のオーディオ入力信号を取得し、前記複数のオーディオ入力信号に含まれる成分のうち所定の範囲の音声を強調したオーディオ出力信号を生成するオーディオ信号処理装置のオーディオ信号処理方法であって、
    前記複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換ステップと、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出ステップと、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合により決定される前記強調範囲の外周に位置する複数の前記相対値を相対値閾値して算出する相対値閾値算出ステップと、
    前記相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成ステップと、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算ステップと、
    前記強調周波数領域情報を時間領域の情報として表される前記オーディオ出力信号に変換する時間領域変換ステップと、
    を有するオーディオ信号処理方法。
  9. 異なる位置に設けられた音声取得手段により取得された複数のオーディオ入力信号を取得し、前記複数のオーディオ入力信号に含まれる成分のうち所定の範囲の音声を強調したオーディオ出力信号を生成するオーディオ信号処理装置のオーディオ信号処理方法であって、
    前記複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換ステップと、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出ステップと、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、前記ヒストグラムは、時間周波数成分の出現頻度を示す度数に代えて、ヒストグラムの各階級に属する時間周波数成分の振幅値の和又は対応する時間周波数成分のエネルギーの和を用いることで、相対値閾値を算出する相対値閾値算出ステップと、
    前記相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成ステップと、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算ステップと、
    前記強調周波数領域情報を時間領域の情報として表される前記オーディオ出力信号に変換する時間領域変換ステップと、
    を有するオーディオ信号処理方法。
  10. 相対値閾値を事前に記憶する記憶部と、プログラムを実行する演算部と、を有するオーディオ信号処理装置で実行されるオーディオ信号処理プログラムであって、
    異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換処理と、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出処理と、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合に含まれる前記相対値の最大値及び最小値を相対値閾値として算出する相対値閾値算出処理と、
    前記相対値閾値に基づき設定される強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成処理と、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算処理と、
    前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換処理と、
    を行うオーディオ信号処理プログラム。
  11. 相対値閾値を事前に記憶する記憶部と、プログラムを実行する演算部と、を有するオーディオ信号処理装置で実行されるオーディオ信号処理プログラムであって、
    異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換処理と、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出処理と、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合により決定される強調範囲の外周に位置する複数の前記相対値を相対値閾値して算出する相対値閾値算出処理と、
    前記相対値閾値に基づき設定される前記強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成処理と、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算処理と、
    前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換処理と、
    を行うオーディオ信号処理プログラム。
  12. 相対値閾値を事前に記憶する記憶部と、プログラムを実行する演算部と、を有するオーディオ信号処理装置で実行されるオーディオ信号処理プログラムであって、
    異なる位置で取得された複数のオーディオ入力信号を、それぞれ周波数領域情報に変換し、複数の周波数領域情報を生成する周波数領域変換処理と、
    前記周波数領域情報毎に、自周波数領域情報に含まれる時間周波数成分と他の周波数領域情報に含まれる時間周波数成分との相対値を算出する相対値算出処理と、
    所定の期間に取得された前記オーディオ入力信号から生成される前記相対値に基づいて、所定の時間長の前記相対値のヒストグラムを生成し、出現頻度を示す度数が予め設定された度数以上となる前記相対値の集合により決定される強調範囲の外周に位置する複数の前記相対値を相対値閾値して算出する相対値閾値算出処理と、
    前記相対値閾値に基づき設定される前記強調範囲と、前記相対値と、を比較して、前記強調範囲外にある前記相対値に対応する周波数領域情報の値を小さくする時間周波数マスクを生成するマスク生成処理と、
    前記時間周波数マスクを前記周波数領域情報に乗算して、強調周波数領域情報を生成するマスク乗算処理と、
    前記強調周波数領域情報を時間領域の情報として表されるオーディオ出力信号に変換する時間領域変換処理と、
    を行うオーディオ信号処理プログラム。
JP2014190137A 2014-02-27 2014-09-18 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム Active JP6260504B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2014190137A JP6260504B2 (ja) 2014-02-27 2014-09-18 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
US14/625,002 US9552828B2 (en) 2014-02-27 2015-02-18 Audio signal processing device

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2014036372 2014-02-27
JP2014036372 2014-02-27
JP2014190137A JP6260504B2 (ja) 2014-02-27 2014-09-18 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム

Publications (2)

Publication Number Publication Date
JP2015179243A JP2015179243A (ja) 2015-10-08
JP6260504B2 true JP6260504B2 (ja) 2018-01-17

Family

ID=53883546

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014190137A Active JP6260504B2 (ja) 2014-02-27 2014-09-18 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム

Country Status (2)

Country Link
US (1) US9552828B2 (ja)
JP (1) JP6260504B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014129233A1 (ja) * 2013-02-22 2014-08-28 三菱電機株式会社 音声強調装置
US9865278B2 (en) * 2015-03-10 2018-01-09 JVC Kenwood Corporation Audio signal processing device, audio signal processing method, and audio signal processing program
US10134379B2 (en) 2016-03-01 2018-11-20 Guardian Glass, LLC Acoustic wall assembly having double-wall configuration and passive noise-disruptive properties, and/or method of making and/or using the same
US10354638B2 (en) 2016-03-01 2019-07-16 Guardian Glass, LLC Acoustic wall assembly having active noise-disruptive properties, and/or method of making and/or using the same
US10726855B2 (en) 2017-03-15 2020-07-28 Guardian Glass, Llc. Speech privacy system and/or associated method
US10373626B2 (en) 2017-03-15 2019-08-06 Guardian Glass, LLC Speech privacy system and/or associated method
US10304473B2 (en) 2017-03-15 2019-05-28 Guardian Glass, LLC Speech privacy system and/or associated method
US20180268840A1 (en) * 2017-03-15 2018-09-20 Guardian Glass, LLC Speech privacy system and/or associated method
JP7191793B2 (ja) * 2019-08-30 2022-12-19 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
CN111785288B (zh) * 2020-06-30 2022-03-15 北京嘀嘀无限科技发展有限公司 语音增强方法、装置、设备及存储介质
CN112420073B (zh) * 2020-10-12 2024-04-16 北京百度网讯科技有限公司 语音信号处理方法、装置、电子设备和存储介质
CN113470684B (zh) * 2021-07-23 2024-01-12 平安科技(深圳)有限公司 音频降噪方法、装置、设备及存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7398207B2 (en) * 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
JP2006100869A (ja) * 2004-09-28 2006-04-13 Sony Corp 音声信号処理装置および音声信号処理方法
JP4873913B2 (ja) 2004-12-17 2012-02-08 学校法人早稲田大学 音源分離システムおよび音源分離方法、並びに音響信号取得装置
US8767975B2 (en) * 2007-06-21 2014-07-01 Bose Corporation Sound discrimination method and apparatus
FR2950461B1 (fr) * 2009-09-22 2011-10-21 Parrot Procede de filtrage optimise des bruits non stationnaires captes par un dispositif audio multi-microphone, notamment un dispositif telephonique "mains libres" pour vehicule automobile
JP5337072B2 (ja) * 2010-02-12 2013-11-06 日本電信電話株式会社 モデル推定装置、音源分離装置、それらの方法及びプログラム

Also Published As

Publication number Publication date
JP2015179243A (ja) 2015-10-08
US9552828B2 (en) 2017-01-24
US20150245137A1 (en) 2015-08-27

Similar Documents

Publication Publication Date Title
JP6260504B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
JP6174856B2 (ja) 雑音抑制装置、その制御方法、及びプログラム
KR20120080409A (ko) 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
JP6337519B2 (ja) 音声処理装置、雑音抑圧方法、およびプログラム
JP6225245B2 (ja) 信号処理装置、方法及びプログラム
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
JP6544234B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
US9530429B2 (en) Reverberation suppression apparatus used for auditory device
JP2007047427A (ja) 音声処理装置
KR101903874B1 (ko) 듀얼 마이크 기반의 잡음 제거 방법 및 장치
US9865278B2 (en) Audio signal processing device, audio signal processing method, and audio signal processing program
JP2011191337A (ja) 雑音抑制装置、方法、及びプログラム
US10706870B2 (en) Sound processing method, apparatus for sound processing, and non-transitory computer-readable storage medium
JP6520276B2 (ja) 雑音抑圧装置、雑音抑圧方法、及び、プログラム
JP6447357B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
KR101592425B1 (ko) 음성 전처리 장치, 음성 인식 장치 및 그 방법
JP5316127B2 (ja) 音処理装置およびプログラム
JP7218811B2 (ja) 雑音推定装置、雑音推定方法及びプログラム
JP6657965B2 (ja) オーディオ信号処理装置、オーディオ信号処理方法、及びオーディオ信号処理プログラム
JP6059130B2 (ja) 雑音抑圧方法とその装置とプログラム
JP5621637B2 (ja) 音響処理装置
KR20130127597A (ko) 잡음 제거 장치 및 방법
JP5495858B2 (ja) 音楽音響信号のピッチ推定装置及び方法
JP2018207314A5 (ja)
JP6064774B2 (ja) 雑音除去装置、雑音除去方法、及び雑音除去プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160929

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170825

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171024

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171127

R150 Certificate of patent or registration of utility model

Ref document number: 6260504

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150